Hakeri mogu zaobići Microsoft-ove, Nvidia i Meta AI filtere jednostavnim emotikonom

Značajna sigurnosna ranjivost otkrivena je u zaštitnim mjerama vještačke inteligencije koje su implementirali tehnološki giganti Microsoft, Nvidia i Meta.

Prema novom istraživanju, AI sigurnosni sistemi ovih kompanija mogu se potpuno zaobići korišćenjem varljivo jednostavne tehnike koja uključuje emoji znakove, omogućavajući hakerima da ubacuju štetne upute i izvršavaju jailbreake sa 100% uspjehom u nekim slučajevima.

Zaštitne rampe za modele velikih jezika (LLM) su specijalizovani sistemi dizajnirani za zaštitu AI modela od promptne injekcije i napada jailbreaka.

Ove sigurnosne mjere provjeravaju korisničke unose i izlaze, filtrirajući ili blokirajući potencijalno štetan sadržaj prije nego što dođe do osnovnog modela vještačke inteligencije.

Kako organizacije sve više primjenjuju AI sisteme u različitim sektorima, ove zaštitne ograde postale su ključna infrastruktura za sprječavanje zloupotrebe.

Istraživači sa Univerziteta Mindgard i Lancaster identifikovali su ovu alarmantnu ranjivost sistematskim testiranjem šest istaknutih LLM sistema zaštite.

Njihovi nalazi, objavljeni u sveobuhvatnom akademskom radu, pokazuju da tehnike ubrizgavanja znakova – posebno krijumčarenje emotikona – mogu potpuno zaobići detekciju, a istovremeno održati funkcionalnost osnovnog prompta.

Uticaj ovog otkrića je dalekosežan i utiče na glavne komercijalne sigurnosne sisteme vještačke inteligencije, uključujući Microsoftov Azure Prompt Shield, Meta Prompt Guard i Nvidia NeMo Guard Jailbreak Detect.

Istraživači su postigli stopu uspješnosti napada od 71,98% protiv Microsofta, 70,44% protiv Mete i 72,54% protiv Nvidije koristeći različite tehnike izbjegavanja.

Najviše zabrinjava to što je tehnika krijumčarenja emojija postigla savršenih 100% uspjeha na više sistema.

Tehnika krijumčarenja emojija

Najefikasnija otkrivena metoda zaobilaženja uključuje ugrađivanje malicioznog teksta unutar selektora varijacija emotikona – tehniku koju istraživači nazivaju “krijumčarenje emotikona”.

Ova metoda iskorištava fundamentalnu slabost u načinu na koji AI guardrails obrađuje Unicode znakove u poređenju s načinom na koji ih osnovni LLM-ovi interpretiraju.

Tehnika funkcioniše umetanjem teksta između posebnih Unicode znakova koji se koriste za modifikovanje emotikona.

Kada ih obrađuju zaštitni sistemi, ovi znakovi i tekst između njih postaju u suštini nevidljivi algoritmima za detekciju, dok sam LLM i dalje može analizirati i izvršavati skrivene instrukcije.

Na primjer, kada se maliciozni prompt ugradi korištenjem ove metode, on se čini bezopasnim za guardrail filter, ali ostaje potpuno funkcionalan za ciljni LLM.

Istraživači napominju: „LLM Guardrails se može trenirati na potpuno drugačijim skupovima podataka od osnovnog LLM-a, što rezultira njihovom nemogućnošću da otkriju određene tehnike ubrizgavanja znakova koje sam LLM može razumjeti.“

LLM Dizajn zaštitnih ograda (Izvor – Arxiv)

Izvor: CyberSecurityNews

Hakeri mogu zaobići Microsoft-ove, Nvidia i Meta AI filtere jednostavnim emotikonom

Tehnika krijumčarenja emojija

Recent Articles

Podzemni hakerski forumi: Novi “123 | Stealer” dostupan za 120 dolara mjesečno, budite na oprezu

NightEagle APT: Eksploatacija propusta u Microsoft Exchange za ciljanje kineske vojske i tehnoloških sektora, budite oprezni.

Next.js: Ugrožena pouzdanost keš memorije omogućava napadačima pokretanje DoS stanja.

Alert: Nezaštićeni JDWP interfejsi vode ka kripto rudarenju, Hpingbot cilja SSH za DDoS

CERT-EU: Hakeri iskorištavaju Java Debug Wire Protocol servere za distribuciju cryptomining opterećenja, budite na oprezu.

Related Stories