More

    Hakeri mogu zaobići Microsoft-ove, Nvidia i Meta AI filtere jednostavnim emotikonom

    Značajna sigurnosna ranjivost otkrivena je u zaštitnim mjerama vještačke inteligencije koje su implementirali tehnološki giganti Microsoft, Nvidia i Meta.

    Prema novom istraživanju, AI sigurnosni sistemi ovih kompanija mogu se potpuno zaobići korišćenjem varljivo jednostavne tehnike koja uključuje emoji znakove, omogućavajući hakerima da ubacuju štetne upute i izvršavaju jailbreake sa 100% uspjehom u nekim slučajevima.

    Zaštitne rampe za modele velikih jezika (LLM) su specijalizovani sistemi dizajnirani za zaštitu AI modela od promptne injekcije i napada jailbreaka.

    Ove sigurnosne mjere provjeravaju korisničke unose i izlaze, filtrirajući ili blokirajući potencijalno štetan sadržaj prije nego što dođe do osnovnog modela vještačke inteligencije.

    Kako organizacije sve više primjenjuju AI sisteme u različitim sektorima, ove zaštitne ograde postale su ključna infrastruktura za sprječavanje zloupotrebe.

    Istraživači sa Univerziteta Mindgard i Lancaster identifikovali su ovu alarmantnu ranjivost sistematskim testiranjem šest istaknutih LLM sistema zaštite.

    Njihovi nalazi, objavljeni u sveobuhvatnom akademskom radu, pokazuju da tehnike ubrizgavanja znakova – posebno krijumčarenje emotikona – mogu potpuno zaobići detekciju, a istovremeno održati funkcionalnost osnovnog prompta.

    Uticaj ovog otkrića je dalekosežan i utiče na glavne komercijalne sigurnosne sisteme vještačke inteligencije, uključujući Microsoftov Azure Prompt Shield, Meta Prompt Guard i Nvidia NeMo Guard Jailbreak Detect.

    Istraživači su postigli stopu uspješnosti napada od 71,98% protiv Microsofta, 70,44% protiv Mete i 72,54% protiv Nvidije koristeći različite tehnike izbjegavanja.

    Najviše zabrinjava to što je tehnika krijumčarenja emojija postigla savršenih 100% uspjeha na više sistema.

    Tehnika krijumčarenja emojija

    Najefikasnija otkrivena metoda zaobilaženja uključuje ugrađivanje malicioznog teksta unutar selektora varijacija emotikona – tehniku ​​koju istraživači nazivaju “krijumčarenje emotikona”.

    Ova metoda iskorištava fundamentalnu slabost u načinu na koji AI guardrails obrađuje Unicode znakove u poređenju s načinom na koji ih osnovni LLM-ovi interpretiraju.

    Tehnika funkcioniše umetanjem teksta između posebnih Unicode znakova koji se koriste za modifikovanje emotikona.

    Kada ih obrađuju zaštitni sistemi, ovi znakovi i tekst između njih postaju u suštini nevidljivi algoritmima za detekciju, dok sam LLM i dalje može analizirati i izvršavati skrivene instrukcije.

    Na primjer, kada se maliciozni prompt ugradi korištenjem ove metode, on se čini bezopasnim za guardrail filter, ali ostaje potpuno funkcionalan za ciljni LLM.

    Istraživači napominju: „LLM Guardrails se može trenirati na potpuno drugačijim skupovima podataka od osnovnog LLM-a, što rezultira njihovom nemogućnošću da otkriju određene tehnike ubrizgavanja znakova koje sam LLM može razumjeti.“

    LLM Dizajn zaštitnih ograda (Izvor – Arxiv)

    Izvor: CyberSecurityNews

    Recent Articles

    spot_img

    Related Stories