Site icon Kiber.ba

Upozorenje: Nova napadačka “Echo Chamber” metoda oborila najpoznatije AI modele, upozorava se na naoružavanje indirektnih referenci

Otkrivena nova “Echo Chamber” tehnika obilaženja sigurnosnih mehanizama naprednih jezičkih modela. Ova metoda uspješno savladava sigurnosne sisteme današnjih najsofisticiranijih velikih jezičkih modela (LLM). Nova tehnika, nazvana “Echo Chamber Attack”, koristi trovanje konteksta i višestruke logičke korake kako bi navela modele da generišu štetan sadržaj, a da pritom nikada ne dobiju eksplicitno opasan upit.

Ovo značajno unapređenje u tehnikama eksploatacije AI razvio je Ahmad Alobaid iz kompanije za sajber bezbjednost Neural Trust, smještene u Barseloni. Za razliku od tradicionalnih metoda obilaženja sigurnosti koje se oslanjaju na neprijateljsko oblikovanje izraza ili prikrivanje znakova, “Echo Chamber” koristi indirektne reference, semantičko usmjeravanje i višestepeno zaključivanje kako bi postepeno manipulirala unutrašnjim stanjima AI modela.

U kontrolisanim procjenama, “Echo Chamber” napad je postigao uspješnost preko 90% u polovini testiranih kategorija na nekoliko vodećih modela, uključujući GPT-4.1-nano, GPT-4o-mini, GPT-4o, Gemini-2.0-flash-lite i Gemini-2.5-flash 12. U ostalim kategorijama, stopa uspješnosti je ostala iznad 40%, što ukazuje na izvanrednu robusnost napada u raznolikim domenima sadržaja.

Napad se pokazao posebno efikasnim protiv kategorija kao što su seksizam, nasilje, govor mržnje i pornografija, gdje su uspješnosti prešle 90%. Čak i u delikatnijim područjima kao što su dezinformacije i samopovređivanje, tehnika je postigla približno 80% uspješnosti. Većina uspješnih napada odvijala se u samo 1-3 interakcije, što ih čini visoko efikasnim u poređenju s drugim metodama obilaženja sigurnosti koje obično zahtijevaju 10 ili više interakcija.

Kako napad funkcioniše

“Echo Chamber” napad funkcioniše kroz proces od šest koraka koji okreće inferencijalno rasuđivanje modela protiv njega samog. Umjesto direktnog izlaganja štetnim upitima, napadači unose naizgled bezopasne unose koji suptilno impliciraju nesigurne namjere. Ovi tragovi se nadograđuju kroz više razgovornih ciklusa, postepeno oblikujući unutrašnji kontekst modela dok ne počne da proizvodi izlaz koji krši pravila. Naziv napada odražava njegov ključni mehanizam: rani postavljeni upiti utiču na odgovore modela, koji se zatim koriste u kasnijim ciklusima za jačanje prvobitnog cilja. Ovo stvara povratnu petlju gdje model pojačava štetne podtekstove ugrađene u razgovor, postepeno podrivajući sopstvene sigurnosne otpornosti. Tehnika radi u potpunom “black-box” okruženju, ne zahtijevajući pristup unutrašnjim težinama ili arhitekturi modela. To ga čini široko primjenjivim na komercijalno implementirane LLM-ove i posebno zabrinjavajućim za korporativne implementacije.

Ovo otkriće dolazi u ključnom trenutku za sigurnost AI. Prema nedavnim izvještajima industrije, 73% preduzeća je doživjelo najmanje jedan sigurnosni incident povezan sa AI u proteklih 12 mjeseci, s prosječnim troškom od 4.8 miliona dolara po proboju. “Echo Chamber” napad ističe ono što stručnjaci nazivaju “AI sigurnosnim paradoksom” – iste karakteristike koje AI čine vrijednom također stvaraju jedinstvene ranjivosti.

“Ovaj napad otkriva ključnu slijepu tačku u naporima usklađivanja LLM-a,” napomenuli su iz Neural Trusta. “Pokazuje da su sigurnosni sistemi LLM-a podložni indirektnoj manipulaciji putem kontekstualnog rasuđivanja i zaključivanja, čak i kada pojedinačni upiti izgledaju bezazleno.” Sigurnosni stručnjaci upozoravaju da 93% lidera u oblasti sigurnosti očekuje da će njihove organizacije biti svakodnevno izložene AI-pokretanim napadima do 2025. godine. Ovo istraživanje naglašava rastuću sofisticiranost AI napada, pri čemu stručnjaci za sajberbezbjednost izvještavaju da je broj pominjanja “obilaženja sigurnosti” na underground forumima porastao za 50% u 2024. godini.

“Echo Chamber” tehnika predstavlja novu klasu napada na semantičkom nivou koji eksploatišu način na koji LLM-ovi održavaju kontekst i donose zaključke kroz razgovore. Kako se usvajanje AI ubrzava, pri čemu 92% Fortune 500 kompanija integriše generativnu AI u svoje radne procese, potreba za robusnim odbrambenim mehanizmima postaje sve hitnija. Napad demonstrira da tradicionalno filtriranje na nivou tokena nije dovoljno kada modeli mogu zaključiti štetne ciljeve bez susretanja s eksplicitnim toksičnim jezikom. Istraživanje Neural Trusta pruža vrijedne uvide za razvoj sofisticiranijih odbrambenih mehanizama, uključujući sigurnosno revidiranje svjesno konteksta i bodovanje akumulacije toksičnosti kroz razgovore.

Exit mobile version