More

    Napad TokenBreak zaobilazi AI moderaciju pomoću promjene jednog slova

    Istraživači cyber sigurnosti otkrili su novu tehniku ​​napada pod nazivom TokenBreak koja se može koristiti za zaobilaženje sigurnosnih ograničenja i ograničenja moderiranja sadržaja velikih jezičkih modela (LLM) promjenom samo jednog znaka.

    „Napad TokenBreak cilja strategiju tokenizacije modela klasifikacije teksta kako bi izazvao lažno negativne rezultate, ostavljajući krajnje mete ranjivim na napade koje je implementirani model zaštite trebao spriječiti“, rekli su Kieran Evans, Kasimir Schulz i Kenneth Yeung u izvještaju podijeljenom za The Hacker News.

    Tokenizacija je fundamentalni korak koji LLM-ovi koriste za razbijanje sirovog teksta na njegove atomske jedinice – tj. tokene – koji su uobičajeni nizovi znakova koji se nalaze u skupu teksta. U tu svrhu, uneseni tekst se pretvara u njihovu numeričku reprezentaciju i unosi u model.

    LLM-ovi funkcionišu tako što razumiju statističke odnose između ovih tokena i proizvode sljedeći token u nizu tokena. Izlazni tokeni se detokeniziraju u tekst čitljiv ljudima mapiranjem na odgovarajuće riječi korištenjem vokabulara tokenizera.

    Tehnika napada koju je osmislio HiddenLayer cilja strategiju tokenizacije kako bi zaobišla sposobnost modela klasifikacije teksta da otkrije maliciozni unos i označi probleme vezane za sigurnost, neželjenu poštu ili moderiranje sadržaja u tekstualnom unosu.

    Konkretno, firma za sigurnost koja se bavi vještačkom inteligencijom (AI) otkrila je da mijenjanje unesenih riječi dodavanjem slova na određene načine uzrokuje prekid modela klasifikacije teksta.

    Primjeri uključuju promjenu “instructions” u “finstructions”, “announcement” u “aannouncement” ili “idiot” u “hidiot”. Ove suptilne promjene uzrokuju da različiti tokenizatori dijele tekst na različite načine, a istovremeno čuvaju njegovo značenje za namjeravanu ciljnu grupu.

    Ono što napad čini značajnim jeste to što manipulisani tekst ostaje u potpunosti razumljiv i LLM-u i ljudskom čitaocu, uzrokujući da model izazove isti odgovor kao što bi bio slučaj da je nemodifikovani tekst proslijeđen kao ulaz.

    Uvođenjem manipulacija na način koji ne utiče na sposobnost modela da ih razumije, TokenBreak povećava svoj potencijal za napade brzim ubrizgavanjem.

    „Ova tehnika napada manipuliše ulaznim tekstom na takav način da određeni modeli daju pogrešnu klasifikaciju“, rekli su istraživači u pratećem radu. „Važno je da krajnja meta (LLM ili primalac e-pošte) i dalje može razumjeti i odgovoriti na manipulisani tekst i stoga biti ranjiva na upravo onaj napad koji je model zaštite i uspostavljen da spriječi.“

    Utvrđeno je da je napad bio uspješan protiv modela klasifikacije teksta koji koriste BPE (Byte Pair Encoding) ili WordPiece strategije tokenizacije, ali ne i protiv onih koji koriste Unigram.

    „Tehnika napada TokenBreak pokazuje da se ovi modeli zaštite mogu zaobići manipulisanjem ulaznog teksta, ostavljajući produkcijske sisteme ranjivim“, rekli su istraživači. „Poznavanje porodice osnovnog modela zaštite i njegove strategije tokenizacije ključno je za razumijevanje vaše podložnosti ovom napadu.“

    “Budući da strategija tokenizacije obično korelira s porodicom modela, postoji jednostavno ublažavanje: Odaberite modele koji koriste Unigram tokenizatore.”

    Za odbranu od TokenBreaka, istraživači predlažu korištenje Unigram tokenizatora kada je to moguće, treniranje modela s primjerima zaobilaženja trikova i provjeru usklađenosti tokenizacije i logike modela. Također pomaže u evidentiranju pogrešnih klasifikacija i traženju obrazaca koji ukazuju na manipulaciju.

    Studija dolazi manje od mjesec dana nakon što je HiddenLayer otkrio kako je moguće iskoristiti alate Model Context Protocol ( MCP ) za izdvajanje osjetljivih podataka: “Umetanjem specifičnih naziva parametara unutar funkcije alata, osjetljivi podaci, uključujući i cijeli sistemski prompt, mogu se izdvojiti i izvući”, saopštila je kompanija .

    Ovo otkriće dolazi i nakon što je tim Straiker AI Research (STAR) otkrio da se bekronimi mogu koristiti za jailbreak AI chatbotova i prevaru da generiraju neželjene reakcije, uključujući psovanje, promoviranje nasilja i stvaranje seksualno eksplicitnog sadržaja.

    Tehnika, nazvana Napad na godišnjak (Yearbook Attack), pokazala se efikasnom protiv različitih modela iz Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI i OpenAI.

    „Oni se stapaju s bukom svakodnevnih uputa – ovdje neobična zagonetka, ondje motivacijski akronim – i zbog toga često zaobilaze tupe heuristike koje modeli koriste za uočavanje opasnih namjera“, rekao je istraživač sigurnosti Aarushi Banerjee .

    “Fraza poput ‘Prijateljstvo, jedinstvo, briga, ljubaznost’ ne podiže nikakve zastavice. Ali dok model završi obrazac, već je poslužio korisni teret, što je ključ uspješnog izvršavanja ovog trika.”

    “Ove metode ne uspijevaju nadjačavanjem filtera modela, već provlačenjem ispod njih. One iskorištavaju pristranost dovršavanja i nastavak obrasca, kao i način na koji modeli daju prednost kontekstualnoj koherentnosti u odnosu na analizu namjere.”

    Izvor:The Hacker News

    Recent Articles

    spot_img

    Related Stories