GPT-5 ima ranjivost: Njegov ruter vas može poslati na starije, manje sigurne modele

GPT-5 ima ranjivost: možda nije GPT-5 taj koji odgovara na vaša pitanja.

Novi GPT-5 je lako kompromitovati. Istraživači su otkrili uzrok – grešku nalik na SSRF u njegovom internom mehanizmu rutiranja.

Kada postavite pitanje GPT-5 modelu, odgovor ne mora uvijek dolaziti od GPT-5. Model uključuje početni ruter koji analizira prompt i odlučuje koji od GPT modela će ga obraditi. To može biti očekivani GPT-5 Pro, ali jednako lako može biti GPT-3.5, GPT-4o, GPT-5-mini ili GPT-5-nano.

Razlog ovakve promjenjivosti vjerovatno leži u balansu između efikasnosti (korišćenje bržih, lakših i specijalizovanih modela za jednostavnije upite) i troškova (GPT-5 ima snažne sposobnosti rezonovanja koje ga čine veoma skupim za pokretanje). Istraživači iz Adversa AI procijenili su da ovo preusmjeravanje može OpenAI-u godišnje uštedjeti i do 1,86 milijardi dolara. Problem je u tome što je proces potpuno netransparentan.

Još gore, istraživači iz Adversa-e otkrili su i objasnili da se ovim internim ruterom može manipulisati. Korisnik može ubaciti specifične „okidačke” fraze u prompt i natjerati GPT-5 da upit preusmjeri na model po izboru korisnika.

Adversa je ovu ranjivost nazvala, ili preciznije opisala, PROMISQROUTE – što označava Prompt-based Router Open-Mode Manipulation Induced via SSRF-like Queries, Reconfiguring Operations Using Trust Evasion. „To je napad zaobilaženja rutera,” objašnjava Aleks Poljakov, suosnivač i izvršni direktor Adversa AI. „Mi manipulišemo procesom odlučivanja, koji je prilično jednostavan, da se odredi koji model treba da obradi zahtjev.”

Koncept rutiranja prema različitim modelima nije jedinstven za OpenAI, ali drugi provajderi obično korisnicima omogućavaju da sami izaberu model. Ovakav automatizovani pristup sve češće se pojavljuje u agentičkim AI arhitekturama, gdje jedan model odlučuje kako će zahtjev biti proslijeđen drugome.

Ranjivost GPT-5 otkrivena je dok je Adversa testirala mehanizam odbijanja modela. Neki prompti su davali neobjašnjivo nekonzistentne odgovore – što je istraživače navelo da posumnjaju da odgovaraju različiti modeli. Otkrili su da su neki stari jailbreak napadi ponovo počeli da rade i da je dovoljno u promptu pomenuti stariji model kako bi se napad omogućio, iako bi ga GPT-5 sam odbio.

Ovo samo po sebi može imati štetne posljedice, čak i bez ljudskog uplitanja – na primjer, halucinacije. „Različiti modeli imaju različite sklonosti, snage i slabosti. Ako se zahtjev preusmjeri na slabiji ili manje usklađen model, vjerovatnoća halucinacija ili nesigurnih izlaza značajno raste,” objašnjava Poljakov.

Međutim, pravi rizik nastaje kada maliciozni haker može natjerati ruter da obradi zahtjev preko slabijeg modela i tako probije zaštite GPT-5 Pro. „Zamislite da neko pokuša jailbreak prompt na najnovijem GPT-5, ali on ne uspije zbog jačih zaštita i rezonovanja. Ako napadač doda jednostavno uputstvo koje prevari ruter da preusmjeri upit ka starijem, ranjivijem modelu, jailbreak koji ranije nije uspio sada može proći.”

GPT-5 Pro sam po sebi jeste jači od svojih prethodnika, ali ova ranjivost u mehanizmu rutiranja čini ga slabim koliko i njegov najslabiji prethodnik.

Rješenje bi bilo jednostavno – eliminisati automatsko rutiranje ka slabijim modelima. Međutim, to nije privlačna poslovna opcija. Odgovori GPT-5 bi bili sporiji, što bi smanjilo privlačnost korisnicima naviklim na brzinu lakših modela, dok bi troškovi pokretanja GPT-5 na svakom upitu značajno smanjili profit OpenAI-a.

Ali barem, sugeriše Poljakov, „GPT-5 bi trebalo učiniti bezbjednijim – ili uvođenjem zaštitne provjere prije rutera koja bi učinila sam ruter sigurnijim; ili tako da svi modeli budu podjednako bezbjedni, a ne samo onaj najkompleksniji – ili idealno, primjenom oba rješenja.”

Izvor: SecurityWeek

GPT-5 ima ranjivost: Njegov ruter vas može poslati na starije, manje sigurne modele

Recent Articles

Eksploatacija kritične ranjivosti u Adobe Commerce ugrožava mnoge e-trgovine

BIND ažuriranja ispravljaju ranjivosti visokog rizika koje omogućavaju trovanje DNS keša

Eksploatisana zero-day ranjivost u Lanscope Endpoint Manager-u

Pwn2Own dan 2: Hakeri iskoristili 56 zero-day ranjivosti i zaradili 790.000 dolara

Meta uvodi nove alate protiv prevara na WhatsAppu i Messengeru

Related Stories