Site icon Kiber.ba

Nova tehnika probijanja AI zaštite koristi izmišljeni svijet za manipulaciju modelima

Nova tehnika probijanja AI zaštite koristi izmišljeni svijet za manipulaciju modelima-Kiber.ba

Nova tehnika probijanja AI zaštite koristi izmišljeni svijet za manipulaciju modelima-Kiber.ba

Cato Networks otkrio novu tehniku probijanja bezbjednosnih ograničenja velikih jezičkih modela (LLM) koja se oslanja na kreiranje fiktivnog svijeta.

Firma za sajber bezbjednost Cato Networks otkrila je novu tehniku probijanja zaštite velikih jezičkih modela (LLM), koja koristi narativno inženjerstvo kako bi ubijedila generativni AI model da odstupi od svojih standardnih bezbjednosnih ograničenja.

Tehnika, nazvana Immersive World, funkcioniše na jednostavan način: unutar detaljno kreiranog virtuelnog svijeta, u kojem je hakovanje normalizovana praksa, LLM model se može ubijediti da pomogne korisniku u kreiranju malvera koji krade lozinke iz pretraživača.

Prema najnovijem izvještaju o prijetnjama koji je objavio Cato Networks, ova tehnika je uspješno iskorišćena za probijanje zaštite AI modela DeepSeek, Microsoft Copilot i OpenAI ChatGPT, što je rezultiralo kreiranjem malicioznog softvera sposobanog da krade podatke iz pretraživača Chrome 133.

Eksperiment je sproveden u kontrolisanom testnom okruženju, u kojem je kreiran specijalizovani virtuelni svijet nazvan Velora. Unutar tog svijeta, razvoj malvera se tretira kao akademska disciplina, a napredni programerski i bezbjednosni koncepti smatraju se osnovnim vještinama.

U okviru Velore definisane su tri ključne uloge: sistem administrator (koji je predstavljen kao protivnik), elitni programer malvera (koji je zapravo LLM model) i istraživač sajber bezbjednosti koji pruža tehničke smjernice.

Prema Cato-u, proboj bezbjednosnih ograničenja je izveo istraživač bez prethodnog iskustva u kreiranju malvera, što pokazuje da AI može omogućiti početnicima da postanu vješti sajber kriminalci. Važno je napomenuti da LLM modelu nisu direktno davane informacije o tome kako da izvuče ili dešifruje lozinke.

Nakon što su postavljena jasna pravila i definisan kontekst u skladu sa ciljevima operacije, istraživač je u novoj LLM sesiji uspostavio motivaciju likova, usmjerio narativ prema željenom ishodu i, kroz kontinuisane povratne informacije i prilagođavanje scenarija, uspješno ubijedio model da razvije infostealer malver.

“Kao i u svakom procesu razvoja softvera, kreiranje malvera pomoću LLM zahtijeva saradnju između ljudi i mašina. Nudili smo sugestije, povratne informacije i smjernice. Iako naš istraživač iz Cato CTRL tima nije stručnjak za malvere, uspio je generisati potpuno funkcionalan kod”, navodi se u izvještaju Cato Networks-a.

Nakon kreiranja malvera, Cato Networks je kontaktirao kompanije DeepSeek, Microsoft, OpenAI i Google. Dok DeepSeek nije odgovorio, ostale tri kompanije su potvrdile prijem izvještaja. Google je, međutim, odbio da pregleda zlonamjerni kod, navodi Cato.

“Sajber kriminal više nije ograničen na vješte napadače. Uz osnovne alate, bilo ko može pokrenuti napad. Za CIO-e, CISO-e i IT lidere to znači više prijetnji, veće rizike i potrebu za jačim strategijama zaštite AI sistema”, zaključuju istraživači iz Cato Networks-a.

Izvor: SecurityWeek

Exit mobile version