Mašinsko “zaboravljanje” dobija praktično unapređenje privatnosti

Modeli mašinskog učenja danas su svuda – od četbotova do alata za procjenu kreditne sposobnosti – i u sebi nose tragove podataka na kojima su trenirani. Kada neko zatraži brisanje svojih ličnih podataka u skladu sa zakonima poput GDPR-a, ti podaci moraju biti izbrisani i iz modela mašinskog učenja koji su ih “naučili”.

Ponovno treniranje modela ispočetka svaki put kad stigne zahtjev za brisanjem jednostavno nije izvodljivo u većini proizvodnih okruženja. Tu na scenu stupa mašinsko zaboravljanje, što označava strategije uklanjanja uticaja konkretnih podataka iz modela. Međutim, do sada su ti pristupi bili ili spori i skupi, ili brzi ali bez formalnih garancija.

Novi okvir nazvan Efikasno zaboravljanje s garancijama privatnosti (EUPG) pokušava riješiti oba problema odjednom. Razvijen od strane istraživača sa Univerziteta Rovira i Virgili u Kataloniji, EUPG nudi praktičan način da se “zaborave” podaci u modelima mašinskog učenja, uz dokazive zaštite privatnosti i niže troškove obrade.

Umjesto da se čeka zahtjev za brisanjem pa da se model naknadno prilagođava, EUPG model priprema za zaboravljanje od samog početka. Prvo se trenira na verziji skupa podataka koja je transformisana pomoću formalnog modela privatnosti – bilo k-anonimnosti ili diferencijalne privatnosti. Takav “privatno zaštićeni” model ne pamti pojedinačne zapise, ali i dalje hvata korisne obrasce. Nakon toga, model se dodatno prilagođava (fino podešava) na punom originalnom skupu podataka radi povećanja korisnosti.

Ako korisnik naknadno zatraži brisanje svojih podataka, sistem se vraća na prvobitni privatno zaštićeni model i ponovno ga fino podešava – ovaj put na verziji skupa podataka iz koje su korisnikovi podaci uklonjeni. Budući da su podaci već unaprijed bili anonimizovani i model nije previše zavisio od jednog zapisa, uticaj obrisanih podataka može se efikasno ukloniti.

Pristup se pokazao uspješnim. Autori su testirali EUPG na kombinaciji tabelarnih i slikovnih podataka, upoređujući ga sa treniranjem ispočetka i SISA metodom (koja pruža formalne garancije, ali zahtijeva mnogo resursa). Na većini skupova podataka, EUPG je bio jednak ili bolji u pogledu korisnosti, a dodatno je smanjivao ranjivost na tzv. membership inference napade – metode za provjeru da li model i dalje “pamti” obrisani podatak.

Ipak, EUPG nije pogodan za sve vrste ML (mašinsko učenje) sistema. Pretpostavlja jednokratnu fazu treniranja uz mogućnost dodatnog podešavanja, a ne kontinuirano učenje gdje se model stalno ažurira sa novim podacima. Na pitanje može li se EUPG proširiti i na takve slučajeve, koautor Josep Domingo-Ferrer je objasnio:
„Problem je kako primijeniti model privatnosti na stalno rastuće podatke za treniranje. To je zapravo problem kontinuirane anonimizacije podataka, koji je izuzetno težak. U literaturi se mogu naći heuristike, uglavnom usmjerene na k-anonimnost, koje bi se mogle primijeniti na EUPG.“

Otvoreno pitanje ostaje i kako zaboravljanje utiče na pravednost i pristrasnost, naročito ako zahtjevi za brisanjem dolaze disproporcionalno iz određenih grupa. Ako se podaci iz neke manje zastupljene populacije brišu češće, to bi moglo nenamjerno narušiti ponašanje modela.

Domingo-Ferrer kaže da će uticaj najviše zavisiti od izabranog modela privatnosti:
„Potencijalni uticaj EUPG-a na pristrasnost je zapravo uticaj izabranog modela privatnosti na pristrasnost trening podataka. Odgovor leži u literaturi o uticaju diferencijalne privatnosti i k-anonimnosti na pristrasnost. U principu, sprovođenje modela privatnosti i borba protiv pristrasnosti su ‘ortogonalni’ problemi, bez očigledne veze. Međutim, postoje radovi koji pokazuju da se i k-anonimnost i diferencijalna privatnost mogu pametno koristiti za ublažavanje pristrasnosti.“

Istraživači priznaju da će proširivanje EUPG-a na velike jezičke modele i druge temeljne modele zahtijevati dodatni rad, posebno zbog veličine podataka i složenosti arhitektura. Predlažu da bi za takve sisteme bilo praktičnije primijeniti modele privatnosti direktno na parametre modela tokom treniranja, umjesto na podatke unaprijed.

Ipak, osnovna ideja – pripremiti model da “zaboravi” prije nego što to zatreba – može pomoći da mašinsko zaboravljanje postane brže, jeftinije i usklađenije sa zakonima o privatnosti. To je korak ka tome da pravo na zaborav ne bude samo teoretsko, već i stvarno sprovodivo.

Izvor:Help Net Security

Recent Articles

spot_img

Related Stories