OpenAI ha tempo fino al 30 aprile per conformarsi alle leggi dell'UE. 'Quasi impossibile', dicono gli esperti

Le autorità italiane insistono sul fatto che OpenAI abbia tempo fino al 30 aprile per conformarsi alle leggi locali ed europee sulla protezione dei dati e della privacy. Un compito che, a detta degli esperti di AI, è praticamente impossibile.

A fine marzo, il Garante per la protezione dei dati personali – un'autorità amministrativa indipendente italiana che si occupa di garantire il rispetto della privacy – ha emesso un divieto su tutti i prodotti GPT di OpenAI. L'Italia è così divenuto il primo Paese occidentale a rifiutare del tutto questi servizi.

In particolare, il Garante scrive:

"Stop a ChatGPT finché non rispetterà la disciplina privacy. [...] Nel provvedimento, il Garante privacy rileva la mancanza di una informativa agli utenti e a tutti gli interessati i cui dati vengono raccolti da OpenAI, ma soprattutto l'assenza di una base giuridica che giustifichi la raccolta e la conservazione massiccia di dati personali, allo scopo di “addestrare” gli algoritmi sottesi al funzionamento della piattaforma. [...]

Da ultimo, nonostante – secondo i termini pubblicati da OpenAI – il servizio sia rivolto ai maggiori di 13 anni, l’Autorità evidenzia come l’assenza di qualsivoglia filtro per la verifica dell’età degli utenti esponga i minori a risposte assolutamente inidonee rispetto al loro grado di sviluppo e autoconsapevolezza."

L'azione è stata intrapresa a seguito di una fuga di dati, che ha permesso ad alcuni clienti di ChatGPT e GPT API di vedere i dati generati da altri utenti.

"Lunedì abbiamo mandato ChatGPT offline per correggere un bug in una libreria open-source, che permetteva ad alcuni utenti di vedere i titoli nella cronologia delle chat di altri utilizzatori del servizio. La nostra indagine mostra che solo l'1,2% dei clienti di ChatGPT Plus potrebbe aver rivelato i propri dati personali ad altri utenti.

Riteniamo che il numero di utenti i cui dati siano stati effettivamente rivelati a terzi sia estremamente basso, e abbiamo già contattato coloro che potrebbero essere stati danneggiati. Prendiamo molto sul serio la questione e condividiamo qui i dettagli della nostra indagine e del nostro piano."

We believe the number of users whose data was actually revealed to someone else is extremely low and we have contacted those who might be impacted. We take this very seriously and are sharing details of our investigation and plan here. 2/2 https://t.co/JwjfbcHr3g
— OpenAI (@OpenAI) March 24, 2023

Per poter operare in Italia e nel resto dell'Unione Europea, OpenAI dovrà rispettare la GDPR.

Secondo la General Data Protection Regulation (GDPR) dell'Unione Europea, le aziende devono ricevere l'esplicito consenso degli utenti per poter utilizzare i loro dati. Inoltre, le compagnie operanti in Europa devono offrire ai cittadini europei l'opzione di disattivare completamente la raccolta e la condivisione dei dati.

Secondo gli esperti, sarà quasi impossibile per OpenAI rispettare queste richieste, poiché i suoi modelli sono addestrati su enormi quantità di dati estratti dal web. Questo metodo di training mira a creare un paradigma chiamato "emergence," in cui i tratti utili si manifestano nei modelli in modo imprevedibile.

"'GPT-4 presenta comportamenti emergenti.'

Aspettate un secondo. Ma se non sappiamo quali siano i dati di training, come possiamo dire cosa sia 'emergente' e cosa sia semplicemente 'risultante' da essi?
Penso si riferiscano all'idea di 'emergence,' ma non sono ancora sicuro di cosa intendano."

"GPT-4...exhibits emergent behaviors".
Wait wait wait wait. If we don't know the training data, how can we say what's "emergent" vs. what's "resultant" from it?!?!
I think they're referring to the idea of "emergence", but still I'm unsure what's meant. https://t.co/Mnupou6D1d
— MMitchell (@mmitchell_ai) April 11, 2023

Questo sistema implica che gli sviluppatori non sanno cosa esattamente si trovi all'interno dei data set. E poiché per generare un output la macchina tende a fondere più data point, non è possibile estrarre o modificare i singoli data set. Margaret Mitchell, esperta di AI Ethics, ha spiegato al MIT Technology Review che sarà estremamente difficile per OpenAI identificare i dati appartenenti ai singoli individui per estrarli dai suoi modelli.

Per poter operare a norma di legge, OpenAI dovrà dimostrare di aver ottenuto i dati utilizzati per addestrare i suoi modelli con il consenso degli utenti – cosa che i documenti di ricerca dell'azienda dimostrano non essere vera.

Lilian Edwards, professore di Internet Law presso l'Università di Newcastle, ha dichiarato al MIT Technology Review che il problema non riguarda soltanto l'Italia: la violazione della privacy è così significativa, che il caso potrebbe arrivare alla Corte di Giustizia dell'Unione Europea.