DK9x11 - Forza, Garante!
Si avvicina il Natale, e il garante tira fuori dall'armadio la spina dorsale, e le palle di Natale. GEDI non sarà contenta.
Ascolta l'episodio su Spreaker.com
Dicevamo la volta scorsa che il garante toglie la spina dorsale dalla naftalina solo per le feste comandate.
Beh, ci sono buone notizie, si avvicina il Natale e il Garante non ha tolto dalla naftalina solo la spina dorsale, ma anche le palle di Natale. Roba da far invidia a Rocco Siffredi.
Sì, sto parlando dell'avvertimento al gruppo GEDI.
Sigla.
Prima di iniziare una notiziola. Ricordate quando ci siamo occupati del Fascicolo Sanitario Elettronico? Ricordate che avevo segnalato al garante che in quanto residente all'estero non potevo esercitare il mio diritto di opposizione al trattamento del pregresso?
La storia è cominciata nell'episodio 29 della scorsa stagione ed è continuata nell'episodio 4 di questa stagione.
Adesso finalmente l'azione del Garante ha dato i suoi frutti e i termini per opporsi al trattamento del pregresso sono riaperti.
Quindi potete andare sul sito INPS, cominciare a cercare "fascicolo sanitario elettronico" e armatevi di pazienza.
Un grazie a Christian Bernieri il cui aiuto è stato fondamentale. Vi ho già detto di andarvi a leggere il suo blog "garantepiracy.it"? Ve lo dico ora.
pausa
Torniamo all'avvertimento del garante al gruppo GEDI.
Ah, non ne sapete niente? Curioso.
Allora i fatti sono questi: GEDI Gruppo editoriale SpA è il gruppo che possiede:
- la Repubblica
- la Stampa
- Limes
- Huffington Post, più altre testate
A Settembre un comunicato stampa ha informato che avrebbe dato in uso tutti i propri contenuti editoriali a openAI. Scopo?
per portare contenuti in lingua italiana dal portafoglio di agenzie di notizie di alta qualità di GEDI agli utenti di openAI., i quali avranno accesso a citazioni attribuite, contenuti e link alle pubblicazioni di GEDI, tra cui La Repubblica e La Stampa.
Grande iniziativa. Il Garante, per non saper né leggere né scrivere, ha richiesto ulteriori informazioni.
Secondo quanto la società ha dichiarato al Garante,
il lancio dell’iniziativa è previsto per il 30 novembre 2024, e che la stessa avrà inizio con la comunicazione ad OpenAI, una tantum e in unica soluzione, dei contenuti dell’archivio pubblicati sino al 29 novembre 2024 e proseguirà con la successiva comunicazione, “in modo pressoché contestuale e immediato”, dei contenuti pubblicati a partire dal 30 novembre 2024.
Il problema dell'italiano legale è che fa addormentare gli squali, anche se citi solo un paio di righe.
Riassumendo: il 30 novembre 2024, cioè quattro giorni fa, GEDI manda a openAI una copia completa degli archivi di tutte le testate che controlla, e da quel momento ogni giorno circa gli manda i materiali nuovi che sono stati aggiunti.
Open AI userà quei contenuti per continuare a fare finta che chatGPT sia un motore di ricerca e per addestrare i prossimi modelli di GPT.
Tutto chiaro?
Ok, partiamo dall'inizio.
pausa
Usare un modello linguistico come interfaccia a un motore di ricerca è un'idea sbagliata. E pericolosa. E sbagliata.
Sbgliata perché in quanti modi occorre spiegare che un modello linguistico crea frasi sulla base della loro verosimiglianza statistica con i contenuti del proprio addestramento?
Non è quello che fa un motore di ricerca per rispondere alle nostre domande, e non è nemmeno una cosa che si può realmente qualificare come "risposta", a meno di accettare che anche i Tarocchi, o l'I-Ching: "rispondono" alle nostre domande.
Devo dire peraltro che tarocchi e I-Ching sono almeno strumenti utili dal punto di vista maieutico, mentre i modelli linguistici sono, letteralmente, aria fritta.
Non mi importa un fico secco del fatto che le cosiddette risposte siano correlate di link alle fonti.
Primo, il cervello degli esseri umani funziona in un modo preciso, quindi a regime nessuno o quasi controllerà le fonti, siamo fatti così. Tanti saluti agli introiti pubblicitari dei siti linkati. Bella mossa, GEDI!
Secondo, sappiamo già che i modelli linguistici possono creare finti link a fonti inesistenti, quindi a meno di seguirli, quei link, cosa che abbiamo già detto non succederà quasi mai, l'utente è sempre a rischio di fare una schwarzata.
Per chi non ricordasse cosa è una schwarzata: cercare di fare il figo vendendo per buono l'output di un modello linguistico, salvo accorgersi che è tutto inventato. Dal nome imperituro dell'avvocato statunitense Steven Schwartz (episodio 7x26):
Steven Schwartz, avvocato da trent'anni ora presso lo studio Levidow, Levidow & Oberman di New York è andato di fronte al giudice con l'istanza scritta da chatGPT, completa di citazioni di sentenze inventate. Io credo che una cazzata di queste dimensioni debba essere ricordata a livello culturale, da cui l'eponimo, schwarzata.
DK 7x26 - IA e altre Favole
Terzo, la ricerca non è mai o almeno quasi mai una risposta a una domanda precisa, ma un processo iterativo. Nessun ricercatore, e dico nessuno, a parte quelli che vendono LLM, pensa che usarli come interfaccia a un motore di ricerca sia una idea buona, o anche appena decente.
Ma GEDI pensa di avere avuto l'idea meravigliosa che darà più risalto alle sue notizie di alta qualità, manco fossero latte di pastura.
Se c'è qualcuno del CdA di GEDI in ascolto, io avrei una fantastica fontana da vendere, zona Roma Centro, un vero affare, sentiamoci.
Quello che succederà è che openAI si farà grossa in Italia facendo vedere che le risposte di chatGPT hanno anche dei link a La Stampa e La Repubblica. Fine. Nessuno seguirà quei link, e le persone avranno un disincentivo netto a informarsi su Repubblica e la Stampa (che peraltro applicano il "paga o stacce" come ulteriore disincentivo) visto che possono avere il contenuto delle notizie "in modo pressoché contestuale e immediato" tramite chatGPT.
Se tutto finisse qui, complimenti ai cervelloni che hanno concepito l'operazione.
Ma non finisce qui. Perché i cervelloni, evidentemente obnubilati dall'aria rarefatta' dei loro uffici al 180mo piano, non hanno considerato che non erano nelle condizioni di fare un accordo del genere.
Permettetemi di farmi un film. O meglio, una pièce teatrale.
Entra in scena il FURBONE DELLA PRIVACY; è un uomo sulla sessantina, indossa un completo di firma fumo di Londra, camicia bianca con gemelli d'oro, cravatta di Marinella, scarpe di Gucci, ROLEX da ottomila euro al polso, due cellulari, e il tradizionale cappello a cono. Praticamente il Milanese Imbruttito, ma non fa ridere.
FURBONE DELLA PRIVACY: e adesso per il GDPR non sono nemmeno padrone di fare quel che mi pare con i miei dati?
Le quinte si aprono, e un coro greco di trentadue donne E uomini in pepli e toghe sale lentamente dal pavimento. Quando il movimento si ferma il coro porge la battuta con voce stentorea:
CORO: No, pirla.
IL FURBONE DELLA PRIVACY guarda il coro con l'espressione della mucca che guarda il treno. Dopo un secondo esatto di silenzio una FOLGORE piomba dal cielo con un tuono assordante, il palco è invaso dal fumo.
Quando il fumo si dirada, il CORO è ancora immobile, e dove prima c'era il FURBONE DELLA PRIVACY c'è un monticello di ceneri fumanti, su cui spicca il ROLEX.
Sipario.pausa di applausi scrocianti
Parlo di questa notizia perché l'avvertimento del Garante prosegue quello che ci siamo detti l'ultima volte, e cioè che i dati personali non sono una proprietà, e che il loro uso è rigorosamente limitato dal GDPR.
I dati personali che compaiono nelle notizie, i nomi delle persone coinvolte a qualsiasi titolo, sono dati personali, e se la notizia riguarda la salute o un fatto giudiziario, sono dati sensibili.
Il GDPR contempla il diritto di cronaca, ovviamente, ma occorre capirsi. La cronaca è fare cronaca. Per dire, l'identità di eventuali minori coinvolti non fa parte del diritto di cronaca, perché prevale la tutela del minore.
E, nel caso di specie, rivendere i dati anche sensibili per altro utilizzo non è fare cronaca. Vi ricordate la limitazione della finalità di cui abbiamo parlato la volta scorsa? Eccola qui.
Siccome passare i dati a openAI non ricade nel diritto di cronaca, GEDI dice al Garante che la propria base giuridica ai sensi del GDPR per poter passare i propri dati a openAI è il proprio legittimo interesse.
Ma il legittimo interesse non consente di trattare dati sensibili.
È per quello che il GDPR prevede delle eccezioni per il diritto di cronaca: senza quelle eccezioni, i giornalisti non potrebbero dare notizie di tipo medico o giudiziario di nessuno.
Qui si apre un'altra parentesi interessante: siamo sicuri che openAI possa avvalersi del diritto di cronaca per trattare quei dati? Perché in alternativa dovrebbe richiedere il consenso ai singoli interessati... .
Io francamente non dari la cosa per scontata, ma non mettiamo il carro davanti ai buoi, che non è ancora finita.
Un trattamento di interi archivi storici è giocoforza un trattamento su vasta scala. Serve una Valutazione di Impatto. Che GEDI non ha ancora ultimato.
E serve chiarezza su chi effettivamente riceva i dati e dove li riceva.
Perché l'accordo è firmato con openAI in USA, ma i dati verranno trasferiti a openAI Irlanda. E questo non va bene. Perché il GDPR vieta che i dati personali possano essere trasferiti in Paesi dove il livello di protezione dei dati personali è inferiore rispetto all'Unione Europea.
Ora, l'Irlanda è nella UE. Ma gli USA no. E gli USA non hanno nemmeno una decisione di adeguatezza, che li equiparerebbe all'Unione. Hanno quella cosa patetica che si chiama EU-US Data Privacy Framework (ve l'avevo detto la volta scorsa che al di là della privacy non vedono), che in pratica è una autocertificazione volontaria per le aziende USA.
E openAI non ha nemmeno questa autocertificazione. Quindi è necessario che openAI si impegni per iscritto con quelle che si chiamano clausole contrattuali standard, il che significa che si impegna a trattare quei dati come richiede il GDPR, con tanto di sorveglianza del Garante.
Ma nell'accordo non c'è nulla di tutto questo.
Ricapitolando:
- non c'è una base giuridica che permetta a GEDI di trasferire i propri dati a openAI, visto che il legittimo interesse non è applicabile
- non è scontato che openAI possa avvalersi del diritto di cronaca per trattare i dati sensibili presenti negli archivi
- non c'è una valutazione di impatto, che dimostri come il trasferimento mantenga costante il livello di protezione dei dati personali
- non è chiaro se la destinazione ultima dei dati sia l'Irlanda o gli USA, nel qual caso non ci sono le Clausole Contrattuali Standard necessarie
- ammesso e non concesso che il trasferimento sia lecito, GEDI non ha provveduto a informare gli interessati in modo che questi possano, nel caso, esercitare il diritto di opposizione all'uso dei loro dati da parte di openAI
- a questo riguardo, il garante fa notare che l'informativa sul sito de La Repubblica è aggiornata al 2023, e comunque si rivolge agli utenti del sito e agli abbonati, non agli interessati.
Da qui l'avvertimento del Garante, datato 27 novembre. Io non so se il 30 i dati siano poi stati trasferiti. Ma il garante ha avvertito GEDI che il trasferimento
"potrebbe verosimilmente" costituire:
- illecito trattamento di dati sensibili e giudiziari
- omessa o inidonea informativa.
Certo la questione è complessa, certo si possono trovare dei modi. Ma queste sono quelle cose che fanno salivare gli avvocati. A oggi, GEDI non era nelle condizioni di cedere l'uso dei propri archivi a openAI. Semplice.
Ce n'è abbastanza per una sanzione milionaria che, ovviamente richiederebbe la distruzione dei dati trasmessi illecitamente a openAI e, di conseguenza la rescissione dell'accordo e la restituzione di quanto sia stato pagato a GEDI. E a quel punto openAI potrebbe facilmente citare GEDI per inadempienza contrattuale e danni.
Molto meglio della solita commedia di Natale in tv, eh?
Ancora complimentoni ai geni che hanno partorito l'accordo.
