La polemica va avanti da marzo 2023, dopo una ricerca portata avanti da una studiosa di intelligenza artificiale
Google di nuovo sotto accusa. Il colosso del web potrebbe infatti aver utilizzato dati di Gmail per addestrare Bard, il suo chatbot basato sull’intelligenza artificiale. La polemica è iniziata a marzo 2023, quando una ricercatrice nell’ambito dell’Ai, Kate Crawford, ha chiesto proprio al programma da dove provenisse il suo dataset. Nella risposta, Bard ha inserito anche “dati interni a Google: questi includono dati da Google search, Gmail e altri prodotti”.
Google è subito corso ai ripari, affermando che si era trattato di un errore e di una svista del chatbot che era stato appena rilasciato, chiamato in gergo tecnico hallucination (fenomeno che si verifica quando un modello linguistico di grandi dimensioni fa affermazioni plausibili ma senza basi reali). La difesa è continuata, anche se con diversi problemi e dubbi. In un post su X, l’ex Twitter, Google ha confermato che “nessun dato personale verrà usato nell’addestramento di Bard”, per poi cancellarlo senza fornire ulteriori spiegazioni e lasciando un quesito fondamentale: cosa viene considerato un dato personale in una email? Già in passato Google ha usato un linguaggio ambiguo per rispondere a questa domanda.
Per rispondere a questa domanda ci viene in soccorso proprio Bard, il chatbot incriminato. Secondo lui, nome e cognome, indirizzo, data di nascita, numero di telefono, sesso, abitudini di acquisto e posizione sono le informazioni protette dalla privacy, mentre altre, come il corpo di una mail, il suo oggetto e il destinatario, sono pubbliche. Per questo, di conseguenza, potrebbero essere usate nei dataset di training anche se, a detta di Bard, non vi sono prove a riguardo.
Non sarebbe la prima volta in cui dati del genere vengono utilizzati per addestrare modelli di machine learning incentrati sul linguaggio. Il sistema Smart Compose della stessa Gmail è stato completato ricorrendo a messaggi di posta elettronica scritti dagli utenti. Inoltre, un ex ingegnere di Google, Blake Lemoine, ha affermato che Bard è stato costruito partendo proprio dalle basi di Smart Compose. I due programmi condividono il motore LaMDA, il che potrebbe implicare che la chatbot sia stata addestrata partendo da dataset che già contenevano informazioni prese da email. Già nel 2021 era stato pubblicato un documento da un gruppo di ricercatori di Mountain View in cui si sottolineavano i rischi per la privacy che si trovavano nell’utilizzo di modelli linguistici di grandi dimensioni. Gli scienziati di Google hanno poi dimostrato la possibilità di estrarre questo genere di informazioni da ChatGpt, sostenendo che le tecniche spiegate nella loro ricerca possono essere applicate a qualunque modello simile, compreso Bard.
Alla ricerca del gelato più buono della capitale? Niente paura, ecco la lista delle 5…
Quella della Vespa Orientalis a Roma sta prendendo sempre più i contorni di una vera…
Quasi sempre, quando si cambia casa e si entra in una nuova abitazione, si sente…
Avete mai visto la casa di Gianni Morandi? Ecco le foto della sua casa in…
Un luogo sul mare, affascinante e conveniente, dove la vita scorre serena e il costo…
Dopo che Meta ha lanciato un nuovo social network, Threads, che sembra dare risultati ottimi,…