Addestramento IA: Google difende la sua scelta di non pagare gli editori per i contenuti web utilizzati - Multiplayer.it

Che i modelli di IA siano basati su quantità enormi di testi e dati reperibili sul web è ormai un dato di fatto. Al centro della scena in questi mesi c'è Google: molti editori ritengono che l'azienda stia utilizzando i loro contenuti per addestrare i propri modelli di intelligenza artificiale. Secondo loro, il contributo avviene senza ricevere alcun compenso, ma le aziende sostengono che la loro IA impari a riconoscere semplicemente schemi, quindi pattern, e informazioni dai dati pubblici, senza copiare i loro contenuti.

La questione è diventata poi sempre più complessa: basti pensare agli AI Overviews e al loro ruolo nei risultati di ricerca Google. Molti editori temono che possano ridurre la visibilità dei siti, con effetti diretti su traffico, guadagni e persino sulla sopravvivenza di piccoli editori online.

Google si difende

Di recente si è acceso un nuovo punto di scontro attorno a Google e all'uso dei contenuti per l'IA. La questione è stata portata all'attenzione della Lords Communications and Digital Committee del Regno Unito, che si occupa di comunicazioni digitali e tecnologia. Durante l'audizione, i legislatori hanno chiesto chiarimenti sulla politica di Google riguardo ai compensi per i contenuti che alimentano i suoi modelli di IA.

A rispondere è stata Roxanne Carter di Google, spiegando che Google non ritiene necessario pagare per i contenuti "liberamente disponibili" online. Inoltre, questi materiali sarebbero stati usati come semplice fonte di apprendimento, permettendo ai modelli IA di riconoscere schemi e conoscenze senza copiarli direttamente. In poche parole: l'uso di dati pubblici per addestrare l'IA non dovrebbe richiedere compensi, secondo Google. Una visione in netto contrasto con editori e legislatori, che temono la svalutazione del lavoro creativo e il rischio di uno sfruttamento di risorse digitali senza il giusto compenso.

Carter ha anche spiegato che i modelli di IA come Gemini analizzano enormi quantità di dati per individuare schemi e collegamenti statistici, senza conservare i contenuti come archivi completi: in altre parole, non funzionano come database tradizionali. Da quanto si legge, Google non pagherà per la formazione sul web aperto, ma sta attivamente stipulando accordi per contenuti d'archivio non disponibili al pubblico. In pratica, l'azienda riconosce valore economico ai dati esclusivi, ma non considera necessario compensare l'uso di materiale di dominio pubblico.

La questione AI Overviews

La situazione resta delicata per gli editori. Google offre lo strumento "Google Extended", che permette di restare visibili nei risultati di ricerca senza che i contenuti vengano utilizzati per addestrare l'IA. Tuttavia, gli AI Overviews - i riassunti automatici che appaiono come primo risultato - possono comunque ridurre la visibilità dei siti nei risultati tradizionali, lasciando aperta una zona di incertezza per chi gestisce contenuti online.

Google sotto indagine dell'UE: uso sleale dei contenuti per addestrare l'IA

Insomma, trovare un equilibrio è sempre più cruciale per gli editori, che devono proteggere il proprio lavoro senza perdere visibilità.