Grosso guaio per OpenAI: cancellati dati chiave nella causa contro il New York Times

OpenAI ha cancellato dati cruciali nella causa intentata dal New York Times riguardante l'utilizzo di articoli giornalistici per l'addestramento dei suoi modelli di intelligenza artificiale: tutta colpa di un glitch?

OpenAI, l'azienda che ha creato ChatGPT, è stata accusata di aver cancellato dati cruciali in una causa legale intentata dal The New York Times e da altri importanti quotidiani. La controversia riguarda l'utilizzo di articoli giornalistici per l'addestramento dei modelli di intelligenza artificiale di OpenAI, un tema che solleva importanti questioni sul copyright e sulla proprietà intellettuale nell'era digitale.

Secondo quanto riportato, i legali dei quotidiani avrebbero trascorso oltre 150 ore ad analizzare i dati di addestramento di OpenAI per identificare gli articoli inclusi. Tuttavia, a causa di un errore non meglio specificato, queste prove sarebbero state cancellate.

Dati cancellati per errore: uno sfortunato glitch

OpenAI ha ammesso l'errore, ma il tentativo di recuperare i dati si è dimostrato poco efficace: le informazioni recuperate risultano infatti incomplete e inaffidabili, compromettendo la possibilità di stabilire con precisione come gli articoli siano stati utilizzati nello sviluppo dei modelli di intelligenza artificiale. Gli avvocati della compagnia hanno parlato di dati cancellati per colpa di un generico "glitch", ma quelli del New York Times non hanno avanzato sospetti di dolo, affermando che "non hanno motivo di credere" che la cancellazione sia stata volontaria.

La causa, intentata lo scorso dicembre da The New York Times Company, sostiene che OpenAI e il suo partner Microsoft abbiano utilizzato illegalmente milioni di articoli per addestrare i loro strumenti di intelligenza artificiale, creando una concorrenza sleale con gli editori. Il New York Times chiede un risarcimento di miliardi di dollari per danni.

Sebbene l'utilizzo di opere protette da copyright senza autorizzazione rappresenti una chiara violazione delle leggi in vigore in gran parte le mondo, la complessità dei processi di addestramento dell'IA rende difficile stabilire con esattezza l'origine dei dati e la loro influenza sui modelli finali. La vicenda si inserisce così in un contesto più ampio di dibattito sull'impatto dell'intelligenza artificiale sul mondo dell'informazione.

Voi che cosa ne pensate? Diteci la vostra nei commenti qua sotto, mentre OpenAI aggiorna il modello GPT-4o, che si riconferma il migliore in Chatbot Arena.