In risposta alle accuse di violazione, la società conferma, in parte, di usare materiale coperto dal diritto d’autore
Nel marasma generale di un settore che deve ancora essere regolamentato, OpenAI è costantemente sotto torchio per le teoriche violazioni del copyright di autori di vario tipo nell’addestramento del suo modello principale, Gpt. L’azienda, come riferisce il sito The Register, ha confermato che è alquanto “impossibile” evitare che ciò accada. L’organizzazione, su cui ha puntato fortemente Microsoft con i suoi investimenti, ritiene che l’utilizzo di solo materiale con licenza aperta porterebbe a chatbot, o modelli di IA, decisamente inferiori a quelli che abbiamo oggi.
Questa affermazione arriva in un momento in cui il mondo dell’apprendimento automatico si trova a scontrarsi, praticamente ogni giorno, con i difensori del copyright. Proprio la scorsa settimana, l’organizzazione IEEE ha concluso che Midjourney e DALL-E 3 di OpenAI, due dei principali servizi di intelligenza artificiale per trasformare le istruzioni di testo in immagini, possono ricreare scene protette da copyright di film e videogiochi in base ai dati di addestramento. Lo studio, scritto in collaborazione da Gary Marcus, esperto e critico di intelligenza artificiale, e Reid Southen, illustratore digitale, documenta molteplici casi di “output plagistici” in cui OpenAI e DALL-E 3 eseguono il rendering di versioni sostanzialmente simili di scene di film, immagini di attori famosi e contenuti di videogiochi. Marcus e Southen affermano che è quasi certo che Midjourney e OpenAI abbiano addestrato i rispettivi modelli di generazione di immagini IA su materiale protetto da copyright.
In risposta a un’indagine sui rischi e le opportunità dei modelli di intelligenza artificiale da parte del Comitato per le comunicazioni e il digitale della Camera dei Lord del Regno Unito, OpenAI ha presentato una risposta in cui avverte che i suoi modelli non funzionerebbero a dovere senza una formazione specifica sui contenuti protetti da copyright. “Poiché oggi il copyright copre praticamente ogni tipo di espressione umana – inclusi post, fotografie, forum, frammenti di codice software e documenti governativi – sarebbe impossibile addestrare i principali modelli di intelligenza artificiale di oggi senza utilizzare materiali protetti dal diritto d’autore. Limitare i dati alle informazioni di pubblico dominio, create più di un secolo fa, potrebbe produrre un esperimento interessante, ma non fornirebbe sistemi di intelligenza artificiale in grado di soddisfare le esigenze degli utenti del terzo millennio”.