La complessa questione del copyright. La tutela delle opere usate per istruire l’intelligenza artificiale. La questione del copyright riguarda anche le opere prodotte dalla stessa intelligenza artificiale. Ma per questo secondo aspetto vi rinviamo alla seconda parte di questo saggio e ai testi giuridici e alle sentenze che ne parlano.
La complessa questione del copyright è un breve saggio di Lucrezia Bolla pubblicato il 7 settembre 2023 su Altalex.com. È trattata la complessa questione del copyright, come tutela dei testi usati per istruire l’IA. Il saggio ha una solida struttura argomentativa, che vi presentiamo in Guida alla lettura e che vi chiediamo di completare.
1. Le IA generative: profili giuridicamente problematici
Le Intelligenze Artificiali (di seguito IA nel testo) generative sono, nelle varie applicazioni di intelligenza artificiale, tra quelle di maggiore diffusione anche tra i quisque de populo, soprattutto dopo la grande operazione di lancio gestita da Open AI con Chat GPT. Leggi di più
Com’è noto, per IA generative si intende qualsiasi tipo di intelligenza artificiale che può essere utilizzata per creare nuovi testi, immagini, video, audio, codici o dati sintetici. Questo termine molto ampio comprende tanto gli algoritmi predittivi quanto quelli che possono utilizzare suggerimenti di un operatore esterno (“prompt”) per scrivere autonomamente articoli e dipingere immagini; tuttavia le prime applicazioni sono state, probabilmente, software di correzione o ottimizzazione automatica di immagini e audio digitali.
Queste tecnologie, se per il privato possono essere un simpatico mezzo ricreativo, hanno evidenti risvolti di natura commerciale. Considerando esclusivamente il settore terziario, IA generative possono essere diffusamente utilizzate nell’informazione, nel marketing, nell’industria cinematografica, nell’editoria; possono sostituire l’uomo in task routinarie o meno creative del software development, e essere di ausilio in una varietà di professioni intellettuali. Da ultimo, possono venire utilizzate come “strumenti” di espressione artistica in senso lato.
Un rischio dell’(ab)uso di queste tecnologie sta nell’erosione del valore economico attribuibile allo sforzo intellettuale puramente umano: sono saliti recentemente all’onore della cronaca giornalisti sostituiti dalle proprie testate da Chat GPT, o ancora lo sciopero di Hollywood, dovuto tra le altre ragioni alla proposta dell’AMPTP (“Alliance of Motion Picture and Television Producers”) di raccogliere e conservare in archivio l’immagine degli attori per agevolarne lo sfruttamento, e ai timori relativi alla sostituzione degli sceneggiatori con Large Language Models (“LLM”).
Proprio gli artisti, variamente intesi, sono stati tra i primi a segnalare un malessere legato all’utilizzo massiccio dell’IA: è opinione diffusa, anche se difficilmente dimostrabile in tribunale, che i training dataset su cui le IA si “allenano” vengano ottenuti tramite web scraping di contenuti di origine umana anche protetti da privativa.
L’UE, in cerca di un nuovo primato con l’AI Act per le intelligenze artificiali come già con il GDPR per la protezione dei dati, si è concentrata sulla regolamentazione dell’IA sotto il profilo precipuo del rischio e della liability; ma se l’origine dei dati pone evidenti problemi di privacy e protezione dei dati, oltre che di sviluppo e di uso etico e responsabile, altrettanto sensibili sono le questioni – sicuramente di discreto interesse commerciale – relative ai diritti di proprietà intellettuale.
Questioni connesse in primis alla provenienza dei dati, soprattutto se coperti da privative; all’utilizzo degli algoritmi di IA allenati su quegli stessi dati; al riconoscimento di diritti di proprietà intellettuale alle macchine; alla tutela delle opere generate dalle o con le IA.
Vista la relativa novità delle questioni relative a intelligenze artificiali generative e l’assenza di norme statutarie consolidate, la giurisprudenza è ben di là dall’essere matura; vale la pena però di svolgere alcune riflessioni prendendo in considerazione le attuali tendenze nella litigation internazionale, in particolare sul rapporto tra IA e diritto d’autore.
Quanto accade oltreoceano, infatti, potrebbe ripresentarsi entro i confini nazionali; anche perché alcuni principi di diritto (tra cui quelli della Convenzione dell’Unione di Berna – CUB) restano pressoché condivisi nella maggior parte delle giurisdizioni globali.
2. Training dataset e diritto d’autore
Proprio con riferimento alla giurisprudenza di common law, si moltiplicano le cause (annunciate o in corso) aventi ad oggetto l’origine presuntamente illecita di dati di addestramento.
2.1. Getty Images vs Stability AI
I software di quest’ultima (che peraltro ha reso pubblici i propri dataset) avevano restituito agli utenti immagini in cui era addirittura leggibile il watermark di Getty images con l’indicazione del copyright.
Il CEO di Getty Images, in interviste rilasciate dopo il comunicato stampa sull’avvio della causa de quo, ha dichiarato di associare le dinamiche dei fornitori di IA a Napster e Spotify: la prima è naufragata nella pirateria, la seconda ha prosperato trovando degli accordi economici più o meno satisfattivi con gli artisti.
Una soluzione iure privatorum, quindi, sarebbe già all’orizzonte: compensazioni di vario genere in cambio (sostanzialmente) dello sfruttamento delle opere oggetto di copyright.
Ancora, quest’estate lo Studio legale statunitense Joseph Saveri Law Firm, LLP sembra aver fatto delle class action contro fornitori di intelligenze artificiali la propria cifra stilistica, un po’ come NOYB con Meta. Le allegazioni sono sempre simili: le IA avrebbero ingurgitato dati da training dataset in cui erano presenti opere protette da copyright utilizzandole per la produzione di output più efficienti “without consent, without credit, and without compensation” per gli autori e i detentori dei diritti di proprietà intellettuale.
Tra le varie cause statunitensi patrocinate dal citato studio legale si segnalano:
- Le allegazioni di vari programmatori software vs GitHub, OpenAI et al. Gli attori hanno accusato software come Copilot – che soppiantano la scrittura manuale di pezzi di codice non particolarmente creativo o completano automaticamente operazioni di programmazione più rutinarie con compilazioni automatizzate – di aver copiato parti di codice da loro sviluppate (coding);
- Il caso Sarah Silverman, Christopher Golden e Richard Kadrey vs OpenAI Secondo le allegazioni attoree, OpenAI avrebbe allenato Chat GPT su enormi database contenenti libri (Books1 e Books 2), per un totale di titoli superiore a quello ottenibile lecitamente tramite scraping web (ad esempio dal sito del Gutenberg Project, che contiene solo testi i cui diritti d’autore sono esauriti). I software restituirebbero riassunti precisi dei libri degli attori, senza alcun riconoscimento dei loro diritti d’autore.
- Il caso Sarah Andersen, Kelly McKernan, and Karla Ortiz vs. Stability AI, Midjourney, e DeviantArt Le AI generative visive di questi fornitori sarebbero capaci di produrre opere “nello stile di” vari artisti viventi, ledendone i diritti d’autore.
Tutte queste domande si chiudono con richieste di risarcimento per danni, e molto spesso vengono considerate meritevoli, ma non sufficientemente esaustive sul piano probatorio.
E, d’altro canto, in genere (tranne forse nel caso di brani di codice) non ci sono evidenze di plagio, nelle opere prodotte dalle IA: i software traggono informazioni utili dal materiale ingerito, ma non attingono certo da un’unica fonte nel produrre un output. Dimostrare che una risposta che viene resa “nello stile di” un’opera umana violi anche i relativi diritti di copyright è senz’altro più difficile.
Le richieste integrative di istruttoria, d’altronde, conducono ad operazioni piuttosto complesse: appurato che non è sufficiente presentare un prompt e il relativo output, bisognerebbe poter pur dimostrare con altri mezzi l’origine illecita del dato.
2.2. (Segue) L’origine dei dati
Vale allora la pena di ricordare che la provenienza dei dati su cui si allenano le IA (nelle varie forme e gradi di complessità in cui queste possono essere organizzate) è una questione piuttosto articolata da analizzare, specialmente quando ci si spinge all’interazione tra IA e Big Data.
La raccolta dei dati per se presenta delle criticità: se l’utilizzo di banche dati pubbliche è ovviamente lecito, lo scraping generalizzato si colloca in una linea d’ombra, che potrebbe risultare ricompresa nel regime della copia transitoria e temporanea delle “Exception for Text and Data Mining” (TDM) dell’Unione Europea, o nell’amplissimo cappello del “fair use” negli Stati Uniti.
Al di là della raccolta dei dati, che comunque è stata, finora, considerata lecita, il punto critico su cui si concentrano le principali liti è l’utilizzo di tali dati per la produzione di output verso l’utente finale. La raccolta per l’addestramento, infatti, può essere agevolmente ricompresa nella dottrina del fair use; ma la finalità generativa nell’utilizzo di tali dati non lo è necessariamente (per usare un paragone estremo, un conto è progettare una pistola in 3D, un conto è utilizzarla per una rapina).
In altre parole, i prodotti generati dall’IA, originati (in tutto o in parte) da dati coperti da privative, potrebbero in linea teorica essere considerate opere derivate.
In tal caso, per evitare violazioni del diritto d’autore, le aziende dovrebbero assicurarsi di essere pienamente autorizzate ex anteall’utilizzo di alcuni dati; predisporre accurati termini e condizioni, tuttavia, prevedendo altresì dei sistemi di manleva ed indennizzo per eventuali violazioni di privative, potrebbe non essere sufficiente. Alcune società si stanno dotando di meccanismi di opt-out per i detentori di privative, per evitare che i loro lavori, se tutelati, vengano utilizzati nella produzione di output delle IA. Evitare che queste garanzie siano solo apparenti, e che non vengano sostanzialmente impedite da sistemi a scatola chiusa e da transparency assessment fai da te, è tutta un’altra questione.
D’altra parte, risalire attraverso il prodotto finale generato dall’IA ai dati che sono stati effettivamente sfruttati, e che potrebbero essere dati proprietari, per dimostrarne l’utilizzo illecito, è tutto fuorché una banalità.
I dati “grezzi” raccolti, infatti, si perdono nell’elaborazione computazionale attraverso i metodi di addestramento delle IA – reti neurali, reti neurali profonde, modelli statistici, ricerche operative; gli algoritmi si adattano infatti ai vari ambienti, apprendendo in modo autonomo (o al più semi-supervisionato) e ricavando informazioni dalla gigantesca mole di dati ingerita per offrire soluzioni efficienti ai problemi proposti.
Da questa grande complessità, oltre che dalla relativa opacità – intrinseca alla capacità di apprendimento automatico o addirittura profondo – di vaste reti neurali, deriva che seguire a ritroso i processi sui dati, e ricavare dagli output delle macchine gli input originali, è praticamente impossibile.
Come visto, molte class-action avviate negli Stati Uniti circa l’utilizzo improprio di opere coperte da diritto d’autore in training dataset si scontrano con questo limite estrinseco, che si traduce, in termini processuali, in una probatio quasi diabolica. Ne derivano i conseguenti ordini di integrazione istruttoria, di cui non si può al momento dire altro, visto che i giudizi sono ancora in corso.
Si rende allora evidente il primo limite della giustizia di fronte alla tecnica informatica: in mancanza di obblighi di pubblicità o di presunzioni legali stabilite dal legislatore, gli attori – comuni cittadini afflitti da una grande asimmetria informativa – potrebbero avere poche speranze di trovare una tutela forte.
D’altro canto, società che sviluppano algoritmi di IA a partire da foundation models forniti da terze parti, e quindi pre-trained, potrebbero non essere nelle condizioni di verificare i dataset utilizzati; allo stesso tempo, gli stessi utilizzatori finali che fornissero ai foundation models dati specifici per il fine tuning delle IA potrebbero essere destinatari di obblighi di disclosure insostenibili.
Questo appunto perché i processi delle reti neurali potrebbero restare per sempre opachi agli occhi degli stessi programmatori; inoltre, contemperare esigenze di trasparenza, di sicurezza e di segretezza di informazioni commercialmente sensibili potrebbe risultare problematico sul piano pratico.
A questi ultimi limiti va incontro anche la proposta europea di AI Act, che come tutti gli atti del Digital Package si concentra sulla trasparenza e l’evitamento di fenomeni blackbox. La proposta, infatti, attualmente in trilogo presso le istituzioni UE, cerca di trovare una quadra associando a determinati livelli di rischio delle IA relative misure di tutela, prevedendo ad esempio, per quanto qui rileva, un obbligo di disclosure di “detailed summaries of copyrighted data used for training” per le IA generative come Chat GPT. Da un lato quindi ci si rimette alla buona volontà dei provider nel fornire report completi e corretti; dall’altro si configura un’obbligazione che potrebbe essere pressoché impossibile da adempiere ex post, soprattutto per realtà piccole o utilizzatori che svolgano attività di fine tuning, come anzidetto.
L’AI Act, come già il GDPR, sembra consolidare lo slittamento compiuto dal legislatore europeo dal concetto romanistico di danno e responsabilità a quello, fortemente anticipato, di “rischio” e “accountability”, per far fronte alle più sfumate minacce digitali: resta da vedere, sul piano pratico, quanto le normative UE di prossimo conio risulteranno capaci di penetrare i meccanismi di cui sopra: al momento in Europa le prove generali di questo impianto sono ancora di là da venire.
Nel frattempo potremo assistere a schemi decisionali basati essenzialmente sul buon senso giuridico (molto umano) dei tribunali: una soluzione forse poco elegante ma efficace, specialmente laddove lo stare decisis la fa da padrone.
Guida alla lettura
La complessa questione del copyright. Il testo è un buon esempio di prosa giuridica: vi sono brevi clausole in latino e soprattutto in inglese che IC ha messo in corsivo per facilitarvi nell’individuarle. Quindi, anzitutto, definite ogni parola non italiana in modo da accertarvi di aver compreso.
Poi sistemate i titoli dei paragrafi: IC ha diviso in due il saggio per rendervene più agevole la lettura. I sottotitoli però risultano ora centrati: riscriveteli, aggiungetene qualcuno e migliorerete così anche la leggibilità del testo.
Poi completate la mappa mentale del testo. La complessa questione del copyright.