Cos’è l’AI-generated internet?

19 Aprile 2024

Con il termine AI-generated internet ci si riferisce alla crescente presenza di contenuti generati dall’intelligenza artificiale sul web. Essenzialmente, ci troviamo quindi di fronte a un numero progressivamente maggiore di contenuti prodotti non da esseri umani, ma da algoritmi di generazione del linguaggio, reti neurali e altre tecnologie AI. Per “contenuti” si intende, in questo caso, un po’ di tutto: articoli blog, testi SEO, notizie su giornali online e webzine, recensioni, descrizioni di prodotti e persino content multimediali come immagini, clip musicali e video che possono essere utilizzati per scopi educativi, informativi, di marketing o meramente creativi. L’AI-generated internet non è quindi un possibile sviluppo tecnologico, ma una realtà già presente sul web che navighiamo ogni giorno e sta rivoluzionando il modo in cui i contenuti online vengono creati e consumati. Se, da un lato, esso permette di realizzare un’enorme quantità di contenuti in modo rapido, riducendo i costi e accelerando i processi di produzione, l’altra faccia della medaglia è fatta di nuove sfide e questioni etiche legate all’autenticità, alla qualità e alla responsabilità dei contenuti stessi.

Come ChatGPT ha reso l’AI-generated internet una realtà

Anche se l’intelligenza artificiale esiste da decenni, a cambiare le regole del gioco è stato ChatGPT, il modello di lingua sviluppato da OpenAI e basato sull’architettura GPT (Generative Pre-trained Transformer). In estrema sintesi – e anche se ormai tutti sanno come funziona - ChatGPT è addestrato a generare testi coerenti e contestualmente rilevanti in risposta a un input di testo umano. Può inoltre simulare una conversazione human-to-human rispondendo a domande, offrendo informazioni e considerazioni e partecipando a dialoghi sugli argomenti più disparati. L’influenza di ChatGPT sull’AI-generated internet è significativa, e le ragioni sono facilmente intuibili: dal momento che il modello può produrre testo semantico e coerente, viene ormai utilizzato sempre più su larga scala per realizzare contenuti di ogni tipo, dagli articoli blog alle risposte a FAQ, dalle e-mail automatizzate alla newsletter, dai post destinati ai social media alle strategie di marketing, e molto altro ancora. Le aziende che scelgono di utilizzare ChatGPT in collaborazione con – o, nei casi peggiori, addirittura in sostituzione di – professionisti umani lo fanno per diversi motivi, primo fra tutti la riduzione dei costi legati alla creazione di contenuti. A questo vantaggio va associata la rapidità tipica del modello, che permette alle aziende di mantenere elevati ritmi di produzione eliminando le fasi di revisione e finalizzazione dei contenuti (o quantomeno limitandone l’esigenza). Ecco quindi che, senza aumentare la loro forza lavoro, le organizzazioni possono ora disporre di uno strumento nato per generare e gestire anche grandi volumi di contenuti in tempi incredibilmente ridotti. Tuttavia, non è tutto roseo come sembra, anzi. Tipicamente, i contenuti generati dall’AI senza un’attenta e accurata opera di supervisione e revisione umana sono caratterizzati da inesattezze, imprecisioni, errori grossolani in termini di sintassi e linguaggio e persino vera e propria disinformazione. Il principale rischio legato all’AI-generated internet è proprio questo: il degrado complessivo dei contenuti presenti sulla rete e le conseguenze che tale deterioramento qualitativo potrebbe avere sugli utenti.

Come l’AI-generated internet potrebbe portare al peggioramento della qualità dei contenuti

Secondo quanto dichiarato a Mashable da Nader Henein, vicepresidente della società di consulenza gestionale Gartner, il rischio che l’AI-generated internet porti al peggioramento sistematico della qualità dei contenuti è concreto, soprattutto a lungo termine. I LLM ("Large Language Model", un tipo di modello di intelligenza artificiale progettato per comprendere e generare testo in modo avanzato utilizzando tecniche di machine learning, in particolare l'addestramento su grandi quantità di dati testuali) si nutrono infatti reciprocamente di contenuti e, di riflesso, la qualità di questi ultimi è destinata a peggiorare, come se fosse la fotocopia di una fotocopia di un’immagine. Henein spiega che la prima versione di ChatGPT è stata l’ultimo modello ad essere addestrato su contenuti interamente prodotti da essere umani, e che ogni modello successivo si riferisce invece a dati di addestramento con contenuti generati dall’intelligenza artificiale, non solo difficilissimi da tracciare, ma anche da verificare. Il risultato è una crescente inaffidabilità, e il rischio futuro è una rete piena di “dati spazzatura”. “Perdiamo qualità e precisione dei contenuti e, allo stesso tempo, perdiamo anche la diversità,” commenta Heinen, “tanto che tutto tende a somigliare a sé stesso in una sorta di apprendimento incestuoso. I LLM sono una grande famiglia in cui ciascun membro consuma i contenuti degli altri. È una specie di impollinazione incrociata e, con il passare delle generazioni, i contenuti-spazzatura supereranno quelli di qualità.” In sintesi, dal momento che i contenuti generati dall’AI immessi sulla rete senza alcuna supervisione sono ormai sempre più numerosi – oltre che risultato di LLM addestrati a loro volta su contenuti prodotti dall’AI – il futuro del web potrebbe essere totalmente omogeneo, completamente inaffidabile e molto noioso.

L’AI e il problema della tutela della privacy e della proprietà intellettuale

C’è poi un altro importante fattore da considerare, quando si parla di AI-generated internet: quello legato alla tutela della privacy e della proprietà intellettuale. È già noto che l’intelligenza artificiale cerchi di replicare l’arte (immagini e video, ma anche intere opere letterarie) senza richiedere alcun permesso agli autori, così come che l’aspetto e la voce delle celebrità vengano riprodotti senza il loro consenso e compenso. In quest’ultimo caso ci stiamo naturalmente riferendo al deep fake, la tecnica di manipolazione dei media che utilizza l'intelligenza artificiale, in particolare le reti neurali generative (GAN), per creare contenuti digitali falsi, come video, immagini o audio, in cui il volto o la voce di una persona vengono sostituiti con quelli di un'altra persona. Il termine "deep fake" deriva dalla combinazione delle parole "deep learning" (apprendimento profondo) e "fake" (falso). Se, da un lato, già esistono leggi sul copyright, sulla privacy e sulla proprietà intellettuale che dovrebbero proteggere da tali violazioni, nella pratica la questione è più spinosa: ciò che viene pubblicato in rete è, essenzialmente, incontrollabile e quasi incancellabile. Alcuni artisti ne sono pienamente consapevoli e stanno cercando di risolvere in modo alternativo: un esempio è Grimes, che ha scelto di offrire accordi di compartecipazione alle entrate ai creatori di musica basata sull’AI. Dal punto di vista politico, è stata invece introdotta negli US la proposta di legge No Fakes Act, che dovrebbe proteggere i personaggi pubblici dalle repliche generate dall’Artificial Intelligence. Difficilmente queste soluzioni saranno sufficienti, ma quantomeno segnalano il tentativo di gestione di una problematica che rischia di aggravarsi sensibilmente con l’aumentare della precisione di queste tecnologie: il rischio è, infatti, che ben presto le celebrità “replicate” non siano più distinguibili da quelle reali, con conseguenze preoccupanti e facilmente immaginabili. Le applicazioni dei deep fake possono variare, ma sono comunque particolarmente utilizzate per creare video falsi di personaggi famosi, politici o personalità pubbliche che sembrano pronunciare o fare cose che in realtà non hanno fatto. Questa tecnologia può quindi essere utilizzata per scopi dannosi come la diffusione di disinformazione, la manipolazione politica o il cyberbullismo.

Cosa dicono i ricercatori in merito al calo della qualità nei contenuti AI-generated

A monte, tuttavia, il problema su cui i ricercatori sembrano concentrarsi di più è legato al già citato calo della qualità dell’AI-generated internet, considerato particolarmente insidioso. Secondo uno studio recentemente pubblicato dall’università tedesca Gutenburg, “questo ciclo di addestramento autoconsumante inizialmente migliora sia la qualità che la diversità dei contenuti. Tuttavia, con il progredire delle generazioni dei modelli, l’output è inevitabilmente destinato a degenerare in termini di diversità, poiché il tasso di degenerazione dipende dalla proporzione tra dati reali e dati prodotti dall’AI.” Relativamente al degrado dei modelli di AI addestrati su dati a loro volta generati dalle macchine, vi sono poi altri due articoli accademici pubblicati nel 2023 che sono giunti alla stessa conclusione. Il primo riguarda una ricerca condotta da un team di ricercatori di Oxford, Cambridge, Imperial College London e dalle università di Toronto e di Edimburgo, secondo i quali “l’impiego di contenuti generati da modelli nella fase di addestramento genera difetti irreversibili nei modelli risultanti.” Tale criticità prende il nome di “collasso del modello”. Il secondo paper si riferisce invece a uno studio condotto dalle università di Stanford e Rice, e afferma che “senza dati reali sufficienti in ogni generazione di un ciclo autofago (ossia risultato di autoconsumo, NdR), i futuri modelli generativi sono condannati a vedere la loro qualità (precisione) e diversità (richiamo) diminuire progressivamente.” A queste ricerche va aggiunta infine la scoperta fatta dagli utenti di Google Scholar, che hanno analizzato una serie di documenti accademici individuando in essi la frase “come modello linguistico AI” (traducibile in pratica come: “porzioni di documenti o interi documenti sono stati scritti da chatbot come ChatGPT”). Ci troviamo quindi di fronte addirittura a paper scientifici generati dall’intelligenza artificiale che potrebbero essere considerati come riferimenti autorevoli da siti di notizie e blog.

La reazione ambivalente dei colossi Big Tech all’AI-generated internet

Chiarito cos’è l’AI-generated internet e quali ripercussioni potrà avere sul medio-lungo termine, esaminati i (comprensibili) timori dei ricercatori e i rischi per la qualità complessiva delle informazioni in rete, non resta che capire come intendono regolarsi i colossi di Big Tech. Il loro atteggiamento è, almeno per il momento, piuttosto ambivalente: da un lato, i grandi brand tecnologici sembrano intenzionati ad abbracciare le oggettivamente straordinarie potenzialità dell’intelligenza artificiale; dall’altro desiderano controllarne per quanto possibile la portata e le conseguenze. Amazon, ad esempio, già dispone di una funzionalità di AI che fornisce riepiloghi delle recensioni dei prodotti, mentre sia Google che Microsoft offrono agli utenti strumenti che facilitano la stesura di e-mail. Indeed, società tecnologica che gestisce uno dei più grandi motori di ricerca di lavoro al mondo, ha lanciato nel settembre 2023 un tool che permette ai recruiter di creare descrizioni di opportunità lavorative con il supporto dell’AI. E poi ci sono ovviamente le grandi piattaforme che consentono agli utenti di generare immagini create dall’intelligenza artificiale, come Midjourney e DALL-E3. Ecco quindi che i giganti tecnologici di cui tutti ci avvaliamo quotidianamente offrono già contenuti AI-generated o servizi che consentono agli internauti di crearli. Ed è su tutti questi – e, per ora, solo questi – che i brand intendono mantenere una sorta di supervisione e controllo. Il problema maggiore è tuttavia rappresentato dagli autori di articoli click-bait e dagli innumerevoli siti che pubblicano continuamente contenuti di scarsa qualità per generare profitti, inficiando non solo l’attendibilità delle informazioni, ma anche i risultati della SEO. Inutile precisare che gli utenti del web devono potersi fidare dei risultati dei motori di ricerca, e che se questi ultimi diventeranno un giorno del tutto inaffidabili, significherà che saremo ormai immersi in un oceano di dati spazzatura. Cosa aspettarsi dal futuro, quindi? È possibile che, ben presto, aumentino le cause intentate dai proprietari di opere intellettuali plagiate e cannibalizzate dall’AI, così come che i siti web più autorevoli nascondano i loro contenuti di qualità dietro paywall, e che le informazioni più attendibili provengano dalle newsletter dedicate agli abbonati. Le battaglie su copyright e licenze sono inevitabilmente destinate ad aumentare, e assieme ad esse la diffusione di strumenti come Nightshade, un tool “invisibile” che tutela le immagini protette da licenza tentando di corrompere i modelli addestrati su di esse. Allo stesso modo, è plausibile che vengano presto sviluppati nuovi e sofisticati strumenti di watermark e verifica per impedire lo scraping, e che quotidiani come l’Associated Press stabiliscano accordi chiari con aziende come OpenAI. Dal momento che l’intelligenza artificiale non scomparirà, ma anzi continuerà ad evolvere, è ora più che mai essenziale che tale evoluzione segua una direzione più etica e trasparente.