IA: sfide e limiti in rassegna, come tutte le rassegne un po’ noiosa ma utile. Se di intelligenza artificiale (IA) ne sapete poco, partite da qui. È una rassegna, spiegata in modo semplice, degli strumenti e dei servizi che l’intelligenza artificiale offre.
Il mondo dell’intelligenza artificiale generativa è balzato al centro dell’attenzione mondiale a partire dalla fine del 2022, con la diffusione di ChatGPT, il chatbot basato sul modello GPT-3.5 e GPT-4 sviluppato dalla società OpenAI. ChatGPT rimane una delle applicazioni rivolte al grande pubblico più note e utilizzate, ma è solo una delle tante all’interno di una costellazione di app, strumenti, siti web in continua evoluzione. Qualche esempio? Bing, MusicStar, Dall-E, Bard, CoPilot, Replicate, solo per citarne alcuni.
Le applicazioni di AI generativa più note al grande pubblico, da ChatGPT a Midjourney, si basano sui foundation model, modelli di base addestrati su enormi quantità di dati, “in grado di apprendere la distribuzione di probabilità che è sottostante ai dati di addestramento,e utilizzare questa distribuzione per generare contenuti nuovi ma simili in stile e struttura ai dati di addestramento”, spiega a Guerre di Rete Irene Di Deo, ricercatrice senior dell’Osservatorio Artificial Intelligence del Politecnico di Milano.
Quindi, almeno attualmente, quali sono le applicazioni e gli ambiti dove funziona meglio l’intelligenza artificiale generativa, per quello che è l’uso più comune e non specialistico?
“L’area Testo è quella che ha un’applicazione più immediata”, sottolinea Di Deo, “per esempio, conosco poco un tema e ho bisogno di uno screening iniziale delle informazioni; oppure voglio evitare l’effetto ‘pagina bianca’ e generare contenuti più velocemente, magari per post e messaggi sui social network, o contenuti per un blog o sito web. O anche, inserisco già del contenuto e chiedo all’AI di sintetizzarlo o rifarlo e rimodularlo per uno specifico contesto”. Leggi di più
L’onda innovativa di ChatGPT e dei suoi simili
ChatGPT è l’acronimo di Chat Generative Pretrained Transformer. È disponibile in versione gratuita – la 3.5 – e in versione Plus a pagamento con abbonamento – ChatGPT 4 – per funzioni più ampie ed evolute. La normativa a tutela della privacy negli Stati Uniti è diversa da quella europea, per cui a fine marzo scorso il Garante italiano per la protezione dei dati personali (Gpdp) è intervenuto bloccando di fatto l’attività di ChatGPT in Italia per alcune violazioni. OpenAI è quindi corsa ai ripari e la piattaforma a fine aprile è stata resa di nuovo disponibile garantendo più trasparenza e più diritti a utenti e non utenti europei.
OpenAI ha anche stretto un’alleanza con Microsoft (che ha investito miliardi nella società, divenuta ormai for-profit) che ha integrato questi modelli all’interno di Bing, il suo motore di ricerca, trasformandolo in un assistente virtuale a tutti gli effetti.
Machine learning e specialisti in AI
“ChatGPT è in grado ad esempio di rispondere a domande di follow-up, ammettere i propri errori, contestare premesse errate e rifiutare richieste inappropriate”, fa notare la ricercatrice dell’Osservatorio sull’AI, “la versione Free ha un aggiornamento dei dati che si ferma al 2021, con un sostanziale ‘buco’ di tutto ciò che riguarda gli ultimi 2 anni”, mentre la versione Plus comprende funzioni come la possibilità di attivare plugin.
L’applicazione più recente di ChatGPT funziona con un algoritmo in grado di gestire diversi tipi di dati, non solo testo, ma anche immagini. E risulta ulteriormente migliorata rispetto alle edizioni precedenti in quanto il sistema è stato addestrato non solo attraverso il machine learning ma anche con il contributo di specialisti AI in carne e ossa, che contribuiscono a ridurre i margini di imprecisione e di errore. La casa madre di ChatGPT, OpenAI, ha anche una piattaforma online per iniziare a sperimentare e poi utilizzare al meglio alcuni tra i principali.strumenti di AI generativa, tra le cui sezioni si trovano varie informazioni, istruzioni operative ed esempi pratici.
C’è anche una OpenAI community e il suo forum con cui gli utenti si confrontano, parlano dei temi e delle applicazioni più varie, si scambiano informazioni e consigli su come utilizzare al meglio questi strumenti.
Bing, l’intelligenza generativa di Microsoft
In tempo reale e anche in forma gratuita è l’offerta di Bing, il motore di ricerca e chatbot con intelligenza generativa di Microsoft basato su GPT-4 di OpenAI.
Bing, oltre a elaborare i testi richiesti, inserisce in automatico anche fonti e link. In più, chiede all’utente quale stile di risposta preferisce, se più ‘precisa’ (ovvero più fattuale e concisa) o ‘creativa’ (più originale). Un altro tool simile a Bing è YouChat.
Risultati sorprendenti e limiti da superare
“Va sottolineato che con questi sistemi tutta la generazione di testo è basata sui dati di addestramento e sulla probabilità di elaborazione, nella costruzione e nel completamento delle frasi”, rimarca la ricercatrice dell’Osservatorio Artificial Intelligence, “e questo è un meccanismo che dà risultati sorprendenti ma allo stesso tempo non è sempre del tutto corretto e infallibile. A volte può portare a esiti non esatti[ o inventati”.
Bard è invece il chatbot di Google (basato prima sul modello linguistico di grandi dimensioni LaMDA e poi su PaLM 2) e, come rimarca lo stesso colosso hi-tech nelle sue ‘istruzioni’ d’uso, “è un’AI sperimentale e potrebbe fornire risposte imprecise o inappropriate. Puoi contribuire a migliorare Bard lasciando un feedback”.
Come per gli altri strumenti di AI disponibili al grande pubblico, ci sono da tenere presenti gli aspetti che riguardano la privacy dell’utente, i suoi dati e informazioni che vengono messi online, i contenuti delle conversazioni tra la persona e la macchina. Google stesso rimarca (abbastanza) chiaramente: “non includere nelle conversazioni con Bard informazioni che possano essere utilizzate per identificare te o altri utenti”.
Ci sono anche i chatbot di Character AI, con cui si possono creare degli avatar e vari personaggi virtuali con cui si può interagire online, e che hanno un loro particolare stile di linguaggio e di risposta, in linea con il personaggio che rappresentano e riproducono: si può quindi chattare con Super Mario Bros e Luke Skywalker, con uno psicologo, un insegnante di latino o un attore.
L’AI generativa di immagini
Ci sono poi i sistemi generatori di immagini, che in alcuni casi sono meno intuitivi rispetto a quelli testuali e un po’ più complicati da utilizzare per un utente poco esperto, anche se si può usare la modalità text to image (da testo a immagine), con cui si scrivono le istruzioni da seguire e gli “ingredienti” da utilizzare, e lo strumento crea l’immagine richiesta. Sono disponibili versioni gratuite e altre con la possibilità di provare a generare alcune immagini, per poi passare a servizi in abbonamento per attività ulteriori.
Un generatore di immagini è ad esempio Dall-E, ora disponibile nella versione 2, anche questo una creatura di Open AI come ChatGPT. Funziona così: inserendo un testo con le istruzioni, il sistema fornisce 4 immagini e varianti che corrispondono alle richieste inserite, che poi si possono modificare ulteriormente, ad esempio con effetti di estensione e zoom. Uno dei punti di forza di Dall-E 2 sta nella possibilità di utilizzare il classico pennello per aggiungere dettagli alle immagini create come ombre, luci, effetti, colori.
Apprendimento su immagini raccolte online
Per quanto riguarda la generazione di immagini in formato digitale, la piattaforma online di OpenAI comprende sezioni dedicate anche a queste funzioni e applicazioni. Per creare immagini generate dall’AI, il modello di apprendimento automatico è addestrato su milioni di immagini raccolte su Internet insieme al testo a esse associato (abbiamo visto in altri articoli come questo stia sollevando domande e proteste in relazione all’uso di tali immagini). Dopodiché, a partire da un testo dato, può creare immagini nuove (text to image appunto).
Lo strumento di graphic design Canva ha aggiunto anche un generatore di immagini AI online gratuito.
Un’altra applicazione gratuita è Starry AI, con una semplice interfaccia, oltre 16 stili grafici diversi, che lascia all’utente la proprietà dell’immagine ed è anche generatore di certificati Nft (Non fungible token), che tracciano la proprietà e l’unicità delle opere e dei beni digitali. Anche il sistema Dream creato da Wombo è gratuito, semplice da utilizzare e adatto agli utenti meno esperti.
Le immagini di una vita non saranno più le stesse
Un altro strumento di generazione immagini molto noto è Stable Diffusion, frutto del lavoro della startup Stability AI e altri soggetti, simile a Dall-E e di cui sono disponibili tante versioni, da cui dipende anche la qualità finale delle immagini generate. Una delle funzioni attivabili è per esempio la ‘Negative prompt’, con cui è possibile indicare cosa non si vuole vedere nell’immagine.
Un’altra applicazione, a pagamento, è Midjourney, utilizzabile attraverso l’app Discord. È una soluzione meno intuitiva e più complessa di altre, ma sa generare immagini di forte impatto e alta qualità. Il sistema è stato premiato al concorso di belle arti alla Colorado State Fair, con il dipinto intitolato ‘Théâtre d’Opéra Spatial’. Altri strumenti e “soluzioni sono poi ad esempio NightCafè, Deep AI, Jasper Art e Photosonic.
Con il sito Replicate, invece, non si creano immagini nuove ma si offrono varie funzioni grafiche tra cui quella di riportare a nuovo vecchie fotografie in bianco e nero, migliorate con qualità digitale, anche per quanto riguarda quelle sfuocate o scattate non proprio secondo i canoni di un grande fotografo. Per la creazione e l’editing di video, anche attraverso avatar digitali, si possono utilizzare strumenti come Deepword e Rephrase.ai.
Restano aperte e in evoluzione, come già accennato, la questione del copyright, e della proprietà e trattamento delle immagini generate dall’AI.
Applicazioni digitali dalla musica alla scienza
Ci sono poi strumenti di AI generativa per il mondo della musica che permettono di creare brani e melodie liberamente utilizzabili perché non protette da copyright, o di riprodurre e modificare voci e registrazioni. È il caso, ad esempio, di MusicStar.ai, Beatoven.ai e Supertone.
Con Adobe Podcast, ancora in versione Beta, si può migliorare la qualità di un audio: per esempio, si ottiene la trascrizione dei testi dell’audio, si può editare e correggere la trascrizione, e il sistema in automatico corregge l’audio originale.
Il tool Vocal Remover da una canzone permette “di creare due tracce audio separate per voce e musica strumentale, in modo da poterle sentire separatamente.
Perplexity.ai è un chatbot (che sembra essere rivolto più a studenti universitari, ricercatori, docenti, studiosi) che permette di cercare informazioni in modo più specifico.
L’assistente virtuale per fare coding e altri strumenti di produttività
GitHub CoPilot è un assistente virtuale per fare coding, per la scrittura di codice informatico, nato da una partnership fra GitHub e OpenAI, e addestrato su miliardi di linee di codice. Suggerisce codice sulla base del contesto, ed è integrabile con i più comuni software usati dai programmatori.
Con un tool come Tome, invece, si possono creare slide inserendo del testo e generando una presentazione a tema, mentre un altro strumento di lavoro e produttività individuale è Otter.ai, che permette di fare trascrizioni delle riunioni, note automatiche, pianificazione delle attività e del calendario.
Mentre con Re-imaging home si ottengono dall’AI suggerimenti e simulazioni per rinnovare casa, stanze e ambienti. Attraverso immagini virtuali dei locali, l’applicazione ci fa vedere come si può modificare l’arredamento e il design degli interni secondo vari stili e soluzioni.
Prompt design: imparare a usare la Generative AI
Il prompt non è altro che il testo che si utilizza per richiedere alla AI generative di fare delle azioni, appunto ottenere dei testi, immagini, altre elaborazioni. Ad esempio, può essere utile tenere presente che, per quanto il risultato sia sorprendente anche in italiano, utilizzare prompt in inglese è più efficace.
Il prompt design, cioè il modo di utilizzare queste istruzioni, svolge un ruolo fondamentale nell’interazione tra la persona e l’AI, perché il modo in cui formuliamo e strutturiamo i prompt ha un impatto essenziale sui risultati ottenuti dai modelli di intelligenza artificiale.
La scelta delle parole, la struttura delle frasi e la chiarezza delle istruzioni influiscono sulla comprensione dell’AI e sulla qualità dell’output generato. Un prompt ben formulato favorisce una comunicazione fluida e precisa tra l’utente e l’AI.
“I modelli di AI sono strumenti potenti ma complessi, capaci di generare una vasta gamma di output”, rileva Irene Di Deo. “Il prompt design ci consente di guidare l’AI verso risultati specifici e desiderati. Un prompt ben progettato può influenzare la risposta dell’AI in modo tale da ottenere risposte pertinenti, accurate e coerenti con le nostre aspettative”. Il prompt design “punta quindi “alla progettazione, perfezionamento e ottimizzazione delle richieste di input di un modello di intelligenza artificiale generativa, con l’obiettivo di guidarlo verso la realizzazione dell’output e del risultato desiderato”.
Ecco alcuni esempi: specificare il tono (formale, informale, istituzionale, colloquiale) e il ruolo desiderato (come un poeta, un medico o un magistrato). Definire l’obiettivo e il contesto di riferimento; procurare dettagli utili, anche attraverso esempi e keyword da includere; specificare il formato e altri parametri, come la lunghezza dei testi e il numero di parole.”