Videomaker, autore e docente, Massimo Toniato presenta AI Killed the Video Star, un libro che racconta come l’intelligenza artificiale stia trasformando il mondo dell’audiovisivo.
Un dialogo lucido e ironico su metodo, creatività e nuove professioni ibride. Tra rischi, hype e opportunità concrete, Toniato spiega perché non serve temere la macchina, ma imparare a conoscerla, usarla e mantenerci umani nel processo creativo.
Link utili
Trascrizione
Davide: Ciao a tutti! Siamo qui oggi con Massimo Toniato: professore, pensatore e grande conoscitore di intelligenza artificiale.
Massimo: Bello, davvero! È la cosa più lusinghiera che mi sia mai stata detta.
Davide: Sai com'è, abbiamo cercato a lungo su internet tutto il materiale a tua disposizione, e questa è la cosa più interessante che abbiamo trovato.
Massimo: Ah, ok, ha un senso. Ma scusate, avete cercato su internet o avete chiesto a ChatGPT?
Fabio: Eh, ma non è la stessa cosa!
Massimo: Oh mio Dio, no che non è la stessa cosa! Chiedere a un LLM è tutt'altra cosa che fare una ricerca su internet. Comunque, togliamoci di dosso questa cosa del professore. Capita nella vita di insegnare alle scuole superiori, ed è una fortuna, ma faccio anche molte altre cose. Sono un videomaker freelance, mi occupo di audio e video a 360 gradi. Da quando è arrivata questa gigantesca rivoluzione dell'intelligenza artificiale, sono molto interessato alle declinazioni che uniscono queste mie due passioni. Penso sia la stessa cosa successa a voi.
Davide: Assolutamente sì, noi lo vediamo più dal lato aziendale e marketing, ma l'unione tra le attività quotidiane e il mondo dell'AI ci affascina tantissimo. Oggi però siamo qui per parlare di te. Facciamo subito la "marchetta": hai scritto un libro che si intitola AI Killed the Video Star.
Massimo: Esattamente. È un libro edito da Post Editori. Uscirà il 10 maggio, non so se prima o dopo la pubblicazione di questo podcast! Sostanzialmente è una raccolta di pensieri e riflessioni di stampo metodologico. Analizza come chi fa il mio mestiere (chi si occupa di audiovisivo) vedrà cambiare le carte in tavola a causa dell'intelligenza artificiale. Cerco però di non farmi prendere dai falsi allarmismi, da quei proclami che ci vogliono già finiti perché "tanto farà tutto la macchina". La realtà è che il nostro cervello ci servirà ancora molto a lungo. E aggiungo: per fortuna!
Fabio: A chi è destinato questo libro? Ai tuoi studenti o ai tuoi colleghi?
Massimo: Chi non vuole usare il cervello difficilmente si orienta verso la carta stampata. Il mio auspicio è che tutti abbiano interesse a leggerlo, ma ho pensato in primis ai miei colleghi: chi si occupa di riprese, montaggio, scrittura per l'audiovisivo, illuminotecnica. Siamo tantissimi professionisti e condividiamo tutti una paura atavica: che dal giorno alla notte il nostro lavoro cessi di esistere. C'è chi guarda questa rivoluzione con ansia, per paura di non pagare le bollette, e chi con curiosità. Il nostro è un lavoro in costante evoluzione dai tempi dei fratelli Lumière: è arrivato il montaggio di Méliès, il Technicolor, il sonoro, il digitale, il 3D.
Davide: E infine Boldi e De Sica col cinepanettone, che hanno chiuso il cerchio! La vetta è là, da lì si può solo scendere.
Massimo: (ride) Esatto!
Davide: Tornando al libro: è una riflessione prettamente teorica o ci sono utilizzi pratici su come usare l'AI per l'editing e lo storyboard?
Massimo: Mi piace considerarlo un libro di metodo, con la pretesa difficilissima di non diventare obsoleto nel giro di pochi mesi. Oggi si scrivono libri sull'AI a ritmi frenetici, e spesso durano il tempo di un aggiornamento del software. Io parlo di metodo più che di strumento. Oggi si chiama GPT-4, domani chissà. Ma se noi conosciamo i pregi e i difetti di questi sistemi, sappiamo come deve evolvere la nostra professione. Il cervello è l'arma più grande che abbiamo.
Fabio: Ci fai un esempio concreto di questo metodo?
Massimo: Immaginiamoci il classico ritornello: "Esce il nuovo video interamente fatto dall'intelligenza artificiale". Cosa vuol dire nella realtà? Si pensa al quindicenne che scrive al computer "fammi un video così", preme invio, fa un paio di rerolling e gli arriva il file già scaricabile, scalettato, doppiato, musicato e con le inquadrature al loro posto. Ma non funziona così! Dietro a un video generato dall'AI ci sono moltissime professioni tradizionali. Bisogna editare, creare prompt ottimizzati per flussi di lavoro specifici. Spesso serve una figura ibrida che conosca sia il video tradizionale che l'AI.
Davide: Questo è interessantissimo. L'AI ci ruberà il lavoro? Sì, ma soprattutto lo cambierà. Di fondo stiamo parlando con una macchina che, per quanto intelligente, non può incanalare l'esperienza di vent'anni di un fonico. L'editing video autonomo parte sempre dall'input umano, dal prompt.
Massimo: Esatto. Il problema ha a che fare col marketing. Quando vediamo un nuovo modello che fa meraviglie, stiamo assistendo a un'operazione di cherry-picking. Su 100 esperimenti, l'azienda prende il migliore e lo dà in pasto alla stampa. Chi guarda si convince che quella sia la normalità, ma in realtà è la punta più alta mai raggiunta dal modello. Questi modelli hanno ancora limiti giganteschi, tanto che spesso è preferibile la filiera di produzione tradizionale fatta di cervello umano, carta e penna.
Fabio: Io lo noto molto nella creazione di testi. Quando generi 4 o 5 articoli su argomenti diversi, vedi che sono perfetti ma incredibilmente standardizzati. Sono tutti uguali. Succede anche nei video?
Massimo: L'intelligenza artificiale è un trucco statistico. Il motivo per cui esiste oggi è la disponibilità dei dati degli ultimi vent'anni di internet e la potenza dei processori. Essendo giochi statistici, risentono della "regressione alla media": si finisce in quel collo di bottiglia desiderabile, ma estremamente generico e standard. È un "brodino tiepido", quasi banale. Però questo limite nasconde un rovescio della medaglia: se noi forziamo lo strumento con spunti fuori dagli schemi, andiamo a solleticare corde lontane dalla banalità statistica e scateniamo idee straordinarie. Ma serve un'intenzione umana. Chi se ne frega di avere un martello se non ho chiodi da piantare?
Davide: I limiti sono fondamentali. Di recente l'aggiornamento nella creazione di immagini ha sconvolto il mercato. Prima per generare un video dovevi essere un tecnico: scrivere i prompt per la camera, la scena, l'ordine delle inquadrature. Modelli come Kling o Runway ti permettono di fare in due secondi la tua "Simpsonizzazione" o di trasformarti in un personaggio dello Studio Ghibli.
Fabio: Però nella loro stessa pagina di presentazione, se scorri in fondo, ti mostrano i limiti enormi che ancora hanno, come difetti di cropping o editing imprecisi. Noi diciamo sempre: "Vi insegniamo a usare il martello, ma sta a voi non usare un martello pneumatico per piantare un chiodino".
Massimo: Mi fate venire in mente quando, una decina di anni fa, uscì il primo film girato interamente con un iPhone. Tutti sognavano distribuzioni di alto livello con un telefono in tasca. Si può fare, certo, ma devi strutturare un intero flusso di lavoro che giri attorno alle limitazioni dell'iPhone: ottiche fisse, sensore piccolo, bitrate limitato, bilanciamento del bianco imperfetto. Con l'AI è la stessa cosa: il punto di arrivo è ragguardevole, ma devi far girare tutto il flusso di lavoro (il colorista, l'editor, il fonico) come se fossero satelliti intorno alla grande stella che è il modello AI.
Davide: Siamo d'accordissimo. E sull'uso degli strumenti specifici? Noi consigliamo sempre di usare modelli diversi per task diversi: Claude di Anthropic per scrivere perché ha uno stile migliore, Perplexity per cercare le fonti, NotebookLM per fare RAG e organizzare i documenti. ChatGPT rischia di essere un "tuttofare" che alla fine fa tutto in modo mediocre.
Massimo: Il concetto chiave è lo spirito critico. Le persone spesso si accontentano del primo risultato, come facevano un tempo con le ricerche su Google. Nel mondo audiovisivo mancano ancora dei veri modelli generalisti che funzionino bene. Non esiste una sola piattaforma in grado di farmi storyboard, scrittura, sottotitoli, animazione e color correction tutto insieme in modo perfetto. È un'attività umana ancora troppo complessa.
Fabio: E tu come ti organizzi operativamente?
Massimo: Ieri ho fatto un video editoriale di un minuto e ci ho messo un'ora. Ho usato una decina di piattaforme diverse. Sono partito da un articolo di giornale, l'ho fatto sintetizzare a ChatGPT dicendogli che poi sarebbe finito su Pictory. Pictory me lo ha scalettato e associato a video di stock. Poi ho esportato tutto su un software di editing tradizionale per i sottotitoli e il doppiaggio. A differenza della generazione di immagini (il famoso prompt-to-content) che ormai è seamless e senza frizioni, sul video questa immediatezza ancora non c'è. L'umano sgamerà sempre che c'è dell'algoritmico in mezzo. Quando capisci che un contenuto è fatto dall'AI, non vi si abbassa l'engagement?
Davide: Sì, assolutamente. Leggere testi troppo simili mi fa perdere interesse. O quando sento i doppiaggi automatici con l'accento sbagliato.
Fabio: Però l'appiattimento sblocca anche possibilità positive. Ad esempio, usando ElevenLabs traduco in 5 minuti video dal tedesco all'italiano con un risultato accettabile. L'ho proposto anche ai docenti per tradurre contenuti esteri che altrimenti gli studenti ignorerebbero. Quello apre possibilità enormi, nonostante la qualità non sia perfetta.
Massimo: Sono d'accordo con te sugli LLM testuali o vocali. Il mio calo di engagement si riferisce ai video puramente generati dall'AI: quegli slow-motion spinti, le luci cangianti, la pelle piallatissima, quegli stili tutti uguali. Ad oggi l'immagine generata da zero sa ancora un po' di "cartone". La rivoluzione la vedo più nella modalità interpolazione: parti da un tuo video e l'AI lo modifica o lo migliora.
Davide: Questa evoluzione secondo te segmenterà il mercato? Chi potrà permettersi video di qualità fatti da umani e chi solo quelli di serie B fatti dall'AI?
Massimo: Assolutamente sì. Finiremo per segmentare il mercato, come è successo con l'arrivo della fotografia digitale e degli smartphone. Ci sarà una fruizione "alta", più umana, ragionata ed empatica, e una fruizione più bassa, usa e getta, perfetta per i social network o i canali di news gratuite, dove una qualità dell'80% a fronte di un risparmio economico del 90% va benissimo. Ma attenzione: cosa faranno gli umani che fino a ieri facevano quel lavoro di "bassa lega"? Serviranno investimenti statali e privati per la riqualificazione professionale, perché molte persone verranno lasciate a casa.
Fabio: Ma sui contenuti di Serie A e Serie B siamo già abituati! Noi usiamo Spotify Free con la pubblicità invece del Premium. Sarà come Patreon, dove chi crea contenuti di altissima qualità chiederà un obolo ai suoi fan, tornando a una sorta di "mecenatismo"?
Massimo: Tutto sommato l'arte si è sempre retta in piedi così. Ma non vale solo per l'arte, vale per le notizie. Spesso preferiamo un'informazione gratuita ma infestata da pubblicità, clickbaiting e scarsa qualità, piuttosto che pagare per un'informazione cesellata e approfondita. Dobbiamo capire che se una cosa è gratis, il prodotto sei tu e la tua attenzione.
Davide: Però l'algoritmo ha anche tolto le barriere all'ingresso! Prima su YouTube dovevi avere 100.000 iscritti per essere notato. Oggi con la logica "alla TikTok", basata sugli interessi, chiunque partendo da zero può esplodere.
Massimo: Non dico che siano modelli antitetici, ma se vuoi un'informazione complessa ed esci dalla logica dell'attenzione come merce di scambio, è giusto pagare. La gente si lamenta: "Ho finito i crediti dell'AI". E certo, devi pagare! L'intelligenza artificiale costa tantissimo, brucia milioni in ricerca, potenza di calcolo e sostenibilità ambientale. Prendete Premiere: da giugno le funzioni generative di Adobe Firefly si pagano. L'AI non è gratis sotto nessun punto di vista.
Fabio: Siamo arrivati in chiusura. Ti facciamo le stesse domande con cui chiude sempre il podcast Globo de Il Post: ci consigli un film, un libro, un tool e... un prompt?
Massimo: Ci sto! Per il film vado sul sicuro: Her di Spike Jonze (2013). È abbondantemente profetico e lo stiamo vivendo sulla nostra pelle, sperando senza le derive nocive del film.
Per il libro, oltre al mio AI Killed the Video Star ovviamente, consiglio Il mito dell'intelligenza artificiale di Erik J. Larson. È un ingegnere e un divulgatore bravissimo che ci ricorda di andarci piano, perché non è tutto oro ciò che luccica.
Per il tool, da videomaker, trovo una soddisfazione gigantesca con Runway. Costa, ma l'ultimo modello fa cose interessanti che non avevo mai visto fare a un algoritmo di immagini animate.
Davide: E per chiudere, il prompt?
Massimo: Il mio prompt preferito da dare a ChatGPT è: "Se dovessi distruggere l'umanità, da dove partiresti?". Sarebbe una bellissima chiusura a effetto!
Davide: Fantastico! Grazie mille Massimo, è stato un grandissimo piacere.
Massimo: Grazie a voi ragazzi, sarete insostituibili. Ciao!