Di che cosa ti occupi?
Sono uno scrittore di romanzi e fiction vecchio stile, ma molte delle mie storie riguardano l'impatto sociale e culturale della tecnologia. Il mio primo romanzo è ambientato nella cultura di Internet e dei videogiochi, quindi ho sempre seguito e pensato allo sviluppo del software senza che fosse necessariamente parte della mia vita o della mia carriera. Quando ero giovane e frequentavo l'università, ho lavorato anche in molte performance e produzioni musicali professionali. Queste esperienze mi hanno permesso di avere una certa familiarità con hardware e software in ambito creativo e sono stati il motivo principale per cui mi sono sentito in grado di affrontare questo progetto. Ultimamente mi sono dedicato a piccoli progetti per cercare di instaurare un dialogo e una collaborazione maggiori tra il mondo letterario e quello della tecnologia. Penso che queste due culture abbiano molto da offrirsi.
Come ti sei imbattuto nell'API di Google Speech-to-Text e cosa l'ha resa adatta ad aggiungere elementi visivi alla poesia?
Abbiamo ricercato ogni possibile API e software speech-to-text esistente per trovare la soluzione più reattiva e che offrisse i minori tempi di ritardo possibili. Ne abbiamo considerate molte, ma alla fine abbiamo scelto Cloud Speech-to-Text, e ha funzionato perfettamente. Proprio perché l'API può restituire così rapidamente un risultato provvisorio, un'ipotesi e infine un'ipotesi finale aggiornata, si è rivelata ideale per questo progetto. Ci siamo trovati leggermente in difficoltà all'inizio ma, non appena abbiamo cominciato a utilizzare l'API, si è risolto tutto.
Come si svolgono queste letture di poesia? Potresti parlarmi un po' di CultureHub?
A giugno, durante la prima settimana del progetto, abbiamo dedicato quattro giorni allo sviluppo con Oren Shoham, un geniale studente ITP della NYU, e poi tre giorni al testing effettuato da alcuni scrittori. Ho semplicemente mandato un'email a un gruppo di amici (fortunatamente il gruppo include molti autori premiati) che sono stati così gentili da partecipare e gettarsi a capofitto nel progetto. Non avevamo idea di cosa avrebbe o non avrebbe funzionato, quindi è stato un processo piuttosto sperimentale.
A novembre, durante la seconda settimana del progetto, abbiamo lanciato l'API su Unity e un gruppo di giovani sviluppatori di giochi ha creato i prototipi di diversi progetti visivi per il sistema. Hanno trascorso quattro giorni a sfornare un'idea dopo l'altra e poi abbiamo organizzato un evento pubblico, ossia una lettura con i poeti Meghann Plunkett, Rhiannon McGavin, Angel Nafis e il drammaturgo Jeremy O. Harris, solo per vedere come si sarebbe comportato il progetto nel contesto di un evento. Entrambe le volte ho cercato di creare ambienti collaborativi per evitare di fare tutto da solo. Nell'ambito delle espressioni creative sperimentali, penso sia fondamentale ascoltare il maggior numero di punti di vista possibile.
CultureHub è una collaborazione tra il famoso La MaMa Experimental Theatre Club e il Seoul Institute of the Arts. È costituito da una comunità artistica globale che supporta e cura diversi i tipi di opere utilizzando le tecnologie emergenti. Si distingue per i progetti in cui ha utilizzato la telepresenza in svariate modalità creative. È l'ambiente ideale per testare un'idea rivoluzionaria come questa, mai provata prima.
Come hai risolto questa problematica con Cloud Speech-to-Text? Hai qualche snippet di codice da condividere?
Nella versione iniziale abbiamo usato uno script Python che interagiva con l'API; il più grande cambiamento è stato adattarlo e ottimizzarlo per l'esecuzione pseudo-continuativa e quindi eseguire il feed dei risultati nell'NRC Word-Emotion Association Lexicon, un database creato dai computer scientist Saif Mohammad e Peter Turney. Abbiamo quindi inserito i risultati relativi a colore e testo in una patch Max/MSP che ha generato i risultati visivi.
La seconda versione utilizzava Node invece dello script Python, e Unity al posto di Max/MSP. È ora disponibile su GitHub.
Hai consigli per i nuovi sviluppatori che desiderano iniziare a utilizzare Cloud Speech-to-Text o il machine learning in generale?
Direi loro che, anche se non hanno esperienze di programmazione, se hanno un'idea, di seguirla. Creare ambienti collaborativi in cui i talenti creativi non tecnici possano collaborare con gli sviluppatori è innovativo e divertente di per sé. Penso che sia racchiuso un enorme valore nelle idee che non hanno necessariamente un'impronta o una prospettiva commerciale. Niente di ciò che volevo fare rappresentava una potenziale idea commerciale o qualcosa del genere, era solo un progetto puramente artistico realizzato con un suo perché.
Domande per Max? Puoi trovarlo su Twitter @nhyphenc e andare a vedere il repository GitHub per questo progetto qui.