Recentemente i ricercatori di Machine Perception presso Google, in collaborazione con Daydream Labs e YouTube Spaces, hanno presentato una soluzione di "rimozione" virtuale del visore per la realtà mista che consente di creare un'esperienza VR molto più ricca e coinvolgente. Anche se questo lavoro potrebbe rilevare le direzioni dello sguardo e il battito dell'occhio quando viene abilitato da un visore modificato con la tecnologia di monitoraggio degli occhi, avevamo comunque bisogno di una serie più ricca di espressioni facciali, che sono fondamentali per comprendere l'esperienza di una persona nella VR, oltre a trasmettere importanti segnali di coinvolgimento sociale.

Oggi presentiamo un approccio per individuare le espressioni e le unità di azione facciali selezionate interamente analizzando una piccola parte del volto mentre l'utente è impegnato in un'esperienza virtuale. In particolare, mostriamo che le immagini degli occhi dell'utente, acquisite dalla telecamera a raggi infrarossi (IR) di monitoraggio degli occhi all'interno del visore VR, sono sufficienti a individuare almeno un sottoinsieme di espressioni facciali senza bisogno di utilizzare telecamere esterne o sensori aggiuntivi.
Sinistra. Un utente che indossa un HMD VR modificato con monitoraggio degli occhi utilizzato per la classificazione delle espressioni (è da notare che nel nostro metodo non usiamo alcuna fotocamera esterna, questa è solo per scopi di visualizzazione). Destra. L'espressione ricavata da immagini dell'occhio utilizzando il nostro modello. Il video del progetto può essere visualizzato qui.
Utilizziamo il deep learning per classificare le espressioni facciali delle immagini degli occhi e delle aree circostanti, che generalmente comprendono l'iride, le sclere e le palpebre e possono includere parte delle sopracciglia e della testa. Ottenere dati su larga scala annotati da questi nuovi sensori è un compito impegnativo, quindi abbiamo raccolto i dati di addestramento di 46 soggetti che assumono una serie di espressioni facciali.

Per eseguire la classificazione delle espressioni, abbiamo messo a punto una variante molto diffusa dell'architettura Inception con TensorFlow usando i calibri di un modello addestrato alla convergenza su Imagenet. Abbiamo tentato di rimuovere parzialmente la varianza a causa delle differenze di aspetto dei partecipanti (le differenze individuali che non dipendono dall'espressione), ispirandoci alla pratica standard della sottrazione dell'immagine media. Poiché l'eliminazione della varianza avviene all'interno del soggetto, è efficace per la personalizzazione. Ulteriori dettagli, insieme a esempi di immagini degli occhi e ai risultati sono presentati nel nostro paper supplementare.

Risultati ed estensioni
Abbiamo dimostrato che le informazioni necessarie per classificare una varietà di espressioni facciali sono presenti in modo affidabile nelle immagini IR degli occhi acquisite da un sensore HMD commerciale e che queste informazioni possono essere decodificate utilizzando un metodo basato su CNN (nonostante la classificazione di espressioni facciali dalle immagini degli occhi non sia un compito banale persino per gli esseri umani). Il nostro modello di inferenza può essere eseguito in tempo reale e utilizzato per generare avatar espressivi in tempo reale che possono funzionare come surrogato espressivo degli utenti impegnati nella VR. Questo meccanismo di interazione produce anche un'interfaccia più intuitiva per condividere le espressioni nella VR, a differenza dei gesti o degli input di tastiera.

La capacità di catturare le espressioni facciali di un utente utilizzando le telecamere già esistenti consente di ottenere una soluzione completamente mobile per l'acquisizione delle espressioni facciali nella VR senza bisogno di fotocamere esterne. Questa tecnologia va oltre la semplice animazione di avatar. Potrebbe essere utilizzata per fornire un'esperienza di rimozione del visore più soddisfacente, che consente di migliorare la comunicazione e l'interazione sociale nella VR trasmettendo informazioni molto più autentiche ed emotivamente complesse.

Riconoscimenti
La ricerca descritta in questo post è stata eseguita da Steven Hickson (in qualità di stagista), Nick Dufour, Avneesh Sud, Vivek Kwatra e Irfan Essa. Ringraziamo inoltre Hayes Raffle e Alex Wong di Daydream, e Chris Bregler, Sergey Ioffe e gli autori di TF-Slim di Google Research per la loro supervisione e i loro suggerimenti.

Questa tecnologia, insieme alla rimozione del visore, verrà dimostrata in occasione di Siggraph 2017 Emerging Technologies.