Presentazione del Doodle Recognition Challenge di "Quick, Draw!" Kaggle
15 ottobre 2018
Il riconoscimento della grafia online consiste nel riconoscere forme strutturate da input scritti a mano libera. Anche se Translate, Keep e Handwriting Input utilizzano questa tecnologia per riconoscere il testo scritto a mano, questi prodotti Google funzionano con qualsiasi forma predefinita per la quale siano disponibili dati di addestramento sufficienti. La stessa tecnologia, che consente di digitalizzare il testo scritto a mano, può anche essere utilizzata per migliorare le tecniche di disegno e creare mondi virtuali, oltre a rappresentare la rivoluzionaria direzione di ricerca che esplora il potenziale della grafia come modalità dell'interazione uomo-computer. Ad esempio, il gioco Quick, Draw! ha generato un set di dati di 50 milioni di disegni (su un miliardo e oltre di disegni eseguiti) che ha ispirato molti nuovi progetti.
Per incoraggiare ulteriori ricerche in questo incredibile campo, abbiamo lanciato il Doodle Recognition Challenge di "Quick, Draw!" Kaggle, che sfida i partecipanti a creare un classificatore di machine learning migliore per il set di dati "Quick, Draw!" esistente. È importante sottolineare che, poiché i dati di addestramento provengono dal gioco stesso (in cui i disegni possono essere incompleti o non corrispondere all'etichetta), questa sfida necessita lo sviluppo di un classificatore in grado di apprendere efficacemente da dati rumorosi ed eseguire correttamente un set di test con l'etichetta manuale ottenuta da una diversa distribuzione.
Il set di dati
Nel gioco originale "Quick, Draw!", al giocatore viene richiesto di disegnare un'immagine appartenente a una certa categoria (cane, mucca, auto ecc.). Il giocatore ha quindi 20 secondi per completare il disegno. Se il computer riconosce il disegno correttamente entro quell'intervallo, guadagna un punto. Ogni gioco è costituito da 6 categorie scelte a caso.
A causa delle meccaniche di gioco, le etichette del set di dati di Quick, Draw! rientrano nelle seguenti categorie.
- Corretto: l'utente ha disegnato la categoria richiesta e il computer l'ha riconosciuta correttamente solo dopo che l'utente ha terminato il disegno.
- Corretto ma incompleto: l'utente ha disegnato la categoria richiesta e il computer l'ha riconosciuta correttamente prima che finisse di disegnare. L'incompletezza può variare da un disegno quasi finito a uno in cui una sola parte della categoria è stata disegnata. Questo è probabilmente abbastanza comune nelle immagini contrassegnate con "riconosciuto correttamente".
- Corretto ma non riconosciuto correttamente: il giocatore ha disegnato la categoria corretta ma l'AI non l'ha riconosciuta. Alcuni giocatori reagiscono aggiungendo altri dettagli. Altri scarabocchiano sopra e riprovano.
- Incorretto: alcuni giocatori pensano a concetti diversi quando vedono una parola, ad esempio nella categoria "seesaw" (che in inglese contiene la parola "sega" ma significa "altalena"), abbiamo osservato un certo numero di disegni appartenenti alla categoria "sega".
Come iniziare
Abbiamo già pubblicato un tutorial che utilizza questo set di dati e ora invitiamo la community a sviluppare questo o altri approcci per raggiungere un'accuratezza ancora maggiore. Puoi iniziare visitando il sito Doodle Recognition Challenge e sfruttare i kernel esistenti che consentono di analizzare i dati e visualizzarli. Non vediamo l'ora di scoprire i diversi approcci adottati dalla community nel challenge e come riuscirai a migliorare il modello di produzione originale.
Riconoscimenti
Vorremmo ringraziare tutti coloro che hanno lavorato con noi in questo progetto, in particolare Jonas Jongejan e Brenda Fogg del team Creative Lab, Julia Elliott e Walter Reade del team Kaggle e il team di riconoscimento della grafia.