Local blog for Italian speaking developers
Esplorazione e visualizzazione di un Open Global Dataset
6 ottobre 2017
Pubblicato da Reena Jana, Creative Lead, Business Inclusion, e Josh Lovejoy, UX Designer, Google Research
I sistemi di machine learning stanno influenzando sempre più aspetti della vita quotidiana e vengono utilizzati per i prodotti hardware e software che le persone adoperano in tutto il mondo. Di conseguenza i ricercatori e designer, che cercano di creare prodotti utili e accessibili
a tutti
, spesso devono affrontare la problematica di trovare set di dati che riflettano la varietà e il background dell'utente internazionale. Per addestrare questi sistemi sono necessari set di dati aperti, globali e con potenzialità di crescita.
Negli ultimi sei mesi abbiamo visto un set di dati di questo tipo arrivare dagli utenti di
Quick, Draw!
, che rappresenta l'attuale approccio di Google nell'aiutare il vasto pubblico internazionale a comprendere come funzionano le reti neurali. Un
gruppo di Googler
ha progettato Quick, Draw! per consentire a chiunque di interagire con un sistema di machine learning in modo divertente disegnando oggetti di uso quotidiano, come alberi e tazze, che il sistema cerca poi di indovinare entro 20 secondi. Anche se l'obiettivo di Quick, Draw! è solo quello di creare un gioco divertente che sfrutti il machine learning, abbiamo ricevuto 800 milioni di disegni da 20 milioni di persone da 100 paesi diversi, come Brasile, Giappone, Stati Uniti e Sudafrica, solo per citarne alcuni.
Stiamo per rilasciare un set di dati aperto basato su questi disegni in modo tale che le persone possano contribuire, analizzare e fornire informazioni per il design del prodotto con questi dati. Il set di dati comprende attualmente 50 milioni di disegni Quick Draw! generati dai giocatori (col tempo ne rilasceremo altri dai 800 milioni).
È una quantità di dati notevole e offre anche spunti interessanti su come coinvolgere un'ampia varietà di persone a partecipare (1) all'addestramento di sistemi di machine learning indipendentemente dal loro background tecnico, (2) alla creazione di set di dati aperti che riflettano un ampio spettro di culture e prospettive.
Individuazione di pattern nazionali (e globali) a colpo d'occhio
Per comprendere rapidamente ed efficacemente i pattern visivi all'interno del set di dati, abbiamo lavorato con l'artista Kyle McDonald per sovrapporre le migliaia di disegni ricevuti da tutto il mondo. Questo processo ci ha aiutato a creare immagini composite e a identificare le tendenze di ogni paese, oltre che a livello globale. Abbiamo creato le animazioni di 1000 disegni sovrapposti di gatti e sedie provenienti da tutto il mondo per mostrare come individuiamo le tendenze visive utilizzando questi dati.
Gatti, realizzati con 1000 disegni internazionali
Sedie, realizzate con 1000 disegni internazionali
Schizzi di oggetti comunemente disegnati, come gatti (alberi, arcobaleni o teschi), spesso simili in tutte le culture
Tuttavia, per gli oggetti che potrebbero essere familiari per alcune culture ma non per altre, abbiamo osservato differenze notevoli. I panini avevano forme ben chiare o erano un insieme confuso di linee; i manici delle tazze erano orientati in direzioni opposte; le sedie sono state disegnate frontalmente o lateralmente, a seconda del paese o della regione di provenienza.
Non esiste una soluzione unica per tutti
Abbiamo capito che questi disegni compositi possono rivelare come le prospettive e le preferenze si differenzino nel pubblico di regioni diverse, dal tipo di pane utilizzato nei panini alla forma della tazza del caffè e all'estetica scelta per rappresentare oggetti in modo da renderli visivamente accattivanti. Ad esempio, una visuale più diretta e frontale è più comune in alcuni paesi mentre altri scelgono quella laterale.
La sovrapposizione delle immagini ha anche rivelato come migliorare il metodo di addestramento delle reti neurali quando manca una varietà di dati, persino all'interno di un set di dati grande, aperto e internazionale. Ad esempio, quando abbiamo analizzato 115.000 disegni di scarpe nel set di dati di Quick, Draw!, abbiamo scoperto che un singolo stile di scarpe, simile a una scarpa da ginnastica, è stato rappresentato in modo predominante. Poiché è stato disegnato così spesso, la rete neurale ha imparato a riconoscere solo
questo
stile come "scarpa".
Proprio come nel mondo fisico, nel campo dei dati di addestramento, non esiste una soluzione unica per tutti. Ci siamo anche chiesti come analizzare coerentemente ed efficacemente i set di dati per individuare eventuali indizi di distorsione latente? Cosa succederebbe se un team costruisse un classificatore basato su un set di dati non variato?
Diagnosi dei dati per l'inclusione
Grazie allo strumento open source
Facets
, rilasciato il mese scorso come parte dell'iniziativa
PAIR
di Google, i pattern possono essere individuati rapidamente nell'ambito dei grandi set di dati. L'obiettivo è diagnosticare efficientemente e visualmente quanto possano essere rappresentativi i grandi set di dati come quello di Quick, Draw!
Ecco uno screenshot del set di dati di Quick, Draw! all'interno dello strumento Facets, che ha consentito di collocare migliaia di disegni "sfaccettandoli" in più dimensioni in base ai loro valori caratteristici, come il paese (fino a un massimo di 100). È anche possibile filtrare per caratteristica come "facce random" in una visualizzazione di 10 paesi che può essere ampliata a 100 paesi. Si può vedere a colpo d'occhio ogni paese rappresentato in proporzione agli altri. È inoltre possibile ingrandire e visualizzare i dettagli di ogni disegno per analizzare più in profondità i singoli punti dati. Ciò è particolarmente utile quando si lavora con un grande set di dati visivi come Quick, Draw!, poiché consente ai ricercatori di individuare piccole differenze e anomalie o di segnalare le tendenze visive su piccola scala che potrebbero emergere in seguito come pattern all'interno del set di dati più grande.
Ecco gli stessi dati di Quick, Draw! per le "facce random" sfaccettati in base a 94 paesi e visti da un'altra prospettiva. Nei pochi secondi necessari a Facets per caricare i disegni in questa nuova visualizzazione è già chiaro che i dati rappresentano principalmente gli Stati Uniti e i paesi europei. È logico, considerando che il gioco Quick, Draw! è attualmente disponibile solo in inglese anche se in futuro aggiungeremo altre lingue. Tuttavia, la visualizzazione ci mostra che il Brasile e la Thailandia sembrano essere paesi non-anglofoni relativamente ben rappresentati all'interno dei dati. Ciò ha suggerito che i designer potrebbero ricercare quali elementi del design dell'interfaccia hanno avuto un riscontro positivo in questi paesi e poi utilizzare le informazioni estrapolate per migliorare Quick, Draw! nella prossima versione per le sezioni di pubblico globali non-anglofone. Utilizziamo anche i dati sfaccettati per comprendere meglio a quali lingue locali dare la priorità per le traduzioni future.
Un altro risultato ottenuto utilizzando Facets per diagnosticare i dati per l'inclusione di Quick Draw! è stato identificare modi concreti di migliorare la varietà dei dati oltre a individuare le potenziali distorsioni. Questi potrebbero essere i miglioramenti:
Modificare i protocolli per la classificazione umana dei dati o la generazione dei contenuti affinché i dati possano rappresentare più accuratamente le popolazioni locali o globali
Analizzare i sottogruppi di dati e identificare l'equivalente database di "intersezionalità" emerso nell'ambito dei pattern visivi
Aumentare e riponderare i dati affinché siano più inclusivi
Con il rilascio di dati e strumenti come Facets, speriamo di facilitare l'esplorazione di approcci più inclusivi nell'ambito del machine learning e trasformare queste osservazioni in opportunità di innovazione. Siamo solo all'inizio delle scoperte con Quick, Draw! e Facets. Ti invitiamo a disegnare di più con noi!
Riconoscimenti
Jonas Jongejan, Henry Rowley, Takashi Kawashima, Jongmin Kim, Nick Fox-Gieg hanno creato Quick, Draw! in collaborazione con il Google Creative Lab e il team Data Arts di Google. Il video sulla correttezza nel machine learning è stato creato da Teo Soares, Alexander Chen, Bridget Prophet, Lisa Steinman e JR Schmidt del Google Creative Lab. James Wexler, Jimbo Wilson e Mahima Pushkarna di PAIR hanno realizzato Facets, un progetto capitanato da Martin Wattenberg e Fernanda Viégas, Senior Staff Research Scientist del team Google Brain, e UX Researcher Jess Holbrook. Ian Johnson del team Google Cloud ha contribuito alle visualizzazioni dei disegni sovrapposti.
Etichette
Android
Firebase
machine learning
Google Cloud Platform
GDL
Eventi
Google Developers Live
Google Play
TensorFlow
App
Chrome
Cloud
api
GDLItalia
GDE
GDG
Google Assistant
iOS
Kotlin
Actions on Google
Deep Learning
AppEngine
AMP
BigQuery
Cloud Functions
Flutter
Android Studio
Google Developers Expert
Università
Google AppEngine
JavaScript
AI
Android Wear
GAE
Google Play Store
HTML5
Maps
security
Android App Development
AngularJS
IoT
Kubernetes
Annunci
Cloud Firestore
Cloud Machine Learning
Google I/O
Polymer
Android Things
Community
DevTools
Google App Engine
intelligenza artificiale
Entrepreneurship
Firebase Analytics
GSoC
Games
Google Cast
ML
open source
Crashlytics
Dart
Diversity
Drive
Google Data Studio
Google Play Games
TensorFlow Lite
Android Developers
Android O
Cloud Spanner
Cloud TPU
Compute Engine
DevFest
Google Compute Engine
Google Developers
Material Design
Mobile
PWA
Python
Startup
AIY Project
ARCore
Android Jetpack
AndroidDev
Androidq
Apps Script
Artificial Intelligence
Augmented Reality
Firebase Cloud Messaging
Google Cloud
Google Maps
Gsuite
IO19
ML kit
Research
VR
coding
unity
#io19
AR
Android Dev Summit
Android Developer
Android Q
Cardboard
Cloud AI
Coral
Developers
Dialogflow
Firebase Realtime Database
Gmail
Google AI
Google Cloud Messaging
Google ContainerEngine
Google Play Console
Kotlin Coroutines
NLP
Programming
Responsive Design
TensorFlowjs
Testing
WTM
Women
beacons
cloud storage
developer
node JS
student programs
women techmakers
API Cloud Vision
Add-ons
Android P
AndroidDevStory
Animation
AutoML
Brillo
Classroom
DSC
Database
Developer Student Clubs
Edge TPU
Fabric
Featured
Flutter Web
G Suite
GWT
GoLang
Google
Google Brain
Google Cloud Next
Google Container Engine
Google Developer Groups
Google I/O Extended
Graph
Hosting
Instant Apps
Keras
Livedata
Mobile Sites
Prediction
Privacy
Project Tango
SDK
Stackdriver
Tales
UI
Udacity
Virtual Reality
Web
Web Development
YouTube
analytics
android security
api.ai
courses
google io
indies
natural language processing
reti neurali
sign-in
young developers
2d Animation
3d
AIY
ARkit
Adversarial Learning
Alpha
Android App
Android App Developmen
Android App bundle
Android Architecture
Android Architecture Components
Android Auto
Android Automotive OS
Android Dev Summit Android Developer
Android Developer Challenge
Android Developers GooglePlayAwards
Android Development
Android Go
Android Instant App
Android Pie
Android Q Scoped Storage
Android Q audio
Android Styles
Android audio playback capture
Android codelabs
AndroidTV
AndroidX
Angular
Aogdevs
Api Design
App Development
App Distribution
Apps
Architecture
Architecture Components
Arduino
Best Practices
Betatesting
Bugs
C++
Certification
Cloud Anchors
Cloud Next
Cloud Run
Cloud Service Platform
Cloud Shell
Cloud Study Jam
Coached Conversational Preference Elicitation
Commerce
Community Connector
Computer Science
Consistency
Containers
Converge
Conversation Design
Crash Reporting
DLS Design
Dagger
Data Science
Databases
Dependency Injection
Design
Developer Communities
Developer Community
Developer Culture
Developer Story
Developing Media Apps
Development
Eager
Edge TPU Dev Board
Education
Emulatore Android
Error Message
Eslint
Europe
Firebase Extensions
Firebase Summit 2019
Firebasehosting
Flutter 1.5
Flutter at IO
FlutterDark
GCE
GDD
Game Development
Gboard
Gesture Navigation
Glass
Go
Google AI Quantum
Google App Script
Google Cloud Functions
Google Cloud billing
Google Coral
Google Developer Days
Google Home Hub
Google IOS Android
Google Identity Platform
Google Launchpad
Google Lens
Google Now
Google Photos
Google Play Devs
Google Play Indie Games Festival
Google Play Instant
Google Plus
Google codelabs
Google+
GoogleDevWeekly
GoogleLaunchpad
GooglePlay
Graphics
Healthcare
I/O
IO
IO19 Flutter
In-app Billing
Indie Games
Indie Games Festival
Indie games showcase
Indie showcase
Ingress
Instant Games
Issues
Java
Jetpack
Knative
Kotlin Beginners
Kotlin Everywhere
Kotlin codelabs
Lighthouse
Live Caption
Live Streaming
Localization
Location
M-Theory
Mondaygram
Monetization
NYT
NativeScript
Navigation
Neural Graph Learning
Neural Structured
Nodejs
OS
OS Updates
Olivex
One Time Codes
Online Education
PHA
Performance Monitoring
Policy
Posenet
Project Mainline
Project Treble
Quantum Computing Theory
Reactive Programming
Regression
Remote Config
Resonance Audio
Room
Scoped Storage
Semantics
Semi Supervised Learning
Serverless
Sms Retriever Api
Sms Verification
Speech Recognition
Swift
Tensorflow Core
Tensorflow Hub
Test Lab
Text
Tokenizer
Tpu
Transformers
UX
UX Design
UX Research
Universal Sentence Encoder
Unsupervised Data Augmentation
Unsupervised Learning
User Experience
Viewmodel
Voice
WWW
Wear OS
WebAssembly
Widget
Women in Tech
WomenTechmakers
android kotlin
app stability
assistant
audio recording
augmented faces
authsub
best practices and updates
billing
botnet
business
c++ games
cancer
chatbot
chrome privacy
codelab
codelabs
competition
daydream
designer
dominio .dev
error handling
event
firebase games
firebase gdc
firebase hosting
firebase unity
game center authentication
game testing
games authentication
gdc
google summer of code
googledevelopers
grow
hashcode
indie
indie developers
internship
kids
machine intelligence
machine learning accelerator
maker
multi-platform
nearby
oauth
openid
performance
persistent AR
privacy sandbox
prizes
prototype
purchase flows
queries
realtime
responsible AI
security rules
showcase
solutions challenge
startup africa roadtrip
startup times
students
summer of code
unity crashlytics
verify apps
win
Archivio Blog
2020
feb
gen
2019
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2018
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2017
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2016
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2015
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2014
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2013
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
Feed
Follow @GoogleDevsItaly