Local blog for Italian speaking developers
Il What-If Tool: sondaggio senza codice di modelli di machine learning
28 settembre 2018
Pubblicato da James Wexler, Software Engineer, Google AI
Creare sistemi di machine learning (ML) efficaci significa farsi molte domande. Non è sufficiente addestrare un modello. Anzi, gli esperti sono un po' come dei detective che cercano di comprendere a fondo il loro modello:
In quale modo le modifiche apportate a un datapoint influiscono sulla previsione del modello? Si comporta diversamente con i vari gruppi, ad esempio, con le persone storicamente emarginate? Quanto è vario il set di dati su cui sto testando il modello?
Rispondere a questo tipo di domande non è facile. Sondare i vari scenari "what if (ipotetici)" spesso significa scrivere del codice pensato specificatamente per analizzare un modello. Non solo è inefficiente, ma rende anche difficile la partecipazione di non programmatori al processo di modellazione e miglioramento dei modelli ML. Uno degli obiettivi dell'
iniziativa AI PAIR di Google
sta aiutando un vasto gruppo di persone a esaminare, valutare ed eseguire il debug dei sistemi ML più facilmente.
Per questo stiamo lanciando il
What-If Tool
, una nuova funzionalità dell'applicazione Web
TensorBoard
open-source, che consente agli utenti di analizzare un modello ML senza dover scrivere codice. Una volta forniti i puntatori a un modello TensorFlow e un set di dati, il What-If Tool offre un'interfaccia visiva interattiva per esplorare i risultati del modello.
Il What-If Tool mostra qui un insieme di 250 immagini facciali e i risultati ottenuti da un modello che rileva se sorridono.
Questo strumento offre un ampio set di funzionalità, tra cui la visualizzazione del set di dati che utilizza automaticamente
Facets
, la possibilità di modificare manualmente esempi dal set di dati e vedere l'effetto di tali modifiche e la generazione automatica di grafici di dipendenze parziali che mostrano come le previsioni del modello cambiano e come è cambiata ogni singola funzione. Esaminiamo due funzionalità in modo più dettagliato.
Esplorazione di scenari ipotetici di un datapoint.
Controfattuali
Con il clic di un pulsante è possibile confrontare un datapoint nel punto più simile in cui il modello prevede un risultato diverso. Chiamiamo tali punti "controfattuali" e possono far luce sui limiti decisionali del modello. In alternativa, è possibile modificare manualmente un datapoint ed esplorare il modo in cui la previsione del modello cambia. Nello screenshot sottostante, lo strumento viene utilizzato su un modello di classificazione binaria che prevede se una persona guadagna più di 50mila dollari in base ai dati di censimento pubblico del
set di dati del censimento UCI
. Questa è un'attività di previsione benchmark utilizzata dai ricercatori di ML, soprattutto per analizzare l'equità dell'algoritmo, un argomento che affronteremo tra poco. In questo caso, per il datapoint selezionato, il modello ha previsto con una confidenza del 73% che la persona guadagnava più di 50mila dollari. Lo strumento ha individuato automaticamente la persona più simile nel set di dati per il quale il modello ha previsto uno stipendio inferiore a quella cifra e le confronta fianco a fianco. In questo caso, con una differenza minima di età e un'occupazione diversa, la previsione del modello si è invertita.
Confronto fra controfattuali
Analisi delle prestazioni ed equità algoritmica
Puoi inoltre esplorare gli effetti delle soglie di classificazione differenti tenendo conto di vincoli, quali i diversi
criteri di equità numerica
. L'immagine sottostante mostra i risultati di un modello di rilevamento del sorriso addestrato sul
dataset CelebA
open-source che consiste di immagini facciali annotate di persone famose. I visi nel set di dati seguente sono suddivisi in base al colore castano dei capelli, e per ciascuno dei due gruppi c'è una
curva ROC
e una
matrice di confusione
delle previsioni, accompagnata da cursori per impostare il limite di confidenza che deve possedere il modello per determinare se un viso stia sorridendo. In questo caso, le soglie di confidenza per i due gruppi sono state impostate automaticamente dallo strumento per ottimizzare le
pari opportunità
.
Confronto delle prestazioni di due sezioni di dati su un modello di rilevamento del sorriso con le soglie di classificazione impostate per soddisfare il vincolo "pari opportunità".
Demo
Per illustrare le funzionalità del What-If Tool, abbiamo rilasciato una serie di demo utilizzando modelli preaddestrati.
Rilevamento delle classificazioni errate:
un
modello di classificazione multiclasse
che prevede il tipo di pianta in base a quattro misurazioni del fiore della pianta. Lo strumento è utile per mostrare il limite decisionale del modello e la causa delle classificazioni errate. Questo modello è addestrato con il
set di dati dell'iris UCI
.
Valutazione dell'equità nei modelli di classificazione binari:
il
modello di classificazione delle immagini
per il rilevamento del sorriso descritto sopra. Lo strumento è utile per valutare l'equità algoritmica tra i diversi sottogruppi. Il modello è stato appositamente addestrato senza fornire esempi ottenuti da uno specifico sottoinsieme della popolazione, al fine di mostrare come lo strumento contribuisca a scoprire bias nei modelli. Valutare l'equità richiede un'attenta considerazione del contesto generale, ma questo è un utile punto di partenza quantitativo.
Studio delle prestazioni del modello in diversi sottogruppi:
un modello di regressione
che prevede l'età di un soggetto dai dati di censimento. Lo strumento è utile per mostrare le prestazioni relative del modello nei sottogruppi e in quale modo le diverse caratteristiche influenzino individualmente la previsione. Questo modello è addestrato con il
set di dati di censimento UCI
.
What-If in pratica
Abbiamo testato il What-If Tool collaborando con i team di Google e ne abbiamo scoperto immediatamente il valore. Un team ha riscontrato che il suo modello ignorava erroneamente un'intera funzione del set di dati, e ciò ha permesso di correggere un bug di codice precedentemente sconosciuto. Un altro team lo ha utilizzato per organizzare visivamente i propri esempi, dalle migliori alle peggiori prestazioni, scoprendo così pattern dei tipi di esempi di prestazioni insufficienti del modello.
Ci auguriamo che le persone all'interno e all'esterno di Google utilizzino questo strumento per comprendere meglio i modelli ML e iniziare a valutarne l'equità. E, poiché il codice è open source, accogliamo con favore qualsiasi contributo allo strumento.
Riconoscimenti
Il What-If Tool è il frutto di uno sforzo collettivo, con il design UX di Mahima Pushkarna, gli aggiornamenti di Facets di Jimbo Wilson e il contributo di molti altri. Vorremmo ringraziare i team di Google che hanno pilotato lo strumento e fornito feedback prezioso, e il team di TensorBoard per tutto il supporto offerto.
Etichette
Android
Firebase
machine learning
Google Cloud Platform
GDL
Eventi
Google Developers Live
Google Play
TensorFlow
App
Chrome
Cloud
api
GDLItalia
GDE
GDG
Google Assistant
iOS
Kotlin
Actions on Google
Deep Learning
AppEngine
AMP
BigQuery
Cloud Functions
Flutter
Android Studio
Google Developers Expert
Università
Google AppEngine
JavaScript
AI
Android Wear
GAE
Google Play Store
HTML5
Maps
security
Android App Development
AngularJS
IoT
Kubernetes
Annunci
Cloud Firestore
Cloud Machine Learning
Google I/O
Polymer
Android Things
Community
DevTools
Google App Engine
intelligenza artificiale
Entrepreneurship
Firebase Analytics
GSoC
Games
Google Cast
ML
open source
Crashlytics
Dart
Diversity
Drive
Google Data Studio
Google Play Games
TensorFlow Lite
Android Developers
Android O
Cloud Spanner
Cloud TPU
Compute Engine
DevFest
Google Compute Engine
Google Developers
Material Design
Mobile
PWA
Python
Startup
AIY Project
ARCore
Android Jetpack
AndroidDev
Androidq
Apps Script
Artificial Intelligence
Augmented Reality
Firebase Cloud Messaging
Google Cloud
Google Maps
Gsuite
IO19
ML kit
Research
VR
coding
unity
#io19
AR
Android Dev Summit
Android Developer
Android Q
Cardboard
Cloud AI
Coral
Developers
Dialogflow
Firebase Realtime Database
Gmail
Google AI
Google Cloud Messaging
Google ContainerEngine
Google Play Console
Kotlin Coroutines
NLP
Programming
Responsive Design
TensorFlowjs
Testing
WTM
Women
beacons
cloud storage
developer
node JS
student programs
women techmakers
API Cloud Vision
Add-ons
Android P
AndroidDevStory
Animation
AutoML
Brillo
Classroom
DSC
Database
Developer Student Clubs
Edge TPU
Fabric
Featured
Flutter Web
G Suite
GWT
GoLang
Google
Google Brain
Google Cloud Next
Google Container Engine
Google Developer Groups
Google I/O Extended
Graph
Hosting
Instant Apps
Keras
Livedata
Mobile Sites
Prediction
Privacy
Project Tango
SDK
Stackdriver
Tales
UI
Udacity
Virtual Reality
Web
Web Development
YouTube
analytics
android security
api.ai
courses
google io
indies
natural language processing
reti neurali
sign-in
young developers
2d Animation
3d
AIY
ARkit
Adversarial Learning
Alpha
Android App
Android App Developmen
Android App bundle
Android Architecture
Android Architecture Components
Android Auto
Android Automotive OS
Android Dev Summit Android Developer
Android Developer Challenge
Android Developers GooglePlayAwards
Android Development
Android Go
Android Instant App
Android Pie
Android Q Scoped Storage
Android Q audio
Android Styles
Android audio playback capture
Android codelabs
AndroidTV
AndroidX
Angular
Aogdevs
Api Design
App Development
App Distribution
Apps
Architecture
Architecture Components
Arduino
Best Practices
Betatesting
Bugs
C++
Certification
Cloud Anchors
Cloud Next
Cloud Run
Cloud Service Platform
Cloud Shell
Cloud Study Jam
Coached Conversational Preference Elicitation
Commerce
Community Connector
Computer Science
Consistency
Containers
Converge
Conversation Design
Crash Reporting
DLS Design
Dagger
Data Science
Databases
Dependency Injection
Design
Developer Communities
Developer Community
Developer Culture
Developer Story
Developing Media Apps
Development
Eager
Edge TPU Dev Board
Education
Emulatore Android
Error Message
Eslint
Europe
Firebase Extensions
Firebase Summit 2019
Firebasehosting
Flutter 1.5
Flutter at IO
FlutterDark
GCE
GDD
Game Development
Gboard
Gesture Navigation
Glass
Go
Google AI Quantum
Google App Script
Google Cloud Functions
Google Cloud billing
Google Coral
Google Developer Days
Google Home Hub
Google IOS Android
Google Identity Platform
Google Launchpad
Google Lens
Google Now
Google Photos
Google Play Devs
Google Play Indie Games Festival
Google Play Instant
Google Plus
Google codelabs
Google+
GoogleDevWeekly
GoogleLaunchpad
GooglePlay
Graphics
Healthcare
I/O
IO
IO19 Flutter
In-app Billing
Indie Games
Indie Games Festival
Indie games showcase
Indie showcase
Ingress
Instant Games
Issues
Java
Jetpack
Knative
Kotlin Beginners
Kotlin Everywhere
Kotlin codelabs
Lighthouse
Live Caption
Live Streaming
Localization
Location
M-Theory
Mondaygram
Monetization
NYT
NativeScript
Navigation
Neural Graph Learning
Neural Structured
Nodejs
OS
OS Updates
Olivex
One Time Codes
Online Education
PHA
Performance Monitoring
Policy
Posenet
Project Mainline
Project Treble
Quantum Computing Theory
Reactive Programming
Regression
Remote Config
Resonance Audio
Room
Scoped Storage
Semantics
Semi Supervised Learning
Serverless
Sms Retriever Api
Sms Verification
Speech Recognition
Swift
Tensorflow Core
Tensorflow Hub
Test Lab
Text
Tokenizer
Tpu
Transformers
UX
UX Design
UX Research
Universal Sentence Encoder
Unsupervised Data Augmentation
Unsupervised Learning
User Experience
Viewmodel
Voice
WWW
Wear OS
WebAssembly
Widget
Women in Tech
WomenTechmakers
android kotlin
app stability
assistant
audio recording
augmented faces
authsub
best practices and updates
billing
botnet
business
c++ games
cancer
chatbot
chrome privacy
codelab
codelabs
competition
daydream
designer
dominio .dev
error handling
event
firebase games
firebase gdc
firebase hosting
firebase unity
game center authentication
game testing
games authentication
gdc
google summer of code
googledevelopers
grow
hashcode
indie
indie developers
internship
kids
machine intelligence
machine learning accelerator
maker
multi-platform
nearby
oauth
openid
performance
persistent AR
privacy sandbox
prizes
prototype
purchase flows
queries
realtime
responsible AI
security rules
showcase
solutions challenge
startup africa roadtrip
startup times
students
summer of code
unity crashlytics
verify apps
win
Archivio Blog
2020
feb
gen
2019
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2018
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2017
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2016
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2015
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2014
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2013
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
Feed
Follow @GoogleDevsItaly