Local blog for Italian speaking developers
Riconsiderare l'irragionevole efficacia dei dati
27 settembre 2017
Pubblicato da Abhinav Gupta, Faculty Advisor, Machine Perception
Nel corso dell'ultimo decennio è stato osservato un notevole successo nel campo della visione artificiale, gran parte del quale può essere attribuito direttamente all'applicazione dei modelli di
deep learning
a questa attività di percezione dei computer. Inoltre, dal 2012 ci sono stati notevoli progressi nell'ambito delle capacità di rappresentazione di questi sistemi grazie a (a) modelli più profondi dalla complessità elevata, (b) maggiore potenza computazionale e (c) disponibilità di dati etichettati su larga scala. Anche se ogni anno otteniamo ulteriori aumenti di potenza computazionale e di complessità del modello (da
AlexNet
con 7 livelli a
ResNet
con 101 livelli), i set di dati disponibili non sono aumentati proporzionalmente. Una ResNet a 101 livelli con capacità notevolmente maggiori rispetto ad AlexNet viene ancora addestrata con lo stesso milione di immagini su
ImageNet
che risalgono all'incirca al 2011. In qualità di ricercatori ci siamo sempre chiesti se aumentando la quantità di dati di addestramento di 10 volte la precisione sarebbe raddoppiata. E se la aumentassimo di 100 o 300 volte? Abbiamo raggiunto il plateau di precisione o possiamo ottenere ulteriori miglioramenti aggiungendo sempre più dati?
Sebbene la potenza computazionale delle GPU e le dimensioni dei modelli siano continuamente aumentati negli ultimi cinque anni, sorprendentemente le dimensioni del più grande set di dati di addestramento sono rimaste invariate.
Nel nostro paper
Revisiting Unreasonable Effectiveness of Data in Deep Learning Era
facciamo i primi passi per dissipare le nubi di mistero che avvolgono la relazione tra i "dati enormi" e il deep learning. Il nostro obiettivo consiste nell'esplorare le seguenti aree: (a) verificare se le rappresentazioni visive possano ancora essere migliorate introducendo sempre più immagini con etichette rumorose agli algoritmi attualmente esistenti, (b) la natura della relazione tra dati e prestazioni nei compiti standard di visione come la classificazione, il rilevamento degli oggetti e la segmentazione delle immagini, (c) i modelli all'avanguardia per tutti i compiti di visione artificiale utilizzando l'apprendimento su vasta scala.
Naturalmente, il problema evidente ma non affrontato è questo: come possiamo ottenere un set di dati che sia 300 volte più grande di ImageNet? A Google, abbiamo lavorato costantemente per creare questi set di dati in modo automatico e migliorare gli algoritmi di visione artificiale. In particolare, abbiamo creato un set di dati interni di 300 milioni di immagini etichettate con 18291 categorie denominato JFT-300M. Le immagini sono etichettate con un algoritmo che utilizza una complessa combinazione di segnali web grezzi e connessioni tra le pagine web e i feedback degli utenti. Ciò si traduce in oltre un miliardo di etichette per i 300 milioni di immagini (un'immagine singola può avere più etichette). Di questo miliardo di etichette delle immagini, circa 375 milioni sono selezionati tramite un algoritmo che mira a massimizzare la precisione delle etichette delle immagini selezionate. Tuttavia, le etichette presentano ancora un rumore notevole, infatti circa il 20% delle etichette per le immagini selezionate è rumorosa. Poiché non esiste un'annotazione esaustiva, non abbiamo modo di stimare il richiamo delle etichette.
I nostri risultati sperimentali convalidano alcune delle ipotesi ma producono anche delle sorprese inaspettate:
Un representation learning migliore aiuta.
La nostra prima osservazione è che i dati su larga scala aiutano nel
representation learning
che, a sua volta, migliora le prestazioni di ogni compito di visione che studiamo. I nostri risultati suggeriscono che uno sforzo collettivo per creare un set di dati su larga scala di preaddestramento sia importante. Inoltre prevedono un futuro brillante per gli approcci di representation learning con poca o nessuna supervisione. Sembra che la scala dei dati continui a superare il rumore nell'ambito dell'etichettatura.
Le prestazioni aumentano linearmente con gli ordini di grandezza dei dati di addestramento.
Forse la scoperta più sorprendente è stata la relazione tra le prestazioni dei compiti di visione e la quantità di dati di addestramento (log-scala) utilizzati per il representation learning. Abbiamo scoperto che questa relazione è ancora lineare! Anche per i 300 milioni di immagini di addestramento non osserviamo effetti di plateau per i compiti studiati.
Le prestazioni di rilevamento degli oggetti se preaddestrati su diversi sottoinsiemi di JFT-300M da zero. L'asse x è la dimensione del set di dati in log-scala, l'asse y è la prestazione di rilevazione in mAP@[.5,.95] del sottoisieme COCO-minival.
La capacità è fondamentale.
Osserviamo inoltre che per sfruttare appieno i 300 milioni di immagini è necessario disporre di modelli con capacità più elevata (più profondi). Ad esempio nel caso di ResNet-50, il miglioramento del
benchmark di rilevamento di oggetti COCO
è molto inferiore (1,87%) rispetto quello di ResNet-152 (3%).
Risultati all'avanguardia.
Il nostro lavoro presenta gli ultimissimi risultati relativi a diversi benchmark utilizzando i modelli appresi da JFT-300M. Ad esempio un (normale) modello singolo può ora raggiungere un'
AP
pari a 37,4 rispetto a quella di 34,3 del benchmark di rilevamento COCO.
È importante sottolineare che il regime di addestramento, i programmi di apprendimento e i parametri utilizzati sono basati sulla nostra comprensione dei ConvNets di addestramento con un milione immagini prese da ImageNet. Poiché non abbiamo cercato l'insieme ottimale di iperparametri nel presente lavoro (che avrebbe richiesto notevoli sforzi computazionali), è molto probabile che questi non siano i migliori risultati possibili se utilizziamo questa scala di dati. Pertanto, riteniamo che le prestazioni quantitative riportate sottovalutino l'impatto reale dei dati.
Questo lavoro non è incentrato sui dati specifici per il compito, come verificare se i riquadri delimitatori del testo influenzino le prestazioni del modello. Crediamo che, anche se potrebbe essere impegnativo, ottenere dati su larga scala specifici per il compito dovrebbe essere il fulcro di studi futuri. Inoltre, la creazione di un set di dati di 300 milioni di immagini non può essere l'obiettivo finale, poiché come community dovremmo concentrarci a esplorare il possibile miglioramento continuativo dei modelli nell'ambito di set di dati ancora più grandi (un miliardo e oltre di immagini).
Contributori principali
Chen Sun, Abhinav Shrivastava, Saurabh Singh e Abhinav Gupta
Riconoscimenti
Questo lavoro non sarebbe stato possibile senza il grande impegno dei Team Image Understanding e Expander di Google che hanno creato l'enorme set di dati JFT. In particolare vorremmo ringraziare Tom Duerig, Neil Alldrin, Howard Zhou, Lu Chen, David Cai, Gal Chechik, Zheyun Feng, Xiangxin Zhu e Rahul Sukthankar per il loro contributo. Ringraziamo tantissimo anche il Team VALE per le API, e in particolare Jonathan Huang, George Papandreou, Liang-Chieh Chen e Kevin Murphy per le discussioni stimolanti.
Etichette
Android
Firebase
machine learning
Google Cloud Platform
GDL
Eventi
Google Developers Live
Google Play
TensorFlow
App
Chrome
Cloud
api
GDLItalia
GDE
GDG
Google Assistant
iOS
Kotlin
Actions on Google
Deep Learning
AppEngine
AMP
BigQuery
Cloud Functions
Flutter
Android Studio
Google Developers Expert
Università
Google AppEngine
JavaScript
AI
Android Wear
GAE
Google Play Store
HTML5
Maps
security
Android App Development
AngularJS
IoT
Kubernetes
Annunci
Cloud Firestore
Cloud Machine Learning
Google I/O
Polymer
Android Things
Community
DevTools
Google App Engine
intelligenza artificiale
Entrepreneurship
Firebase Analytics
GSoC
Games
Google Cast
ML
open source
Crashlytics
Dart
Diversity
Drive
Google Data Studio
Google Play Games
TensorFlow Lite
Android Developers
Android O
Cloud Spanner
Cloud TPU
Compute Engine
DevFest
Google Compute Engine
Google Developers
Material Design
Mobile
PWA
Python
Startup
AIY Project
ARCore
Android Jetpack
AndroidDev
Androidq
Apps Script
Artificial Intelligence
Augmented Reality
Firebase Cloud Messaging
Google Cloud
Google Maps
Gsuite
IO19
ML kit
Research
VR
coding
unity
#io19
AR
Android Dev Summit
Android Developer
Android Q
Cardboard
Cloud AI
Coral
Developers
Dialogflow
Firebase Realtime Database
Gmail
Google AI
Google Cloud Messaging
Google ContainerEngine
Google Play Console
Kotlin Coroutines
NLP
Programming
Responsive Design
TensorFlowjs
Testing
WTM
Women
beacons
cloud storage
developer
node JS
student programs
women techmakers
API Cloud Vision
Add-ons
Android P
AndroidDevStory
Animation
AutoML
Brillo
Classroom
DSC
Database
Developer Student Clubs
Edge TPU
Fabric
Featured
Flutter Web
G Suite
GWT
GoLang
Google
Google Brain
Google Cloud Next
Google Container Engine
Google Developer Groups
Google I/O Extended
Graph
Hosting
Instant Apps
Keras
Livedata
Mobile Sites
Prediction
Privacy
Project Tango
SDK
Stackdriver
Tales
UI
Udacity
Virtual Reality
Web
Web Development
YouTube
analytics
android security
api.ai
courses
google io
indies
natural language processing
reti neurali
sign-in
young developers
2d Animation
3d
AIY
ARkit
Adversarial Learning
Alpha
Android App
Android App Developmen
Android App bundle
Android Architecture
Android Architecture Components
Android Auto
Android Automotive OS
Android Dev Summit Android Developer
Android Developer Challenge
Android Developers GooglePlayAwards
Android Development
Android Go
Android Instant App
Android Pie
Android Q Scoped Storage
Android Q audio
Android Styles
Android audio playback capture
Android codelabs
AndroidTV
AndroidX
Angular
Aogdevs
Api Design
App Development
App Distribution
Apps
Architecture
Architecture Components
Arduino
Best Practices
Betatesting
Bugs
C++
Certification
Cloud Anchors
Cloud Next
Cloud Run
Cloud Service Platform
Cloud Shell
Cloud Study Jam
Coached Conversational Preference Elicitation
Commerce
Community Connector
Computer Science
Consistency
Containers
Converge
Conversation Design
Crash Reporting
DLS Design
Dagger
Data Science
Databases
Dependency Injection
Design
Developer Communities
Developer Community
Developer Culture
Developer Story
Developing Media Apps
Development
Eager
Edge TPU Dev Board
Education
Emulatore Android
Error Message
Eslint
Europe
Firebase Extensions
Firebase Summit 2019
Firebasehosting
Flutter 1.5
Flutter at IO
FlutterDark
GCE
GDD
Game Development
Gboard
Gesture Navigation
Glass
Go
Google AI Quantum
Google App Script
Google Cloud Functions
Google Cloud billing
Google Coral
Google Developer Days
Google Home Hub
Google IOS Android
Google Identity Platform
Google Launchpad
Google Lens
Google Now
Google Photos
Google Play Devs
Google Play Indie Games Festival
Google Play Instant
Google Plus
Google codelabs
Google+
GoogleDevWeekly
GoogleLaunchpad
GooglePlay
Graphics
Healthcare
I/O
IO
IO19 Flutter
In-app Billing
Indie Games
Indie Games Festival
Indie games showcase
Indie showcase
Ingress
Instant Games
Issues
Java
Jetpack
Knative
Kotlin Beginners
Kotlin Everywhere
Kotlin codelabs
Lighthouse
Live Caption
Live Streaming
Localization
Location
M-Theory
Mondaygram
Monetization
NYT
NativeScript
Navigation
Neural Graph Learning
Neural Structured
Nodejs
OS
OS Updates
Olivex
One Time Codes
Online Education
PHA
Performance Monitoring
Policy
Posenet
Project Mainline
Project Treble
Quantum Computing Theory
Reactive Programming
Regression
Remote Config
Resonance Audio
Room
Scoped Storage
Semantics
Semi Supervised Learning
Serverless
Sms Retriever Api
Sms Verification
Speech Recognition
Swift
Tensorflow Core
Tensorflow Hub
Test Lab
Text
Tokenizer
Tpu
Transformers
UX
UX Design
UX Research
Universal Sentence Encoder
Unsupervised Data Augmentation
Unsupervised Learning
User Experience
Viewmodel
Voice
WWW
Wear OS
WebAssembly
Widget
Women in Tech
WomenTechmakers
android kotlin
app stability
assistant
audio recording
augmented faces
authsub
best practices and updates
billing
botnet
business
c++ games
cancer
chatbot
chrome privacy
codelab
codelabs
competition
daydream
designer
dominio .dev
error handling
event
firebase games
firebase gdc
firebase hosting
firebase unity
game center authentication
game testing
games authentication
gdc
google summer of code
googledevelopers
grow
hashcode
indie
indie developers
internship
kids
machine intelligence
machine learning accelerator
maker
multi-platform
nearby
oauth
openid
performance
persistent AR
privacy sandbox
prizes
prototype
purchase flows
queries
realtime
responsible AI
security rules
showcase
solutions challenge
startup africa roadtrip
startup times
students
summer of code
unity crashlytics
verify apps
win
Archivio Blog
2020
feb
gen
2019
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2018
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2017
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2016
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2015
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2014
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2013
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
Feed
Follow @GoogleDevsItaly