Local blog for Italian speaking developers
Accelerare la ricerca sul Deep Learning con la libreria Tensor2Tensor
19 luglio 2017
Pubblicato da Łukasz Kaiser, Senior Research Scientist, Google Brain Team
Il Deep Learning (DL) ha consentito il rapido avanzamento di molte tecnologie importanti, come ad esempio la
traduzione automatica
, il
riconoscimento vocale
e il
rilevamento degli oggetti
. Nella comunità di ricerca si possono trovare codici open source forniti dagli autori stessi per contribuire a replicare i loro risultati e apportare ulteriori progressi al campo del Deep Learning. Tuttavia la maggior parte di questi sistemi DL utilizza configurazioni particolari che richiedono un notevole impegno ingegneristico e possono dare i risultati desiderati solo in relazione a un problema o un'architettura specifica, rendendo quindi difficile l'esecuzione di nuovi esperimenti e il confronto dei risultati.
Oggi siamo lieti di annunciare la release di
Tensor2Tensor
(T2T), un sistema open source per l'addestramento di modelli di Deep Learning in TensorFlow. T2T facilita la creazione di modelli allo stato dell'arte utilizzabili in un'ampia gamma di applicazioni ML, come la traduzione, il parsing, le didascalie per immagini e molto altro ancora, consentendoti di esplorare idee diverse più velocemente di prima. Questa versione comprende anche una libreria di set di dati e modelli, tra cui i migliori modelli di alcuni paper recenti (
Attention Is All You Need
,
Depthwise Separable Convolutions for Neural Machine Translation
e
One Model to Learn Them All
) per aiutarti a iniziare la tua ricerca DL.
Modello di traduzione
Tempi di addestramento
BLEU (differenza dalla baseline)
Transformer
(T2T)
3 giorni su 8 GPU
28,4 (+7,8)
SliceNet
(T2T)
6 giorni su 32 GPU
26,1 (+5,5)
GNMT + Mixture of Experts
1 giorno su 64 GPU
26,0 (+5,4)
ConvS2S
18 giorni su 1 GPU
25,1 (+4,5)
GNMT
1 giorno su 96 GPU
24,6 (+4,0)
ByteNet
8 giorni su 32 GPU
23,8 (+3,2)
MOSES
(baseline basata su frase)
N/D
20,6 (+0,0)
Punteggi BLEU (valore maggiore preferibile) in un'attività standard di traduzione WMT inglese-tedesco.
Per fare un esempio dei miglioramenti apportati da T2T, abbiamo applicato la libreria alla traduzione automatica. Come indicato nella tabella precedente, due diversi modelli T2T, SliceNet e Transformer, sorpassano il precedente
GNMT+MoE
, finora considerato il più avanzato. Il nostro miglior modello T2T, Transformer, supera di 3,8 punti il modello
GNMT
standard, che a sua volta era superiore di 4 punti a MOSES, il sistema di
traduzione basato su frase
. In particolare, grazie a T2T puoi accedere ai migliori risultati ottenuti in passato con una singola GPU in un giorno: un piccolo modello Transformer (non mostrato sopra) ottiene 24,9 BLEU dopo 1 giorno di addestramento su una singola GPU. Ora chiunque abbia una GPU può "armeggiare" con i propri modelli di traduzione grazie al nostro
repository github
che fornisce le
istruzioni
necessarie per farlo.
Addestramento modulare Multi-Task
La libreria T2T è creata con strumenti di TensorFlow già conosciuti e definisce i diversi componenti necessari in un sistema di Deep Learning: set di dati, architetture di modello, ottimizzatori, schemi di declino dei tassi di apprendimento, iperparametri e così via. Fondamentalmente impone un'interfaccia standard a tutti questi componenti e mette in atto le best practice correnti per ML, permettendoti così di scegliere qualsiasi set di dati, modello, ottimizzatore o insieme di iperparametri per eseguire l'addestramento e verificarne il funzionamento. Abbiamo reso l'architettura modulare, quindi qualsiasi elemento, dai dati di input all'output previsto, è una funzione da tensore a tensore (T2T). Se hai un'idea nuova per l'architettura del modello, non devi sostituire l'intera configurazione. Per tenere la parte incorporante, la perdita e tutto il resto, basta sostituire il corpo del modello con la tua funzione che utilizza un tensore come input e restituisce poi un tensore.
Grazie alla flessibilità di T2T, l'addestramento non richiede necessariamente un determinato modello o set di dati. È così facile che anche le architetture, come il famoso
modello LSTM sequenza per sequenza
, possono essere definite da
qualche riga di codice
. Si può anche addestrare un singolo modello su attività multiple ricavate da domini diversi e addirittura addestrare un solo modello su tutti i set di dati contemporaneamente. Siamo lieti di comunicare che il nostro
MultiModel
, addestrato in questo modo e incluso in T2T, offre ottimi risultati in molte attività, anche quando viene addestrato contemporaneamente su ImageNet (classificazione di immagini),
MS COCO
(didascalie per immagini),
WSJ
(riconoscimento vocale),
WMT
(traduzione) e sul corpus di parsing
Penn Treebank
. È la prima volta che un modello singolo ha dimostrato di poter eseguire tutte queste attività in contemporanea.
Best practice incorporate
Con questa release iniziale, ti forniamo gli script per generare una serie di set di dati ampiamente utilizzati nella comunità di ricerca
1
, una manciata di modelli
2
, una serie di configurazioni di iperparametri e un'implementazione performante di altri importanti trucchi del mestiere. È difficile elencarli tutti ma, se decidi di eseguire il tuo modello con T2T, riceverai gratuitamente la corretta spaziatura interna delle sequenze e la corrispondente perdita di entropia incrociata, parametri ben strutturati per l'ottimizzatore di Adam, il batching adattivo, l'addestramento distribuito sincrono, l'aumento dei dati affinato per le immagini, l'anti-aliasing delle etichette e una serie di configurazioni di iperparametri molto validi, inclusi quelli sopraelencati, che ottengono risultati avanzatissimi nella traduzione e possono aiutare anche te.
Ad esempio, l'attività di analisi delle frasi in inglese secondo gli alberi gerarchici sintattici è un problema decennale, per il quale sono stati sviluppati metodi competitivi ma anche impegnativi. Ora può essere considerato come un
problema sequenza per sequenza
ed essere risolto con le reti neurali, ma in passato richiedeva considerevoli sforzi di regolazione. Grazie a T2T abbiamo impiegato solo pochi giorni ad aggiungere il
generatore di dati di parsing
e a regolare il nostro modello di trasformer di attenzione per l'addestramento su questo problema. Con nostra grande sorpresa, abbiamo ottenuto ottimi risultati in una sola settimana:
Modello di parsing
Punteggio F1 (valore maggiore preferibile)
Transformer
(T2T)
91,3
Dyer et al.
91,7
Zhu et al.
90,4
Socher et al.
90,4
Vinyals & Kaiser et al.
88,3
Punteggi di parsing F1 sul set di test standard, sezione 23 del WSJ. Qui confrontiamo i modelli addestrati solo sul set Penn Treebank WSJ. Per ulteriori dettagli, consulta il
paper
.
Contributo a Tensor2Tensor
Oltre a esplorare modelli e set di dati esistenti, puoi definire facilmente il tuo modello e aggiungere i set di dati desiderati a Tensor2Tensor. Riteniamo che i modelli già inclusi funzionino correttamente con molte attività NLP, quindi anche solo aggiungere il tuo set di dati potrebbe produrre risultati interessanti. Grazie alla modularità di T2T, aggiungere il tuo modello e vedere come si comporta con le diverse attività sarà molto semplice. In tal modo l'intera comunità trarrà vantaggio da una libreria di baseline e la ricerca sul Deep Learning verrà accelerata. Vai al nostro
repository github
, prova i nuovi modelli e contribuisci con il tuo!
Riconoscimenti
La release di
Tensor2Tensor
è stata possibile solo grazie alla collaborazione internazionale di molti ingegneri e ricercatori. Vogliamo ringraziare in particolare il team che ha contribuito maggiormente (in ordine alfabetico):
Samy Bengio, Eugene Brevdo, Francois Chollet, Aidan N. Gomez, Stephan Gouws, Llion Jones, Łukasz Kaiser, Nal Kalchbrenner, Niki Parmar, Ryan Sepassi, Noam Shazeer, Jakob Uszkoreit, Ashish Vaswani.
1
Abbiamo incluso una serie di set di dati per la classificazione di immagini (MNIST, CIFAR-10, CIFAR-100, ImageNet), le didascalie per immagini (MS COCO), la traduzione (WMT con più lingue tra cui inglese-tedesco e inglese-francese), la modellazione linguistica (LM1B ), il parsing (Penn Treebank), l'inferenza del linguaggio naturale (SNLI), il riconoscimento vocale (TIMIT), i problemi algoritmici (oltre una dozzina di attività dall'inversione mediante somma e moltiplicazione all'algebra) e ne aggiungeremo altri. Non vediamo l'ora di ricevere anche i tuoi set di dati.
↩
2
Comprende RNN sequenza per sequenza LSTM, reti convolutive anche con convoluzioni separabili (ad es. Xception), modelli ricercati recentemente come ByteNet o la GPU neurale e i nuovi avanzatissimi modelli citati in questo post, che aggiorneremo costantemente nel repository.
↩
Etichette
Android
Firebase
machine learning
Google Cloud Platform
GDL
Eventi
Google Developers Live
Google Play
TensorFlow
App
Chrome
Cloud
api
GDLItalia
GDE
GDG
Google Assistant
iOS
Kotlin
Actions on Google
Deep Learning
AppEngine
AMP
BigQuery
Cloud Functions
Flutter
Android Studio
Google Developers Expert
Università
Google AppEngine
JavaScript
AI
Android Wear
GAE
Google Play Store
HTML5
Maps
security
Android App Development
AngularJS
IoT
Kubernetes
Annunci
Cloud Firestore
Cloud Machine Learning
Google I/O
Polymer
Android Things
Community
DevTools
Google App Engine
intelligenza artificiale
Entrepreneurship
Firebase Analytics
GSoC
Games
Google Cast
ML
open source
Crashlytics
Dart
Diversity
Drive
Google Data Studio
Google Play Games
TensorFlow Lite
Android Developers
Android O
Cloud Spanner
Cloud TPU
Compute Engine
DevFest
Google Compute Engine
Google Developers
Material Design
Mobile
PWA
Python
Startup
AIY Project
ARCore
Android Jetpack
AndroidDev
Androidq
Apps Script
Artificial Intelligence
Augmented Reality
Firebase Cloud Messaging
Google Cloud
Google Maps
Gsuite
IO19
ML kit
Research
VR
coding
unity
#io19
AR
Android Dev Summit
Android Developer
Android Q
Cardboard
Cloud AI
Coral
Developers
Dialogflow
Firebase Realtime Database
Gmail
Google AI
Google Cloud Messaging
Google ContainerEngine
Google Play Console
Kotlin Coroutines
NLP
Programming
Responsive Design
TensorFlowjs
Testing
WTM
Women
beacons
cloud storage
developer
node JS
student programs
women techmakers
API Cloud Vision
Add-ons
Android P
AndroidDevStory
Animation
AutoML
Brillo
Classroom
DSC
Database
Developer Student Clubs
Edge TPU
Fabric
Featured
Flutter Web
G Suite
GWT
GoLang
Google
Google Brain
Google Cloud Next
Google Container Engine
Google Developer Groups
Google I/O Extended
Graph
Hosting
Instant Apps
Keras
Livedata
Mobile Sites
Prediction
Privacy
Project Tango
SDK
Stackdriver
Tales
UI
Udacity
Virtual Reality
Web
Web Development
YouTube
analytics
android security
api.ai
courses
google io
indies
natural language processing
reti neurali
sign-in
young developers
2d Animation
3d
AIY
ARkit
Adversarial Learning
Alpha
Android App
Android App Developmen
Android App bundle
Android Architecture
Android Architecture Components
Android Auto
Android Automotive OS
Android Dev Summit Android Developer
Android Developer Challenge
Android Developers GooglePlayAwards
Android Development
Android Go
Android Instant App
Android Pie
Android Q Scoped Storage
Android Q audio
Android Styles
Android audio playback capture
Android codelabs
AndroidTV
AndroidX
Angular
Aogdevs
Api Design
App Development
App Distribution
Apps
Architecture
Architecture Components
Arduino
Best Practices
Betatesting
Bugs
C++
Certification
Cloud Anchors
Cloud Next
Cloud Run
Cloud Service Platform
Cloud Shell
Cloud Study Jam
Coached Conversational Preference Elicitation
Commerce
Community Connector
Computer Science
Consistency
Containers
Converge
Conversation Design
Crash Reporting
DLS Design
Dagger
Data Science
Databases
Dependency Injection
Design
Developer Communities
Developer Community
Developer Culture
Developer Story
Developing Media Apps
Development
Eager
Edge TPU Dev Board
Education
Emulatore Android
Error Message
Eslint
Europe
Firebase Extensions
Firebase Summit 2019
Firebasehosting
Flutter 1.5
Flutter at IO
FlutterDark
GCE
GDD
Game Development
Gboard
Gesture Navigation
Glass
Go
Google AI Quantum
Google App Script
Google Cloud Functions
Google Cloud billing
Google Coral
Google Developer Days
Google Home Hub
Google IOS Android
Google Identity Platform
Google Launchpad
Google Lens
Google Now
Google Photos
Google Play Devs
Google Play Indie Games Festival
Google Play Instant
Google Plus
Google codelabs
Google+
GoogleDevWeekly
GoogleLaunchpad
GooglePlay
Graphics
Healthcare
I/O
IO
IO19 Flutter
In-app Billing
Indie Games
Indie Games Festival
Indie games showcase
Indie showcase
Ingress
Instant Games
Issues
Java
Jetpack
Knative
Kotlin Beginners
Kotlin Everywhere
Kotlin codelabs
Lighthouse
Live Caption
Live Streaming
Localization
Location
M-Theory
Mondaygram
Monetization
NYT
NativeScript
Navigation
Neural Graph Learning
Neural Structured
Nodejs
OS
OS Updates
Olivex
One Time Codes
Online Education
PHA
Performance Monitoring
Policy
Posenet
Project Mainline
Project Treble
Quantum Computing Theory
Reactive Programming
Regression
Remote Config
Resonance Audio
Room
Scoped Storage
Semantics
Semi Supervised Learning
Serverless
Sms Retriever Api
Sms Verification
Speech Recognition
Swift
Tensorflow Core
Tensorflow Hub
Test Lab
Text
Tokenizer
Tpu
Transformers
UX
UX Design
UX Research
Universal Sentence Encoder
Unsupervised Data Augmentation
Unsupervised Learning
User Experience
Viewmodel
Voice
WWW
Wear OS
WebAssembly
Widget
Women in Tech
WomenTechmakers
android kotlin
app stability
assistant
audio recording
augmented faces
authsub
best practices and updates
billing
botnet
business
c++ games
cancer
chatbot
chrome privacy
codelab
codelabs
competition
daydream
designer
dominio .dev
error handling
event
firebase games
firebase gdc
firebase hosting
firebase unity
game center authentication
game testing
games authentication
gdc
google summer of code
googledevelopers
grow
hashcode
indie
indie developers
internship
kids
machine intelligence
machine learning accelerator
maker
multi-platform
nearby
oauth
openid
performance
persistent AR
privacy sandbox
prizes
prototype
purchase flows
queries
realtime
responsible AI
security rules
showcase
solutions challenge
startup africa roadtrip
startup times
students
summer of code
unity crashlytics
verify apps
win
Archivio Blog
2020
feb
gen
2019
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2018
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2017
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2016
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2015
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2014
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2013
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
Feed
Follow @GoogleDevsItaly