Local blog for Italian speaking developers
Modellazione conversazionale su dispositivo con TensorFlow Lite
3 gennaio 2018
Pubblicato da Sujith Ravi, Research Scientist, Google Expander Team
All'inizio dell'anno abbiamo lanciato
Android Wear 2.0
che offre la prima tecnologia di
machine learning "su dispositivo"
per la messaggistica intelligente. Ciò ha consentito di utilizzare per la prima volta tecnologie basate sul cloud come Smart Reply, già disponibili in
Gmail
,
Inbox
e
Allo
, direttamente all'interno di qualsiasi app (comprese le app di messaggistica di terze parti) senza doverti connettere al cloud, per rispondere ai messaggi chat in arrivo ovunque ti trovi, direttamente dal tuo smartwatch.
Abbiamo poi annunciato
TensorFlow Lite
, la soluzione leggera di TensorFlow per dispositivi mobili ed embedded. Questo framework è ottimizzato per l'inferenza a bassa latenza dei modelli di machine learning, con particolare attenzione a occupare una quantità di memoria ridotta e a velocizzare le prestazioni. Nell'ambito della libreria abbiamo anche rilasciato un
modello conversazionale su dispositivo
e un'
app demo
, ossia un esempio di app per il linguaggio naturale con tecnologia TensorFlow Lite, che consente agli sviluppatori e ai ricercatori di creare nuove funzionalità di intelligenza artificiale basate sull'inferenza su dispositivo. Questo modello genera suggerimenti di risposte per i messaggi chat conversazionali, con un'inferenza efficiente che può essere facilmente collegata alla tua app di chat per alimentare l'intelligenza conversazionale su dispositivo.
Il modello conversazionale su dispositivo che abbiamo rilasciato utilizza una nuova architettura ML per l'addestramento di reti neurali compatte (così come altri modelli di machine learning) basati su un framework di ottimizzazione congiunto, originariamente presentato in
ProjectionNet: Learning Efficient On-Device Deep Networks Using Neural Projections
. Questa architettura può funzionare in modo efficiente su dispositivi mobili con potenza di elaborazione e memoria limitate, utilizzando efficienti operazioni di "proiezione" che trasformano qualsiasi input in una rappresentazione vettoriale di bit compatti, e input simili sono proiettati su vettori vicini densi o sparsi a seconda del tipo di proiezione. Ad esempio i messaggi
“Ehi ,come va?”
e
“Come va, amico mio?”
potrebbero essere proiettati sulla stessa rappresentazione vettoriale.
Sfruttando questo concetto, il modello conversazionale combina queste efficienti operazioni a basso calcolo e memoria. Abbiamo addestrato il modello su dispositivo end-to-end utilizzando un framework ML che addestra congiuntamente due tipi di modelli: il modello compatto di
proiezione
(descritto sopra) con un modello
trainer
. I due modelli sono addestrati in contemporanea con il modello di proiezione che apprende dal modello trainer. Il trainer rappresenta la parte esperta modellata utilizzando architetture ML più grandi e complesse, mentre il modello di proiezione rappresenta lo studente che impara dall'esperto. Durante il training, possiamo anche utilizzare altre tecniche come la
quantizzazione
o la
distillazione
per ottenere un'ulteriore compressione o ottimizzare selettivamente alcune parti della funzione obiettivo. Una volta addestrato, il modello di proiezione più piccolo può essere utilizzato direttamente per l'inferenza sul dispositivo.
Per l'inferenza, il modello di proiezione addestrato è compilato in un insieme di operazioni TensorFlow Lite ottimizzate per l'esecuzione rapida su piattaforme mobili ed eseguite direttamente sul dispositivo. Il grafico dell'inferenza di TensorFlow Lite per il modello conversazionale su dispositivo è mostrato qui.
Esecuzione di TensorFlow Lite per il modello conversazionale su dispositivo
Il
modello
open source conversazionale rilasciato oggi (insieme al rispettivo
codice
) è stato addestrato end-to-end utilizzando l'architettura ML congiunta sopra descritta. La versione di oggi include anche l'
app demo
per scaricare e provare facilmente le risposte intelligenti one-touch sul tuo dispositivo mobile. L'architettura consente una facile configurazione delle dimensioni del modello e della qualità della previsione in base alle esigenze dell'app. Un elenco di esempi di messaggi con cui questo modello funziona correttamente è reperibile
qui
. Il sistema può anche tornare a suggerire risposte da un insieme fisso addestrato e compilato da intenti di risposta popolari osservati nelle conversazioni chat. Il modello sottostante è diverso da quelli utilizzati da Google per le risposte Smart Reply nelle sue app
1
.
Oltre i modelli conversazionali
È interessante notare che l'architettura ML descritta sopra consente scelte flessibili per il modello sottostante. Abbiamo anche progettato l'architettura affinché sia compatibile con diversi approcci di machine learning: ad esempio, se la utilizziamo con il deep learning di TensorFlow, usufruiamo di una rete neurale leggera (
ProjectionNet
) per il modello sottostante, mentre un'architettura diversa (
ProjectionGraph
) rappresenta il modello utilizzando un framework
grafico
invece di una rete neurale.
Il framework comune può anche essere adoperato al fine di addestrare modelli leggeri su dispositivo per altre attività utilizzando architetture di modellazione ML diverse. Ad esempio, abbiamo ricavato un'architettura ProjectionNet che utilizza una complessa architettura feed-forward o ricorrente (come LSTM) per il modello trainer in concomitanza con una semplice architettura di proiezione composta da operazioni di proiezione dinamica e da pochi e stretti livelli completamente connessi. L'intera architettura viene addestrata end-to-end utilizzando la retro-propagazione in TensorFlow e, al termine, il ProjectionNet compatto viene utilizzato direttamente per l'inferenza. Grazie a questo metodo, abbiamo addestrato con successo piccoli modelli ProjectionNet che ottengono una significativa riduzione delle dimensioni del modello (fino a diversi ordini di grandezza) e prestazioni elevate rispetto alla precisione su più attività di classificazione visiva e linguistica (
ecco
alcuni esempi). Allo stesso modo, abbiamo addestrato altri modelli leggeri usando il nostro
framework di learning grafico
, anche nelle impostazioni
semi-supervisionate
.
Architetture ML per addestrare i modelli su dispositivo:
ProjectionNet
addestrato utilizzando il deep learning (sinistra) e
ProjectionGraph
addestrato utilizzando il learning grafico (destra).
Continueremo a migliorare e a produrre versioni aggiornate di modelli TensorFlow Lite open-source. Siamo convinti che il modello rilasciato (così come quelli futuri), ottenuto avvalendoci di queste architetture ML, possa essere riutilizzato per molte applicazioni del linguaggio naturale e della visione artificiale o collegato ad app esistenti per l'abilitazione dell'intelligenza artificiale. Ci auguriamo che le community di machine learning e di elaborazione della lingua naturale possano sfruttare queste tecnologie per problemi e casi di utilizzo ancora non affrontati.
Riconoscimenti
Yicheng Fan e Gaurav Nemade hanno contribuito immensamente a questo sforzo. Ringraziamo in modo particolare Rajat Monga, Andre Hentz, Andrew Selle, Sarah Sirajuddin e Anitha Vijayakumar del team TensorFlow; Robin Dua, Patrick McGregor, Andrei Broder, Andrew Tomkins e il team Google Expander.
1
Il modello su dispositivo rilasciato è stato addestrato per ottimizzare le app di piccole dimensioni e a bassa latenza su telefoni cellulari e dispositivi indossabili. Le previsioni Smart Reply nelle app Google però sono state generate utilizzando modelli più grandi e complessi. Nei sistemi di produzione usiamo anche diversi classificatori addestrati per rilevare i contenuti inappropriati e applicare ulteriori filtri e accorgimenti per ottimizzare l'esperienza utente e i livelli di qualità. Consigliamo anche agli sviluppatori che adoperano la versione open-source di TensorFlow Lite di seguire tali pratiche nelle loro applicazioni finali.
↩
Etichette
Android
Firebase
machine learning
Google Cloud Platform
GDL
Eventi
Google Developers Live
Google Play
TensorFlow
App
Chrome
Cloud
api
GDLItalia
GDE
GDG
Google Assistant
iOS
Kotlin
Actions on Google
Deep Learning
AppEngine
AMP
BigQuery
Cloud Functions
Flutter
Android Studio
Google Developers Expert
Università
Google AppEngine
JavaScript
AI
Android Wear
GAE
Google Play Store
HTML5
Maps
security
Android App Development
AngularJS
IoT
Kubernetes
Annunci
Cloud Firestore
Cloud Machine Learning
Google I/O
Polymer
Android Things
Community
DevTools
Google App Engine
intelligenza artificiale
Entrepreneurship
Firebase Analytics
GSoC
Games
Google Cast
ML
open source
Crashlytics
Dart
Diversity
Drive
Google Data Studio
Google Play Games
TensorFlow Lite
Android Developers
Android O
Cloud Spanner
Cloud TPU
Compute Engine
DevFest
Google Compute Engine
Google Developers
Material Design
Mobile
PWA
Python
Startup
AIY Project
ARCore
Android Jetpack
AndroidDev
Androidq
Apps Script
Artificial Intelligence
Augmented Reality
Firebase Cloud Messaging
Google Cloud
Google Maps
Gsuite
IO19
ML kit
Research
VR
coding
unity
#io19
AR
Android Dev Summit
Android Developer
Android Q
Cardboard
Cloud AI
Coral
Developers
Dialogflow
Firebase Realtime Database
Gmail
Google AI
Google Cloud Messaging
Google ContainerEngine
Google Play Console
Kotlin Coroutines
NLP
Programming
Responsive Design
TensorFlowjs
Testing
WTM
Women
beacons
cloud storage
developer
node JS
student programs
women techmakers
API Cloud Vision
Add-ons
Android P
AndroidDevStory
Animation
AutoML
Brillo
Classroom
DSC
Database
Developer Student Clubs
Edge TPU
Fabric
Featured
Flutter Web
G Suite
GWT
GoLang
Google
Google Brain
Google Cloud Next
Google Container Engine
Google Developer Groups
Google I/O Extended
Graph
Hosting
Instant Apps
Keras
Livedata
Mobile Sites
Prediction
Privacy
Project Tango
SDK
Stackdriver
Tales
UI
Udacity
Virtual Reality
Web
Web Development
YouTube
analytics
android security
api.ai
courses
google io
indies
natural language processing
reti neurali
sign-in
young developers
2d Animation
3d
AIY
ARkit
Adversarial Learning
Alpha
Android App
Android App Developmen
Android App bundle
Android Architecture
Android Architecture Components
Android Auto
Android Automotive OS
Android Dev Summit Android Developer
Android Developer Challenge
Android Developers GooglePlayAwards
Android Development
Android Go
Android Instant App
Android Pie
Android Q Scoped Storage
Android Q audio
Android Styles
Android audio playback capture
Android codelabs
AndroidTV
AndroidX
Angular
Aogdevs
Api Design
App Development
App Distribution
Apps
Architecture
Architecture Components
Arduino
Best Practices
Betatesting
Bugs
C++
Certification
Cloud Anchors
Cloud Next
Cloud Run
Cloud Service Platform
Cloud Shell
Cloud Study Jam
Coached Conversational Preference Elicitation
Commerce
Community Connector
Computer Science
Consistency
Containers
Converge
Conversation Design
Crash Reporting
DLS Design
Dagger
Data Science
Databases
Dependency Injection
Design
Developer Communities
Developer Community
Developer Culture
Developer Story
Developing Media Apps
Development
Eager
Edge TPU Dev Board
Education
Emulatore Android
Error Message
Eslint
Europe
Firebase Extensions
Firebase Summit 2019
Firebasehosting
Flutter 1.5
Flutter at IO
FlutterDark
GCE
GDD
Game Development
Gboard
Gesture Navigation
Glass
Go
Google AI Quantum
Google App Script
Google Cloud Functions
Google Cloud billing
Google Coral
Google Developer Days
Google Home Hub
Google IOS Android
Google Identity Platform
Google Launchpad
Google Lens
Google Now
Google Photos
Google Play Devs
Google Play Indie Games Festival
Google Play Instant
Google Plus
Google codelabs
Google+
GoogleDevWeekly
GoogleLaunchpad
GooglePlay
Graphics
Healthcare
I/O
IO
IO19 Flutter
In-app Billing
Indie Games
Indie Games Festival
Indie games showcase
Indie showcase
Ingress
Instant Games
Issues
Java
Jetpack
Knative
Kotlin Beginners
Kotlin Everywhere
Kotlin codelabs
Lighthouse
Live Caption
Live Streaming
Localization
Location
M-Theory
Mondaygram
Monetization
NYT
NativeScript
Navigation
Neural Graph Learning
Neural Structured
Nodejs
OS
OS Updates
Olivex
One Time Codes
Online Education
PHA
Performance Monitoring
Policy
Posenet
Project Mainline
Project Treble
Quantum Computing Theory
Reactive Programming
Regression
Remote Config
Resonance Audio
Room
Scoped Storage
Semantics
Semi Supervised Learning
Serverless
Sms Retriever Api
Sms Verification
Speech Recognition
Swift
Tensorflow Core
Tensorflow Hub
Test Lab
Text
Tokenizer
Tpu
Transformers
UX
UX Design
UX Research
Universal Sentence Encoder
Unsupervised Data Augmentation
Unsupervised Learning
User Experience
Viewmodel
Voice
WWW
Wear OS
WebAssembly
Widget
Women in Tech
WomenTechmakers
android kotlin
app stability
assistant
audio recording
augmented faces
authsub
best practices and updates
billing
botnet
business
c++ games
cancer
chatbot
chrome privacy
codelab
codelabs
competition
daydream
designer
dominio .dev
error handling
event
firebase games
firebase gdc
firebase hosting
firebase unity
game center authentication
game testing
games authentication
gdc
google summer of code
googledevelopers
grow
hashcode
indie
indie developers
internship
kids
machine intelligence
machine learning accelerator
maker
multi-platform
nearby
oauth
openid
performance
persistent AR
privacy sandbox
prizes
prototype
purchase flows
queries
realtime
responsible AI
security rules
showcase
solutions challenge
startup africa roadtrip
startup times
students
summer of code
unity crashlytics
verify apps
win
Archivio Blog
2020
feb
gen
2019
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2018
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2017
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2016
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2015
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2014
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2013
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
Feed
Follow @GoogleDevsItaly