Local blog for Italian speaking developers
Come insegnare ai robot a comprendere i concetti semantici
8 settembre 2017
Pubblicato da Sergey Levine, Faculty Advisor e Pierre Sermanet, Research Scientist, Google Brain Team
Il machine learning consente ai robot di acquisire capacità complesse come il
grasping (afferrare oggetti)
e
aprire le porte
. Tuttavia, l'apprendimento di queste competenze richiede la programmazione manuale di funzioni di rinforzo che i robot tentano di ottimizzare. L'essere umano invece può capire lo scopo di un compito solo guardando qualcun altro che lo svolge o semplicemente se gli viene spiegato. Ci comportiamo così perché attingiamo da una conoscenza già acquisita sul mondo: quando vediamo qualcuno tagliare una mela, capiamo che lo scopo è produrre due fette, a prescindere dal tipo di mela o dall'attrezzo usato per tagliarla. Parimenti se ci viene detto di raccogliere la mela, capiamo quale oggetto dobbiamo afferrare perché possiamo collocare la parola "mela" nell'ambiente: sappiamo cosa significa.
Questi sono concetti semantici: eventi salienti come la produzione di due fette e le categorie di oggetti contrassegnate da parole come "mela". Possiamo insegnare a un robot a comprendere i concetti semantici per fargli seguire semplici comandi impartiti tramite etichette categoriali o esempi forniti dall'utente? In questo post illustreremo alcuni dei nostri recenti studi sull'apprendimento robotico, basato sia sull'esperienza raccolta autonomamente dal robot, che è abbondante ma manca di etichettatura fornita dall'uomo, sia sui dati etichettati dall'uomo che permettono al robot di comprendere la semantica. Parleremo di come i robot possano utilizzare la loro esperienza per comprendere gli eventi salienti di una dimostrazione fornita dall'uomo, imitare i movimenti umani nonostante le differenze tra il corpo umano e quello dei robot e comprendere categorie semantiche come "giocattolo" e "penna" per scegliere gli oggetti in risposta a un comando dell'utente.
Comprendere le dimostrazioni umane con funzioni di deep visual
Nel primo ciclo di esperimenti, presentato nel nostro paper
Unsupervised Perceptual Rewards for Imitation Learning
, l'obiettivo è stato far sì che un robot potesse capire un compito, come l'apertura di una porta, osservando solo un piccolo numero di dimostrazioni umane non etichettate. Analizzando queste dimostrazioni il robot deve comprendere quale sia l'evento semantico saliente che gli fa eseguire correttamente un compito per poi utilizzare l'apprendimento per rinforzo per eseguirlo.
Esempi di dimostrazioni umane (a sinistra) e la corrispondente imitazione del robot (destra).
L'apprendimento non supervisionato basato su set di dati ridotti è uno degli scenari più impegnativi nel campo del machine learning. Per renderlo possibile, utilizziamo funzioni di deep visual ottenute da una grande rete addestrata per il riconoscimento delle immagini su ImageNet. Tali funzioni sono notoriamente sensibili ai concetti semantici pur mantenendo l'invarianza alle variabili di disturbo come l'aspetto e l'illuminazione. Usiamo queste funzioni per interpretare le dimostrazioni fornite dall'utente e mostrare che è davvero possibile imparare le funzioni di rinforzo non supervisionate da qualche dimostrazione e senza ripetere l'addestramento.
Esempio di funzioni di rinforzo apprese esclusivamente dall'osservazione del compito di apertura delle porte. I rinforzi con premio aumentano progressivamente da zero al premio massimo quando il compito viene portato a termine.
Dopo aver appreso una funzione di rinforzo solo dall'osservazione, la usiamo per insegnare al robot il compito di aprire le porte, utilizzando solo le immagini per valutare la funzione di rinforzo. Con l'aiuto di una dimostrazione cinestetica iniziale che riesce circa il 10% delle volte, il robot impara a migliorare fino a raggiungere il 100% di precisione utilizzando la funzione di rinforzo appresa.
Progressione dell'apprendimento
Emulare i movimenti umani tramite la supervisione autonoma e l'imitazione
Nel paper
Time-Contrastive Networks: Self-Supervised Learning from Multi-View Observation
proponiamo un approccio innovativo per conoscere il mondo tramite l'osservazione e dimostrarlo attraverso l'imitazione di movimenti con supervisione autonoma. Il nostro approccio si basa principalmente sulla co-occorrenza nel tempo e nello spazio per la supervisione: addestrando il robot a distinguere i fotogrammi in momenti diversi del video, impara a distinguere e a organizzare la realtà in utili rappresentazioni astratte.
Ad esempio nell'imitare un movimento, le diverse dimensioni della rappresentazione possono codificare le articolazioni del corpo umano o del robot. Anziché creare una mappatura manuale delle articolazioni umane e robotiche (che è comunque ambigua per via delle differenze fisiologiche), lasciamo che il robot impari a imitare con la tecnica end-to-end. Quando il nostro modello viene addestrato contemporaneamente sulle osservazioni umane e robotiche, scopre da solo la corrispondenza tra queste due, anche se non gli viene fornita alcuna corrispondenza. Otteniamo così un robot che può imitare i movimenti umani senza avere mai ricevuto una corrispondenza tra esseri umani e robot.
Imitazione di un movimento umano con supervisione autonoma del robot.
Alcuni dei vantaggi evidenti dell'apprendimento end-to-end sono la mappatura delle articolazioni
molte-a-uno
e
altamente non lineare
mostrata sopra. In questo esempio il movimento verso l'alto coinvolge molte articolazioni nell'organismo umano ma una sola nel robot. Mostriamo che il robot ha scoperto questa mappatura molto complessa da solo senza ricevere informazioni relative alle posizioni umane.
Grasping tramite le categorie semantiche di oggetti
Gli esperimenti precedenti illustrano come una persona possa impartire un compito al robot attraverso una dimostrazione esemplificativa, nel qual caso il robot deve interpretare la semantica del compito, ossia gli eventi salienti e le caratteristiche rilevanti del movimento. Cosa succede se invece di mostrare il compito, vogliamo semplicemente dirgli cosa fare? Ciò richiede che il robot comprenda anche la semantica per identificare gli oggetti circostanti che corrispondono alla categoria semantica specificata dall'utente. Nel paper
End-to-End Learning of Semantic Grasping
studiamo come i dati etichettati manualmente e quelli raccolti autonomamente possano essere raccolti insieme per eseguire il compito di
grasping semantico
nel quale il robot deve selezionare un oggetto da un contenitore pieno che corrisponde all'etichetta della classe specificata dall'utente, ad esempio "gomma" o "giocattolo."
Nell'impostazione del grasping semantico, al braccio robotico viene chiesto di prendere un oggetto corrispondente a una categoria semantica fornita dall'utente (ad esempio i Lego).
Per imparare a svolgere il grasping semantico i nostri robot raccolgono innanzitutto un vasto set di dati di grasping tentando di selezionare autonomamente una grande varietà di oggetti, come illustrato nel nostro
post precedente
e nel nostro
lavoro iniziale
. Questi dati di per se stessi possono consentire al robot di selezionare gli oggetti ma non gli permettono di capire come associarli alle etichette semantiche. Per abilitare la comprensione semantica, dobbiamo avvalerci almeno in parte della supervisione umana. Ogni volta che il robot afferra correttamente un oggetto, lo presenta alla telecamera in una posa canonica, come illustrato di seguito.
Il robot presenta gli oggetti alla fotocamera dopo averli afferrati. Queste immagini possono essere utilizzate per etichettare la categoria di oggetti selezionata.
Un sottoinsieme di queste immagini viene quindi etichettato da esseri umani. Poiché le immagini che presentano l'oggetto lo mostrano in una posa canonica, è facile propagare queste etichette alle restanti immagini di presentazione addestrando un classificatore sugli esempi etichettati. Le immagini di presentazione etichettate indicano poi al robot l'oggetto che è stato effettivamente selezionato e così può associare in retrospettiva questa etichetta con le immagini che ha osservato mentre prendeva l'oggetto dal contenitore.
Utilizzando questo set di dati etichettato, possiamo quindi addestrare un modello a due flussi che prevede quale oggetto verrà afferrato in base all'immagine corrente e alle azioni che il robot potrebbe svolgere. Il modello a due flussi che utilizziamo è inspirato alla
ripartizione dorso-ventrale osservata nella corteccia visiva umana
, dove il flusso ventrale elabora visivamente la classe semantica degli oggetti, mentre il flusso dorsale elabora la posizione geografica dell'oggetto afferrato. Fondamentalmente il flusso ventrale può includere dati ausiliari costituiti da immagini di oggetti etichettate (non necessariamente prese dal robot) e il flusso dorsale può includere dati ausiliari di grasping senza etichette semantiche, addestrando così tutto il sistema più efficacemente mediante le grandi quantità di dati etichettati in modo eterogeneo. In questo modo possiamo combinare una quantità limitata di etichette umane con una grande quantità di dati raccolti autonomamente dal robot per afferrare gli oggetti in base alla categoria semantica desiderata, come illustrato nel video seguente.
Progetti futuri
I nostri esperimenti mostrano come una quantità limitata di dati etichettati possa essere combinata con i dati raccolti ed etichettati automaticamente dal robot per consentirgli di comprendere gli eventi, le categorie di oggetti e le dimostrazioni dell'utente. È facile immaginare che in futuro i sistemi robotizzati potranno essere addestrati mediante una combinazione di dati annotati dall'utente e un numero sempre crescente di set di dati raccolti autonomamente, potenziando sempre di più le competenze robotiche e facilitando l'ingegnerizzazione della progettazione di robot autonomi. Inoltre, poiché i sistemi robotizzati raccolgono i dati annotati con metodi sempre più automatizzati nel mondo reale, tali dati possono essere utilizzati per migliorare non solo questi sistemi ma anche quelli di visione artificiale, riconoscimento vocale ed elaborazione del linguaggio naturale, che potranno trarre beneficio da queste enormi fonti di dati ausiliari.
Naturalmente non siamo i primi a prendere in considerazione la connessione tra robotica e semantica. Ampi studi sui temi di
comprensione del linguaggio naturale
,
percezione robotica
,
grasping
e
apprendimento per imitazione
hanno analizzato come la semantica e le azioni possano essere raccolte insieme in un sistema robotizzato. Tuttavia, gli esperimenti descritti sopra potrebbero indicare la strada per progetti futuri in cui i dati supervisionati autonomamente e quelli etichettati dall'uomo potranno essere raccolti insieme nell'ambito dei sistemi robotizzati autonomi.
Riconosimenti
La ricerca illustrata in questo post è stata svolta da Pierre Sermanet, Kelvin Xu, Corey Lynch, Jasmine Hsu, Eric Jang, Sudheendra Vijayanarasimhan, Peter Pastor, Julian Ibarz e Sergey Levine. Ringraziamo inoltre Mrinal Kalakrishnan, Ali Yahya e Yevgen Chebotar per aver sviluppato la politica del framework di apprendimento utilizzato per il compito dell'apertura della porta, e John-Michael Burke per aver svolto gli esperimenti sul grasping semantico.
Unsupervised Perceptual Rewards for Imitation Learning
è stato presentato in occasione di
RSS 2017
da Kelvin Xu e
Time-Contrastive Networks: Self-Supervised Learning from Multi-View Observation
sarà presentato questa settimana al
CVPR Workshop on Deep Learning for Robotic Vision
.
Etichette
Android
Firebase
machine learning
Google Cloud Platform
GDL
Eventi
Google Developers Live
Google Play
TensorFlow
App
Chrome
Cloud
api
GDLItalia
GDE
GDG
Google Assistant
iOS
Kotlin
Actions on Google
Deep Learning
AppEngine
AMP
BigQuery
Cloud Functions
Flutter
Android Studio
Google Developers Expert
Università
Google AppEngine
JavaScript
AI
Android Wear
GAE
Google Play Store
HTML5
Maps
security
Android App Development
AngularJS
IoT
Kubernetes
Annunci
Cloud Firestore
Cloud Machine Learning
Google I/O
Polymer
Android Things
Community
DevTools
Google App Engine
intelligenza artificiale
Entrepreneurship
Firebase Analytics
GSoC
Games
Google Cast
ML
open source
Crashlytics
Dart
Diversity
Drive
Google Data Studio
Google Play Games
TensorFlow Lite
Android Developers
Android O
Cloud Spanner
Cloud TPU
Compute Engine
DevFest
Google Compute Engine
Google Developers
Material Design
Mobile
PWA
Python
Startup
AIY Project
ARCore
Android Jetpack
AndroidDev
Androidq
Apps Script
Artificial Intelligence
Augmented Reality
Firebase Cloud Messaging
Google Cloud
Google Maps
Gsuite
IO19
ML kit
Research
VR
coding
unity
#io19
AR
Android Dev Summit
Android Developer
Android Q
Cardboard
Cloud AI
Coral
Developers
Dialogflow
Firebase Realtime Database
Gmail
Google AI
Google Cloud Messaging
Google ContainerEngine
Google Play Console
Kotlin Coroutines
NLP
Programming
Responsive Design
TensorFlowjs
Testing
WTM
Women
beacons
cloud storage
developer
node JS
student programs
women techmakers
API Cloud Vision
Add-ons
Android P
AndroidDevStory
Animation
AutoML
Brillo
Classroom
DSC
Database
Developer Student Clubs
Edge TPU
Fabric
Featured
Flutter Web
G Suite
GWT
GoLang
Google
Google Brain
Google Cloud Next
Google Container Engine
Google Developer Groups
Google I/O Extended
Graph
Hosting
Instant Apps
Keras
Livedata
Mobile Sites
Prediction
Privacy
Project Tango
SDK
Stackdriver
Tales
UI
Udacity
Virtual Reality
Web
Web Development
YouTube
analytics
android security
api.ai
courses
google io
indies
natural language processing
reti neurali
sign-in
young developers
2d Animation
3d
AIY
ARkit
Adversarial Learning
Alpha
Android App
Android App Developmen
Android App bundle
Android Architecture
Android Architecture Components
Android Auto
Android Automotive OS
Android Dev Summit Android Developer
Android Developer Challenge
Android Developers GooglePlayAwards
Android Development
Android Go
Android Instant App
Android Pie
Android Q Scoped Storage
Android Q audio
Android Styles
Android audio playback capture
Android codelabs
AndroidTV
AndroidX
Angular
Aogdevs
Api Design
App Development
App Distribution
Apps
Architecture
Architecture Components
Arduino
Best Practices
Betatesting
Bugs
C++
Certification
Cloud Anchors
Cloud Next
Cloud Run
Cloud Service Platform
Cloud Shell
Cloud Study Jam
Coached Conversational Preference Elicitation
Commerce
Community Connector
Computer Science
Consistency
Containers
Converge
Conversation Design
Crash Reporting
DLS Design
Dagger
Data Science
Databases
Dependency Injection
Design
Developer Communities
Developer Community
Developer Culture
Developer Story
Developing Media Apps
Development
Eager
Edge TPU Dev Board
Education
Emulatore Android
Error Message
Eslint
Europe
Firebase Extensions
Firebase Summit 2019
Firebasehosting
Flutter 1.5
Flutter at IO
FlutterDark
GCE
GDD
Game Development
Gboard
Gesture Navigation
Glass
Go
Google AI Quantum
Google App Script
Google Cloud Functions
Google Cloud billing
Google Coral
Google Developer Days
Google Home Hub
Google IOS Android
Google Identity Platform
Google Launchpad
Google Lens
Google Now
Google Photos
Google Play Devs
Google Play Indie Games Festival
Google Play Instant
Google Plus
Google codelabs
Google+
GoogleDevWeekly
GoogleLaunchpad
GooglePlay
Graphics
Healthcare
I/O
IO
IO19 Flutter
In-app Billing
Indie Games
Indie Games Festival
Indie games showcase
Indie showcase
Ingress
Instant Games
Issues
Java
Jetpack
Knative
Kotlin Beginners
Kotlin Everywhere
Kotlin codelabs
Lighthouse
Live Caption
Live Streaming
Localization
Location
M-Theory
Mondaygram
Monetization
NYT
NativeScript
Navigation
Neural Graph Learning
Neural Structured
Nodejs
OS
OS Updates
Olivex
One Time Codes
Online Education
PHA
Performance Monitoring
Policy
Posenet
Project Mainline
Project Treble
Quantum Computing Theory
Reactive Programming
Regression
Remote Config
Resonance Audio
Room
Scoped Storage
Semantics
Semi Supervised Learning
Serverless
Sms Retriever Api
Sms Verification
Speech Recognition
Swift
Tensorflow Core
Tensorflow Hub
Test Lab
Text
Tokenizer
Tpu
Transformers
UX
UX Design
UX Research
Universal Sentence Encoder
Unsupervised Data Augmentation
Unsupervised Learning
User Experience
Viewmodel
Voice
WWW
Wear OS
WebAssembly
Widget
Women in Tech
WomenTechmakers
android kotlin
app stability
assistant
audio recording
augmented faces
authsub
best practices and updates
billing
botnet
business
c++ games
cancer
chatbot
chrome privacy
codelab
codelabs
competition
daydream
designer
dominio .dev
error handling
event
firebase games
firebase gdc
firebase hosting
firebase unity
game center authentication
game testing
games authentication
gdc
google summer of code
googledevelopers
grow
hashcode
indie
indie developers
internship
kids
machine intelligence
machine learning accelerator
maker
multi-platform
nearby
oauth
openid
performance
persistent AR
privacy sandbox
prizes
prototype
purchase flows
queries
realtime
responsible AI
security rules
showcase
solutions challenge
startup africa roadtrip
startup times
students
summer of code
unity crashlytics
verify apps
win
Archivio Blog
2020
feb
gen
2019
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2018
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2017
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2016
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2015
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2014
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2013
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
Feed
Follow @GoogleDevsItaly