Local blog for Italian speaking developers
Come insegnare a disegnare ai computer
20 aprile 2017
Pubblicato da David Ha, Google Brain Resident
La comunicazione visiva astratta è una parte fondamentale del modo in cui le persone trasmettono le loro idee. Sin da molto piccoli, i bambini sviluppano la capacità di rappresentare oggetti, e probabilmente anche le loro emozioni, con pochi tratti di penna. Anche se questi semplici disegni non rassomigliano molto alla realtà ritratta realisticamente in una fotografia, ci comunicano qualcosa su come le persone la rappresentano e ricreano immagini del mondo che li circonda.
Disegni vettoriali realizzati da sketch-rnn
Nel nostro paper recente,
A Neural Representation of Sketch Drawings
, abbiamo presentato una
rete neurale ricorrente
generativa in grado di produrre schizzi di oggetti comuni, con l'obiettivo di addestrare un computer a disegnare e a generalizzare concetti astratti in modo simile agli esseri umani. Addestriamo il nostro modello in base a un set di dati di schizzi eseguiti a mano, ciascuno dei quali viene rappresentato come una sequenza di azioni motorie che controllano la penna: in quale direzione muoversi, quando sollevarla e quando smettere di disegnare. In tal modo, abbiamo creato un modello che ha molte potenziali applicazioni pratiche, dal processo creativo di un artista all'insegnamento del disegno agli studenti.
Nonostante esista già una grande quantità di lavori sulla modellazione generativa delle immagini mediante le reti neurali, la maggior parte di questi studi si concentra sulla modellazione delle
immagini raster
rappresentate come griglia di pixel in 2D. Questi modelli sono attualmente in grado di generare immagini realistiche, grazie all'elevata dimensionalità della griglia di pixel in 2D, ma la loro difficoltà maggiore è generare immagini che abbiano una struttura coerente. Ad esempio, questi modelli a volte producono immagini buffe di gatti a tre o più occhi o cani con molte teste.
Esempi di animali con un numero errato di parti del corpo, prodotte utilizzando i modelli precedenti di GAN basati su set di dati 128x128 ImageNet. L'immagine sopra è la Figura 29 di
Generative Adversarial Networks
, Ian Goodfellow, Tutorial NIPS 2016.
In questo lavoro esaminiamo una rappresentazione basata sui vettori dimensionali minori ispirati a come disegnano le persone. Il nostro modello, sketch-rnn, si basa sul framework autoencoder
sequenza per sequenza
(seq2seq). Incorpora l'
inferenza variazionale
e utilizza le
iperreti
come cellule della rete neurale ricorrente. L'obiettivo di un autoencoder seq2seq è addestrare una rete per codificare la sequenza di input in un vettore di numeri a virgola mobile, chiamato vettore
latente
, e da questo vettore latente ricostruire una sequenza di output utilizzando un decodificatore che replichi la sequenza di input il più fedelmente possibile.
Schema di sketch-rnn
Nel modello abbiamo deliberatamente aggiunto del rumore al vettore latente. Nel nostro paper mostriamo che inducendo rumore nel canale di comunicazione tra il codificatore e il decodificatore, il modello non riesce più a riprodurre esattamente il disegno di input, ma deve imparare a catturare l'essenza del disegno come vettore latente rumoroso. Il nostro decodificatore prende questo vettore latente e produce una sequenza di azioni motorie per creare il nuovo schizzo. Nella figura sottostante, immettiamo alcuni schizzi di gatti nel codificatore per produrre disegni ricostruiti utilizzando il decodificatore.
Ricostruzioni generate da un modello basato su schizzi di gatto
È importante sottolineare che gli schizzi di gatto ricostruiti
non
sono copie degli schizzi di input, ma sono
nuovi
disegni di gatti con caratteristiche simili agli input. Per dimostrare che il modello non stia semplicemente copiando dalla sequenza di input, e che invece abbia imparato a capire come le persone disegnano i gatti, possiamo provare a immettere degli schizzi atipici nel codificatore.
Quando immettiamo uno schizzo di un gatto con tre occhi, il modello genera un gatto simile ma con due occhi, indicando di sapere che i gatti di solito hanno solo due occhi. Per dimostrare che il modello non stia semplicemente scegliendo il gatto dall'aspetto più normale dalla vasta collezione di schizzi memorizzati, possiamo dare come input qualcosa di completamente diverso, ossia lo schizzo di uno spazzolino da denti. Possiamo notare che la rete genera una figura simile a un gatto con dei lunghi baffi che simula le caratteristiche e l'orientamento dello spazzolino da denti. Ciò suggerisce che la rete ha appreso a codificare un disegno di input in un set di concetti relativi ai gatti astratti incorporati nel vettore latente e che è in grado di ricostruire uno schizzo completamente nuovo sulla base di questo vettore latente.
Non sei ancora convinto? Ripetiamo ancora una volta l'esperimento con un modello basato su schizzi di maiale e arriviamo a conclusioni simili. Quando gli viene presentato un maiale a otto zampe, il modello genera un maiale simile ma con solo quattro zampe. Se immettiamo un camion nel modello per la creazione di disegni di maiale, otteniamo un maiale che assomiglia un po' a un camion.
Ricostruzioni generate da un modello basato su schizzi di maiale
Per studiare come questi vettori latenti codificano le caratteristiche concettuali degli animali, nella figura sottostante abbiamo prima ottenuto due vettori latenti codificati da due tipi di maiali molto differenti: una testa di maiale (nel riquadro verde) e un maiale intero (nel riquadro arancione). Vogliamo capire come il nostro modello abbia imparato a rappresentare i maiali, e un modo per farlo è interpolare tra i due vettori latenti visualizzando ogni schizzo generato da ciascun vettore latente interpolato. Nella figura sottostante vediamo come il disegno della testa del maiale si trasformi lentamente nel disegno del maiale intero e, durante il processo, mostri come il modello organizza i concetti degli schizzi di maiale. Osserviamo che il vettore latente controlla la posizione e le dimensioni relative del naso rispetto alla testa e anche la presenza del corpo e delle gambe nel disegno.
Interpolazioni spaziali latenti generate da un modello basato su schizzi di maiale
Vogliamo anche sapere se il nostro modello può imparare a rappresentare animali diversi e, in caso affermativo, che aspetto avranno? Nella figura sottostante creiamo schizzi da vettori latenti interpolati tra la testa di un gatto e un maiale intero. Vediamo come la rappresentazione passi lentamente dalla testa di un gatto a un gatto con la coda, a un gatto con il corpo grasso e, infine, a un maiale intero. Come un bambino che sta imparando a disegnare gli animali, il nostro modello impara a creare gli animali collegando la testa, i piedi e la coda al corpo. Notiamo inoltre che il modello è in grado di disegnare teste di gatto chiaramente diverse dalle teste di maiale.
Interpolazioni spaziali latenti generate da un modello basato su schizzi di gatto e maiale
Questi esempi di interpolazione suggeriscono che di fatto i vettori latenti codificano le caratteristiche concettuali di uno schizzo. Ma possiamo utilizzare queste funzionalità per aumentare altri schizzi senza queste stesse caratteristiche, ad esempio, aggiungere il corpo alla testa di un gatto?
Relazioni apprese tra concetti astratti ed esplorate usando l'aritmetica vettoriale latente
Infatti, possiamo constatare che le analogie di disegno degli schizzi sono possibili per il nostro modello basato su schizzi di gatto e maiale. Ad esempio, si può sottrarre il vettore latente della testa di un maiale codificato dal vettore latente di un maiale intero per ottenere un vettore che rappresenti il concetto del corpo. Aggiungendo questa differenza al vettore latente della testa di un gatto, otteniamo un gatto completo (testa di gatto + corpo = gatto intero). Queste analogie di disegno ci permettono di constatare che il modello organizza il suo spazio latente per rappresentare concetti diversi nel collettore degli schizzi generati.
Applicazioni creative
Oltre alla componente di ricerca di questo lavoro, siamo anche super entusiasti delle potenziali applicazioni creative di sketch-rnn. Ad esempio, anche nel caso di utilizzo più semplice, i designer possono sfruttare sketch-rnn per generare un gran numero di design simili ma unici per le stampe tessili o le carte da parati.
Gatti simili ma unici generati da un unico disegno di input (riquadro verde e giallo)
Come abbiamo detto prima, a un modello addestrato per disegnare i maiali si può insegnare a disegnare camion che assomiglino a un maiale, se viene immesso lo schizzo di input di un camion. Possiamo estendere questo concetto ad applicazioni che potrebbero aiutare i designer a produrre design astratti più in sintonia con il loro pubblico di destinazione.
Nella figura sottostante, ad esempio, immettiamo gli schizzi di quattro sedie differenti nel nostro modello di schizzi di gatto allo scopo di produrre quattro gatti a forma di sedia. Siamo in grado di andare oltre e integrare la metodologia di interpolazione descritta in precedenza per esplorare lo spazio latente dei gatti a forma di sedia e produrre un'ampia varietà di disegni da cui possiamo scegliere.
Esplorare lo spazio latente dei diversi gatti generati a forma di sedia
Esplorare lo spazio latente tra gli oggetti differenti può consentire ai designer di trovare soluzioni e relazioni interessanti tra i diversi disegni.
Esplorare lo spazio latente degli schizzi generati di oggetti di uso quotidiano
Interpolazione spaziale latente da sinistra a destra e poi verso il basso
Possiamo anche utilizzare il modulo decodificatore di sketch-rnn come modello autonomo e addestrarlo a prevedere il compimento degli schizzi incompleti in modi diversi. Questa tecnica consente di creare applicazioni in cui il modello aiuta il processo creativo di un artista, suggerendo modi alternativi per finire uno schizzo incompleto. Nella figura sottostante abbiamo realizzato alcuni schizzi incompleti (in rosso) e il modello ha trovato delle alternative per completare i disegni.
Il modello può iniziare con degli schizzi incompleti (gli schizzi parziali rossi a sinistra della linea verticale) e generare automaticamente completamenti differenti.
Per portare questo concetto oltre, usiamo modelli diversi per finire lo stesso schizzo. Nelle figure seguenti osserviamo come la figura quadrata e il cerchio diventino parte di formiche, fenicotteri, elicotteri, gufi, divani e persino pennelli. Utilizzando un insieme diversificato di modelli addestrati a disegnare oggetti differenti, i designer possono esplorare metodi creativi per comunicare messaggi visivi significativi al loro pubblico.
Prevedere le soluzioni di completamento di una figura quadrata e un cerchio (al centro) utilizzando vari modelli di sketch-rnn addestrati a disegnare oggetti differenti.
Siamo entusiasti delle future possibilità per la modellazione generativa delle immagini vettoriali. Questi modelli consentiranno molte nuove e interessanti applicazioni creative in svariate direzioni. Possono anche servire come strumento per aiutarci a migliorare la comprensione dei processi del nostro pensiero creativo. Per saperne di più su sketch-rnn, leggi il nostro paper
A Neural Representation of Sketch Drawings
.
Riconoscimenti
Ringraziamo Ian Johnson, Jonas Jongejan, Martin Wattenberg, Mike Schuster, Ben Poole, Kyle Kastner, Junyoung Chung, Kyle McDonald per il loro aiuto in questo progetto. Questo lavoro è stato svolto nell'ambito del programma
Google Brain Residency
.
Etichette
Android
Firebase
machine learning
Google Cloud Platform
GDL
Eventi
Google Developers Live
Google Play
TensorFlow
App
Chrome
Cloud
api
GDLItalia
GDE
GDG
Google Assistant
iOS
Kotlin
Actions on Google
Deep Learning
AppEngine
AMP
BigQuery
Cloud Functions
Flutter
Android Studio
Google Developers Expert
Università
Google AppEngine
JavaScript
AI
Android Wear
GAE
Google Play Store
HTML5
Maps
security
Android App Development
AngularJS
IoT
Kubernetes
Annunci
Cloud Firestore
Cloud Machine Learning
Google I/O
Polymer
Android Things
Community
DevTools
Google App Engine
intelligenza artificiale
Entrepreneurship
Firebase Analytics
GSoC
Games
Google Cast
ML
open source
Crashlytics
Dart
Diversity
Drive
Google Data Studio
Google Play Games
TensorFlow Lite
Android Developers
Android O
Cloud Spanner
Cloud TPU
Compute Engine
DevFest
Google Compute Engine
Google Developers
Material Design
Mobile
PWA
Python
Startup
AIY Project
ARCore
Android Jetpack
AndroidDev
Androidq
Apps Script
Artificial Intelligence
Augmented Reality
Firebase Cloud Messaging
Google Cloud
Google Maps
Gsuite
IO19
ML kit
Research
VR
coding
unity
#io19
AR
Android Dev Summit
Android Developer
Android Q
Cardboard
Cloud AI
Coral
Developers
Dialogflow
Firebase Realtime Database
Gmail
Google AI
Google Cloud Messaging
Google ContainerEngine
Google Play Console
Kotlin Coroutines
NLP
Programming
Responsive Design
TensorFlowjs
Testing
WTM
Women
beacons
cloud storage
developer
node JS
student programs
women techmakers
API Cloud Vision
Add-ons
Android P
AndroidDevStory
Animation
AutoML
Brillo
Classroom
DSC
Database
Developer Student Clubs
Edge TPU
Fabric
Featured
Flutter Web
G Suite
GWT
GoLang
Google
Google Brain
Google Cloud Next
Google Container Engine
Google Developer Groups
Google I/O Extended
Graph
Hosting
Instant Apps
Keras
Livedata
Mobile Sites
Prediction
Privacy
Project Tango
SDK
Stackdriver
Tales
UI
Udacity
Virtual Reality
Web
Web Development
YouTube
analytics
android security
api.ai
courses
google io
indies
natural language processing
reti neurali
sign-in
young developers
2d Animation
3d
AIY
ARkit
Adversarial Learning
Alpha
Android App
Android App Developmen
Android App bundle
Android Architecture
Android Architecture Components
Android Auto
Android Automotive OS
Android Dev Summit Android Developer
Android Developer Challenge
Android Developers GooglePlayAwards
Android Development
Android Go
Android Instant App
Android Pie
Android Q Scoped Storage
Android Q audio
Android Styles
Android audio playback capture
Android codelabs
AndroidTV
AndroidX
Angular
Aogdevs
Api Design
App Development
App Distribution
Apps
Architecture
Architecture Components
Arduino
Best Practices
Betatesting
Bugs
C++
Certification
Cloud Anchors
Cloud Next
Cloud Run
Cloud Service Platform
Cloud Shell
Cloud Study Jam
Coached Conversational Preference Elicitation
Commerce
Community Connector
Computer Science
Consistency
Containers
Converge
Conversation Design
Crash Reporting
DLS Design
Dagger
Data Science
Databases
Dependency Injection
Design
Developer Communities
Developer Community
Developer Culture
Developer Story
Developing Media Apps
Development
Eager
Edge TPU Dev Board
Education
Emulatore Android
Error Message
Eslint
Europe
Firebase Extensions
Firebase Summit 2019
Firebasehosting
Flutter 1.5
Flutter at IO
FlutterDark
GCE
GDD
Game Development
Gboard
Gesture Navigation
Glass
Go
Google AI Quantum
Google App Script
Google Cloud Functions
Google Cloud billing
Google Coral
Google Developer Days
Google Home Hub
Google IOS Android
Google Identity Platform
Google Launchpad
Google Lens
Google Now
Google Photos
Google Play Devs
Google Play Indie Games Festival
Google Play Instant
Google Plus
Google codelabs
Google+
GoogleDevWeekly
GoogleLaunchpad
GooglePlay
Graphics
Healthcare
I/O
IO
IO19 Flutter
In-app Billing
Indie Games
Indie Games Festival
Indie games showcase
Indie showcase
Ingress
Instant Games
Issues
Java
Jetpack
Knative
Kotlin Beginners
Kotlin Everywhere
Kotlin codelabs
Lighthouse
Live Caption
Live Streaming
Localization
Location
M-Theory
Mondaygram
Monetization
NYT
NativeScript
Navigation
Neural Graph Learning
Neural Structured
Nodejs
OS
OS Updates
Olivex
One Time Codes
Online Education
PHA
Performance Monitoring
Policy
Posenet
Project Mainline
Project Treble
Quantum Computing Theory
Reactive Programming
Regression
Remote Config
Resonance Audio
Room
Scoped Storage
Semantics
Semi Supervised Learning
Serverless
Sms Retriever Api
Sms Verification
Speech Recognition
Swift
Tensorflow Core
Tensorflow Hub
Test Lab
Text
Tokenizer
Tpu
Transformers
UX
UX Design
UX Research
Universal Sentence Encoder
Unsupervised Data Augmentation
Unsupervised Learning
User Experience
Viewmodel
Voice
WWW
Wear OS
WebAssembly
Widget
Women in Tech
WomenTechmakers
android kotlin
app stability
assistant
audio recording
augmented faces
authsub
best practices and updates
billing
botnet
business
c++ games
cancer
chatbot
chrome privacy
codelab
codelabs
competition
daydream
designer
dominio .dev
error handling
event
firebase games
firebase gdc
firebase hosting
firebase unity
game center authentication
game testing
games authentication
gdc
google summer of code
googledevelopers
grow
hashcode
indie
indie developers
internship
kids
machine intelligence
machine learning accelerator
maker
multi-platform
nearby
oauth
openid
performance
persistent AR
privacy sandbox
prizes
prototype
purchase flows
queries
realtime
responsible AI
security rules
showcase
solutions challenge
startup africa roadtrip
startup times
students
summer of code
unity crashlytics
verify apps
win
Archivio Blog
2020
feb
gen
2019
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2018
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2017
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2016
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2015
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2014
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2013
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
Feed
Follow @GoogleDevsItaly