Local blog for Italian speaking developers
AVA: un set di dati video etichettato con precisione per la comprensione delle azioni umane
6 novembre 2017
Pubblicato da Chunhui Gu e David Ross, Software Engineer
Insegnare alle macchine a comprendere le azioni umane nei video è un problema fondamentale nell'ambito della ricerca per la visione artificiale, ed è essenziale per le applicazioni di ricerca e scoperta video personale, per le analisi degli sport e le interfacce gestuali. Nonostante le emozionanti scoperte degli ultimi anni nell'ambito della
classificazione
e
ricerca di oggetti
nelle immagini, il riconoscimento delle azioni umane rimane ancora problematico. Ciò è dovuto al fatto che le azioni sono di per sé meno definite degli oggetti nei video, rendendo così difficile la creazione di un set di dati video di azioni etichettato con precisione. Nonostante molti set di dati di benchmarking, ad es.
UCF101
,
ActivityNet
e
Kinetics
di DeepMind, adottino lo schema di etichettatura della classificazione delle immagini e assegnino un'etichetta a ciascun video o clip video nel set di dati, non esiste un set di dati per scene complesse contenenti più persone che potrebbero eseguire azioni diverse.
Per agevolare le ulteriori ricerche sul riconoscimento delle azioni umane, abbiamo rilasciato AVA, un termine coniato da "Atomic Visual Actions (azioni visive atomiche)", un nuovo set di dati che fornisce etichette multiple per ogni persona in una sequenza video estesa. AVA consiste in URL per i video disponibili pubblicamente su YouTube, annotati con un set di 80 azioni atomiche (ad es. "camminare", "calciare (un oggetto)", "stringere la mano"), localizzate nel tempo e nello spazio, con 57.600 segmenti video, 96.000 esseri umani etichettati che eseguono azioni per un totale di 210.000 etichette di azione. Puoi visitare il
sito web
per esplorare il set di dati, scaricare le annotazioni e leggere il nostro
paper arXiv
che descrive la progettazione e lo sviluppo del set di dati.
Rispetto ad altri set di dati di azione, AVA possiede le seguenti caratteristiche principali.
Annotazioni incentrate sulla persona.
Ogni etichetta di azione è associata a una persona piuttosto che a un video o a un clip. Quindi siamo in grado di assegnare etichette diverse a più persone che svolgono azioni diverse nella stessa scena, una cosa piuttosto comune.
Azioni visive atomiche.
Limitiamo le nostre etichette di azione a scale temporali piccole (3 secondi) nelle quali le azioni sono di natura fisica e hanno un chiaro messaggio visivo.
Materiale video realistico.
Usiamo i film come fonte di AVA, attingendo da una varietà di generi e paesi di origine diversi. Di conseguenza viene inclusa una vasta gamma di comportamenti umani nei dati.
Esempi di segmenti video di 3 secondi (da
Video Source
) con le rispettive annotazioni del riquadro delimitatore nel frame centrale di ogni segmento (per maggiore chiarezza, viene mostrato un riquadro per ogni esempio).
Per creare AVA abbiamo prima raccolto diversi set di contenuti di lunga durata da YouTube, concentrandoci sulle categorie "film" e "televisione" con attori professionisti di diverse nazionalità. Abbiamo analizzato un clip di 15 minuti per ciascun video e lo abbiamo suddiviso uniformemente in 300 segmenti non sovrapposti di 3 secondi. La strategia di campionamento ha conservato sequenze di azioni in un contesto temporale coerente.
Successivamente abbiamo etichettato manualmente tutti i riquadri delimitatori delle persone nel frame centrale di ogni segmento di 3 secondi. Per ogni persona nel riquadro delimitatore, gli annotatori hanno selezionato un numero variabile di etichette prese da un glossario predefinito di azioni atomiche (con 80 classi) che descrivono le azioni della persona all'interno del segmento. Queste azioni sono state suddivise in tre gruppi: azioni posa/movimento, interazioni persona-oggetto, interazioni persona-persona. Poiché abbiamo etichettato in modo esaustivo tutte le persone che eseguivano tutte le azioni, la frequenza delle etichette delle AVA segue una distribuzione a coda lunga, come viene indicato qui sotto.
Distribuzione delle etichette delle azioni atomiche AVA. Le etichette visualizzate nell'asse X sono solo un insieme parziale del nostro glossario.
Il design unico di AVA ci permette di ricavare alcuni dati statistici interessanti non disponibili in altri set di dati esistenti. Ad esempio, dato il grande numero di persone con almeno due etichette, possiamo misurare i pattern di co-occorrenza delle etichette delle azioni. La figura seguente mostra le coppie di azioni più importanti in AVA con i rispettivi punteggi di co-occorrenza. Confermiamo i pattern già previsti per le persone, come ad esempio suonare uno strumento mentre si canta, sollevare una persona mentre si gioca con i bambini e abbracciarsi mentre ci si bacia.
Le coppie di azioni più comuni in AVA.
Per valutare l'efficacia dei sistemi di riconoscimento delle azioni umane nel set di dati AVA, abbiamo implementato un modello di deep learning al basale esistente che ottiene prestazioni elevate nel
set di dati JHMDB
, che è molto più ridotto. A causa delle forti variazioni di zoom, clutter nello sfondo, cinematografia e diversità nell'aspetto, questo modello raggiunge prestazioni piuttosto modeste nell'identificare correttamente le azioni su AVA (18,4%
mAP
). Ciò indica che AVA sarà un utile banco di prova per sviluppare e valutare nuove architetture e algoritmi di riconoscimento delle azioni negli anni a venire.
Speriamo che il rilascio di AVA contribuisca a migliorare lo sviluppo dei sistemi di riconoscimento delle azioni umane e ad offrire opportunità per modellare attività complesse basate su etichette con fine granularità spazio-temporale a livello di azioni individuali. Continueremo a espandere e migliorare AVA e siamo impazienti di ricevere il feedback della community sulle possibili direzioni future. Iscriviti alla
mailing list
degli utenti AVA per ricevere gli aggiornamenti sui set di dati, oltre a inviarci email con il tuo feedback.
Riconoscimenti
Il core team di AVA comprende Chunhui Gu, Chen Sun, David Ross, Caroline Pantofaru, Yeqing Li, Sudheendra Vijayanarasimhan, George Toderici, Susanna Ricco, Rahul Sukthankar, Cordelia Schmid e Jitendra Malik. Ringraziamo molti colleghi e annotatori di Google per il loro supporto in questo progetto.
Etichette
Android
Firebase
machine learning
Google Cloud Platform
GDL
Eventi
Google Developers Live
Google Play
TensorFlow
App
Chrome
Cloud
api
GDLItalia
GDE
GDG
Google Assistant
iOS
Kotlin
Actions on Google
Deep Learning
AppEngine
AMP
BigQuery
Cloud Functions
Flutter
Android Studio
Google Developers Expert
Università
Google AppEngine
JavaScript
AI
Android Wear
GAE
Google Play Store
HTML5
Maps
security
Android App Development
AngularJS
IoT
Kubernetes
Annunci
Cloud Firestore
Cloud Machine Learning
Google I/O
Polymer
Android Things
Community
DevTools
Google App Engine
intelligenza artificiale
Entrepreneurship
Firebase Analytics
GSoC
Games
Google Cast
ML
open source
Crashlytics
Dart
Diversity
Drive
Google Data Studio
Google Play Games
TensorFlow Lite
Android Developers
Android O
Cloud Spanner
Cloud TPU
Compute Engine
DevFest
Google Compute Engine
Google Developers
Material Design
Mobile
PWA
Python
Startup
AIY Project
ARCore
Android Jetpack
AndroidDev
Androidq
Apps Script
Artificial Intelligence
Augmented Reality
Firebase Cloud Messaging
Google Cloud
Google Maps
Gsuite
IO19
ML kit
Research
VR
coding
unity
#io19
AR
Android Dev Summit
Android Developer
Android Q
Cardboard
Cloud AI
Coral
Developers
Dialogflow
Firebase Realtime Database
Gmail
Google AI
Google Cloud Messaging
Google ContainerEngine
Google Play Console
Kotlin Coroutines
NLP
Programming
Responsive Design
TensorFlowjs
Testing
WTM
Women
beacons
cloud storage
developer
node JS
student programs
women techmakers
API Cloud Vision
Add-ons
Android P
AndroidDevStory
Animation
AutoML
Brillo
Classroom
DSC
Database
Developer Student Clubs
Edge TPU
Fabric
Featured
Flutter Web
G Suite
GWT
GoLang
Google
Google Brain
Google Cloud Next
Google Container Engine
Google Developer Groups
Google I/O Extended
Graph
Hosting
Instant Apps
Keras
Livedata
Mobile Sites
Prediction
Privacy
Project Tango
SDK
Stackdriver
Tales
UI
Udacity
Virtual Reality
Web
Web Development
YouTube
analytics
android security
api.ai
courses
google io
indies
natural language processing
reti neurali
sign-in
young developers
2d Animation
3d
AIY
ARkit
Adversarial Learning
Alpha
Android App
Android App Developmen
Android App bundle
Android Architecture
Android Architecture Components
Android Auto
Android Automotive OS
Android Dev Summit Android Developer
Android Developer Challenge
Android Developers GooglePlayAwards
Android Development
Android Go
Android Instant App
Android Pie
Android Q Scoped Storage
Android Q audio
Android Styles
Android audio playback capture
Android codelabs
AndroidTV
AndroidX
Angular
Aogdevs
Api Design
App Development
App Distribution
Apps
Architecture
Architecture Components
Arduino
Best Practices
Betatesting
Bugs
C++
Certification
Cloud Anchors
Cloud Next
Cloud Run
Cloud Service Platform
Cloud Shell
Cloud Study Jam
Coached Conversational Preference Elicitation
Commerce
Community Connector
Computer Science
Consistency
Containers
Converge
Conversation Design
Crash Reporting
DLS Design
Dagger
Data Science
Databases
Dependency Injection
Design
Developer Communities
Developer Community
Developer Culture
Developer Story
Developing Media Apps
Development
Eager
Edge TPU Dev Board
Education
Emulatore Android
Error Message
Eslint
Europe
Firebase Extensions
Firebase Summit 2019
Firebasehosting
Flutter 1.5
Flutter at IO
FlutterDark
GCE
GDD
Game Development
Gboard
Gesture Navigation
Glass
Go
Google AI Quantum
Google App Script
Google Cloud Functions
Google Cloud billing
Google Coral
Google Developer Days
Google Home Hub
Google IOS Android
Google Identity Platform
Google Launchpad
Google Lens
Google Now
Google Photos
Google Play Devs
Google Play Indie Games Festival
Google Play Instant
Google Plus
Google codelabs
Google+
GoogleDevWeekly
GoogleLaunchpad
GooglePlay
Graphics
Healthcare
I/O
IO
IO19 Flutter
In-app Billing
Indie Games
Indie Games Festival
Indie games showcase
Indie showcase
Ingress
Instant Games
Issues
Java
Jetpack
Knative
Kotlin Beginners
Kotlin Everywhere
Kotlin codelabs
Lighthouse
Live Caption
Live Streaming
Localization
Location
M-Theory
Mondaygram
Monetization
NYT
NativeScript
Navigation
Neural Graph Learning
Neural Structured
Nodejs
OS
OS Updates
Olivex
One Time Codes
Online Education
PHA
Performance Monitoring
Policy
Posenet
Project Mainline
Project Treble
Quantum Computing Theory
Reactive Programming
Regression
Remote Config
Resonance Audio
Room
Scoped Storage
Semantics
Semi Supervised Learning
Serverless
Sms Retriever Api
Sms Verification
Speech Recognition
Swift
Tensorflow Core
Tensorflow Hub
Test Lab
Text
Tokenizer
Tpu
Transformers
UX
UX Design
UX Research
Universal Sentence Encoder
Unsupervised Data Augmentation
Unsupervised Learning
User Experience
Viewmodel
Voice
WWW
Wear OS
WebAssembly
Widget
Women in Tech
WomenTechmakers
android kotlin
app stability
assistant
audio recording
augmented faces
authsub
best practices and updates
billing
botnet
business
c++ games
cancer
chatbot
chrome privacy
codelab
codelabs
competition
daydream
designer
dominio .dev
error handling
event
firebase games
firebase gdc
firebase hosting
firebase unity
game center authentication
game testing
games authentication
gdc
google summer of code
googledevelopers
grow
hashcode
indie
indie developers
internship
kids
machine intelligence
machine learning accelerator
maker
multi-platform
nearby
oauth
openid
performance
persistent AR
privacy sandbox
prizes
prototype
purchase flows
queries
realtime
responsible AI
security rules
showcase
solutions challenge
startup africa roadtrip
startup times
students
summer of code
unity crashlytics
verify apps
win
Archivio Blog
2020
feb
gen
2019
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2018
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2017
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2016
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2015
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2014
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2013
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
Feed
Follow @GoogleDevsItaly