Local blog for Italian speaking developers
Riconoscimento dei movimenti del corpo nell'app "Smart Baduanjin"
9 ottobre 2019
Un guest post di Keith Chan e Vincent Zhang del team tecnico di OliveX
Introduzione
OliveX
è un'azienda con sede a Hong Kong dedicata ai software orientati al mercato del fitness che, da quando è stata lanciata nel 2018, è arrivata oggi a servire oltre 2 milioni di utenti. Molti dei nostri utenti sono persone anziane e la nostra app Baduanjin li aiuta a svolgere esercizi di Baduanjin, riducendo al minimo il rischio di infortunio. A tale scopo, utilizziamo nella nostra app la più recente tecnologia di intelligenza artificiale che consente di rilevare automaticamente i movimenti degli esercizi di Baduanjin e di fornire feedback pertinenti ai nostri utenti.
Obiettivi e requisiti
Il Baduanjin è una popolare serie di esercizi che consiste di otto tipi di movimento degli arti associati a una respirazione controllata. La precisione dei movimenti e il controllo sono fondamentali per il Baduanjin, il quale migliora la salute del corpo mentalmente e fisicamente.
Utilizzando l'app "Smart Baduanjin", gli utenti possono comprendere se stanno eseguendo correttamente i movimenti grazie al sistema di rilevamento offerto dall'AI. Avvalendoci della più recente tecnologia di machine learning, speriamo di sostituire il tradizionale approccio di apprendimento per cui gli utenti si limitano a seguire un video esplicativo degli esercizi con un'esperienza interattiva più soddisfacente che consente loro di ricevere feedback sui movimenti eseguiti in tempo reale. Speriamo anche che queste funzionalità possano aiutare le persone più anziane a esercitarsi con il Baduanjin in modo più efficace, riducendo il rischio di infortunio.
Dopo aver analizzato i nostri obiettivi e aver loro assegnato diversi gradi di priorità, abbiamo definito i requisiti generali del nostro prodotto:
I nostri utenti solitamente eseguono gli esercizi di Baduanjin all'aperto, pertanto il nostro prodotto deve essere "mobile"
Quando un utente fa pratica di Baduanjin, generalmente ha bisogno di seguire un video dimostrativo e imitare i movimenti eseguiti da un coach, pertanto il nostro prodotto deve essere in grado di riprodurre contenuti video con audio
Per fornire un feedback in tempo reale accurato ai nostri utenti, dobbiamo poter acquisire i movimenti corporei dell'utente attraverso la fotocamera frontale
Per quanto riguarda il riconoscimento dei movimenti del corpo nello specifico, vogliamo che i nostri algoritmi siano in grado di eseguire quanto segue:
Riconoscere ogni movimento di Baduanjin nella sequenza complessiva
Fornire punteggi sulla base della correttezza dei movimenti corporei dell'utente
Fornire indicazioni per correggere l'esecuzione non corretta dei movimenti
Analisi tecnica
Selezione di framework ML
Sulla base dei requisiti appena elencati, dovevamo individuare il giusto framework di deep learning da implementare nel nostro progetto. In particolare, ci siamo focalizzati su un framework che avesse le seguente caratteristiche:
Solido supporto per dispositivi mobili ed esecuzione fluida, anche su smartphone di fascia medio-bassa
Design API intuitivo e strumenti di debug efficaci
Valido supporto della community e risorse disponibili
A seguito di un'indagine e una valutazione approfondite, abbiamo stabilito che TensorFlow Lite è la soluzione che meglio soddisfa le nostre esigenze e i nostri requisiti. Inoltre, Google ha reso disponibile in open source
PoseNet
, un'app appositamente progettata per rilevare le pose del corpo umano, e ha fornito un codice demo basato su TensorFlow.js (nota dell'editore: abbiamo recentemente rilasciato un'
app di esempio PoseNet basata su TensorFlow Lite
). Google non solo ci ha aiutati a portare a termine il lavoro iniziale per il riconoscimento delle pose del corpo umano grazie al codice open source, ma ci ha anche convinti che il nostro algoritmo di riconoscimento delle azioni era in grado di funzionare sui dispositivi mobili in quanto le prestazioni su JavaScript si sono dimostrate buone.
Algoritmi
Riconoscimento dei movimenti del corpo
Nella fase iniziale del nostro sviluppo, abbiamo analizzato gli algoritmi esistenti per il riconoscimento dei movimenti corporei. Attualmente, gli algoritmi più diffusi si basano soprattutto sull'analisi di frame video in sequenza. Sebbene questi algoritmi potrebbero soddisfare i nostri requisiti, le reti sono piuttosto complesse e l'esecuzione di un'inferenza su di esse utilizza molte risorse computazionali. Tuttavia, dal momento che uno dei nostri requisiti chiave era l'esecuzione del modello sui dispositivi mobili, abbiamo dovuto stabilire un compromesso tra accuratezza e prestazioni.
Il nostro approccio è stato quello di acquisire innanzitutto le principali articolazioni del corpo umano mediante PoseNet, poi di riconoscere azioni specifiche sulla base della sequenza di movimento di ogni articolazione. Dato che PoseNet rileva solo 17 articolazioni del corpo, la quantità di calcolo è stata significativamente ridotta rispetto all'immagine a dimensioni intere. Di seguito riportiamo una dimostrazione del flusso di lavoro del nostro algoritmo: innanzitutto abbiamo usato PoseNet per estrarre dati relativi alle articolazioni del corpo da un video di input, quindi abbiamo proceduto alla classificazione delle azioni sulla base dei dati relativi alle articolazioni del corpo.
Azioni chiave
Una volta stabilito l'approccio tecnico, dovevamo definire i movimenti corporei chiave che l'app avrebbe dovuto riconoscere. A tale scopo, abbiamo trasformato il problema del riconoscimento dei movimenti corporei in un tipico problema di classificazione del machine learning. Di seguito riportiamo un esempio del modo in cui abbiamo definito i movimenti chiave di Baduanjin:
Abbiamo addestrato una rete neurale profonda tradizionale a classificare i movimenti corporei dell'utente. Dopo diverse iterazioni mirate a regolare gli iperparametri e addestrare all'ottimizzazione/arricchimento dei dati, il nostro modello finale ha dimostrato un buon livello di accuratezza e si è rivelato in grado di soddisfare i requisiti del nostro prodotto, come mostrato di seguito.
Sfide sui dispositivi mobili
Dopo aver terminato il modello di deep learning, il passo successivo è stato eseguire il deployment dei nostri modelli sui dispositivi mobili iOS e Android. Inizialmente abbiamo provato TensorFlow Mobile. Ma dal momento che avevamo bisogno di risultati di riconoscimento in tempo reale, TensorFlow Mobile non si è rivelata un'opzione valida poiché le sue prestazioni non soddisfacevano questo requisito.
Mentre lavoravamo per risolvere il limite delle prestazioni, Google ha rilasciato
TensorFlow Lite
, che ha rappresentato un enorme salto in avanti rispetto a TensorFlow Mobile in termini di prestazioni. Confrontiamo le due offerte di seguito:
Riportiamo anche i risultati del benchmark iniziale sul nostro modello:
Dopo aver esaminato i numeri di benchmark, abbiamo concluso che il riconoscimento dei movimenti del corpo in tempo reale non era possibile sulla maggior parte dei dispositivi Android basati su dimensioni di input di 512 x 512. Per risolvere questo problema abbiamo delineato i nostri modelli di machine learning, scoprendo che il collo di bottiglia era causato dal consumo del 95% del tempo computazionale provocato da PoseNet. Abbiamo regolato gli iperparametri e le dimensioni di input di PoseNet e addestrato nuovamente il nostro algoritmo di riconoscimento delle azioni per compensare la perdita di accuratezza mediante dimensioni di input ridotte. Alla fine, abbiamo scelto un input di formato RGB 337 x 337 e un moltiplicatore di larghezza pari a 0,5 per MobileNet su Android.
I nostri utenti target sono principalmente persone anziane che nella maggior parte dei casi utilizzano dispositivi di fascia bassa. Nonostante avessimo migliorato le prestazioni regolando i parametri di PoseNet, non era ancora sufficiente. Così siamo ricorsi all'acceleratore più diffuso negli smartphone: la GPU. Proprio in quel periodo Google aveva rilasciato il
delegato GPU per TensorFlow Lite (sperimentale)
, consentendoci di risparmiare infinite risorse tecniche.
La GPU per dispositivi mobili ha permesso di ridurre considerevolmente i tempi di esecuzione del nostro modello. Di seguito riportiamo il nostro benchmark su alcuni dei dispositivi più diffusi tra i nostri utenti, con e senza delegato GPU.
Dato che i movimenti di Baduanjin sono relativamente lenti in quanto pensati per gli utenti di età avanzata, il nostro prodotto è risultato in grado di funzionare in modo fluido sulla maggior parte dei dispositivi, una volta integrato il delegato GPU per TensorFlow Lite (sperimentale).
Conclusioni
Abbiamo portato a termine con successo la realizzazione del nostro prodotto Smart Baduanjin sia su iOS che su Android, ricevendo un feedback positivo dai nostri utenti di prova. Avvalendoci della tecnologia ML e di TensorFlow, abbiamo fornito un "modello di tutorial" per i principianti di Baduanjin, in modo che possano seguire il video dimostrativo e imparare i movimenti. Per i più esperti di Baduanjin, invece, abbiamo integrato la funzionalità di feedback accurato sotto forma di punteggio per aiutarli a migliorare ulteriormente le loro abilità. Attualmente, "Smart Baduanjin" è disponibile gratuitamente sia nell'
App Store
sia su
Google Play
.
Nel frattempo, OliveX sta esplorando attivamente possibili modi per applicare la stima delle pose del corpo umano ad altri esercizi di fitness. Abbiamo notato che molte altre tipologie di esercizio sono molto simili a Baduanjin per quanto riguarda l'importanza di un'esecuzione corretta dei movimenti corporei del soggetto. Un'esecuzione corretta dei movimento del corpo non soltanto aiuta le persone a evitare possibili infortuni, ma aumenta anche l'efficacia dell'esercizio svolto. Pertanto, il nostro obiettivo è trasferire la conoscenza e le competenze sviluppate grazie al progetto Baduanjin anche ad altri ambiti.
Etichette
Android
Firebase
machine learning
Google Cloud Platform
GDL
Eventi
Google Developers Live
Google Play
TensorFlow
App
Chrome
Cloud
api
GDLItalia
GDE
GDG
Google Assistant
iOS
Kotlin
Actions on Google
Deep Learning
AppEngine
AMP
BigQuery
Cloud Functions
Flutter
Android Studio
Google Developers Expert
Università
Google AppEngine
JavaScript
AI
Android Wear
GAE
Google Play Store
HTML5
Maps
security
Android App Development
AngularJS
IoT
Kubernetes
Annunci
Cloud Firestore
Cloud Machine Learning
Google I/O
Polymer
Android Things
Community
DevTools
Google App Engine
intelligenza artificiale
Entrepreneurship
Firebase Analytics
GSoC
Games
Google Cast
ML
open source
Crashlytics
Dart
Diversity
Drive
Google Data Studio
Google Play Games
TensorFlow Lite
Android Developers
Android O
Cloud Spanner
Cloud TPU
Compute Engine
DevFest
Google Compute Engine
Google Developers
Material Design
Mobile
PWA
Python
Startup
AIY Project
ARCore
Android Jetpack
AndroidDev
Androidq
Apps Script
Artificial Intelligence
Augmented Reality
Firebase Cloud Messaging
Google Cloud
Google Maps
Gsuite
IO19
ML kit
Research
VR
coding
unity
#io19
AR
Android Dev Summit
Android Developer
Android Q
Cardboard
Cloud AI
Coral
Developers
Dialogflow
Firebase Realtime Database
Gmail
Google AI
Google Cloud Messaging
Google ContainerEngine
Google Play Console
Kotlin Coroutines
NLP
Programming
Responsive Design
TensorFlowjs
Testing
WTM
Women
beacons
cloud storage
developer
node JS
student programs
women techmakers
API Cloud Vision
Add-ons
Android P
AndroidDevStory
Animation
AutoML
Brillo
Classroom
DSC
Database
Developer Student Clubs
Edge TPU
Fabric
Featured
Flutter Web
G Suite
GWT
GoLang
Google
Google Brain
Google Cloud Next
Google Container Engine
Google Developer Groups
Google I/O Extended
Graph
Hosting
Instant Apps
Keras
Livedata
Mobile Sites
Prediction
Privacy
Project Tango
SDK
Stackdriver
Tales
UI
Udacity
Virtual Reality
Web
Web Development
YouTube
analytics
android security
api.ai
courses
google io
indies
natural language processing
reti neurali
sign-in
young developers
2d Animation
3d
AIY
ARkit
Adversarial Learning
Alpha
Android App
Android App Developmen
Android App bundle
Android Architecture
Android Architecture Components
Android Auto
Android Automotive OS
Android Dev Summit Android Developer
Android Developer Challenge
Android Developers GooglePlayAwards
Android Development
Android Go
Android Instant App
Android Pie
Android Q Scoped Storage
Android Q audio
Android Styles
Android audio playback capture
Android codelabs
AndroidTV
AndroidX
Angular
Aogdevs
Api Design
App Development
App Distribution
Apps
Architecture
Architecture Components
Arduino
Best Practices
Betatesting
Bugs
C++
Certification
Cloud Anchors
Cloud Next
Cloud Run
Cloud Service Platform
Cloud Shell
Cloud Study Jam
Coached Conversational Preference Elicitation
Commerce
Community Connector
Computer Science
Consistency
Containers
Converge
Conversation Design
Crash Reporting
DLS Design
Dagger
Data Science
Databases
Dependency Injection
Design
Developer Communities
Developer Community
Developer Culture
Developer Story
Developing Media Apps
Development
Eager
Edge TPU Dev Board
Education
Emulatore Android
Error Message
Eslint
Europe
Firebase Extensions
Firebase Summit 2019
Firebasehosting
Flutter 1.5
Flutter at IO
FlutterDark
GCE
GDD
Game Development
Gboard
Gesture Navigation
Glass
Go
Google AI Quantum
Google App Script
Google Cloud Functions
Google Cloud billing
Google Coral
Google Developer Days
Google Home Hub
Google IOS Android
Google Identity Platform
Google Launchpad
Google Lens
Google Now
Google Photos
Google Play Devs
Google Play Indie Games Festival
Google Play Instant
Google Plus
Google codelabs
Google+
GoogleDevWeekly
GoogleLaunchpad
GooglePlay
Graphics
Healthcare
I/O
IO
IO19 Flutter
In-app Billing
Indie Games
Indie Games Festival
Indie games showcase
Indie showcase
Ingress
Instant Games
Issues
Java
Jetpack
Knative
Kotlin Beginners
Kotlin Everywhere
Kotlin codelabs
Lighthouse
Live Caption
Live Streaming
Localization
Location
M-Theory
Mondaygram
Monetization
NYT
NativeScript
Navigation
Neural Graph Learning
Neural Structured
Nodejs
OS
OS Updates
Olivex
One Time Codes
Online Education
PHA
Performance Monitoring
Policy
Posenet
Project Mainline
Project Treble
Quantum Computing Theory
Reactive Programming
Regression
Remote Config
Resonance Audio
Room
Scoped Storage
Semantics
Semi Supervised Learning
Serverless
Sms Retriever Api
Sms Verification
Speech Recognition
Swift
Tensorflow Core
Tensorflow Hub
Test Lab
Text
Tokenizer
Tpu
Transformers
UX
UX Design
UX Research
Universal Sentence Encoder
Unsupervised Data Augmentation
Unsupervised Learning
User Experience
Viewmodel
Voice
WWW
Wear OS
WebAssembly
Widget
Women in Tech
WomenTechmakers
android kotlin
app stability
assistant
audio recording
augmented faces
authsub
best practices and updates
billing
botnet
business
c++ games
cancer
chatbot
chrome privacy
codelab
codelabs
competition
daydream
designer
dominio .dev
error handling
event
firebase games
firebase gdc
firebase hosting
firebase unity
game center authentication
game testing
games authentication
gdc
google summer of code
googledevelopers
grow
hashcode
indie
indie developers
internship
kids
machine intelligence
machine learning accelerator
maker
multi-platform
nearby
oauth
openid
performance
persistent AR
privacy sandbox
prizes
prototype
purchase flows
queries
realtime
responsible AI
security rules
showcase
solutions challenge
startup africa roadtrip
startup times
students
summer of code
unity crashlytics
verify apps
win
Archivio Blog
2020
feb
gen
2019
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2018
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2017
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2016
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2015
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2014
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2013
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
Feed
Follow @GoogleDevsItaly