Local blog for Italian speaking developers
Utilizzo della GCP per un esteso screening virtuale di ricerca farmacologica
1 settembre 2017
Pubblicato da Woody Sherman, CSO e Vipin Sachdeva, Principal Investigator, Silicon Therapeutics
[
Nota del redattore
: oggi
Silicon Therapeutics
, con sede a Boston nel Massachusetts, ci parla dei metodi computazionali che utilizza nel contesto di complessi problemi biochimici di biologia umana].
In qualità di azienda di ricerca farmacologica computazionale integrata, abbiamo recentemente implementato la nostra piattaforma di screening INSITE sulla
Google Cloud Platform
(GCP) per analizzare oltre 10 milioni di composti molecolari disponibili in commercio come potenziale materiale iniziale per i farmaci di nuova generazione. In una settimana abbiamo eseguito oltre 500 milioni di calcoli di ancoraggio per valutare come una proteina reagisca a una determinata molecola. Ogni calcolo ha utilizzato un programma di ancoraggio che prevedeva l'orientamento preferito di una piccola molecola a una proteina e l'energetica associata per poter valutare o meno se legasse e alterasse la funzione della proteina bersaglio.
Grazie alla combinazione di standard
Google Compute Engine
e delle
Preemptible VM
, abbiamo utilizzato fino a 16.000 core per un totale di tre milioni di ore di core al costo di 30.000 dollari. Anche se potrebbe sembrare dispendioso in termini di tempo e denaro, è molto meno costoso e più veloce dello screening sperimentale dei composti. L'utilizzo di un approccio basato sulla fisica, come la nostra piattaforma INSITE, è computazionalmente più costoso rispetto ad altri approcci di screening computazionali, ma ci permette di individuare nuovi leganti senza l'uso di informazioni preliminari sui composti attivi (questo particolare bersaglio non presenta composti simili a farmaci noti con cui si lega). Nella fase finale dei calcoli abbiamo eseguito simulazioni di tutte le dinamiche molecolari (MD) sulle 1.000 molecole più importanti per determinare quali acquistare e testare per rilevarne l'attività.
In sintesi
: abbiamo portato a termine lo screening usando la nostra piattaforma INSITE sulla GCP e abbiamo identificato diverse molecole che di recente hanno sperimentalmente mostrato attività basata su cellule e con il bersaglio.
Abbiamo deciso di eseguire questo progetto di computing ad alte prestazioni (HPC) sulla GCP invece che su altri provider di cloud pubblico per i seguenti motivi.
Disponibilità di infrastrutture computazionali ad alte prestazioni
. Compute Engine è dotato di un buon inventario di processori ad alte prestazioni che possono essere configurati con elevate quantità di core e memoria. Offre anche le GPU
che sono un'ottima soluzione per alcuni dei nostri tipi di computing, come nel caso della dinamica molecolare e dei calcoli di energia libera. SSD ha fatto la differenza nelle prestazioni, poiché il nostro I/O totale per questo screening ha superato i 40 TB di dati grezzi. La connettività veloce tra i nodi di front-end e quelli di calcolo è stata anche un fattore importante, poiché il disco di front-end è stato montato su NFS nei nodi di calcolo.
Supporto per strumenti standard industriali
. Essendo una startup, valutiamo la possibilità di svolgere i nostri carichi di lavoro ovunque lo riteniamo necessario. Le priorità possono quindi cambiare dinamicamente in base alle problematiche del progetto (chimica e biologia), la concorrenza, le opportunità e la disponibilità di risorse computazionali. La nostra piattaforma INSITE si basa su una combinazione di software open source e proprietari interni, pertanto la portabilità e la ripetibilità interna con i cloud pubblici sono fattori essenziali.
Un invitante modello di tariffe
. Le Preemptible VM sono un'ottima soluzione di convenienza e prevedibilità che offre fino all'80% di sconto sulle istanze standard,
quindi niente offerte e sorprese. Ciò significa che non dovremo più preoccuparci dei progetti che vengono troncati a causa di "guerre delle offerte" che possono ritardare significativamente il completamento dello screening e richiedono personale extra per la supervisione dei progetti.
Abbiamo inizializzato più cluster per lo screening; in particolare il front-end del nostro cluster era costituito da tre istanze n1-highmem-32 VM a pieno prezzo con 208 GB di RAM che gestivano il sistema di accodamento connesso a una cache dei file SSD NFS da 2TB che ospitava la libreria dei composti. Ognuno di questi nodi front-end ha quindi generato fino a 128 nodi computazionali configurati come n1-highcpu-32 Preemptible VM, ciascuno dei quali munito di 28,8 GB di memoria. Questi nodi eseguivano lo screening molecolare dei composti e scrivevano i risultati nella cache dei file. Le Preemptible VM funzionavano per 24 ore al massimo, dopodiché i nodi front-end scaricavano tutti i lavori rimasti sui nodi computazionali e generavano un nuovo set di nodi finché tutti i 10 milioni di composti sono stati eseguiti correttamente.
Per gestire i progetti computazionali, ci siamo avvalsi di due popolari strumenti open source:
Slurm
, un gestore di carichi di lavoro utilizzato dal 60% dei cluster TOP500 al mondo, e
ElastiCluster
, uno strumento della riga di comando per creare, gestire e configurare cluster di calcoli ospitati su una varietà di infrastrutture cloud. L'utilizzo di questi pacchetti open source è economico, fornisce la parte più importante della funzionalità delle soluzioni software a pagamento e ci assicura di poter eseguire i carichi di lavoro in-house o altrove.
Più potenza computazionale = risultati migliori
In ultima analisi, il maggior vantaggio dell'utilizzo della GCP è poter eseguire uno screening più accurato dei composti di quanto avremmo potuto fare avvalendoci delle risorse interne. La proteina bersaglio in questo particolare studio è risultata altamente flessibile, e avere accesso a enormi quantità di potenza computazionale ci ha permesso di modellare più accuratamente la fisica di base del sistema tenendo conto della flessibilità della proteina. Questo metodo ha prodotto composti più attivi di quanti non ne avremmo individuati senza le risorse GCP.
In realtà tutte le proteine sono flessibili e sottoposte a una qualche forma di adattamento indotto in seguito al legame con il legante, pertanto è importante considerare sempre la flessibilità delle proteine nello screening virtuale per ottenere i migliori risultati. Molti programmi di ancoraggio molecolare tengono conto solo della flessibilità del legante, quindi se la struttura del recettore non è corretta, i composti attivi potrebbero non adattarsi e non essere individuati, indipendentemente da quanto valido sia il programma di ancoraggio. La nostra piattaforma di screening INSITE incorpora la flessibilità delle proteine in un modo nuovo che può notevolmente incrementare la probabilità di successo dello screening virtuale, anche se richiede molte risorse computazionali durante lo screening dei milioni di composti disponibili in commercio.
Esempio della natura dinamica di una proteina bersaglio (Interleukin018, IL18)
Dai 10 milioni di composti iniziali ne abbiamo selezionati 250 che ritenevamo promettenti per la validazione sperimentale in laboratorio. Essendo una piccola azienda, non abbiamo i mezzi per visualizzare sperimentalmente milioni di composti e, con un accurato approccio di screening virtuale come quello della nostra piattaforma INSITE, di fatto non ce n'è bisogno. Siamo lieti di annunciare che almeno cinque di questi composti hanno mostrato attività nelle cellule umane, facendoceli quindi considerare come validi punti di partenza per i nuovi farmaci. Per quanto ci risulta, al momento non sono stati scoperti attivatori di piccole molecole simili a farmaci per questo importante e impegnativo bersaglio immunitario-oncologico.
Per ulteriori informazioni sulla sperimentazione svolta a Silicon Therapeutics, visita il nostro
sito web
. Se sei uno scienziato con esperienza nel calcolo ad alte prestazioni, nelle GPU e/o simulazioni molecolari, non perderti i nostri
annunci di lavoro
.
Etichette
Android
Firebase
machine learning
Google Cloud Platform
GDL
Eventi
Google Developers Live
Google Play
TensorFlow
App
Chrome
Cloud
api
GDLItalia
GDE
GDG
Google Assistant
iOS
Kotlin
Actions on Google
Deep Learning
AppEngine
AMP
BigQuery
Cloud Functions
Flutter
Android Studio
Google Developers Expert
Università
Google AppEngine
JavaScript
AI
Android Wear
GAE
Google Play Store
HTML5
Maps
security
Android App Development
AngularJS
IoT
Kubernetes
Annunci
Cloud Firestore
Cloud Machine Learning
Google I/O
Polymer
Android Things
Community
DevTools
Google App Engine
intelligenza artificiale
Entrepreneurship
Firebase Analytics
GSoC
Games
Google Cast
ML
open source
Crashlytics
Dart
Diversity
Drive
Google Data Studio
Google Play Games
TensorFlow Lite
Android Developers
Android O
Cloud Spanner
Cloud TPU
Compute Engine
DevFest
Google Compute Engine
Google Developers
Material Design
Mobile
PWA
Python
Startup
AIY Project
ARCore
Android Jetpack
AndroidDev
Androidq
Apps Script
Artificial Intelligence
Augmented Reality
Firebase Cloud Messaging
Google Cloud
Google Maps
Gsuite
IO19
ML kit
Research
VR
coding
unity
#io19
AR
Android Dev Summit
Android Developer
Android Q
Cardboard
Cloud AI
Coral
Developers
Dialogflow
Firebase Realtime Database
Gmail
Google AI
Google Cloud Messaging
Google ContainerEngine
Google Play Console
Kotlin Coroutines
NLP
Programming
Responsive Design
TensorFlowjs
Testing
WTM
Women
beacons
cloud storage
developer
node JS
student programs
women techmakers
API Cloud Vision
Add-ons
Android P
AndroidDevStory
Animation
AutoML
Brillo
Classroom
DSC
Database
Developer Student Clubs
Edge TPU
Fabric
Featured
Flutter Web
G Suite
GWT
GoLang
Google
Google Brain
Google Cloud Next
Google Container Engine
Google Developer Groups
Google I/O Extended
Graph
Hosting
Instant Apps
Keras
Livedata
Mobile Sites
Prediction
Privacy
Project Tango
SDK
Stackdriver
Tales
UI
Udacity
Virtual Reality
Web
Web Development
YouTube
analytics
android security
api.ai
courses
google io
indies
natural language processing
reti neurali
sign-in
young developers
2d Animation
3d
AIY
ARkit
Adversarial Learning
Alpha
Android App
Android App Developmen
Android App bundle
Android Architecture
Android Architecture Components
Android Auto
Android Automotive OS
Android Dev Summit Android Developer
Android Developer Challenge
Android Developers GooglePlayAwards
Android Development
Android Go
Android Instant App
Android Pie
Android Q Scoped Storage
Android Q audio
Android Styles
Android audio playback capture
Android codelabs
AndroidTV
AndroidX
Angular
Aogdevs
Api Design
App Development
App Distribution
Apps
Architecture
Architecture Components
Arduino
Best Practices
Betatesting
Bugs
C++
Certification
Cloud Anchors
Cloud Next
Cloud Run
Cloud Service Platform
Cloud Shell
Cloud Study Jam
Coached Conversational Preference Elicitation
Commerce
Community Connector
Computer Science
Consistency
Containers
Converge
Conversation Design
Crash Reporting
DLS Design
Dagger
Data Science
Databases
Dependency Injection
Design
Developer Communities
Developer Community
Developer Culture
Developer Story
Developing Media Apps
Development
Eager
Edge TPU Dev Board
Education
Emulatore Android
Error Message
Eslint
Europe
Firebase Extensions
Firebase Summit 2019
Firebasehosting
Flutter 1.5
Flutter at IO
FlutterDark
GCE
GDD
Game Development
Gboard
Gesture Navigation
Glass
Go
Google AI Quantum
Google App Script
Google Cloud Functions
Google Cloud billing
Google Coral
Google Developer Days
Google Home Hub
Google IOS Android
Google Identity Platform
Google Launchpad
Google Lens
Google Now
Google Photos
Google Play Devs
Google Play Indie Games Festival
Google Play Instant
Google Plus
Google codelabs
Google+
GoogleDevWeekly
GoogleLaunchpad
GooglePlay
Graphics
Healthcare
I/O
IO
IO19 Flutter
In-app Billing
Indie Games
Indie Games Festival
Indie games showcase
Indie showcase
Ingress
Instant Games
Issues
Java
Jetpack
Knative
Kotlin Beginners
Kotlin Everywhere
Kotlin codelabs
Lighthouse
Live Caption
Live Streaming
Localization
Location
M-Theory
Mondaygram
Monetization
NYT
NativeScript
Navigation
Neural Graph Learning
Neural Structured
Nodejs
OS
OS Updates
Olivex
One Time Codes
Online Education
PHA
Performance Monitoring
Policy
Posenet
Project Mainline
Project Treble
Quantum Computing Theory
Reactive Programming
Regression
Remote Config
Resonance Audio
Room
Scoped Storage
Semantics
Semi Supervised Learning
Serverless
Sms Retriever Api
Sms Verification
Speech Recognition
Swift
Tensorflow Core
Tensorflow Hub
Test Lab
Text
Tokenizer
Tpu
Transformers
UX
UX Design
UX Research
Universal Sentence Encoder
Unsupervised Data Augmentation
Unsupervised Learning
User Experience
Viewmodel
Voice
WWW
Wear OS
WebAssembly
Widget
Women in Tech
WomenTechmakers
android kotlin
app stability
assistant
audio recording
augmented faces
authsub
best practices and updates
billing
botnet
business
c++ games
cancer
chatbot
chrome privacy
codelab
codelabs
competition
daydream
designer
dominio .dev
error handling
event
firebase games
firebase gdc
firebase hosting
firebase unity
game center authentication
game testing
games authentication
gdc
google summer of code
googledevelopers
grow
hashcode
indie
indie developers
internship
kids
machine intelligence
machine learning accelerator
maker
multi-platform
nearby
oauth
openid
performance
persistent AR
privacy sandbox
prizes
prototype
purchase flows
queries
realtime
responsible AI
security rules
showcase
solutions challenge
startup africa roadtrip
startup times
students
summer of code
unity crashlytics
verify apps
win
Archivio Blog
2020
feb
gen
2019
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2018
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2017
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2016
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2015
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2014
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
2013
dic
nov
ott
set
ago
lug
giu
mag
apr
mar
feb
gen
Feed
Follow @GoogleDevsItaly