Preservare la storia visiva
Il morgue contiene foto risalenti alla fine del XIX secolo e molti dei suoi contenuti hanno un valore storico straordinario, alcuni dei quali non sono archiviati in nessun altro luogo al mondo. Nel 2015 si è verificata una perdita d'acqua che ha provocato l'
allagamento della biblioteca dell'archivio, mettendo a rischio l'intera raccolta. Fortunatamente ha causato solo danni contenuti ma l'evento ha sollevato una domanda: come possono essere archiviate in modo sicuro alcune delle risorse fisiche più preziose dell'azienda?
"Il morgue è un tesoro di documenti deperibili che racconta una cronaca inestimabile, non solo della storia del New York Times, ma di quasi oltre un secolo di eventi globali che hanno plasmato il mondo moderno", ha dichiarato
Nick Rockwell, il CTO del New York Times.
Non sono solo le immagini delle foto a contenere informazioni preziose. In molti casi il retro include l'ora e il luogo in cui è stata scattata la foto. Aggiunge Rockwell: "I membri dello staff del dipartimento di fotografia e di quello aziendale hanno esplorato per anni le opzioni disponibili per digitalizzare le foto del morgue. Tuttavia, fino all'anno scorso, consideravamo irrealizzabile l'idea di un archivio digitalizzato".
Per preservare questo patrimonio inestimabile e per dare al nostro quotidiano la possibilità di migliorare la creazione di report con una narrazione visiva e un contesto storico ancora maggiori, The New York Times sta digitalizzando il suo archivio con
Cloud Storage, che consente di memorizzare scansioni ad alta risoluzione di tutte le immagini del morgue.
Cloud Storage è il nostro sistema durevole per l'archiviazione di oggetti che offre ai clienti, come questo quotidiano, la gestione automatica del ciclo di vita, l'archiviazione in regioni geografiche diverse nonché un'interfaccia di gestione e un'API di facile utilizzo.
Creare un sistema di gestione delle risorse
La semplice archiviazione di immagini ad alta risoluzione non è sufficiente a creare un sistema che i foto editor possano utilizzare con facilità. I sistemi di gestione delle risorse funzionanti devono consentire agli utenti di navigare e trovare facilmente le foto. The New York Times ha creato una pipeline di elaborazione che archivia ed elabora le foto, e utilizzerà la tecnologia Cloud per elaborare e riconoscere testo, grafia e gli altri dettagli reperibili nelle immagini.
Ecco come funziona. Una volta che l'immagine viene importata in Cloud Storage, viene usato
Cloud Pub/Sub per avviare la pipeline di elaborazione che svolge diverse attività. Le immagini vengono ridimensionate tramite i servizi in esecuzione su
Google Kubernetes Engine (GKE) e i metadati dell'immagine vengono archiviati in un database
PostgreSQL in esecuzione su
Cloud SQL, la soluzione database completamente gestita da Google.
Cloud Pub/Sub ha aiutato il New York Times a realizzare la propria pipeline di elaborazione senza dover creare API o sistemi di processi aziendali complessi. È una soluzione completamente gestita, quindi non richiede la manutenzione dell'infrastruttura sottostante.
Per ridimensionare le immagini e modificarne i metadati, The New York Times utilizza
ImageMagick e
ExifTool, che sono programmi da riga di comando open source. ImageMagick ed ExifTool, che rientrano in Go Services, sono stati aggiunti alle immagini Docker in modo da eseguirle su GKE con scalabilità orizzontale e richiedendo così solo il minimo sforzo amministrativo. Aggiungere ulteriori funzionalità per elaborare più immagini diventa semplice e The New York Times può arrestare o avviare il cluster Kubernetes quando il servizio non è necessario. Le immagini vengono inoltre memorizzate nei
bucket multiregionali di Cloud Storage per essere disponibili in posizioni multiple.
La parte finale dell'archivio tiene traccia delle immagini e dei relativi metadati quando passano attraverso i sistemi del New York Times. Cloud SQL è un'ottima scelta. Per gli sviluppatori, Cloud SQL fornisce un'istanza PostgreSQL standard, ossia un servizio completamente gestito, eliminando la necessità di installare nuove versioni, applicare patch di sicurezza o impostare complesse configurazioni di replica. Cloud SQL offre agli ingegneri un modo semplice e agevole di utilizzare una soluzione SQL standard.
Machine learning per ulteriori approfondimenti
L'archiviazione delle immagini è solo metà della storia. Per rendere un archivio come il morgue ancora più accessibile e utile, è importante sfruttare anche le altre funzionalità GCP. In questo caso, una delle problematiche maggiori della scansione dell'archivio fotografico è stata aggiungere i dati riguardanti il contenuto delle immagini. L'
API Cloud Vision può colmare questa lacuna.
Diamo un'occhiata alla foto della vecchia Penn Station di The New York Times come esempio. Ecco il fronte e il retro della foto.