Progettare i grandi repository di dati nell’era dell’Intelligenza Artificiale

Tutte le grandi aziende che operano su scala nazionale o internazionale, come la maggior parte dei nostri Clienti, possiede enormi quantità di dati.

Si tratta di dati che vengono raccolti e prodotti nell’ambito di tutti i processi aziendali, dal core business alla gestione delle risorse umane.

Fino ad oggi, una volta utilizzati e generati dai sistemi operazionali, i dati sono stati memorizzati nei datawarehouse per poter all’occorrenza costituire l’alimentazione delle applicazioni classiche di business intelligence.

Metodi e strumenti per costruire applicazioni di data analitics secondo il paradigma tradizionale sono oramai consolidati e fondati su tecnologie di storage e data base management ottimizzate per i linguaggi di data manipulation come l’SQL.

Tuttavia, negli ultimi anni, in alcuni casi addirittura negli ultimi mesi, la Data Science ha fatto progressi da gigante grazie soprattutto alle nuove tecniche basate su Machine Learning e Deep Learning.

Il consolidamento delle Convolutional Neural Networks (CNN) e l’avvento delle Recurrent Neural Networks (RNN), per la prima volta nella storia hanno permesso di risolvere problemi e affrontare ambiti applicativi impensabili soltanto pochi anni fa.

La scienza delle Reti Neurali ha raggiunto uno stadio di maturazione che ha favorito lo sviluppo di piattaforme e API specializzate che oggi consentono una perfetta separazione dei ruoli tra chi si occupa di ricerca e sviluppo sulle tecnologie di base dell’Intelligenza Artificiale e chi si occupa puramente di Data Science.

Piattaforme potenti come TensorFlow di Google e linguaggi di programmazione fortemente espressivi come il Python rendono l’implementazione di una Rete Neurale con topologia, o modello, appartenente ad una delle categorie consolidate allo stato dell’arte, una questione di minuti.

Ben diverso è il discorso relativo alla generazione e predisposizione dei dataset necessari ai processi di training e validazione dei modelli.

Nelle moderne applicazioni basate su Reti Neurali il focus si sposta sulla corretta selezione ed estrazione dei dati, copiosamente presenti nei repository di ogni grande azienda.

La conoscenza del dato e della relativa organizzazione all’interno dei database e datawarehouse diventa fondamentale nella delicata fase di progettazione dei sistemi di estrazione.

Le modalità di accesso ai dati richieste dagli algoritmi di training delle reti neurali sono diverse dalle modalità utilizzate dalle applicazioni di business intelligence tradizionali.

L’efficacia nella realizzazione delle nuove applicazioni basate sulla moderna Data Science impone di ripensare l’organizzazione e la strutturazione dei repository.

Si tratta di un processo critico e delicato che impatta su diversi livelli dei sistemi di data management, dalle architetture di Storage Area Network alle tecnologie di Data Base Machine.

I grandi vendor del settore stanno iniziando ad affrontare il problema.

La nostra azienda da tempo ha avviato progetti di ricerca e sviluppo in questa direzione, in partnership con i clienti che hanno la maggiore vocazione come early adopter di nuove tecnologie.

 

 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *