View
217
Download
0
Category
Preview:
Citation preview
Mauro CastelliAssistant Professor di Intelligenza Artificiale e Apprendimento Automatico - NOVA IMS, Universidade Nova de Lisboa, Portugal
Big Data - Sfide e Opportunità. La Prospettiva dell'Intelligenza Computazionale
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 2
Indice
• PARTE 1:Introduzione ai Big Data
• PARTE 2:Presentazione del Sistema proposto dal miogruppo di ricerca:un sistema basato sull’intelligenza artificialeper la gestione di Big Data.
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 3
Parte 1:
Big Data: Introduzione
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 4
Definizione (una delle possibili)
Big Data è un termine usato per indicare insiemi didati così grandi e complessi che non possono essereprocessati con le tecniche tradizionali di dataprocessing.
(Wikipedia)
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 5
Le “quattro V” dei Big Data
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 6
Volume
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 7
Volume
Tipico approccio usato in intelligenza artificiale
Training Set
Learning Algorithm
Data Model
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 8
Volume – Ambiente Dinamico
The “Big Data” perspective
Training Set 1 Training
Set 2Training Set 3 Training
Set 4Training Set 5
Training Set 6Training
Set 7 …
Training Set N
Learning Algorithm
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 9
The “Big Data” perspective
Training Set 1 Training
Set 2Training Set 3 Training
Set 4Training Set 5
Training Set 6Training
Set 7 …
Training Set N
Learning Algorithm
Volume – Ambiente Dinamico
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 11
The “Big Data” perspective
Training Set 1 Training
Set 2Training Set 3 Training
Set 4Training Set 5
Training Set 6Training
Set 7 …
Training Set N
Learning Algorithm
Volume – Ambiente Dinamico
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 12
The “Big Data” perspective
Training Set 1 Training
Set 2Training Set 3 Training
Set 4Training Set 5
Training Set 6Training
Set 7 …
Training Set N
Learning Algorithm
Volume – Ambiente Dinamico
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 12
The “Big Data” perspective
Training Set 1 Training
Set 2Training Set 3 Training
Set 4Training Set 5
Training Set 6Training
Set 7 …
Training Set N
Learning Algorithm
Volume – Ambiente Dinamico
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 14
The “Big Data” perspective
Training Set 1 Training
Set 2Training Set 3 Training
Set 4Training Set 5
Training Set 6Training
Set 7 …
Training Set N
Learning Algorithm
Volume – Ambiente Dinamico
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 15
The “Big Data” perspective
Training Set 1 Training
Set 2Training Set 3 Training
Set 4Training Set 5
Training Set 6Training
Set 7 …
Training Set N
Learning Algorithm
Volume – Ambiente Dinamico
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 15
The “Big Data” perspective
Training Set 1 Training
Set 2Training Set 3 Training
Set 4Training Set 5
Training Set 6Training
Set 7 …
Training Set N
Learning Algorithm
Data Model
Volume – Ambiente Dinamico
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 16
Velocity
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 17
Velocity
Due obiettivi simultanei:
• Accuratezza
• Velocità
Vogliamo una risposta adesso!
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 18
Variety
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 19
Variety
Dati con diversa provenienza e formato differente: grande eterogeneità
Le tecniche esistentinon sono in gradodi gestire questaeterogeneità!
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 20
Variety
Idea: estrarre solo i dati “rilevanti”!
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 21
Veracity
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 22
Veracity
I dati possono essere imprecisi, completamente errati, provenire da fonti non sicure.
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 23
Part 2:
Big Data GPUn Sistema di Programmazione Genetica per Big Data
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 24
Programmazione Genetica
Machine Learning Computational Intelligence
Evolutionary Computation
GeneticProgramming
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 25
Programmazione Genetica
... Miglior modello...
Popolazione Iniziale
Selezione
Popolazione Intermedia
Operatori genetici
Nuova popolazione
Soluzione ammissibile/modello dei dati
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 26
Perchè la GP?
Una-May O'Reilly (head of the the AnyScale Learning For All (ALFA) groupMIT Computer Science and Artificial Intelligence Laboratory)Evolutionary approaches to big-data problems Interview performed by Eric Brown, MIT News, January 14, 2015. Available at: http://newsoffice.mit.edu/2015/una-may-oreilly-evolutionary-approaches-big-data-problems-0114
“L’intelligenza artificiale è particolarmente efficace nell’analizzare i dati storici al fine di prevedere i trend futuri”
“Oggi disponiamo di una grande mole di dati, so we […] quindi è necessario migliorare le tecniche computazionali esistenti”
“La programmazione Genetica […] è particolarmente adatta nell’affrontare problemi caratterizzati dalla presenza di numerose variabili e da una grande mole di dati”
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 27
Big Data GP
Big Data GP è un Sistema altamente parallelo, organizzato in tre livelli architetturali.
Tre livelli di parallelismo:
• Inter-Layer (cloud computing)
• Intra-Layer (cloud computing)
• Population (graphic processing units)
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 28
Big Data GP
Architettura a tre livelli.
Ogni livello caratterizzato da centinaia di popolazioni che:
• Cooperano (Preprocessing e Learning Layers)
• Competono (Configuration Layer).
Il modello dei dati è il risultato dell’interazione tra i differenti livelli e/o popolazioni.
In quest’ottica, Big Data GP è il primo sistema complesso, basato sull’intelligenza artificiale, pensato per i Big Data.
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 29
Conclusioni
I problemi relativi ai Big Data possono essere mitigati, ma non risolti:
• Difficile (impossibile?) ottenere con I Big Data la stessa accuratezza ottenibile con dataset “tradizionali”
Nonostante ciò l’uso dei Big Data ha un vantaggio importante:
• Permette di estrarre informazioni non presenti in dataset tradizionali, riducendo la possibilità di prendere decisioni errate.
Big Data GP è un Sistema promettente in quest’ambito
Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 30
Messaggio Finale
Una grande opportunità per le aziende in grado di catturare eanalizzare efficacemente la grande mole di dati prodottaquotidianamente al fine di prendere decisioni nell’ambito del lorobusiness, accrescere la competitività e aumentare i profitti.
Big Data rappresenta
Un grande pericolo per le aziende che non sanno adeguare i loroprocessi decisionali: i concorrenti avranno un vantaggiocompetitivo!!
Grazie per l’attenzione!
mcastelli@novaims.unl.pt
Recommended