A Computação de Alto Desempenho e seu papel na Ciência de ... · 7 de novembro de 2019 Grupo de...

Preview:

Citation preview

A Computação de Alto Desempenho e seu papel na

Ciência de Dados

Grupo de Computação Científica Distribuída - LNCC

7 de novembro de 2019 Grupo de Computação Científica Distribuída 2

Objetivo

● Mostrar como a computação de alto desempenho poderá ser utilizada em prol das atividades e desafios na ciência de dados.

● Mostrar, quais ferramentas você poderá utilizar,quais ferramentas você poderá utilizar, para que mesmo sem acesso a computadores para que mesmo sem acesso a computadores de alto desempenho, você possa estar de alto desempenho, você possa estar preparado para um dia vir a trabalhar e utilizá-preparado para um dia vir a trabalhar e utilizá-loslos em prol da solução destes desafios e execução destas atividades.

7 de novembro de 2019 Grupo de Computação Científica Distribuída 3

Computação Alto Desempenho

● A computação de alto desempenho consiste no uso em alta escala da computação para solução de problemas científicos, de engenharia e de negócios.

7 de novembro de 2019 Grupo de Computação Científica Distribuída 4

Ciência de Dados

● A Ciência de Dados destina-se a aquisição de conhecimento por meio da análise de dados, sendo uma atividade interdisciplinar, cujo domínio, tornou-se necessário para criação de soluções e produtos: científicos, comerciais e sócio políticos. O seu uso nos auxiliará a:– Tomar Decisões– Melhor compreensão dos fatos passados– Inferência sobre resultados futuros– Criação de novas soluções e produtos.

7 de novembro de 2019 Grupo de Computação Científica Distribuída 5

Situação do Mundo Moderno

● Grande quantidade de dados estruturados ou não

● Determinação do que realmente importa/impacta

● Capacidade de processar estes dados, transformando-os em informação (contexto)

● Necessidade de resposta rápida

7 de novembro de 2019 Grupo de Computação Científica Distribuída 6

Desafio

Processarde Dados

Coletar Dados

Análise,Hipóteses

TestesAM. IA

Tomada de Decisão

OProblema

Entender o problema (contexto), determinando o que obter (dados), ser capaz de processar esta informação, extrair valor desta informação (conhecimento) e transmitir de forma útil este conhecimento.

7 de novembro de 2019 Grupo de Computação Científica Distribuída 7

Universo

Drew Conway

Capacidade de aquisição, armazenamento manipulação e tratamento eletrônico dos dados

Matemáticae Estatística

Aprendizadode

Máquina

Zona Zona PerigosaPerigosa

Data Data ScienceScience

PesquisaPesquisaTradicionalTradicional

Conhecimento Conhecimento do Problemado Problema

MotivaçãoMotivação

7 de novembro de 2019 Grupo de Computação Científica Distribuída 8

Processamento de Alto Desempenho

Drew Conway

Capacidade de aquisição, armazenamento manipulação e tratamento eletrônico dos dados

Matemáticae Estatística

Aprendizadode

Máquina

Zona Zona PerigosaPerigosa

Data Data ScienceScience

PesquisaPesquisaTradicionalTradicional

Conhecimento Conhecimento do Problemado Problema

MotivaçãoMotivação

7 de novembro de 2019 Grupo de Computação Científica Distribuída 9

Processamento dos Dados

● Big Data● Machine Learning● Data Mining● Artificial Inteligence

7 de novembro de 2019 Grupo de Computação Científica Distribuída 10

Ciência de dados

● A Ciência de Dados destina-se a aquisição de conhecimento por meio da análise de dados, sendo uma atividade interdisciplinar, cujo domínio, tornou-se necessário para criação de soluções e produtos: científicos, comerciais e sócio políticos

Data Data ScienceScience

ComputaçãoMatemática

Problema

7 de novembro de 2019 Grupo de Computação Científica Distribuída 11

HPC - Contribuição

● Data Science Sparks The Gap Between HPC And Hyperscale (March, 2019)

● The convergence of HPC and BigData: What does it mean for HPC sysadmins? (February 5, 2019)

● Understanding Why AI and Analytics Have to Run on HPC Clusters (July 22, 2019)

7 de novembro de 2019 Grupo de Computação Científica Distribuída 12

Data Science-HPC Aceleradores

7 de novembro de 2019 Grupo de Computação Científica Distribuída 13

Como posso me preparar?

● Mostrar, quais ferramentas você poderá utilizar,quais ferramentas você poderá utilizar, para que mesmo sem acesso a computadores para que mesmo sem acesso a computadores de alto desempenho, você possa estar de alto desempenho, você possa estar preparado para um dia vir a trabalhar e utilizá-preparado para um dia vir a trabalhar e utilizá-loslos em prol da solução destes desafios e execução destas atividades.

7 de novembro de 2019 Grupo de Computação Científica Distribuída 14

ComCiDis - LNCC

● ComCiDis – Grupo de Computação Científica Distribuída– Coordenador: Professor Bruno Schulze

7 de novembro de 2019 Grupo de Computação Científica Distribuída 15

Ambientes Virtualizados – Nuvens Computacionais

7 de novembro de 2019 Grupo de Computação Científica Distribuída 16

Ambientes Virtualizados – Nuvens Computacionais

7 de novembro de 2019 Grupo de Computação Científica Distribuída 17

Ambientes Virtualizados – Nuvens Computacionais

7 de novembro de 2019 Grupo de Computação Científica Distribuída 18

Ambientes Virtualizados – Nuvens Computacionais

7 de novembro de 2019 Grupo de Computação Científica Distribuída 19

Ambientes Virtualizados – Nuvens Computacionais

7 de novembro de 2019 Grupo de Computação Científica Distribuída 20

Ambientes Virtualizados – Nuvens Computacionais

7 de novembro de 2019 Grupo de Computação Científica Distribuída 21

Universo Data Science

Drew Conway

Capacidade de aquisição, armazenamento manipulação e tratamento eletrônico dos dados

Matemáticae Estatística

Aprendizadode

Máquina

Zona Zona PerigosaPerigosa

Data Data ScienceScience

PesquisaPesquisaTradicionalTradicional

Conhecimento Conhecimento do Problemado Problema

MotivaçãoMotivação

7 de novembro de 2019 Grupo de Computação Científica Distribuída 22

HPC - Clusters

● Cluster

O SDumont possui capacidade instalada de processamento na ordem de 1,1 Petaflop/s (1,1 x 1015 float-point operations per second),

possui um total de 18.144 núcleos de CPU, distribuídos em 756 nós computacionais (24 núcleos por nó)

7 de novembro de 2019 Grupo de Computação Científica Distribuída 23

Primeiro PassoCluster Virtualizado

7 de novembro de 2019 Grupo de Computação Científica Distribuída 24

Cluster Virtualizados● Hipervisors

– KVM, VirtualBox, Vmware, HiperV

● Containers– LXC, LXD e Docker,

Open-VZ, Linux-VServer

https://insights.sei.cmu.edu/sei_blog/2017/09/virtualization-via-containers.html

7 de novembro de 2019 Grupo de Computação Científica Distribuída 25

Segundo Passo

● Cluster Linux– Rocks

– Kubernets

● Cloud – Openstack (SO Para Nuvens)

7 de novembro de 2019 Grupo de Computação Científica Distribuída 26

Segundo Passo

● Cluster Linux

7 de novembro de 2019 Grupo de Computação Científica Distribuída 27

Segundo Passo

● Cluster Linux

7 de novembro de 2019 Grupo de Computação Científica Distribuída 28

Terceiro Passo

● Python– Porquê Python

● Simplicidade, ● Multiplataforma● Grande suporte● Módulos já prontos voltados para Data ScienceMódulos já prontos voltados para Data Science

7 de novembro de 2019 Grupo de Computação Científica Distribuída 29

Python - Módulos

7 de novembro de 2019 Grupo de Computação Científica Distribuída 30

NumFocus

● Organização sem fins lucrativos responsável por hospedar projetos promovendo praticas voltadas para comunidade de pesquisa científica e de dados.

7 de novembro de 2019 Grupo de Computação Científica Distribuída 31

IPython

7 de novembro de 2019 Grupo de Computação Científica Distribuída 32

WEKA

Weka é uma coleção de algoritmos de aprendizado de máquina para tarefas de mineração de dados.

Ele contém ferramentas para preparação, classificação, regressão, clustering, mineração de regras de associação e visualização de dados.

7 de novembro de 2019 Grupo de Computação Científica Distribuída 33

Weka

7 de novembro de 2019 Grupo de Computação Científica Distribuída 34

R Project for Statistical Computing

● R é uma linguagem e ambiente para análise estatística.

● R fornece uma ampla variedade de técnicas estatísticas (modelagem linear e não linear, testes estatísticos clássicos, análise de séries temporais, classificação, agrupamento, entre outros) e técnicas gráficas.

7 de novembro de 2019 Grupo de Computação Científica Distribuída 35

R Project for Statistical Computing

7 de novembro de 2019 Grupo de Computação Científica Distribuída 36

Octave

7 de novembro de 2019 Grupo de Computação Científica Distribuída 37

Octave

7 de novembro de 2019 Grupo de Computação Científica Distribuída 38

Scilab

● Scilab inclui centenas de funções matemáticas. Possui uma linguagem de programação de alto nível, permitindo acesso a estruturas de dados avançadas, funções gráficas 2D e 3D– Controle, simulação, otimização, processamento

de sinais e simulador de sistemas dinâmicos híbridos

7 de novembro de 2019 Grupo de Computação Científica Distribuída 39

Data Science e HPC

Considerações Finais

Obrigado

Perguntas?

Recommended