41
Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos Distribuído POSIX Jonhnny Weslley Orientador: Francisco Brasileiro Laboratório de Sistemas Distribuídos Programa de Pós-Graduação em Ciência da Computação Universidade Federal de Campina Grande Maio / 2010

Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos POSIX

Embed Size (px)

Citation preview

Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos Distribuído

POSIXJonhnny Weslley

Orientador: Francisco BrasileiroLaboratório de Sistemas Distribuídos

Programa de Pós-Graduação em Ciência da Computação

Universidade Federal de Campina Grande

Maio / 2010

Agenda

● Introdução● Estado da Arte● Beehive File System● Heurísticas para alocação de arquivos● Avaliação● Conclusão

Dados

Processamento de dados

Por que?

Insights

Barateamento e o aumento da capacidade de armazenamento dos discos

Processamento de grandes quantidades de dados

Processamento paralelode grandes quantidades de dados

Clusters

Image by rogersmith on flickr.com

Clusters

● Custos associados ● aquisição● manutenção

Image by rogersmith on flickr.com

Computação na nuvem

Image by jillclardy on Flickr.com

● Transferência dos dados● Confidencialidade e privacidade dos dados

Por que pagar por recursos externos, se é possível realizar o processamento dos

dados, ou pelo menos parte dele, nas estações de trabalho da rede local?

Beehive File System

● Agrega espaço ocioso nas estações de trabalho de uma rede local

● Sistema de arquivos distribuído de uso geral● POSIX compliant

Beehive File System

● Agrega espaço ocioso nas estações de trabalho de uma rede local

● Sistema de arquivos distribuído de uso geral● POSIX compliant● Distribuição dos dados

Problema

Recursos não dedicados

Objetivos

● Aplicações de uso intensivo de dados usando sistema de arquivos distribuído POSIX

● Sistema de arquivos POSIX multi-funcional● Controlar a intrusividade

Image by denial_land on Flickr.com

Status quo

● Sistemas de arquivos em clusters● Google File System● Lustre● Ceph

● Sistemas de arquivos oportunistas● Freeloader● BitDew

Beehive File System

Arquitetura

Tolerância a falhas

● Replicação de arquivos● Replicação de metadados

Replicação de arquivos

Replicação de metadados

● Falhas no servidor de metadados● Transientes● Permanentes

● Integridade do sistema

Metadados

● Nós-i● Estruturas de dados do sistema● Atributos estendidos

Solução

Heurísticas para alocação de arquivos

Heurísticas para alocação de arquivos baseadas em dados históricos sobre a

disponibilidade da máquinas.

Heurísticas para alocação de arquivos

● Replication All● Equalizer● MaxAvail● EqMaxAvail● MeanAvail ● EqMeanAvail

Avaliação

Modelo do sistema

● Sistema de arquivos● A aplicação e os dados de entrada● Disponibilidade● Alocação de arquivos● Métricas de desempenho

● tempo de execução das aplicações● quantidade de armazenamento

Modelo simulado

● Trace SDSC*● Estações de trabalho conectadas por uma LAN● 244 máquinas● Período de 14 dias

● Imagem do sistema de arquivos● 1000 arquivos● Distribuição uniforme entre 500MiB e 2GiB● Fator de impacto de leituras remotas é 4.87.

*Characterizing and evaluating desktop grids: An empirical study.

Modelo simulado

● Workload das aplicações● 300 aplicações Bag-of-Tasks● Cada aplicação possui tarefas seguindo uma

distribuição uniforme entre 3 e 10

Resultados

Image by kevinzhengli on Flickr.com

Tempo de execução das aplicações

Resultados

● Tempo de execução das aplicações● Quantidade de armazenamento

Conclusão

● Aplicações de uso intensivo de dados usando sistema de arquivos distribuído POSIX

● Sistema de arquivos POSIX multi-funcional● Controle da intrusividade● Heurísticas para alocação de arquivos

Trabalhos Futuros

● Técnicas de virtualização● Explorar multi-core

Questões ?

EOF