Upload
jonhnny-weslley
View
941
Download
0
Embed Size (px)
Citation preview
Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos Distribuído
POSIXJonhnny Weslley
Orientador: Francisco BrasileiroLaboratório de Sistemas Distribuídos
Programa de Pós-Graduação em Ciência da Computação
Universidade Federal de Campina Grande
Maio / 2010
Agenda
● Introdução● Estado da Arte● Beehive File System● Heurísticas para alocação de arquivos● Avaliação● Conclusão
Clusters
● Custos associados ● aquisição● manutenção
Image by rogersmith on flickr.com
Computação na nuvem
Image by jillclardy on Flickr.com
Computação na nuvem
Image by jillclardy on Flickr.com
● Transferência dos dados● Confidencialidade e privacidade dos dados
Por que pagar por recursos externos, se é possível realizar o processamento dos
dados, ou pelo menos parte dele, nas estações de trabalho da rede local?
Beehive File System
● Agrega espaço ocioso nas estações de trabalho de uma rede local
● Sistema de arquivos distribuído de uso geral● POSIX compliant
Beehive File System
● Agrega espaço ocioso nas estações de trabalho de uma rede local
● Sistema de arquivos distribuído de uso geral● POSIX compliant● Distribuição dos dados
Objetivos
● Aplicações de uso intensivo de dados usando sistema de arquivos distribuído POSIX
● Sistema de arquivos POSIX multi-funcional● Controlar a intrusividade
Image by denial_land on Flickr.com
Status quo
● Sistemas de arquivos em clusters● Google File System● Lustre● Ceph
● Sistemas de arquivos oportunistas● Freeloader● BitDew
Replicação de metadados
● Falhas no servidor de metadados● Transientes● Permanentes
● Integridade do sistema
Heurísticas para alocação de arquivos baseadas em dados históricos sobre a
disponibilidade da máquinas.
Heurísticas para alocação de arquivos
● Replication All● Equalizer● MaxAvail● EqMaxAvail● MeanAvail ● EqMeanAvail
Modelo do sistema
● Sistema de arquivos● A aplicação e os dados de entrada● Disponibilidade● Alocação de arquivos● Métricas de desempenho
● tempo de execução das aplicações● quantidade de armazenamento
Modelo simulado
● Trace SDSC*● Estações de trabalho conectadas por uma LAN● 244 máquinas● Período de 14 dias
● Imagem do sistema de arquivos● 1000 arquivos● Distribuição uniforme entre 500MiB e 2GiB● Fator de impacto de leituras remotas é 4.87.
*Characterizing and evaluating desktop grids: An empirical study.
Modelo simulado
● Workload das aplicações● 300 aplicações Bag-of-Tasks● Cada aplicação possui tarefas seguindo uma
distribuição uniforme entre 3 e 10
Resultados
Image by kevinzhengli on Flickr.com
Conclusão
● Aplicações de uso intensivo de dados usando sistema de arquivos distribuído POSIX
● Sistema de arquivos POSIX multi-funcional● Controle da intrusividade● Heurísticas para alocação de arquivos