Upload
gilmar-correa-dos-santos
View
214
Download
0
Embed Size (px)
DESCRIPTION
Relatório sobre pontos críticos em rodovias federais Brasileiras
Citation preview
2015
Gilmar Correa dos Santos
Consultor Ministrio da Justia
9/11/2015
Relatrio sobre Pontos Crticos - PRF
2RESUMO
Este documento apresenta avaliao sobre o ambiente de dados da Polcia
Rodoviria Federal (PRF) no que diz respeito a qualidade dos dados de localizao
geogrfica disponvel no contexto BrBrasil em relao as ocorrncias de Acidentes
Graves, ou seja, acidentes que tenha resultado em, pelo menos, um ferido grave ou
morto. Sendo o objetivo da consultoria gerar extrao de dados dessas ocorrncias
e disponibiliz-las sociedade sob o ttulo de dados abertos.
3NDICE
I. INTRODUO ........................................................................................................................ 4II. DESENVOLVIMENTO .......................................................................................................... 5III. ANLISE DOS RESULTADOS ......................................................................................... 10IV. CONCLUSO ...................................................................................................................... 11
4I. INTRODUO
A administrao do conhecimento, para lana mo da definio utilizada por
(DAVENPORT e PRUSAK, 1998), requer domnio na organizao e operao com
grandes volumes de dados procedentes de diversas origens e com diferentes
formatos. Lidar com a diversidade de origens e formatos, alm dos grandes volumes
um dos maiores desafios da ltima dcada (DAVENPORT, BARTH e BEAN, 2012).
Isso ocorre devido ao crescimento exponencial na gerao de dados pela sociedade
e a necessidade de abstrair informaes por meio de anlises consistentes
(ISOTANI e BITTENCOURT, 2008).
Outro desafio importante, alm da administrao do conhecimento e
associado a administrao do conhecimento, fazer com que a informao seja
espacializada, ou seja, posicionada no espao geogrfico. Nesse contexto, de
fundamental importncia para divulgao sociedade de dados consistentes que os
dados da ocorrncia estejam incorporados da informao geogrfica (CMARA,
DAVIS e MONTEIRO, 2014).
O objetivo geral dessa consultoria foi construir um modelo de integrao
entre a PRF e o Ministrio da Justia (MJ). O objetivo imediato integrar os dados
sobre ocorrncias classificadas como acidentes graves e distribuir essa informao
sob o ttulo de dados abertos afim de auxiliar no processo de reduo de mortes em
estradas brasileiras pelo alerta preciso ao cidado sobre os pontos crticos em
quantidade de acidentes.
Nesse processo encontramos alguns percalos que so relatados nesse
documento e, no obstante, registramos as aes de contorno adotadas para que se
possa alcanar sucesso nesta tarefa.
Para extrao dos dados se utilizou das metodologias de minerao de
dados (BRAGA, 2005). Desta forma, prospectou-se da base de dados BrBrasil os
dados referentes a ocorrncias de acidentes graves em rodovias federais brasileiras.
5II. DESENVOLVIMENTO
Anlise Inicial
Para a construo do processo de minerao de dados procurou-se
entender as relaes dos dados armazenados na tabela ocorrencia, entidade que
armazena os dados referentes a ocorrncias em Rodovias Federais Brasileiras, do
banco de dados do contexto BrBrasil. Identificou-se as relaes dessa entidade de
dados com outras entidades que pudessem complementar o entendimento dos
requisitos necessrios para gerar as sadas esperadas pelo requisito de negcio. As
tabelas encontradas, para o relacionamento foram:
1 ocorrenciapessoa entidade de relacionamento entre a entidade
ocorrencia e a entidade pessoa;
2 pessoa entidade que armazena as pessoas envolvidas na ocorrncia;
3 ocorrenciaveiculo entidade de relacionamento entre a entidade
ocorrencia e a entidade veiculo;
4 veiculo entidade que armazena os veculos envolvidos na ocorrncia;
5 localbr entidade que armazena o local da BR (Rodovia) que ocorreu o
acidente;
6 pnv entidade que armazena os trechos, segundo a definio do DNIT,
publicados no SNV;
7 municpio entidade que armazena os municpios brasileiros.
Identificadas as relaes, construiu-se consulta que recuperasse as
seguintes informaes:
1. ocorrencia.ocoid (Identificador da ocorrncia);
2. localbr.lbruf (UF do local do acidente);
3. localbr.lbrbr (BR do local do acidente);
4. localbr.lbrkm (KM do acidente na Rodovia);
65. pnv.codigo (Cdigo do trecho do local do acidente,
segundo o SNV);
6. municipio.tmudenominacao (Municpio do Acidente);
7. pnv.descricao_dprf (Descrio do trecho segundo a
PRF);
8. pnv.km_inicial (KM inicial do trecho do acidente
segundo o PNV);
9. pnv.km_fim (KM final do trecho do acidente segundo o
PNV);
10. pnv.extensao (Extenso do trecho segundo o PNV).
Regras aplicadas na minerao:
a. O primeiro tratamento aplicado para a minerao dos dados foi
aplicar a diviso na extenso dos trechos em comprimentos
regulares de 10 km. Esse tratamento se deu pela razo de que o
DNIT trata os trechos pelas caractersticas de uniformidade de
paisagem, obras de artes e outros qualificadores da rodovia.
Enquanto, a PRF distribui os trechos em intervalos regulares de 10
km. Tabela apresentando tratamento estatstico sobre a extenso
dos trechos segundo definio do DNIT:
Tabela 1: Extenses de trechos definidos pelo DNIT, segundo
SNV 2015.
Tipo de dimenso Extenso (KM)
Trecho mais extenso 99,00
Trecho menos extenso 0,10
Extenso mdia 19,32
Extenso mediana 13,00
Extenso mais frequente (moda) 12,00
7Ao analisar esses resultados conclui-se que a extenso mediana
(desconsiderando-se os extremos), adotada pelo DNIT, de 13 KM
e a moda (extenso mais frequente) de 12 KM. Isso bem
prximo da extenso de 10 km adotados pela PRF. Desta feita,
procurou-se adotar os registros de latitude e longitude vlidas
cadastrados na entidade localbr referentes ao incio e fim de cada
trecho de 10 km. Para as latitudes e longitudes que, nesta entidade,
esto sem referncia ou pontos que no esto sobre rodovias,
foram adotadas as latitudes e longitudes registradas no SNV do
DNIT;
b. A prospeco dos dados considera o intervalo de um ano a partir do
ms anterior ao atual at o mesmo ms do ano anterior;
c. Selecionou-se pessoas cujo estado fsico atributo identificador na
entidade pessoa.pesestadofisico correspondesse aos valores 3 e 4,
ou seja, estado fsico da vtima (Feridos Graves ou Mortos);
d. Desprezou-se registro cujo identificador na entidade de dados pnv
correspondesse a 1, ou seja, no definidos.
Prospeco de dados via IBM/DataStage
Para o processo de integrao dos dados originrios do contexto BrBrasil, foi
necessria a construo de um job de extrao e transformao de dados utilizando
a ferramenta IBM/DataStage (BALLARD, BHAT, et al., 2012).
8Figura 1: Imagem do Job de Extrao de Pontos Crticos
Durante o processo de integrao, observou a necessidade de integrao
entre o repositrio de dados abertos da PRF com o portal de dados aberto do MJ,
por intermdio da API de upload da ferramenta CKAN (SOURCE WIKIPEDIA, 2013).
Para esse fim foi construdo um script em linguagem de programao python
(LANGTANGEN, 2004) que acessa o WebDAV (DUSSEAULT, 2004) owncloud da
PRF e transfere os arquivos encontrados para o repositrio de dados abertos do MJ.
Durante a construo do processo de extrao e tratamento de dados
referentes a acidentes graves, foi observado que os dados recuperados
apresentavam inconsistncia com relao a informao de localizao geogrfica do
local de ocorrncia dos acidentes classificados como graves registradas na entidade
de dados localbr. A razo da inconsistncia era que a informao armazenada nesta
entidade de dados do contexto de dados BRBrasil, apresentava menos de 40% do
registro com valores vlidos para latitude e longitude. Conforme tabela abaixo:
Tabela 2 Quantidade de registros de ocorrncia de acidentesgraves no ano 2015, extrados do contexto BRBrasil da PRF
Tipo de extrao Quantidade Percentual
Ocorrncias registradas com
valores nulos ou em branco
para latitude e longitude
22.117 60%
Quantidade de valores com
valores vlidos para latitude e
14.745 40%
9longitude
Total de ocorrnciasregistradas
36.862 100%
Essa inconsistncia compromete em muito a qualidade da informao
divulgada. Para contornar esse obstculo adotou-se as seguintes estratgias:
i. Utilizou-se o conceito adotado pela PRF, onde os trechos so padronizados
em extenso mxima de 10 km. Porm, no existe, no contexto BrBrasil, informao
posicional na delimitao desses trechos. Utilizando esse conceito possvel
identificar a ocorrncia de acidentes graves agrupados por extenso de 10 km e
levantar as maiores ocorrncias num perodo. Por outro lado, mediante a anlise
estatstica apresentada na tabela 1, se nota que possvel compartilhar as
informaes de localizao do DNIT com os dados de ocorrncia extrados do
contexto BrBrasil considerando trechos de 10 km.
Registro do mecanismo de publicao de dados
O processo de publicao dos arquivos no diretrio pontosCriticos na
owncloud, que se encontra em https://www1.prf.gov.br/arquivos/ em que o usurio de
acesso dtstage e a senha do usurio: dtstage123 (desconsiderar as aspas).
Quando os arquivos so gerados pela ferramenta IBM/DataStage esses so
depositados em link de compartilhamento endereado a pasta webdav do owncloud
a partir do servidor que hospeda o IBM/DataStage.
O job denominado JOB_PONTOS_CRITICOS do IBM/DataStage no projeto
IntegraoMJ tem execuo agendada para o primeiro dia de cada ms e a
periodicidade vai do ms anterior ao atual at um ano atrs. So recuperados os
primeiros 1.000 registros de ocorrncia classificadas como acidentes graves.
10
I. ANLISE DOS RESULTADOS
Os resultados, obtidos neste processo de integrao, foram os seguintes:
i. Construo de um processo de extrao, via IBM/DataStage,
que recupere os dados do contexto BrBrasil e gere arquivos
de sada em formato (.xml) e (.json);
ii. Configurao de soluo webdav owncloud para permitir a
integrao entre PRF e MJ;
11
II. CONCLUSO
Durante processo de minerao e integrao para acidentes graves
deparamos com obstculos relacionados a qualidade dos dados posicionais
registrados no contexto BrBrasil. Notamos que o maior problema reside na qualidade
dos dados das entidades de dados localbr, municipio e pnv.
Anlise dessas entidades de dados:
a) Com relao a localbr o problema consiste na qualidade dos dados de
localizao geogrfica. No contexto BrBrasil no se tem forma de
desprezar as informaes contidas nessa entidade, pois ela
responsvel por uma relao forte com a entidade ocorrencia. Observa-
se que os problemas de qualidade nos dados residem sobre latitude e
longitude que conta com muitos registros nulos ou em branco, ou
informao de localizao imprecisa. Foi aventada a possibilidade de
cruzamento com o contexto SERVO, em que as informaes estariam
mais slidas. Porm, esse cruzamento teria que passar pela entidade
localbr, que nesta entidade que se armazena uf, br, km. Sugere-se
atualizar a tabela com as referncias de localizao dos trechos com
extenso de 10 km;
b) A entidade de dados municipio est desatualizada em relao ao arquivo
de municpios divulgado, com atualizao at maro de 2015, pelo IBGE.
Para essa entidade uma simples atualizao preservando o atributo
tmucodigo que um cdigo prprio do sistema e no o cdigo do IBGE
que seria a melhor opo em termos corporativos. Porm, os sistemas
existentes tm esse cdigo (tmucodigo) como referncia. Observa-se,
que na estrutura atual da tabela no se tem o cdigo IBGE;
c) A entidade pnv tambm apresenta desatualizao com relao ao
arquivo SNV 2015 divulgado pelo DNIT, seria necessria a atualizao
dessa entidade, adaptando-a para guardar um histrico de evoluo do
SNV de acordo com as publicaes do DNIT. Dever-se-ia adotar o
12
conceito de fotografias para cada publicao do DNIT, tendo como
referncia a anlise temporal dos dados.
Desta feita, sugere a atualizao dessas entidades de dados que, pelo
menos, em relao a preciso das informaes de acidentes em rodovias federais
tero os impactos minorados. Refletindo tambm impactos positivos sobre os
resultados obtidos pelo servio de Business Intelligence (BI).
13
BIBLIOGRAFIA
BALLARD, C. et al. Infosphere DataStage for Entreprise XML Data Integration. 1. ed. Charlotte, NC, USA: IBM, Redbooks, 2012.
BRAGA, L. P. V. Introduo Minerao de Dados. 2. ed. Rio de Janeiro, Brasil: E-papers, 2005.
CMARA, G.; DAVIS, C.; MONTEIRO, A. M. V. Introduo Cincia da Geoinformao. 1. ed. So Paulo, SP: INPE, 2014.
DAVENPORT, T. H.; BARTH, P.; BEAN, R. How 'Big Data' Is Different. Fall 2012 - Opinion & Analysis, July 2012.
DAVENPORT, T. H.; PRUSAK, L. Ecologia da Informao: por que s a tecnologia no basta para o sucesso na era da informao. So Paulo: Futura, 1998.
DUSSEAULT, L. WebDAV Next-Generation Collaborative Web Authoring. 1. ed. New Jerssey, USA: Prentice Hall, 2004.
ISOTANI, S.; BITTENCOURT, I. I. Dados Abertos Conectados. [S.l.]: Novatec, 2008. 155-159 p.
LANGTANGEN, H. P. Python Scripting for Computational Science. 1. ed. New York, USA: Spring-Verlang Heidekberg, 2004.
SOURCE WIKIPEDIA. Open Data: Ckan, Data. Gov, Data. Gov. Uk, Factual, Freedb, Linkedgov, Opencorporates, Openei, Openstreetmap, Open Data in Canada, Open Data in the Unite. [S.l.]: University-Press Org, 2013.
14
NDICES DE TABELAS, MAPAS E FIGURA
Tabela 1: Extenses de trechos definidos pelo DNIT, segundo SNV2015................06
Figura 1: Imagem do Job de Extrao de PontosCrticos...........................................07
Tabela 2 Quantidade de registros de ocorrncia de acidentes graves no ano 2015,extrados do contexto BRBrasil daPRF......................................................................08
15
GLOSSRIO DE ABREVIAES E ACRNIMOS (SIGLAS)
TERMO TIPO SIGNIFICADO
BRBrasil Sigla de sistema Sistema da PRF que registra ocorrncias em rodovias
brasileiras.
CKAN Nome de Plataforma Plataforma de dados abertos para cadastramento e manuteno
de dados e arquivos.
CSV Tipo de extenso de arquivo Formato de arquivo texto separado por ponto e virgula
DNIT Sigla Departamento Nacional de Infraestrutura Rodoviria
GIS Sigla Geographical Information System Sistema de Informao
Geogrfica
IBGE Sigla Instituto Brasileiro de Geografia e Estatstica
JSON Tipo de tecnologia - Sigla Java Script Object Notation Notao de Objetos em Java
Script
MJ Sigla Ministrio da Justia
PF Sigla Polcia Federal
PRF Sigla Polcia Rodoviria Federal
SNV Sigla Sistema Nacional de Viao
WebDAV Tipo de tecnologia Tecnologia de publicao de arquivos
XML Tipo de tecnologia - Sigla eXtensible Markup Language Linguagem de Marcao
Extensvel
RESUMONDICEBIBLIOGRAFIANDICES DE TABELAS, MAPAS E FIGURAGLOSSRIO DE ABREVIAES E ACRNIMOS (SIGLAS)