Globalcode – Open4education
Globalcode – Open4education
Data Science – Processamento de Linguagem Natural como uma ferramenta poderosa nas mãos de um data scientist
André Camargo do AmaralPython Developer
Globalcode – Open4education
André Camargo do Amaral
Palestrante
Entusiasta da área de recuperação de informação e seu processamento, trabalha a 3 anos com desenvolvimento nessa área na Elabora Info. É formado em Ciência da Computação pela Universidade Presbiteriana Mackenzie.
Contatos:
/amaralandre
/andrecamaral
@acamarel
Globalcode – Open4education
Roteiro
•Overview - NLP
•Um exemplo básico
•Definindo uma aplicação real
•Conclusão
Globalcode – Open4education
Overview - NLP
ComputadorLinguagem
Linguagem
Computadores usam Linguagem Natural como input e/ou output
Processamento para entender linguagem
natural Processamento para gerar linguagem
natural
Globalcode – Open4education
“Estou cansado”
Um exemplo básico:
Globalcode – Open4education
Uma aplicação Possível
Dados Estruturados Relatórios Automáticos
● Vamos ver como poderíamos utilizar as técnicas apresentadas em um contexto real, tendo como objetivo obter:
● Nossa fonte de dados será os diários oficiais da união
Clipping e Alertas por E-mail Personalizados
Globalcode – Open4education
CTNBio - “Autorizações” para desenvolvimento de biotecnologia
Como Extrair e Processar?
● Regex
● Dicionários Léxicos
● Corpus Linguisticos
● Inteligência Artificial
Globalcode – Open4education
Estruturação possibilita diversas aplicações
Globalcode – Open4education
Relatório por cultura
Globalcode – Open4education
Relatório por periodo
Globalcode – Open4education
Relatório estratégico
Globalcode – Open4education
Para concluir,Alguns “probleminhas”
● Dificuldade em processar textos extremamente técnicos em português
(dependendo da Abordagem)
● Necessidade de especialistas nos assuntos dos conteúdos publicados
● Em algumas abordagens estatísticas, conjunto de treinamento é necessário
● Falta de estruturação de dados em algumas fontes
● Grande quantidade de PDFs que precisam ser convertidos e nesse processo
perdem a formatação original
● Necessidade de Dicionários técnicos sobre determinados assuntos para
ajudar o processamento do texto
● *Dificuldades especificas para determinado objetivo
Globalcode – Open4education
Perguntas!?
Globalcode – Open4education
Links
1. Overview of Natural Language Processing
2. O que são os Diários da União
3. O que são e quais são os orgãos do Governo
4. Diario Livre
5. Expressões Regulares
6. Sumarização Automática baseada em Grafos
7. NLP and Big Data: A Powerful Combination
8. Machine Learning Methods in NLP
Recommended