TDC2016SP - Trilha Data Science

Preview:

Citation preview

Globalcode – Open4education

Globalcode – Open4education

Data Science – Processamento de Linguagem Natural como uma ferramenta poderosa nas mãos de um data scientist

André Camargo do AmaralPython Developer

Globalcode – Open4education

André Camargo do Amaral

Palestrante

Entusiasta da área de recuperação de informação e seu processamento, trabalha a 3 anos com desenvolvimento nessa área na Elabora Info. É formado em Ciência da Computação pela Universidade Presbiteriana Mackenzie.

Contatos:

/amaralandre

/andrecamaral

@acamarel

andre.amaral@elabsis.com

Globalcode – Open4education

Roteiro

•Overview - NLP

•Um exemplo básico

•Definindo uma aplicação real

•Conclusão

Globalcode – Open4education

Overview - NLP

ComputadorLinguagem

Linguagem

Computadores usam Linguagem Natural como input e/ou output

Processamento para entender linguagem

natural Processamento para gerar linguagem

natural

Globalcode – Open4education

“Estou cansado”

Um exemplo básico:

Globalcode – Open4education

Uma aplicação Possível

Dados Estruturados Relatórios Automáticos

● Vamos ver como poderíamos utilizar as técnicas apresentadas em um contexto real, tendo como objetivo obter:

● Nossa fonte de dados será os diários oficiais da união

Clipping e Alertas por E-mail Personalizados

Globalcode – Open4education

CTNBio - “Autorizações” para desenvolvimento de biotecnologia

Como Extrair e Processar?

● Regex

● Dicionários Léxicos

● Corpus Linguisticos

● Inteligência Artificial

Globalcode – Open4education

Estruturação possibilita diversas aplicações

Globalcode – Open4education

Relatório por cultura

Globalcode – Open4education

Relatório por periodo

Globalcode – Open4education

Relatório estratégico

Globalcode – Open4education

Para concluir,Alguns “probleminhas”

● Dificuldade em processar textos extremamente técnicos em português

(dependendo da Abordagem)

● Necessidade de especialistas nos assuntos dos conteúdos publicados

● Em algumas abordagens estatísticas, conjunto de treinamento é necessário

● Falta de estruturação de dados em algumas fontes

● Grande quantidade de PDFs que precisam ser convertidos e nesse processo

perdem a formatação original

● Necessidade de Dicionários técnicos sobre determinados assuntos para

ajudar o processamento do texto

● *Dificuldades especificas para determinado objetivo

Globalcode – Open4education

Perguntas!?