14
Globalcode – Open4education Globalcode – Open4education Data Science – Processamento de Linguagem Natural como uma ferramenta poderosa nas mãos de um data scientist André Camargo do Amaral Python Developer

TDC2016SP - Trilha Data Science

Embed Size (px)

Citation preview

Page 1: TDC2016SP - Trilha Data Science

Globalcode – Open4education

Globalcode – Open4education

Data Science – Processamento de Linguagem Natural como uma ferramenta poderosa nas mãos de um data scientist

André Camargo do AmaralPython Developer

Page 2: TDC2016SP - Trilha Data Science

Globalcode – Open4education

André Camargo do Amaral

Palestrante

Entusiasta da área de recuperação de informação e seu processamento, trabalha a 3 anos com desenvolvimento nessa área na Elabora Info. É formado em Ciência da Computação pela Universidade Presbiteriana Mackenzie.

Contatos:

/amaralandre

/andrecamaral

@acamarel

[email protected]

Page 3: TDC2016SP - Trilha Data Science

Globalcode – Open4education

Roteiro

•Overview - NLP

•Um exemplo básico

•Definindo uma aplicação real

•Conclusão

Page 4: TDC2016SP - Trilha Data Science

Globalcode – Open4education

Overview - NLP

ComputadorLinguagem

Linguagem

Computadores usam Linguagem Natural como input e/ou output

Processamento para entender linguagem

natural Processamento para gerar linguagem

natural

Page 5: TDC2016SP - Trilha Data Science

Globalcode – Open4education

“Estou cansado”

Um exemplo básico:

Page 6: TDC2016SP - Trilha Data Science

Globalcode – Open4education

Uma aplicação Possível

Dados Estruturados Relatórios Automáticos

● Vamos ver como poderíamos utilizar as técnicas apresentadas em um contexto real, tendo como objetivo obter:

● Nossa fonte de dados será os diários oficiais da união

Clipping e Alertas por E-mail Personalizados

Page 7: TDC2016SP - Trilha Data Science

Globalcode – Open4education

CTNBio - “Autorizações” para desenvolvimento de biotecnologia

Como Extrair e Processar?

● Regex

● Dicionários Léxicos

● Corpus Linguisticos

● Inteligência Artificial

Page 8: TDC2016SP - Trilha Data Science

Globalcode – Open4education

Estruturação possibilita diversas aplicações

Page 9: TDC2016SP - Trilha Data Science

Globalcode – Open4education

Relatório por cultura

Page 10: TDC2016SP - Trilha Data Science

Globalcode – Open4education

Relatório por periodo

Page 11: TDC2016SP - Trilha Data Science

Globalcode – Open4education

Relatório estratégico

Page 12: TDC2016SP - Trilha Data Science

Globalcode – Open4education

Para concluir,Alguns “probleminhas”

● Dificuldade em processar textos extremamente técnicos em português

(dependendo da Abordagem)

● Necessidade de especialistas nos assuntos dos conteúdos publicados

● Em algumas abordagens estatísticas, conjunto de treinamento é necessário

● Falta de estruturação de dados em algumas fontes

● Grande quantidade de PDFs que precisam ser convertidos e nesse processo

perdem a formatação original

● Necessidade de Dicionários técnicos sobre determinados assuntos para

ajudar o processamento do texto

● *Dificuldades especificas para determinado objetivo

Page 13: TDC2016SP - Trilha Data Science

Globalcode – Open4education

Perguntas!?