22
Classificação de Documentos Classificação baseada em Inteligência Artificial

Classificação de documentos

  • Upload
    dextra

  • View
    269

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Classificação de documentos

Classificação de Documentos

Classificação baseada em Inteligência Artificial

Page 2: Classificação de documentos

Agenda

1. Introdução

2. Ferramentas

3. Exercício prático

4. Case

Page 3: Classificação de documentos

Por que classificar documentos?

Page 4: Classificação de documentos

Como fazer isso?

Page 5: Classificação de documentos

Classificação de documentos

1. Exemplos de documentos (arquivos) de cada classe;

2. Criar dicionários de dados e extrair características;

3. Separar amostras para treino e teste;

4. Treinar classificador;

5. Testar classificador treinado.

Page 6: Classificação de documentos

Isso é fácil?

Page 7: Classificação de documentos

Ferramentas

Page 8: Classificação de documentos

Ferramentas

● O processamento distribuído do Hadoop permite escalar;

● O Mahout encapsula a complexidade matemática dos algoritmos de ML;

● Embora o Mahout seja uma API Java, é possível utilizá-la com outras

tecnologias.

Page 9: Classificação de documentos

Ambiente

Page 10: Classificação de documentos

Ambiente

● Virtualização Docker;

● Apache Hadoop;

● Apache Mahout;

● Exemplos de textos divididos em 4 categorias (esporte, medicina, politica e

religião);

Referência: https://github.com/evertongago/text-mining

Page 11: Classificação de documentos

Prática :)

Page 12: Classificação de documentos

Case

Page 13: Classificação de documentos

Case - Contexto

Uma acessoria jurídica separa, classifica e encaminha convocações judiciais aos advogados associados.

Seu processo de trabalho inclui:

● 200+ diários oficiais publicados entre 06h e 11h da manhã

● Converter arquivos PDF para recortes em arquivos texto

● Classificar manualmente cada convocação (80% = ~ 14M / mês)

Page 14: Classificação de documentos

Case - Dificuldades

● O volume de trabalho dificulta a evolução do processo

● “Afoga” o departamento de TI e os analistas

● Sobra pouco tempo e recurso para evoluções

Page 15: Classificação de documentos

Case - Objetivo

Os principais objetivos deste trabalho são:

● Melhorar a classificação automática (hoje ~ 20%)

● Minimizar a classificação crítica e spam

● Diferencial de mercado em relação aos outros players

Page 16: Classificação de documentos

Case - Solução

Page 17: Classificação de documentos

Case - Resultados

APROVADOS DESCARTADOS ACERTOS %

APROVADOS 64.934 667 98.98%

DESCARTADOS 40.300 192.388 82.68%

DESCARTES ERRADOS 1.02%

APROVAÇÕES ERRADAS 17.3%

Page 18: Classificação de documentos

Case - Resultados

Foram criados dois cenários de análise:

● Analisar manualmente as aprovações (-64% de trabalho)

○ Benefício: Minimizar o número de spam

○ Risco: Assume 1.02% de notificações não recebidas

● Analisar manualmente os descartes (-35% de trabalho)

○ Benefício: Minimizar o número de notificações não recebidas

○ Risco: Assume 17.3% de spam

Page 19: Classificação de documentos

Próximos passos

Page 20: Classificação de documentos

DecisãoAlgoritmo de Classificação

Naive Bayes

Page 21: Classificação de documentos

Decisão● Simples de manter● Agilidade de replicação● Integração multiplataforma

Solução baseada em infraestrutura

Page 22: Classificação de documentos

Perguntas?