Classificação de documentos

Preview:

Citation preview

Classificação de Documentos

Classificação baseada em Inteligência Artificial

Agenda

1. Introdução

2. Ferramentas

3. Exercício prático

4. Case

Por que classificar documentos?

Como fazer isso?

Classificação de documentos

1. Exemplos de documentos (arquivos) de cada classe;

2. Criar dicionários de dados e extrair características;

3. Separar amostras para treino e teste;

4. Treinar classificador;

5. Testar classificador treinado.

Isso é fácil?

Ferramentas

Ferramentas

● O processamento distribuído do Hadoop permite escalar;

● O Mahout encapsula a complexidade matemática dos algoritmos de ML;

● Embora o Mahout seja uma API Java, é possível utilizá-la com outras

tecnologias.

Ambiente

Ambiente

● Virtualização Docker;

● Apache Hadoop;

● Apache Mahout;

● Exemplos de textos divididos em 4 categorias (esporte, medicina, politica e

religião);

Referência: https://github.com/evertongago/text-mining

Prática :)

Case

Case - Contexto

Uma acessoria jurídica separa, classifica e encaminha convocações judiciais aos advogados associados.

Seu processo de trabalho inclui:

● 200+ diários oficiais publicados entre 06h e 11h da manhã

● Converter arquivos PDF para recortes em arquivos texto

● Classificar manualmente cada convocação (80% = ~ 14M / mês)

Case - Dificuldades

● O volume de trabalho dificulta a evolução do processo

● “Afoga” o departamento de TI e os analistas

● Sobra pouco tempo e recurso para evoluções

Case - Objetivo

Os principais objetivos deste trabalho são:

● Melhorar a classificação automática (hoje ~ 20%)

● Minimizar a classificação crítica e spam

● Diferencial de mercado em relação aos outros players

Case - Solução

Case - Resultados

APROVADOS DESCARTADOS ACERTOS %

APROVADOS 64.934 667 98.98%

DESCARTADOS 40.300 192.388 82.68%

DESCARTES ERRADOS 1.02%

APROVAÇÕES ERRADAS 17.3%

Case - Resultados

Foram criados dois cenários de análise:

● Analisar manualmente as aprovações (-64% de trabalho)

○ Benefício: Minimizar o número de spam

○ Risco: Assume 1.02% de notificações não recebidas

● Analisar manualmente os descartes (-35% de trabalho)

○ Benefício: Minimizar o número de notificações não recebidas

○ Risco: Assume 17.3% de spam

Próximos passos

DecisãoAlgoritmo de Classificação

Naive Bayes

Decisão● Simples de manter● Agilidade de replicação● Integração multiplataforma

Solução baseada em infraestrutura

Perguntas?

Recommended