Classificação de documentos

View
269
Download
1
Category

Software

Preview:

Citation preview

Classificação de Documentos

Classificação baseada em Inteligência Artificial

Agenda

1. Introdução

2. Ferramentas

3. Exercício prático

4. Case

Por que classificar documentos?

Como fazer isso?

Classificação de documentos

1. Exemplos de documentos (arquivos) de cada classe;

2. Criar dicionários de dados e extrair características;

3. Separar amostras para treino e teste;

4. Treinar classificador;

5. Testar classificador treinado.

Isso é fácil?

Ferramentas

● O processamento distribuído do Hadoop permite escalar;

● O Mahout encapsula a complexidade matemática dos algoritmos de ML;

● Embora o Mahout seja uma API Java, é possível utilizá-la com outras

tecnologias.

Ambiente

● Virtualização Docker;

● Apache Hadoop;

● Apache Mahout;

● Exemplos de textos divididos em 4 categorias (esporte, medicina, politica e

religião);

Referência: https://github.com/evertongago/text-mining

Prática :)

Case

Case - Contexto

Uma acessoria jurídica separa, classifica e encaminha convocações judiciais aos advogados associados.

Seu processo de trabalho inclui:

● 200+ diários oficiais publicados entre 06h e 11h da manhã

● Converter arquivos PDF para recortes em arquivos texto

● Classificar manualmente cada convocação (80% = ~ 14M / mês)

Case - Dificuldades

● O volume de trabalho dificulta a evolução do processo

● “Afoga” o departamento de TI e os analistas

● Sobra pouco tempo e recurso para evoluções

Case - Objetivo

Os principais objetivos deste trabalho são:

● Melhorar a classificação automática (hoje ~ 20%)

● Minimizar a classificação crítica e spam

● Diferencial de mercado em relação aos outros players

Case - Solução

Case - Resultados

APROVADOS DESCARTADOS ACERTOS %

APROVADOS 64.934 667 98.98%

DESCARTADOS 40.300 192.388 82.68%

DESCARTES ERRADOS 1.02%

APROVAÇÕES ERRADAS 17.3%

Case - Resultados

Foram criados dois cenários de análise:

● Analisar manualmente as aprovações (-64% de trabalho)

○ Benefício: Minimizar o número de spam

○ Risco: Assume 1.02% de notificações não recebidas

● Analisar manualmente os descartes (-35% de trabalho)

○ Benefício: Minimizar o número de notificações não recebidas

○ Risco: Assume 17.3% de spam

Próximos passos

DecisãoAlgoritmo de Classificação

Naive Bayes

Decisão● Simples de manter● Agilidade de replicação● Integração multiplataforma

Solução baseada em infraestrutura

Perguntas?

Recommended

CLASSIFICAÇÃO AUTOMÁTICA DE DOCUMENTOS …

Documents

EDITAL DE CLASSIFICAÇÃO PARCIAL DO CONCURSO PÚBLICO EDITAL …arquivos.rboconcursos.com.br/documentos/231/3578.pdf · EDITAL DE CLASSIFICAÇÃO PARCIAL (somente cargos sem prova

Documents

PLANO DE CLASSIFICAÇÃO, AVALIAÇÃO E DESTINAÇÃO · de classificação de documentos (p. rosto). Inclui bibliografia. ... Por definição, gestão de documentos é o “conjunto

Documents

Gestão de Documentos: a importância da Classificação e da ......documentos”. (GONÇALVES, 1998, p. 12). A avaliação de documentos é um trabalho multidisciplinar que consiste

Documents

CÓDIGO DE CLASSIFICAÇÃO DE DOCUMENTOS … · CÓDIGO DE CLASSIFICAÇÃO DE DOCUMENTOS DE ARQUIVO RELATIVOS ÀS ATIVIDADES–FIM DAS INSTITUIÇÕES FEDERAIS DE ENSINO SUPERIOR -

Documents

ANEXO II CÓDIGO DE CLASSIFICAÇÃO DE DOCUMENTOS - …...ANEXO II - CÓDIGO DE CLASSIFICAÇÃO DE DOCUMENTOS - NOR 208 FOLHA: 2/21 1. DEFINIÇÕES E CONCEITOS O código de classificação

Documents

Classificação de Documentos com Processamento de ...files.isec.pt/DOCUMENTOS/SERVICOS/BIBLIO/Teses/Tese_Mest_Cedric... · A realização do projeto de mestrado contou com importantes

Documents

LOTE-VAGA CLASSIFICAÇÃO NOME CANDIDATO DATA HORARIO …planejamento.mg.gov.br/sites/default/files/documentos/gestao-de... · LOTE-VAGA CLASSIFICAÇÃO NOME CANDIDATO DATA HORARIO

Documents

DISPOSITIVO DE AVALIAÇÃO - escolasdemangualde.ptescolasdemangualde.pt/documentos/Dispositivo_avaliacao_secundario... · VII – Programação anual..... 10 VIII – Classificação

Documents

Código de Classificação e Tabela de Temporalidade de Documentos

Documents

Cartilha para classificação de documentos no siga doc

Documents

CLASSIFICAÇÃO - Goiás digital · Classificação, temporalidade e destinação de documentos de arquivo; relativos às atividades-meio da administração pública/ Arquivo Nacional

Documents

USO DE SINTAGMAS NOMINAIS NA CLASSIFICAÇÃO … · Uso de sintagmas nominais na classificação automática de documentos ... 1 INTRODUÇÃO ... 2.2 Conceitos básicos sobre análise

Documents

Plano de Classificação de Documentos das Atividades Meio ... · Plano de Classificação de Documentos das Atividades Meio do Estado do Rio de Janeiro 13 - Competência: Planejamento,

Documents

Classificação de Documentos em Organizações ......documentos de arquivo, sempre encontra pequenos entraves, questões controversas e algumas imprecisões quanto à justificativa

Documents

GED - Indexação, Armazenamento, Organização, Classificação e Gerenciamento Eletrônico de documentos

Technology

Classificação, temporalidade e destinação de documentos de arquivo de atividades-meio

Government & Nonprofit

Classificação temporalidade e destinação de documentos de arquivo relativos as

Documents

Apresentação do PowerPoint - estudioaulas.com.br · documentos. 7.3.1 Protocolos: recebimento, registro, distribuição, tramitação e expedição de documentos. 7.3.2 Classificação

Documents

Gleidson Antônio Cardoso da Silva KDC: UMA ABORDAGEM BASEADA EM CONHECIMENTO PARA CLASSIFICAÇÃO DE DOCUMENTOS · de técnicas de classificação de documentos com o uso de informação

Documents