gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

Transcript

Page 1: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

UniversidadeFederaldePernambucoCentrodeInformática

GraduaçãoemCiênciadaComputação

AplicaçãodeDeepLearningemAnálisedeSentimentoemTextosdeMicroblogging

GuilhermePalmaPeixoto

PropostadeTrabalhodeGraduação

Orientador:TsangIng-Ren

RecifeSetembro2016

Page 2: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

Resumo UmaformaquesetornoupopulardecompartilharconteúdodentrodocontextodaWeb2.0

sãoossitesdemicrobloggingnosquaisseususuáriospostamseuspensamentosemformatos

detextoscurtosesucintos.OsitemaispopulardemicrobloggingéoTwitter,quelimitaseus

usuários a postarem textos comnomáximo140 caracteres. Esses textos temum caráter

extremamenteopinativo, oqueocasionouum interesseda indústria emanalisaroqueo

públicotemcomentadosobresuasmarcaseprodutosdentrodessarede.Essetrabalhotem

comopropósitoodesenvolvimentodeumaferramentaquerealizaanálisedesentimentoa

partirdetweets1,utilizandotécnicasdeDeepLearningparatal.Primeiro,serádesenvolvido

ummódulodeextraçãoeprocessamentodedadosnãoestruturadosdoTwitter,comouso

deAPIspúblicase técnicasdeprocessamentode linguagemnatural.Posteriormente, será

realizado o desenvolvimento de um algoritmo de classificação binário de fragmentos de

textos com o uso de redes neurais convolucionais para classificação e transformação de

palavrasemvetoresreais.Porfim,serárealizadoumaanáliseestatísticadaperformancedo

algoritmo desenvolvido e será realizado um caso de estudo comparativo com outros

algoritmos utilizados dento do contexto da classificação de texto curtos, informais e

opinativos.

Palavras-chave:Análisedesentimento,classificaçãodetexto,deeplearning,processamento

delinguagemnatural,Twitter,microblogging,redessociais,mineraçãodeopinião.

1 Tweet é o termo comumente utilizado para denotar um texto curto de até 140 caracterescompartilhadosdentrodoTwitter.

Page 3: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

Abstract WiththespreadoftheWeb2.0usage, ithasbecomeapopularpracticetosharecontent

withinmicrobloggingwebsites,inwhichitsuserssharetheirthoughtsinshortandsuccinct

texts.OneofthemostpopularmicrobloggingwebsiteisTwitter,whichlimitsitsuserstopost

theirpostsintextsthatcanhaveatmost140characters.Thoseshorttextsarehighlyinformal

and it usually expressopinions,which led to an interest from the industry tomine those

opinionsinordertobetterunderstandhowtheirbrandsandproductsareperceivedthrough

themarket. Thisworkhasas itspurpose thedevelopmentof a framework thatperforms

sentimentanalysisintweets2thatleveragestheuseofDeepLearningtechniquesforsuch.

Firstly,itwillbedevelopedanon-structureddataextractionmodulefromTwitter(byusing

itspublicAPI)andapre-processingphasewithnaturallanguageprocessingtechniques.Then,

it will be presented a Deep Learning approach for binary text classification and word

embeddingwiththeuseofconvolutionalneuralnetworks.Lastly,itwillbeshownastatistical

analysisofthealgorithmperformancealongwithacomparativestudyofhowothermore

traditionalalgorithmsperformwithinthisshortandinformaltextclassificationcontext.

Keywords:sentimentanalysis,textclassification,deeplearning,naturallanguageprocessing,

Twitter,microblogging,socialnetworks,opinionmining.

2TweetisthetermusuallyattributedtopoststhataresharedwithintheTwittersocialnetworkanditrepresentsashorttextofatmost140characters.

Page 4: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

Sumário

Introdução........................................................................................................................1

Objetivos...........................................................................................................................3

EstruturadoTrabalho........................................................................................................4

Cronograma......................................................................................................................5

PossíveisAvaliadores........................................................................................................6

Assinaturas.......................................................................................................................7

Referências.......................................................................................................................8

Page 5: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

Introdução DesdeosurgimentodaWeb2.0,ocrescimentodeconteúdogeradopelosusuáriosdaWorld

WideWebvemcrescendoexponencialmente.Umdosprincipaismecanismosdessanovaera

dainformaçãoéainteroperabilidade,deformaqueoconteúdonãoégeradoapenasatráves

dedesktops,masdeváriosdevicesexternos(principalmenteousodesmartphones)quese

encontramconectadosàrede.Assim,aspessoasestãoconectadasduranteamaiorpartedo

seudia,gerandoconstantementeconteúdo.Umadasaplicaçõesmaispopularesdentroda

Web 2.0 é o uso de redes sociais, nas quais os usuários podem compartilhar diversas

informações,comofotos,vídeos,textos.Juntocomosurgimentodasnovasredessociaise

plataformasnasquaisosusuáriospoderiampublicarassuasopiniões,textosepensamentos,

surgiuumanova“modalidade”debloggingchamadademicroblogging,naqualosusuários

publicamassuasopiniõesemcurtostextos.

Dentrodocontextodemicroblogging,dois sitesdestacaram-se:oTumblr3eoTwitter4.O

Twitter,particularmente,alcançouumenormesucesso:éestimadoquesejampostados,em

média,500milhõesdetweets5pordiaapartirdeseususuários.Comomuitosdessestweets

contémcurtasopiniões sobreprodutos,marcas eoutros sujeitosde análisede interesse,

surgiuumgrandeinteressedaindústriaafimdemineraressaenormequantidadededados

queégeradadiariamente.

Umadasprincipaisaplicaçõesdentrodemineraçãodeopiniãoéanálisedesentimento,que

consisteemdeterminarseoalvodaopiniãodeumtextotemumcaráterpositivoounegativo.

Assim,muitas ferramentas e técnicas foramdesenvolvidas comopropósito de analisar o

sentimentodentrodesses textoscurtos,usualmentecomaaplicaçãodeumalgoritmode

classificaçãobinárioque rotulao sentimentodeum texto comopositivoounegativo.No

entanto,comonãoépossíveldarcomoentradadiretamenteumasequênciadecaracteres

como entrada a um algoritmo de classificação, uma etapa de processamento comum é

vetorizaressestextosafimdeproduzirumvetorrealdetamanhofixo.Essesvetores,porém,

conformeotamanhodabasededadoscresce,costumamserdealtíssimadimensionalidade

(daordemdemilhõesdenúmeroscadavetor),deformaqueabordagensclássicas,mesmo

3https://www.tumblr.com/4https://twitter.com/5Fonte:http://www.internetlivestats.com/twitter-statistics/

Page 6: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

queefetivas,terminamtornando-senãoescaláveis.Novasabordagensentãocomeçarama

surgirparasupriressanecessidadedeescalabilidadeevelocidadeenquantoaacuráciadas

abordagenstradicionaisdeclassificaçãofossemantida.

Com o grande avanço na tecnologia na produção de hardwares cada vez mais eficazes

(especialmentememóriaeGPU),asredesneuraiscommuitascamadas,quecaracterizamas

redes encontradas dentro do campo de estudo do deep learning, tiveram um interesse

retomadopelaacademia.Apesardoconceitooriginalteraproximadamente20anosdeidade,

apenascomoavançodopodercomputacionalquefoipossívelrealizarimplementaçõesmais

eficazesparaaeradebigdataatual.

Deep learning foi rapidamente introduzido no campo de visão computacional e

reconhecimentode imagens,mas tambémencontrou seucaminhoemprocessamentode

linguagemnatural,ondeasuaprincipalcontribuiçãofoiencontrarumaformadereduzira

dimensionalidadeeesparsidadedasrepresentaçõesvetoriaisdesequênciasdecaracteres.

Noentanto,apenasadaptararepresentaçãodassequênciasdecaracteresemvetoresreais

nãoésuficiente,osalgoritmosdeclassificaçãotambémprecisamseradaptadosparasuportar

novasrepresentações.Assim,torna-seimportanteoestudodeanalisarnovosalgoritmoscom

técnicas que utilizam o estado-da-arte de performance tanto em termos de precisão da

classificação,quantoem tomaromáximodeproveitopossíveldas tecnologias físicasque

possuímoshoje.

Page 7: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

Objetivos Oobjetivoprincipaldessetrabalhoéaimplementaçãodeumclassificadorbinárioqueutiliza

umaabordagemdeDeepLearningvoltadoparaatarefadeanálisedesentimentoemcima

detextosdecarátercurtoeinformaldentrodocontextodemicroblogging,quecontémuma

gramáticadiferenciadadaquelasencontradasemsitesquecontémopiniõesescritasdeforma

mais tradicional (i.e.,mais longaecomagramáticamais formal).Alémdisso,é incluídoa

implementaçãodeummóduloqueirárealizaracoletadabasededadosparatreinamentoe

teste(comousodaAPIpúblicadoTwitter)eumaetapadepré-processamentoutilizando

técnicas de processamento de linguagem natural. Por fim, também é objetivado a

desenvolturadeumestudocomparativoentreaperformancedoalgoritmodesenvolvidoe

outrosclassificadoresbinários.

Page 8: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

EstruturadoTrabalho Otrabalhoserádividoedesenvolvidodeacordocomaseguinteestruturapretendida:

• Introdução:aquiserãointroduzidosotemaeamotivaçãoparaotrabalho;

• Conceitostécnicos:nessecapítuloserãointroduzidosalgunsconceitosbásicosacerca

das principais tecnologias e algoritmos utilizados nesse trabalho, não

necessariamenterestritasoulimitadasa:

o Técnicasdeprocessamentodelinguagemnaturalutilizadas,

o Classificadoresdeaprendizagemdemáquina,

o Deeplearning,incluindo:conceitosevisõesgerais,redesconvolucionais,word

embedding(mapeamentodepalavrasparavetoresreaisdebaixadimensão);

• Desenvolvimento:essecapítuloserádivididoemtrêspartesprincipais:

o DesenvolvimentodomódulodeextraçãodedadosdoTwitter;

o Desenvolvimentodomódulodepré-processamentodetexto;

o Desenvolvimento do algoritmo de classificação com o uso de redes

convolucionais

• Avaliação:serádedicadaaanalisaraperformancedoalgoritmopropostodeacordo

comdiversasmétricas,incluindooestudocomparativocomaperformancedeoutros

algoritmosaplicadosaoconjuntodedados.

Page 9: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

Cronograma Atividades Agosto Setembro Outubro Novembro Dezembro

Formulaçãodaproposta

Revisãobibliográfica

DesenvolvimentodomódulodemineraçãodoTwitter

Desenvolvimentodomódulodepré-processamentodetexto

Desenvolvimentodoclassificadorbináriodeanálisedesentimento

Análisedeperformancedoalgoritmo

Estudocomparativo

Preparaçãodadefesa

Defesa

Page 10: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

PossíveisAvaliadores Os seguintes professores(as) a seguir são considerados como possíveis avaliadores do

trabalhodesenvolvidoaserentregue:

• PauloSalgadoGomesdeMattosNeto(CIn/UFPE)

• LucianodeAndradeBarbosa(CIn/UFPE)

• GeorgeDarmitondaCunhaCavalcanti(CIn/UFPE)

Page 11: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

Assinaturas

____________________________

Tsang-IngRen(Orientador)

____________________________

GuilhermePalmaPeixoto(Aluno)

Page 12: Aplicação de Deep Learning em Análise de …tg/2016-2/gpp-proposta.pdfo Deep learning, incluindo: conceitos e visões gerais,redes convolucionais, word embedding (mapeamento de

ReferênciasGIMPEL, Kevin et al. Part-of-speech tagging for twitter: Annotation, features, andexperiments. Proceedings Of The 49th Annual Meeting Of The Association For ComputationalLinguistics:HumanLanguageTechnologies.p.42-47,2011.GO, Alec; HUANG, Lei; BHAYANI, Richa. Twitter sentiment classification using distantsupervision: CS224N Project Report, Stanford 1. 2009. Disponível em:<http://s3.amazonaws.com/academia.edu.documents/34632156/Twitter_Sentiment_Classification_using_Distant_Supervision.pdf?AWSAccessKeyId=AKIAJ56TQJRTWSMTNPEA&Expires=1473783321&Signature=E1MnObCowXZCeMdxgQmtZjWtyZU=&response-content-disposition=inline;filename=Twitter_Sentiment_Classification_using_D.pdf>.Acessoem:07set.2016.GOLDBERG, Yoav; LEVY,Omer.Word2vec Explained:DerivingMikolov et al.’sNegative-SamplingWord-EmbeddingMethod. 2014. Disponível em: <https://arxiv.org/pdf/1402.3722v1.pdf>. Acessoem:07set.2016.GOODFELLOW,Ian;BENGIO,Yoshua;COURVILLE,Aaron.DeepLearning.Cambridge:MitPress,2016.Disponívelem:<http://www.deeplearningbook.org/>.Acessoem:09set.2016.HU, Minqing; LIU, Bing. Mining and summarizing customer reviews. Acm Sigkdd InternationalConferenceOnKnowledgeDiscoveryAndDataMining.p.168-177.22ago.2004.KIM, Yoon. Convolutional neural networks for sentence classification: arXiv preprintarXiv:1408.5882. 2014. Disponível em: <http://arxiv.org/pdf/1408.5882.pdf>. Acesso em: 07 set.2016. MIKOLOV, Tomas et al. Distributed representations of words and phrases and theircompositionality.AdvancesInNeuralInformationProcessingSystems.2013.TANG,Duyuetal.Coooolll:AdeeplearningsystemforTwittersentimentclassification.InternationalWorkshopOnSemanticEvaluation.p.208-212,2014.

Recommended

REDES NEURAIS ARTIFICIAIS - UFGanderson/deeplearning/Deep Learning - Redes Neura… · Introduziram o conceito de redes neurais convolucionais. Yann LeCun, Professor of Computer Science Documents

Introdução ao Deep Learning com o TensorFlow Technology

FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação Documents

RN-07-deep-Learning [Modo de Compatibilidade] - cin.ufpe.braluizioa/RN/RN-07-deep-Learning.pdf · mapa consistindo de 12x12 neurônios. Cada neurônio tem um campo receptivo de tamanho Documents

Avaliação do desempenho das redes neurais convolucionais ...tg/2017-1/vgom_tg.pdf · Victor Gutemberg Oliveira Marques Avaliação do desempenho das redes neurais convolucionais Documents

Deep Learning Science

Redes Neurais profundas e aplicações Deep Learning › 2020 › 10 › crb_aula08.pdf · Centro Brasileiro de Pesquisas Físicas Ministério da Ciência, Tecnologia e Inovações Documents

APLICAÇÃO DA INTELIGÊNCIA ARTIFICIAL NAS INDÚSTRIAS ...€¦ · Palavras-chave: Artificial intelligence; machine learning; deep learning; prediction; drug designing. INTRODUÇÃO: Documents

Deep$Learning$ - UFPEtbl/Aulas/AM/Deep Learning.pdf · Deep$Learning$ Anderson$Tenório$ Bacharel$em$EngenhariadaComputação,$POLIUPE$ Mestre$em$CiênciadaComputação,$ CInUFPE Documents

AI / ML / Deep Learning ... · ImageNet “Deep Image: Scaling up Image Recognition” – Baidu: 5.98%, Jan. 13, 2015 “Delving Deep into Rectifiers: Surpassing Human-Level Performance Documents

FABIANOSHIITIMARUMO · Deep Learning para classificação de Fake News por sumarização de texto / Fabiano Shiiti Marumo. - Londrina, 2019. 52 f. Orientador: Prof. Dr. Sylvio Barbon Documents

Tópico 10 - Redes Neurais Convolucionais - Deep Learningjbflorindo/Teaching/2018/MT530/T10.pdf · semi-c rculos (reta+curva), quadrados (4 retas), etc. Em n veis mais altos ainda Documents

7. Aprendizado Profundo (Deep Learning Documents

Deep Learning na Visão Computacional - lps.usp.br · Tarefas consideradas impossíveis 5 anos atrás são possíveis hoje. Ex: Computador soluciona melhor “captcha” do que ser Documents

Métodos de Deep Learning Aplicados a Candlestick como ... · 1 Métodos de Deep Learning Aplicados a Candlestick como Estratégia de Investimento f RESUMO O objetivo desta pesquisa Documents

TDC2016SP - Apresentação algo sobre gatos cachorros e deep learning Education

REDES NEURAIS CONVOLUCIONAIS APLICADAS À INSPEÇÃO DE Documents

Como funciona o Deep Learning arXiv:1806.07908v1 [cs.LG] 20 … › pdf › 1806.07908.pdf · 2018-06-22 · Como funciona o Deep Learning Moacir A. Ponti1 e Gabriel B. Paranhos da Documents