UniversidadeFederaldePernambucoCentrodeInformática
GraduaçãoemCiênciadaComputação
AplicaçãodeDeepLearningemAnálisedeSentimentoemTextosdeMicroblogging
GuilhermePalmaPeixoto
PropostadeTrabalhodeGraduação
Orientador:TsangIng-Ren
RecifeSetembro2016
Resumo UmaformaquesetornoupopulardecompartilharconteúdodentrodocontextodaWeb2.0
sãoossitesdemicrobloggingnosquaisseususuáriospostamseuspensamentosemformatos
detextoscurtosesucintos.OsitemaispopulardemicrobloggingéoTwitter,quelimitaseus
usuários a postarem textos comnomáximo140 caracteres. Esses textos temum caráter
extremamenteopinativo, oqueocasionouum interesseda indústria emanalisaroqueo
públicotemcomentadosobresuasmarcaseprodutosdentrodessarede.Essetrabalhotem
comopropósitoodesenvolvimentodeumaferramentaquerealizaanálisedesentimentoa
partirdetweets1,utilizandotécnicasdeDeepLearningparatal.Primeiro,serádesenvolvido
ummódulodeextraçãoeprocessamentodedadosnãoestruturadosdoTwitter,comouso
deAPIspúblicase técnicasdeprocessamentode linguagemnatural.Posteriormente, será
realizado o desenvolvimento de um algoritmo de classificação binário de fragmentos de
textos com o uso de redes neurais convolucionais para classificação e transformação de
palavrasemvetoresreais.Porfim,serárealizadoumaanáliseestatísticadaperformancedo
algoritmo desenvolvido e será realizado um caso de estudo comparativo com outros
algoritmos utilizados dento do contexto da classificação de texto curtos, informais e
opinativos.
Palavras-chave:Análisedesentimento,classificaçãodetexto,deeplearning,processamento
delinguagemnatural,Twitter,microblogging,redessociais,mineraçãodeopinião.
1 Tweet é o termo comumente utilizado para denotar um texto curto de até 140 caracterescompartilhadosdentrodoTwitter.
Abstract WiththespreadoftheWeb2.0usage, ithasbecomeapopularpracticetosharecontent
withinmicrobloggingwebsites,inwhichitsuserssharetheirthoughtsinshortandsuccinct
texts.OneofthemostpopularmicrobloggingwebsiteisTwitter,whichlimitsitsuserstopost
theirpostsintextsthatcanhaveatmost140characters.Thoseshorttextsarehighlyinformal
and it usually expressopinions,which led to an interest from the industry tomine those
opinionsinordertobetterunderstandhowtheirbrandsandproductsareperceivedthrough
themarket. Thisworkhasas itspurpose thedevelopmentof a framework thatperforms
sentimentanalysisintweets2thatleveragestheuseofDeepLearningtechniquesforsuch.
Firstly,itwillbedevelopedanon-structureddataextractionmodulefromTwitter(byusing
itspublicAPI)andapre-processingphasewithnaturallanguageprocessingtechniques.Then,
it will be presented a Deep Learning approach for binary text classification and word
embeddingwiththeuseofconvolutionalneuralnetworks.Lastly,itwillbeshownastatistical
analysisofthealgorithmperformancealongwithacomparativestudyofhowothermore
traditionalalgorithmsperformwithinthisshortandinformaltextclassificationcontext.
Keywords:sentimentanalysis,textclassification,deeplearning,naturallanguageprocessing,
Twitter,microblogging,socialnetworks,opinionmining.
2TweetisthetermusuallyattributedtopoststhataresharedwithintheTwittersocialnetworkanditrepresentsashorttextofatmost140characters.
Sumário
Introdução........................................................................................................................1
Objetivos...........................................................................................................................3
EstruturadoTrabalho........................................................................................................4
Cronograma......................................................................................................................5
PossíveisAvaliadores........................................................................................................6
Assinaturas.......................................................................................................................7
Referências.......................................................................................................................8
1
Introdução DesdeosurgimentodaWeb2.0,ocrescimentodeconteúdogeradopelosusuáriosdaWorld
WideWebvemcrescendoexponencialmente.Umdosprincipaismecanismosdessanovaera
dainformaçãoéainteroperabilidade,deformaqueoconteúdonãoégeradoapenasatráves
dedesktops,masdeváriosdevicesexternos(principalmenteousodesmartphones)quese
encontramconectadosàrede.Assim,aspessoasestãoconectadasduranteamaiorpartedo
seudia,gerandoconstantementeconteúdo.Umadasaplicaçõesmaispopularesdentroda
Web 2.0 é o uso de redes sociais, nas quais os usuários podem compartilhar diversas
informações,comofotos,vídeos,textos.Juntocomosurgimentodasnovasredessociaise
plataformasnasquaisosusuáriospoderiampublicarassuasopiniões,textosepensamentos,
surgiuumanova“modalidade”debloggingchamadademicroblogging,naqualosusuários
publicamassuasopiniõesemcurtostextos.
Dentrodocontextodemicroblogging,dois sitesdestacaram-se:oTumblr3eoTwitter4.O
Twitter,particularmente,alcançouumenormesucesso:éestimadoquesejampostados,em
média,500milhõesdetweets5pordiaapartirdeseususuários.Comomuitosdessestweets
contémcurtasopiniões sobreprodutos,marcas eoutros sujeitosde análisede interesse,
surgiuumgrandeinteressedaindústriaafimdemineraressaenormequantidadededados
queégeradadiariamente.
Umadasprincipaisaplicaçõesdentrodemineraçãodeopiniãoéanálisedesentimento,que
consisteemdeterminarseoalvodaopiniãodeumtextotemumcaráterpositivoounegativo.
Assim,muitas ferramentas e técnicas foramdesenvolvidas comopropósito de analisar o
sentimentodentrodesses textoscurtos,usualmentecomaaplicaçãodeumalgoritmode
classificaçãobinárioque rotulao sentimentodeum texto comopositivoounegativo.No
entanto,comonãoépossíveldarcomoentradadiretamenteumasequênciadecaracteres
como entrada a um algoritmo de classificação, uma etapa de processamento comum é
vetorizaressestextosafimdeproduzirumvetorrealdetamanhofixo.Essesvetores,porém,
conformeotamanhodabasededadoscresce,costumamserdealtíssimadimensionalidade
(daordemdemilhõesdenúmeroscadavetor),deformaqueabordagensclássicas,mesmo
3https://www.tumblr.com/4https://twitter.com/5Fonte:http://www.internetlivestats.com/twitter-statistics/
2
queefetivas,terminamtornando-senãoescaláveis.Novasabordagensentãocomeçarama
surgirparasupriressanecessidadedeescalabilidadeevelocidadeenquantoaacuráciadas
abordagenstradicionaisdeclassificaçãofossemantida.
Com o grande avanço na tecnologia na produção de hardwares cada vez mais eficazes
(especialmentememóriaeGPU),asredesneuraiscommuitascamadas,quecaracterizamas
redes encontradas dentro do campo de estudo do deep learning, tiveram um interesse
retomadopelaacademia.Apesardoconceitooriginalteraproximadamente20anosdeidade,
apenascomoavançodopodercomputacionalquefoipossívelrealizarimplementaçõesmais
eficazesparaaeradebigdataatual.
Deep learning foi rapidamente introduzido no campo de visão computacional e
reconhecimentode imagens,mas tambémencontrou seucaminhoemprocessamentode
linguagemnatural,ondeasuaprincipalcontribuiçãofoiencontrarumaformadereduzira
dimensionalidadeeesparsidadedasrepresentaçõesvetoriaisdesequênciasdecaracteres.
Noentanto,apenasadaptararepresentaçãodassequênciasdecaracteresemvetoresreais
nãoésuficiente,osalgoritmosdeclassificaçãotambémprecisamseradaptadosparasuportar
novasrepresentações.Assim,torna-seimportanteoestudodeanalisarnovosalgoritmoscom
técnicas que utilizam o estado-da-arte de performance tanto em termos de precisão da
classificação,quantoem tomaromáximodeproveitopossíveldas tecnologias físicasque
possuímoshoje.
3
Objetivos Oobjetivoprincipaldessetrabalhoéaimplementaçãodeumclassificadorbinárioqueutiliza
umaabordagemdeDeepLearningvoltadoparaatarefadeanálisedesentimentoemcima
detextosdecarátercurtoeinformaldentrodocontextodemicroblogging,quecontémuma
gramáticadiferenciadadaquelasencontradasemsitesquecontémopiniõesescritasdeforma
mais tradicional (i.e.,mais longaecomagramáticamais formal).Alémdisso,é incluídoa
implementaçãodeummóduloqueirárealizaracoletadabasededadosparatreinamentoe
teste(comousodaAPIpúblicadoTwitter)eumaetapadepré-processamentoutilizando
técnicas de processamento de linguagem natural. Por fim, também é objetivado a
desenvolturadeumestudocomparativoentreaperformancedoalgoritmodesenvolvidoe
outrosclassificadoresbinários.
4
EstruturadoTrabalho Otrabalhoserádividoedesenvolvidodeacordocomaseguinteestruturapretendida:
• Introdução:aquiserãointroduzidosotemaeamotivaçãoparaotrabalho;
• Conceitostécnicos:nessecapítuloserãointroduzidosalgunsconceitosbásicosacerca
das principais tecnologias e algoritmos utilizados nesse trabalho, não
necessariamenterestritasoulimitadasa:
o Técnicasdeprocessamentodelinguagemnaturalutilizadas,
o Classificadoresdeaprendizagemdemáquina,
o Deeplearning,incluindo:conceitosevisõesgerais,redesconvolucionais,word
embedding(mapeamentodepalavrasparavetoresreaisdebaixadimensão);
• Desenvolvimento:essecapítuloserádivididoemtrêspartesprincipais:
o DesenvolvimentodomódulodeextraçãodedadosdoTwitter;
o Desenvolvimentodomódulodepré-processamentodetexto;
o Desenvolvimento do algoritmo de classificação com o uso de redes
convolucionais
• Avaliação:serádedicadaaanalisaraperformancedoalgoritmopropostodeacordo
comdiversasmétricas,incluindooestudocomparativocomaperformancedeoutros
algoritmosaplicadosaoconjuntodedados.
5
Cronograma Atividades Agosto Setembro Outubro Novembro Dezembro
Formulaçãodaproposta
Revisãobibliográfica
DesenvolvimentodomódulodemineraçãodoTwitter
Desenvolvimentodomódulodepré-processamentodetexto
Desenvolvimentodoclassificadorbináriodeanálisedesentimento
Análisedeperformancedoalgoritmo
Estudocomparativo
Preparaçãodadefesa
Defesa
6
PossíveisAvaliadores Os seguintes professores(as) a seguir são considerados como possíveis avaliadores do
trabalhodesenvolvidoaserentregue:
• PauloSalgadoGomesdeMattosNeto(CIn/UFPE)
• LucianodeAndradeBarbosa(CIn/UFPE)
• GeorgeDarmitondaCunhaCavalcanti(CIn/UFPE)
7
Assinaturas
____________________________
Tsang-IngRen(Orientador)
____________________________
GuilhermePalmaPeixoto(Aluno)
8
ReferênciasGIMPEL, Kevin et al. Part-of-speech tagging for twitter: Annotation, features, andexperiments. Proceedings Of The 49th Annual Meeting Of The Association For ComputationalLinguistics:HumanLanguageTechnologies.p.42-47,2011.GO, Alec; HUANG, Lei; BHAYANI, Richa. Twitter sentiment classification using distantsupervision: CS224N Project Report, Stanford 1. 2009. Disponível em:<http://s3.amazonaws.com/academia.edu.documents/34632156/Twitter_Sentiment_Classification_using_Distant_Supervision.pdf?AWSAccessKeyId=AKIAJ56TQJRTWSMTNPEA&Expires=1473783321&Signature=E1MnObCowXZCeMdxgQmtZjWtyZU=&response-content-disposition=inline;filename=Twitter_Sentiment_Classification_using_D.pdf>.Acessoem:07set.2016.GOLDBERG, Yoav; LEVY,Omer.Word2vec Explained:DerivingMikolov et al.’sNegative-SamplingWord-EmbeddingMethod. 2014. Disponível em: <https://arxiv.org/pdf/1402.3722v1.pdf>. Acessoem:07set.2016.GOODFELLOW,Ian;BENGIO,Yoshua;COURVILLE,Aaron.DeepLearning.Cambridge:MitPress,2016.Disponívelem:<http://www.deeplearningbook.org/>.Acessoem:09set.2016.HU, Minqing; LIU, Bing. Mining and summarizing customer reviews. Acm Sigkdd InternationalConferenceOnKnowledgeDiscoveryAndDataMining.p.168-177.22ago.2004.KIM, Yoon. Convolutional neural networks for sentence classification: arXiv preprintarXiv:1408.5882. 2014. Disponível em: <http://arxiv.org/pdf/1408.5882.pdf>. Acesso em: 07 set.2016. MIKOLOV, Tomas et al. Distributed representations of words and phrases and theircompositionality.AdvancesInNeuralInformationProcessingSystems.2013.TANG,Duyuetal.Coooolll:AdeeplearningsystemforTwittersentimentclassification.InternationalWorkshopOnSemanticEvaluation.p.208-212,2014.