12
Inferência de Personalidade a partir de textos em Português utilizando Léxico Linguístico e Aprendizagem de Máquina Aldo M. Paim 1 , Ricardo S. Camati 1 , Fabrício Enembreck 1 1 Programa de Pós-Graduação em Informática (PPGIa) Pontifícia Universidade Católica do Paraná (PUCPR) – Curitiba – PR – Brasil {aldo,ricardo.camati,fabricio}@ppgia.pucpr.br Abstract. Recent advances in automatic text analysis refer to the possibility that computer systems are able to recognize and detect personality traits from text. However, these methods are still in process of development and are, mostly, specific for the English language, although there are a few studies related to Portuguese. In this context, the paper presents a method for the inference of the individual's personality in texts published on the social network Facebook, written in Portuguese. The method is based on linguistic features available in the LIWC lexicon and is processed by text mining algorithms. The results show output values related to human personality in a moderate scale. Resumo. Os avanços recentes em análise automática de textos remetem a possibilidade que sistemas computacionais sejam capazes de reconhecer e detectar características de personalidade em texto. Entretanto, esses métodos ainda estão em fase de desenvolvimento e são, em sua grande maioria, para a língua inglesa, existindo escassos estudos para língua portuguesa. Nesse contexto, o artigo apresenta um método para a inferência da personalidade do indivíduo por meio de textos publicados na rede social Facebook, escritos em língua portuguesa. O método é baseado em características linguísticas, por intermédio do léxico LIWC e são processadas por meio de algoritmos de mineração de texto. Os resultados apresentam valores de saída correlacionados à personalidade humana em uma escala moderada. 1. Introdução A descoberta do comportamento e esclarecimento da personalidade humana está presente em diversas áreas de conhecimento. Estudos desenvolvidos no campo da Neurociência e da Psicologia comprovam o papel fundamental que a personalidade do indivíduo reflete na cognição humana, no que se refere à percepção, raciocínio, aprendizagem, memória e tomada de decisão [Damásio, 1996]. Devido ao seu potencial de aplicabilidade, há uma grande difusão do estudo do Reconhecimento da Personalidade por meio de Texto (RPT), utilizado em diversas áreas: (i) na Inteligência Artificial para criar agentes mais humanos [Dimuro, 2007], (ii) mensurar a personalidade dos usuários em redes sociais [Quercia et al., 2012], (iii) personalização de produtos em sites de negócios (e-commerce) [Nunes et al., 2008], e (iv) sistemas de recomendação baseados em personalidade [HU e PU 2011]. XIII Encontro Nacional de Inteligˆ encia Artificial e Computacional SBC ENIAC-2016 Recife - PE 481

Inferência de Personalidade a partir de textos em ...contexto , o artigo apresenta um método para a inferência da personalidade do ... chamado de modelo dos cinco grandes fatores,

Embed Size (px)

Citation preview

Inferência de Personalidade a partir de textos em Português

utilizando Léxico Linguístico e Aprendizagem de Máquina

Aldo M. Paim1, Ricardo S. Camati

1, Fabrício Enembreck

1

1Programa de Pós-Graduação em Informática (PPGIa)

Pontifícia Universidade Católica do Paraná (PUCPR) – Curitiba – PR – Brasil

{aldo,ricardo.camati,fabricio}@ppgia.pucpr.br

Abstract. Recent advances in automatic text analysis refer to the possibility

that computer systems are able to recognize and detect personality traits from

text. However, these methods are still in process of development and are,

mostly, specific for the English language, although there are a few studies

related to Portuguese. In this context, the paper presents a method for the

inference of the individual's personality in texts published on the social

network Facebook, written in Portuguese. The method is based on linguistic

features available in the LIWC lexicon and is processed by text mining

algorithms. The results show output values related to human personality in a

moderate scale.

Resumo. Os avanços recentes em análise automática de textos remetem a

possibilidade que sistemas computacionais sejam capazes de reconhecer e

detectar características de personalidade em texto. Entretanto, esses métodos

ainda estão em fase de desenvolvimento e são, em sua grande maioria, para a

língua inglesa, existindo escassos estudos para língua portuguesa. Nesse

contexto, o artigo apresenta um método para a inferência da personalidade do

indivíduo por meio de textos publicados na rede social Facebook, escritos em

língua portuguesa. O método é baseado em características linguísticas, por

intermédio do léxico LIWC e são processadas por meio de algoritmos de

mineração de texto. Os resultados apresentam valores de saída

correlacionados à personalidade humana em uma escala moderada.

1. Introdução

A descoberta do comportamento e esclarecimento da personalidade humana está

presente em diversas áreas de conhecimento. Estudos desenvolvidos no campo da

Neurociência e da Psicologia comprovam o papel fundamental que a personalidade do

indivíduo reflete na cognição humana, no que se refere à percepção, raciocínio,

aprendizagem, memória e tomada de decisão [Damásio, 1996].

Devido ao seu potencial de aplicabilidade, há uma grande difusão do estudo do

Reconhecimento da Personalidade por meio de Texto (RPT), utilizado em diversas

áreas: (i) na Inteligência Artificial para criar agentes mais humanos [Dimuro, 2007], (ii)

mensurar a personalidade dos usuários em redes sociais [Quercia et al., 2012], (iii)

personalização de produtos em sites de negócios (e-commerce) [Nunes et al., 2008], e

(iv) sistemas de recomendação baseados em personalidade [HU e PU 2011].

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 481

Para a inferência da personalidade por meio de texto, diversos pesquisadores,

como [Mairesse, 2007], [Quercia et al., 2012] e [Lima e Castro, 2013], utilizam o

modelo de fatores chamado “Big Five”, descreve a personalidade de um indivíduo em

torno de cinco traços [McCrae e John,1992]: Extroversão, Neuroticismo, Socialização,

Realização e Abertura à experiência. Em relação ao RPT, nota-se que a expansão de sua

aplicação para idiomas diferentes do inglês é necessária. No caso da língua portuguesa

existem poucos estudos computacionais com o objetivo de inferir a personalidade

humana [Nunes et al., 2013; Lima e Castro, 2013].

Esta pesquisa promove um modelo de reconhecimento automático de

personalidade a partir de texto, em língua portuguesa, por meio de uma abordagem

léxica, utilizando algoritmos de aprendizagem de máquina (AM). Até a publicação deste

artigo, não identificamos nenhum outro trabalho de RPT que utiliza léxico linguístico e

a rede social Facebook para a língua portuguesa. O presente artigo está estruturado da

seguinte forma: a seção 2 discute a personalidade humana e o modelo BigFive; a seção 3

expõe o método proposto de inferência; e os resultados são apresentados e analisados na

seção 4. As conclusões e direções para trabalhos futuros são oferecidas na seção 5.

2. Personalidade

Etimologicamente, a palavra personalidade deriva do latim – persona – que significa

“máscara”, isto é, como nos apresentamos aos outros indivíduos da sociedade. Em

Psicologia, o conceito de personalidade é subjetivo, existem muitas perspectivas

teóricas diferentes. Estas teorias podem ter algumas semelhanças ou serem

completamente contraditórias [Bock et al., 1999].

2.1 Teorias da Personalidade

Variantes de três métodos científicos são usualmente utilizados para a construção de

uma teoria da personalidade: o método clínico (utiliza estudos de casos de pacientes), o

método experimental (inclui a observação objetiva e sistemática em um ambiente

controlado) e o método correlacional (avalia a relação entre variáveis). Entre as

principais teorias da personalidade, podemos classificar uma parte importante delas

como: psicanalítica, neopsicanalítica, behaviorista, humanista e genética. Estas teorias

investigam a influência de um ou mais dos seguintes fatores na personalidade: genético,

ambiental, aprendizado, parental, desenvolvimento, consciência e inconsciência [Shultz

e Shultz, 2003].

A primeira teoria da personalidade, chamada “teoria psicanalítica”, implicou na

descoberta do inconsciente. Esta teoria foi inferida por meio do método psicanalítico

(uma especialização do método clínico), criado por Freud (1903). O inconsciente é uma

instância mental, regida pelo princípio do prazer, que busca a satisfação imediata de

seus impulsos. Em contraposição ao inconsciente, o consciente é regido pelo princípio

da realidade e utiliza mecanismos de defesa contra os impulsos considerados não

apropriados, vindos do inconsciente. Os psicanalistas usam a metáfora do complexo de

Édipo para enfatizar o fator parental, considerado o principal pilar formador da

personalidade que ocorre por volta dos cinco anos de idade. A partir do complexo de

Édipo, a personalidade é classificada em três tipos distintos, de acordo com o

mecanismo de defesa utilizado. O tipo neurótico usa o recalque, reprimindo os impulsos

não adequados; o psicótico faz uso da foraclusão, encontrando fora os impulsos que

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 482

deveriam ser reprimidos (o sujeito perde o contato com a realidade). A perversão faz uso

da denegação, em outras palavras, aquilo que para um neurótico é inconcebível para o

perverso pode provocar satisfação. O legado do inconsciente motivou o aparecimento de

outras teorias complementares à teoria psicanalítica, um exemplo é o inconsciente

estruturado como uma linguagem de Jacques Lacan que aproxima a psicanálise da

lógica formal [Nasio, 1992].

As teorias neopsicanalistas foram influenciadas pela psicanálise, mas divergiram

de algum fundamento da teoria freudiana original. Carl G. Jung postulou a existência de

arquétipos (representações herdadas de antepassados) em um inconsciente coletivo.

Essas representações interagem com o inconsciente pessoal e com a consciência,

formando complexos que ditam o modo de funcionamento mental. Ele identificou os

tipos de personalidade como introvertido e extrovertido [Jung, 2002]. Erik Erikson

(1968), outro neopsicanalista, afirmou que a personalidade era formada por uma

sucessão de oito estágios (teoria life-span), que evidenciam um conflito de sentimentos

específicos (um positivo e um negativo) em um contexto social. Para Erikson o

desenvolvimento da personalidade era gradual e por toda a vida.

Em sua teoria da motivação, Maslow (1853) criticou as teorias inferidas pelo

método clínico, pois achava que apenas o estudo dos melhores espécimes resultaria em

uma psicologia livre de defeitos. Ele acreditava que a psicoterapia deveria ser um

processo de autoconhecimento e não um processo de tratamento de doenças mentais.

Iniciou suas perspectivas teóricas com pessoas que admirava, e depois com pessoas que

ele considerou emocionalmente saudáveis. Seu método humanístico e otimista

considerava que o livre arbítrio poderia moldar da personalidade. Uma de suas maiores

contribuições foi classificação hierárquica das necessidades humanas, representadas em

forma de pirâmide. Na base da pirâmide estavam as mais básicas (fisiológicas) e as mais

elaboradas no topo (autorrealização). Apenas depois das necessidades mais básicas

satisfeitas é que as mais elaboradas poderiam ser alcançadas.

Em 1913, Watson desenvolveu o behaviorismo metodológico (teoria

comportamental). Em sua ótica, o comportamento humano é análogo a uma função, que,

ao receber um estímulo de entrada, produz um comportamento na saída. Skinner autor

do behaviorismo radical, notou que certos comportamentos poderiam ser condicionados

por meio de estímulos que recompensam ou punem (conceito de comportamento

operante) [Bock et al., 1999]. No behaviorismo, a personalidade é o comportamento

resultante da interação entre o ambiente e o indivíduo.

Muitas teorias da personalidade deram importância aos processos cognitivos.

Estes processos são as diferentes percepções do ambiente por meio de pensamentos.

Albert Bandura afirmou que os comportamentos não são aprendidos apenas por reforço,

mas também por observação. Para George Kelly, cada indivíduo tem um sistema de

padrões cognitivos usados para interpretar o ambiente e moldar a personalidade [Shultz

e Shultz, 2003].

Allport e Allport (1921) admitiram um conjunto de padrões de resposta inato de

cada indivíduo que interage com o ambiente social nas dimensões afetivas, cognitivas e

comportamentais, dando origem a psicologia dos traços, evidenciando o fator genético.

Para os autores, os traços são reais e não o produto de uma teoria (podendo ser

observados). Os traços possuem mecanismos entrelaçados e podem ser evidenciados

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 483

simultaneamente em um determinado momento ou variar de acordo com determinada

situação. Gordom Allport detectou dois tipos principais de traços: aqueles que são

comuns a membros de uma cultura e os que são individuais. Ele chamou de traços

centrais aqueles que são os mais expressivos em uma personalidade, se contrapondo aos

traços secundários (menos expressivos). A próxima seção discute o problema do cálculo

da personalidade.

2.2 Cálculo da personalidade

Existem diferentes métodos usados por psicólogos para investigar a personalidade: a

entrevista clínica; as avaliações de comportamentos; as amostras de pensamentos; os

inventários de personalidade; e os testes projetivos. A presente pesquisa optou pelos

inventários de personalidade, por serem aceitos pela comunidade de computação afetiva

no problema de RPT [Vinciarelli e Mohammadi, 2014].

Optamos por usar um tipo específico de inventário de personalidade (baseado na

teoria dos traços), chamado de modelo dos cinco grandes fatores, ou Big Five

[McDougall, 1932]. Este inventário se baseia na hipótese léxica, incluindo as diferenças

de personalidade dos indivíduos de uma determinada cultura na linguagem. O Big Five

começou a ganhar expressão a partir da década de 1980, quando as pesquisas de

McCrae e John (1992) começaram a comprovar a existência destes traços em indivíduos

de diferentes culturas e faixas etárias: extroversão (diz respeito a uma pessoa sensível,

assertiva, ativa, impulsiva, sociável e que expressa entusiasmo); neuroticismo (descreve

uma pessoa insegura, ansiosa, mal-humorada, autopunitiva e dimensões do afeto

negativo); socialização (define uma pessoa como amigável, cooperativa, cordial,

prestativa, altruísta e confiante); realização (caracteriza uma pessoa autodisciplinada,

organizada, metódica e persistente); abertura à experiência (descreve uma pessoa com

abertura ao novo, intelectual, criteriosa, liberal e tolerante).

A crítica, no uso deste tipo de inventário, é justamente que o indivíduo pode

mentir sobre a sua verdadeira personalidade, dando pistas falsas sobre seus traços. Os

Testes projetivos (baseados no mecanismo de projeção freudinano) como o teste

Rorschach e o teste das relações objetais não possuem estas interferências [Ocampo et

al., 1999], mas desconhecemos qualquer trabalho em computação que faz o uso destes

testes (provavelmente devido aos detalhes mais subjetivos em sua aplicação). Entre os

inventários de personalidade baseados no Big Five, optamos pelo NEO-IPIP 120

[Johnson, 2014]. Esta escolha é justificada por ele possuir 120 questões, mantendo a

precisão na inferência de personalidade sem ser cansativo.

3. Método de Inferência de Personalidade a partir de Texto em Língua Portuguesa

Nessa seção é apresentado um método detalhado para a inferência da personalidade do

indivíduo por meio de textos regidos em língua portuguesa. O método é composto pelas

seguintes etapas: (i) mensuração explícita da personalidade via inventário, cujo

resultado será utilizado para a avaliação do método computacional, (ii) montagem da

base textual, a partir de publicações da rede social Facebook (iii) pré-processamento,

responsável pela limpeza e representação dos dados, e (iv) mineração dos dados, por

intermédio de algoritmos de regressão para a geração de modelos de reconhecimento da

personalidade. Para melhor entendimento do modelo proposto, na Figura 1 são

ilustradas as fases do projeto e como elas estão relacionadas.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 484

Figura 1. Visão geral do modelo para inferir a personalidade a partir de texto

A seguir, as etapas do método serão discutidas.

3.1. Mensuração Explícita de Personalidade via Inventário

A aplicação do questionário NEO-IPIP 120 contou com a consultoria de um

psicólogo. Ela tem o intuito de auxiliar a avaliação do método proposto e rotular os

exemplos do conjunto de treinamento, caracterizando uma aprendizagem

supervisionada. Os voluntários do estudo responderam a todas as questões do

inventário, selecionando uma das cinco opções de resposta formatadas em uma escala

Likert (discordo totalmente; discordo parcialmente; nem discordo nem concordo;

concordo parcialmente; concordo totalmente) representando seu nível de concordância

para cada pergunta.

Após o término do preenchimento do questionário, os valores atribuídos a cada

uma das indagações são utilizados para contabilizar o resultado. No cálculo, é atribuído

ao resultado um valor entre 1 a 100 para cada um dos itens do BigFive, segundo método

desenvolvido por Johnson (2014). O valor 1 corresponde ao nível mais baixo do traço e

o valor 100 ao nível mais alto do traço.

Os participantes da pesquisa são 256 estudantes universitários (115 homens e

141 mulheres) com a média de 25 anos de idade, pois possuem assiduidade nas mídias

sociais e responderam de forma voluntária o inventário NEO-IPIP 120, por meio do

documento online ou impresso. Ainda, ressalte-se que esta pesquisa foi aprovada pelo

Comitê de Ética em Pesquisa da Pontifícia Universidade Católica do Paraná. A próxima

subseção tratará as minúcias da montagem da base textual.

3.2. Base de Dados

Com base nos dados coletados, obteve-se um conjunto textual composto por

2.590.034 palavras, não exclusivas, presentes em 187.488 publicações realizadas pelos

usuários participantes do experimento na rede social. A Tabela 1 apresenta outras

informações da base textual coletada.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 485

Tabela 1. Informações sobre a base de dados

Informações Total

Usuários 256

Publicações 187.488

Média de publicações por usuário 732

Palavras 2.590.034

Média de palavras por usuário 10.117

Posteriormente à etapa de seleção e criação da base de dados, o processo avança

para a etapa de pré-processamento, responsável pela limpeza e representação dos dados.

Essa etapa será detalhada na próxima subseção.

3.3. Pré-processamento

Essa etapa é responsável pela preparação do texto para a mineração dos dados, e

também, realiza a extração de características linguísticas empregadas nos textos, criando

uma matriz de termos relevantes para a inferência.

Os indutores (algoritmos de AM) exigem como entrada um vetor de

características, o qual contém n atributos (características) e um atributo-classe (classe).

Os valores para a classe deste vetor serão baseados no resultado do inventário aplicado

aos participantes. Por sua vez, os atributos serão baseados nas características textuais

extraídas por meio do léxico psicolinguístico LIWC [Pennebaker et al., 2007],

disponibilizado para idioma português pelo estudo de [Balage Filho et al.. 2013]. A

versão portuguesa do léxico possui mais de 127 mil palavras catalogadas em 64

categorias, dentre elas: palavras relacionadas à família, palavrões, verbos e outras.

Baseado no modelo de aplicação do léxico LIWC, feita por Mairesse (2007) para

a língua inglesa, o vetor de característica contém o percentual correspondente ao número

de palavras categorizadas no léxico e presente nas publicações dos usuários nas redes

sociais, conforme demonstrado na equação (1).

d

dt

dttt

tfLIWC

100,

),(

(1)

Na equação, dttf , corresponde a ocorrência do termo t em um documento d. O

valor dtt é o total de palavras empregadas no documento d.

Ao conjunto padrão de 64 categorias, disponibilizado para o português

brasileiro, foram acrescentadas cinco novas categorias, inspiradas no léxico LIWC de

língua inglesa [Pennebaker et al., 2007]. Essas categorias são independentes de idiomas,

em razão de ser apenas contagem de características textuais, sendo tais categorias

formadas pelo total da quantidade de: palavras, termos encontrados no léxico, palavras

com mais de seis letras, palavras por frase e frases contidas no texto. Na Figura 2 são

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 486

ilustradas as etapas do processo de pré-processamento da base textual, bem como a

estrutura das cinco bases de treinamento.

Figura 2. Estrutura da base de treinamento

As bases de treinamento são criadas a partir das características linguísticas

extraídas dos textos com o auxílio do léxico LIWC. Essa estrutura de modelo permite

comprovar a hipótese inicial desta pesquisa que questiona se o reconhecimento da

personalidade pode ser mensurado por meio de trechos escritos por seus autores.

Observe-se que para construir um modelo de classificação com o intuito de

categorizar os traços de personalidade de um indivíduo utilizando o BigFive, esbarra-se

em um problema de classificação multi-rótulo, visto que no modelo BigFive uma pessoa

sempre terá os cinco traços quantificados. Dessa forma, optou-se por decompor o

problema multi-rótulo em cinco modelos pertencentes a cada traço do modelo BigFive.

Todavia, a base de dados do usuário e o vetor de característica linguística são utilizados

para todos os modelos de treinamento, alterando apenas o atributo-meta conforme cada

traço de personalidade.

Na próxima subseção serão apresentados os algoritmos de mineração de dados

utilizados para criar o modelo de inferência de personalidade e validação do método.

3.4. Mineração dos Dados

Para a tarefa de construir um modelo de predição capaz de reconhecer os traços de

personalidade de um indivíduo por meio de texto, um conjunto de algoritmos candidatos

para essa tarefa foi analisado e testado. A base de treinamento é composta pelas

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 487

instâncias e atributos previamente rotulados (aprendizagem supervisionada), por meio

do vetor de característica apresentado na subseção anterior. Essa base de treinamento

tem por objetivo construir um indutor que possa determinar corretamente o atributo

meta de exemplos ainda não rotulados (base teste). Para a validação de cada algoritmo,

foi escolhida a técnica de k-fold cross-validation (validação cruzada), em que o valor de

k é igual a 10.

Os valores possíveis para o atributo meta serão representados pelo nível (0 a

100) correspondente ao traço de personalidade do indivíduo, caracterizando, assim, um

problema de regressão. Para a execução do método foram adotados diferentes modelos

de indutores de regressão, a saber: Linear Regression [Witten e Frank, 2005], SMOreg

[Shevade et al., 2000], M5P [Wang e Witten, 1997] e LWL [Atkeson et al. 1997].

Para a estimativa e precisão dos algoritmos na etapa de mineração dos dados,

foram utilizados métodos de avaliação de correlação de Pearson e teste estatístico não-

paramétrico de Friedman. Em caso de rejeição da hipótese nula do teste, pode-se

prosseguir com um teste post-hoc de Nemenyi [Corder e Foreman, 2011] para detectar

quais são as diferenças entre os classificadores. Esse teste permite ranquear os

algoritmos utilizados nos experimentos e obter a resposta sobre quais possuem o melhor

comportamento.

Na sequência são apresentados os resultados do método proposto.

4. Experimentos e Resultados

Essa seção descreve os experimentos realizados para a validação e avaliação de

desempenho do método proposto. Para a tarefa foi utilizada a ferramenta WEKA

[Witten e Frank, 2005] que conta com todos os algoritmos adotados para este estudo.

Com o propósito de comparar o desempenho do método, foram utilizados como

referência (baseline) os melhores resultados de correlação (r) por meio da abordagem

TF-IDF (Term Frequency – Inverse Document Frequency) [Salton e Buckley, 1988],

para cada traço de personalidade, tendo em vista que o método TF-IDF é amplamente

aplicado no reconhecimento de personalidade por meio de texto em outros idiomas.

Com a utilização da abordagem TF-IDF, obteve-se uma lista de termos

relevantes que são capazes de se correlacionar com os traços de personalidade de seus

autores. Desse modo, com o propósito de determinar o melhor conjunto que se

correlaciona com o traço de personalidade (atributo-meta), optou-se por extrair vários

conjuntos, por meio da ferramenta WEKA, variando o número de termos para cada

conjunto (68, 150, 200, 250, 300, 500, 750, 1000, 1500, 2000 e 3000 termos). A Tabela

2 apresenta os conjuntos de termos que atingiram maiores correlações com os traços de

personalidade.

Os experimentos com o LIWC são apresentados na Tabela 3. Observa-se que

com esse léxico os traços Neuroticismo, Realização e Abertura, obtiveram coeficientes

de correlação superiores aos da baseline, conforme destaque. Para os demais traços,

obtiveram-se resultados próximos aos da baseline. Entretanto, a correlação se apresenta

no intervalo interpretado como fraco, com resultados entre 0,11 a 0,30.

Ressalte-se que os valores de correlação obtidos demonstram resultados

superiores aos estudos de inferência de personalidade em língua portuguesa já

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 488

publicados, como o de [Nunes et al., 2013] que obteve o valor de 0,12 como maior

correlação. A correlação fraca, presente nos experimentos e nos trabalhos de RPT para a

língua portuguesa, indica que obter um modelo de inferência de personalidade não é

trivial, especialmente em ambientes virtuais, em que o vocábulo utilizado é informal.

Tabela 2. Melhores correlações de Pearson com a abordagem TF-IDF para com

todos os traços de personalidade.

Traço Algoritmo Correlação de

Pearson (r)

Quantidade de

termos TF-IDF

Extroversão Linear Regression 0,264 1500

Neuroticismo LWL 0,162 68

Realização IBK (k=1) 0,112 500

Socialização LWL 0,123 300

Abertura IBK (k=1) 0,185 250

Tabela 3. Resultados de correlação de Pearson utilizando léxico LIWC para

todos os traços de personalidade (* correlação significante ao nível de 0,05).

Traço Baseline M5P Linear

Regression

SMOReg SMOReg

(kernel=Puk)

LWL

Extroversão 0,264 0,17* 0,1331* 0.1297* 0.2085* 0.058

Neuroticismo 0,162 0,1918* 0,1503* 0.1375* 0.0735 0.1738*

Realização 0,112 0,1131 0,087 0.0503 0.1514* 0.1376*

Socialização 0,123 -0,0087 -0,0456 -0.0248 0.0405 -0.113

Abertura 0,185 0,1618* 0,1092 0.1693* 0.2008* 0.2031*

Ainda, o conjunto de treinamento, composto pelas categorias do LIWC, foi

submetido ao seletor de atributos Wrapper [Kohavi e John, 1997] e ao método de

pesquisa Greedy Stepwise [Witten e Frank, 2005]. Para cada algoritmo obteve-se um

subconjunto de atributos que possui maior correlação com o atributo-meta. Esses

subconjuntos foram utilizados para criar novas bases de treinamentos, contendo apenas

as categorias do LIWC que possuem maior ligação com os traços de personalidade.

A Tabela 4 apresenta os resultados do conjunto de treinamento LIWC

submetidos ao seletor de atributos, utilizando k-fold cross-validation, em que o valor de

k é igual a 10. Ainda, a tabela destaca o melhor resultado para cada traço.

Note-se que com a utilização desse método, os resultados superaram a baseline

para a todos os traços e o coeficiente de correlação aumentou, chegando a uma escala

moderada, com valores entre 0,27 a 0,39.

Para determinar a existência de diferença estatística significativa entre os

algoritmos do experimento, utilizou-se o teste de Friedman (todos contra todos) e post-

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 489

hoc de Nemenyi. O teste de Friedman não apontou diferença significativa entre os

algoritmos com 95% de confiança. Dessa maneira, nenhum algoritmo utilizado no

experimento com o léxico LIWC obteve relevância de desempenho em relação a outro.

Tabela 4. Resultados de correlação de Pearson utilizando LIWC com seletor de

atributos para todos os traços (* correlação significante ao nível de 0,05).

Traço Baseline M5P Linear

Regression

SMOReg SMOReg

(kernel=Puk)

LWL

Extroversão 0,264 0.0775 0.2539* 0.2595* 0.2709* 0.1656*

Neuroticismo 0,162 0.2692* 0.2553* 0.2951* 0.3937* 0.1983*

Realização 0,112 0.2858* 0.2498* 0.2438* 0.3075* 0.2038*

Socialização 0,123 0.1007 0.0629 0.1628* -- 0.2046*

Abertura 0,185 0.284* 0.3261* 0.3743* 0.3479* 0.3451*

Destaca-se que utilizando o léxico LIWC, com a seleção de atributos, os

resultados foram superiores à abordagem do vetor de característica TF-IDF, obtendo

correlações na escala moderada.

5. Conclusão e Trabalhos Futuros

O estudo descrito propõe um método semiautomático para detecção de personalidade a

partir de textos para o português do Brasil, diminuindo a lacuna encontrada no estado da

arte para tal idioma. O objetivo foi quantificar os cinco grandes fatores que descrevem a

personalidade de um indivíduo (BigFive).

Para a realização dessa proposta, aplicou-se aos usuários do experimento o

inventário NEO-IPIP 120, que permite quantificar os cinco grandes fatores que

descrevem a personalidade de um indivíduo. Dos mesmos usuários, foram coletadas

postagens na rede social Facebook. Essas informações foram processadas por meio de

algoritmos de mineração de textos para a geração de métodos de inferência de

personalidade. O método usa exclusivamente uma abordagem de AM supervisionada

para classificar os textos.

Com a utilização do léxico LIWC, para a língua portuguesa, o modelo obteve

valores de saída correlacionados à personalidade humana em uma escala moderada, com

valores de correlação superiores a 0,30 para a maioria dos traços.

Pode-se recomendar, como trabalhos futuros, a adaptação do método

desenvolvido para outras redes sociais, como o Twitter, podendo tais resultados ser

comparados com os obtidos da base textual do Facebook. Essa comparação poderá

identificar se os textos curtos do Twitter influenciam na tarefa de inferência de

personalidade. Além disso, uma associação com o léxico LIWC e a abordagem TF-IDF

pode ser realizada, com o objetivo de aumentar a cobertura dos termos e obter o peso de

frequência que corresponde à importância das palavras para o documento. Por fim, abre-

se um horizonte de pesquisa quanto à utilização de técnicas de classificação multi-rótulo

e compreensão da relação entre a personalidade e as características linguísticas.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 490

Referências

Allport, F. H., Allport, G. W. (1921) “Personality Traits: Their Classification And

Measurement”, In Journal Of Abnormal And Social Psychology, v.16, p. 6–40.

Atkeson, C. G.; Moore, A. W.; Schaal, S. (1997) “Locally weighted learning for

control”, In Artificial Intelligence Review, v. 11, p. 75-113.

Balage Filho, P. P., Pardo, T. A., Aluisio, S. M. (2013) “An Evaluation of the Brazilian

Portuguese LIWC Dictionary for Sentiment Analysis”, In 9th Brazilian Symposium

in Information and Human Language Technology, Fortaleza, Ceará, p. 215-219.

Bock, A. M. B., Furtado, O., Teixeira T. M. (1999) “Psicologias: Uma introdução ao

estudo da psicologia”, 13ª. ed., São Paulo, Saraiva.

Corder, G.; Foreman, D. (2011) “Nonparametric Statistics for Non-Statisticians: A Step-

by-Step Approach”, Hoboken, NY, John Wiley & Sons.

Damásio, A. R. (1996) “O erro de Descartes: emoção razão e o cérebro humano”, São

Paulo, SP: Companhia das Letras.

Dimuro, G. P., Costa, A. C. R., Gonçalves, L. V., Hübner, A. (2007) “Centralized

Regulation of Social Exchanges between Personality-based Agents”, In

Coordination, Organizations, Institutions, and Norms in Agent Systems II, Berlin,

Heidelberg, Germany, Springer Verlag, p. 338-355.

Erikson, E. H. (1968) “Identidade, juventude e crise”, Rio de Janeiro, Zahar.

Freud, S. (1901 – 1905) “Um caso de histeria, três ensaios sobre a sexualidade e outros

trabalhos”, Edição Standard das Obras Psicológicas Completas de Sigmund Freud,

volume VII, Rio de Janeiro, Imago Editora, Tradução de 1969, p. 235-240.

Hu, R., Pu, P. (2011). “Enhancing Collaborative Filtering Systems with Personality

Information”, In Proceedings of the Fifth ACM Conference on Recommender

Systems, New York, NY, ACM, p. 197-204).

Johnson, J. A. (2014) “Measuring Thirty Facets of the Five Factor Model with a 120-

item Public Domain Inventory: Development of the IPIP-NEO-120”, In Journal of

Research in Personality, c. 51, p. 78-89.

Jung, C. G. (2002) “Os arquétipos e o inconsciente coletivo”, 2ª. ed, Petrópolis, Editora

Vozes.

Kohavi, R.; John, G. (1997) “Wrappers for Feature Subset Selection”, In Artificial

Intelligence, Amsterdam, v. 97, n. 1-2, p. 273-324.

Lima, A. C. E. S., Castro, L. N. (2013) “Multi-label Semi-supervised Classification

Applied to Personality Prediction in Tweets”, In Computational Intelligence and 11th

Brazilian Congress on Computational Intelligence (BRICS-CCI & CBIC), 2013

BRICS Congress on. IEEE, p.195-203.

Mairesse, F., Walker, M. A., Mehl, M. R., Moore, R. K. (2007) “Using Linguistic Cues

for the Automatic Recognition of Personality in Conversation and Text”, In Journal

of Artificial Intelligence Research, v. 30, p. 457-500.

Maslow, A. (1954) “Motivation and Personality”, NewYork, Harper.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 491

McCrae, R. R., John, O. P. (1992) “An Introduction to the Five‐factor Model and its

Applications”, Journal of Personality, v. 60, n. 2, p. 175-215.

McDougall, W. (1932) “Of the Words Character and Personality”, In Character

Personality, v. 1, n. 1, p. 3-16.

Nasio, J. D. (1992) “Cinco lições sobre a teoria de Jacques Lacan”, Rio de Janeiro,

Zahar.

Nunes, M. A. S. N. (2012) “Computação Afetiva personalizando interfaces, interações e

recomendações de produtos, serviços e pessoas em ambientes computacionais”,

Projetos e Pesquisas em Ciência da Computação no DCOMP/PROCC/UFS, v. 1, p.

115-151.

Nunes, M. A. S. N., Teles, F. R., De Souza, J. G. (2013) “Inferindo personalidade via

tweets”, In GEINTEC-Gestão, Inovação e Tecnologias, v. 3, n. 3, p. 045-057.

Nunes, M. A. S. N., Cerri, S. A., Blanc, N. (2008) “Towards User Psychological

Profile”, In Proceedings of the VIII Brazilian Symposium on Human Factors in

Computing Systems, Sociedade Brasileira de Computação, p. 196-203.

Ocampo M. L. S., Arzeno M. E. G., Piccolo E. G. (1999) “O processo psicodiagnóstico

e as técnicas projetivas”, 9ª. ed, São Paulo, Martin Fontes.

Pasquali, L. (2001) “Técnicas de exame psicológico – TEP”, São Paulo, Casa do

Psicólogo.

Pennebaker, J. W.; Chung, C. K.; Ireland, M.; Gonzales, A.; Booth, R. J. (2007) “The

Development and Psychometric Properties of LIWC2007”, [software manual],

Austin, TX, LIWC. Net.

Quercia, D., Lambiotte, R., Stillwell, D., Kosinski, M., Crowcroft, J. (2012) “The

Personality of Popular Facebook Users”, In Proceedings of the ACM 2012

Conference on Computer Supported Cooperative Work, p. 955-964.

Salton, G., Buckley, C. (1988) “Term-weighting Approaches in Automatic Text

Retrieval”, Information Processing & Management, v. 24, n. 5, p. 513–523.

Schultz, D. P., Schultz, S. E. (2003) “Theories of Personality”, 8th

ed., Belmont, CA,

Wadsworth.

Shevade, S. K., Keerthi, S. S., Bhattacharyya, C., Murthy, K. R. K. (2000)

“Improvements to the SMO Algorithm for SVM Regression”, IEEE Transactions on

Neural Networks, v. 11, n.5, p. 1188-1193.

Vinciarelli, A., Mohammadi G. (2014) “A Survey of Personality Computing”, IEEE

Transactions on Affective Computing, v.5, n.3, p. 273-291.

Wang, Y., Witten, I. H. (1997) “Induction of Model Trees for Predicting Continuous

Classes”, In Poster Papers of the 9th European Conference on Machine Learning.

Witten, I. H., Frank, E. (2005) “Data Mining: Practical Machine Learning Tools and

Techniques”, The Morgan Kaufmann Series in Data Management Systems, 2nd

ed.

San Francisco: Elsevier.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 492