15
Estudo de um algoritmo de comparação semântica de textos a partir da teoria do cognitivismo de Piaget para aplicação na Educação a Distância Douglas de Jesus Costa 1 , José Leonardo Oliveira Lima 2 1 Universidade Estadual de Goiás, [email protected] 2 Universidade Estadual de Goiás, [email protected] Resumo – O presente estudo teve como objetivo identificar um algoritmo de comparação semântica de textos e analisar teoricamente seus processos e técnicas sob a ótica da teoria da construção do conhecimento pela abordagem cognitivista proposta por Piaget. A motivação da pesquisa foi o estudo empírico de uma Tese de Doutorado com especialistas em EaD do Brasil e Europa, que manifestaram o desejo de alguma tecnologia de apoio ao docente online / tutor na verificação do nível de presença do conteúdo das bibliografias e textos fornecidos para estudo sobre um assunto nas produções textuais feitas pelos estudantes em cursos Superiores a Distância. A pesquisa foi exploratória, explicativa e metodológica e usou dos procedimentos de pesquisa bibliográfica. A abordagem foi qualitativa, sendo que a análise e síntese foram feitas correlacionando os indicadores e conceitos referentes à abordagem Cognitivista com os indicadores referentes à concepção do algoritmo escolhido, que foi proposto por Liu e Wang (2014). Conclui-se que o algoritmo estudado carece de elementos para melhor aderência à teoria do cognitivismo de Piaget, porém verificou-se a potencialidade de realização de comparações textuais de modo a contemplar a interação entre as vivências pessoais e o conteúdo abordado, dentre outros. Com isso, são sugeridas algumas adequações para uma maior aderência de um futuro algoritmo à teoria cognitivista de Piaget. Palavras-chave: Teoria do Cognitivismo de Piaget. Algoritmo de comparação semântica de textos. Avaliação na Educação a Distância. Necessidades de informação do docente. Abstract – This study aimed to identify an algorithm for semantic comparison of texts and to analyze theoretically its processes and techniques from the perspective of Piaget’s theory of knowledge construction in the cognitive approach. The motivation of the research was an empirical study of a PhD Thesis with Brazilian and European e-learning specialists who expressed the desire of some technology to support the teacher / tutor in the verification of the level of presence of content from bibliographies and texts provided for study on a subject in the text productions from students in High Education Courses. The research was exploratory, explanatory and methodological and used the procedures of bibliographic research. The approach was qualitative, and the analysis and synthesis were done by correlating the indicators and concepts related to the Cognitive approach with the indicators referring to the chosen algorithm, proposed by Liu and Wang (2014). It is concluded that the algorithm studied lacks elements for better adherence to the cognitive theory of Piaget, but it was verified the potentiality of textual comparisons in order to contemplate the interaction between the personal experiences and the content addressed, among others. Thus, some adaptations are suggested for a greater adherence of a future algorithm to the cognitive theory of Piaget. Keywords: Piaget's cognitive theory. Semantic text similarity algorithm. Assessment in e-

Estudo de um algoritmo de comparação semântica de textos a ... · Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos,

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Estudo de um algoritmo de comparação semântica de textos a ... · Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos,

Estudo de um algoritmo de comparação semântica de textos a partir da teoria do cognitivismo de Piaget para aplicação na Educação a

Distância

Douglas de Jesus Costa1, José Leonardo Oliveira Lima2

1Universidade Estadual de Goiás, [email protected]

2Universidade Estadual de Goiás, [email protected]

Resumo – O presente estudo teve como objetivo identificar um algoritmo de comparação semântica de textos e analisar teoricamente seus processos e técnicas sob a ótica da teoria da construção do conhecimento pela abordagem cognitivista proposta por Piaget. A motivação da pesquisa foi o estudo empírico de uma Tese de Doutorado com especialistas em EaD do Brasil e Europa, que manifestaram o desejo de alguma tecnologia de apoio ao docente online / tutor na verificação do nível de presença do conteúdo das bibliografias e textos fornecidos para estudo sobre um assunto nas produções textuais feitas pelos estudantes em cursos Superiores a Distância. A pesquisa foi exploratória, explicativa e metodológica e usou dos procedimentos de pesquisa bibliográfica. A abordagem foi qualitativa, sendo que a análise e síntese foram feitas correlacionando os indicadores e conceitos referentes à abordagem Cognitivista com os indicadores referentes à concepção do algoritmo escolhido, que foi proposto por Liu e Wang (2014). Conclui-se que o algoritmo estudado carece de elementos para melhor aderência à teoria do cognitivismo de Piaget, porém verificou-se a potencialidade de realização de comparações textuais de modo a contemplar a interação entre as vivências pessoais e o conteúdo abordado, dentre outros. Com isso, são sugeridas algumas adequações para uma maior aderência de um futuro algoritmo à teoria cognitivista de Piaget.

Palavras-chave: Teoria do Cognitivismo de Piaget. Algoritmo de comparação semântica de textos. Avaliação na Educação a Distância. Necessidades de informação do docente.

Abstract – This study aimed to identify an algorithm for semantic comparison of texts and to analyze theoretically its processes and techniques from the perspective of Piaget’s theory of knowledge construction in the cognitive approach. The motivation of the research was an empirical study of a PhD Thesis with Brazilian and European e-learning specialists who expressed the desire of some technology to support the teacher / tutor in the verification of the level of presence of content from bibliographies and texts provided for study on a subject in the text productions from students in High Education Courses. The research was exploratory, explanatory and methodological and used the procedures of bibliographic research. The approach was qualitative, and the analysis and synthesis were done by correlating the indicators and concepts related to the Cognitive approach with the indicators referring to the chosen algorithm, proposed by Liu and Wang (2014). It is concluded that the algorithm studied lacks elements for better adherence to the cognitive theory of Piaget, but it was verified the potentiality of textual comparisons in order to contemplate the interaction between the personal experiences and the content addressed, among others. Thus, some adaptations are suggested for a greater adherence of a future algorithm to the cognitive theory of Piaget.

Keywords: Piaget's cognitive theory. Semantic text similarity algorithm. Assessment in e-

Page 2: Estudo de um algoritmo de comparação semântica de textos a ... · Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos,

learning. Teachers’ information needs.

Introdução

A Educação a Distância (EaD) surgiu da necessidade de, além de superar as limitações físicas e de disponibilidade de tempo ou horários rígidos dos processos tradicionais e presenciais de educação, proporcionar que pessoas que, muitas vezes, não tiveram a oportunidade ou os recursos necessários para se dedicarem a um curso presencial, pudessem ter um outro meio de adquirir conhecimento em um processo de ensino mais flexível e que permitisse se adequar às especificidades de sua realidade.

Segundo Lima (2016), apesar da grande potencialidade da EaD em proporcionar um ensino mais inclusivo, verificam-se grandes desafios relacionados a essa concepção de ensino, dentre elas, a avaliação do estudante, em virtude do volume e da complexidade de informações para o docente realizar o complexo processo de avaliação, que extrapola a tradicional aplicação de exames para a composição de uma nota (avaliação somativa).

A avaliação do estudante na EaD tem especificidades importantes de serem compreendidas quando comparada ao ensino presencial. Na educação presencial, durante uma aula, o contato do docente com o discente em um mesmo lugar fornece informações que ajudam o docente a visualizar como o aluno reage ao conteúdo e, consequentemente, se esse está aprendendo, seja pela sua manifestação verbal de dúvidas ou mesmo pela comunicação não verbal, como gestos, expressões etc.

Na EaD, via Ambiente Virtual de Aprendizagem (AVA), muitas informações também são transmitidas pelos estudantes enquanto acessam o ambiente e realizam as atividades. Entretanto, em face da dificuldade de observação dessas informações, da barreira tecnológica, da distância física ou temporal e do grande número de tarefas executadas normalmente pelo docente online1, além do crescente número de alunos por turma, torna-se um desafio avaliar mais qualitativamente a produção de um estudante. Faz-se, portanto, necessário o desenvolvimento de ferramentas capazes de captar algumas dessas informações e disponibilizá-las ao docente online de uma forma simples, clara e sintetizada que o auxilie no processo de avaliação (LIMA, 2016).

Além do aspecto previamente apresentado, outra motivação para o presente estudo foi uma das necessidades identificadas por Lima (2016), em que especialistas de EaD do Brasil e Europa relatam a necessidade de uma ferramenta que apresente um indicador do grau de presença dos textos fornecidos pelos docentes aos alunos para estudo dos conteúdos nos textos produzidos por eles.

A partir dessa necessidade, o presente estudo buscou identificar um algoritmo de comparação semântica de textos e analisar teoricamente seus processos e técnicas pela ótica da teoria cognitivista de Piaget, para fornecer um indicativo ao docente online do grau de presença dos materiais fornecidos aos estudantes, para estudo sobre algum tópico, nos

1 O termo docente online nesse estudo equivale aos termos: tutor, professor, professor-tutor, tutor virtual, orientador, entre outros termos referentes ao indivíduo que atua na mediação e acompanhamento da aprendizagem em cursos superiores a distância ou híbridos.

Page 3: Estudo de um algoritmo de comparação semântica de textos a ... · Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos,

textos produzidos por eles. Além disso, a partir da correlação com o estudo do cognitivismo, buscou-se identificar e sugerir quais adaptações poderiam ser implementadas em um futuro algoritmo para uma maior aderência à teoria cognitivista.

Além do interesse dos pesquisadores, optou-se pela teoria cognitivista de Piaget, em virtude da sua amplitude e complexidade no que se refere aos processos cognitivos internos e a importância dessa teoria na educação, e também em virtude do limitado número de estudos envolvendo artefatos computacionais para EaD abordando a referida teoria.

O algoritmo escolhido, para comparação semântica entre textos, foi o proposto por Liu e Wang (2014), que, ressalta-se, não foi desenvolvido com o enfoque em educação ou tendo como base alguma teoria de aprendizagem específica (pelo menos não foi explicitado pelos autores).

Os critérios utilizados para a escolha do algoritmo foram relacionados à qualidade da descrição, densidade do referencial teórico, técnica utilizada e, por fim, teve-se um critério qualitativo em que se analisou a técnica utilizada, objetivando identificar se o estudo apresentava, em um olhar inicial, uma técnica que seria adequada para aplicação no contexto educacional.

O presente estudo envolve o diálogo entre diferentes áreas de estudos, como a educação, psicologia e computação, além das necessidades informacionais dos docentes para que soluções mais adequadas possam ser propostas, que tenham como foco a superação de dificuldades e desafios da avaliação na EaD, implicando em melhorias ao processo de ensino-aprendizagem e, consequentemente, contribuindo para o aprimoramento da EaD. Com isso, o estudo traz contribuições no âmbito da pesquisa interdisciplinar, além de trazer uma fundamentação teórica e elementos práticos que podem contribuir para implementações de futuras ferramentas de auxílio ao docente na verificação da utilização, pelos alunos, dos materiais propostos para estudo em um curso.

Na organização do presente artigo, tem-se, primeiramente, o referencial teórico, onde são apresentados: alguns aspectos da EaD e as necessidades de informação do docente na avaliação do estudante; a teoria de aprendizagem pela abordagem cognitivista de Jean Piaget; uma breve introdução aos algoritmos de Comparação de Textos e o algoritmo de Liu e Wang. Na sequência, discorre-se sobre a metodologia e limitações do estudo, os resultados obtidos a partir da análise dos indicadores extraídos da teoria cognitivista e do algoritmo e, por fim, a discussão e conclusão.

Referencial Teórico

Educação a Distância e as necessidades do docente na avaliação do estudante

A Educação a Distância envolve um conceito de relativa complexidade devido, principalmente, ao seu contexto histórico, em que sua implementação foi feita ao longo dos tempos com o uso de diversas tecnologias, como, por exemplo, material impresso, ensino por correspondência, rádio, TV, computadores etc. (MOORE; KEARSLEY, 2008; PRETI, 2009).

Moran (2002), define a EaD como “[...] o processo de ensino-aprendizagem, mediado

Page 4: Estudo de um algoritmo de comparação semântica de textos a ... · Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos,

por tecnologias, onde professores e alunos estão separados espacial e/ou temporalmente.”, o que nos remete a uma concepção mais abrangente da EaD, em que professor e aluno secomunicam através ou por intermediação de algum instrumento, sendo esse instrumento, naatualidade, os computadores conectados à internet.

Moore e Kearsley (2008) definem a EaD como “aprendizado planejado que ocorre normalmente em um lugar diferente do local do ensino”. Nessa definição, nota-se um olhar ainda mais amplo sobre a EaD, tendo como aspecto central a separação espacial das pessoas.

A partir das definições desses autores, pode-se sintetizar como algumas características principais da EaD: separação espacial, em que os alunos e docentes não precisam estar no mesmo lugar para a realização da atividade de ensino-aprendizagem; a comunicação, que não precisa necessariamente ocorrer ao mesmo tempo e, por fim, o emprego de tecnologias para a realização da comunicação.

Moran (2001), comenta a grande pluralidade com que a tecnologia vem sendo aplicada na educação, em menor e maior grau, dependendo das especificidades contextuais. Isso implica, segundo o autor, que a EaD caminha, inclusive, para convergência com a modalidade presencial, sendo mais utilizada em certos cursos e menos utilizada em outros, diminuindo a distinção entre Educação a Distância e educação presencial.

A EaD, ao longo dos anos, passou por implementações com diferentes tecnologias. Na atualidade, a EaD experimenta muitas mudança com o surgimento e evolução das tecnologias de comunicação (SANGRÀ; VLACHOPOULOS; CABRERA, 2012), caminhando, como previamente mencionado, para outras modalidades oriundas da integração entre o ensino presencial e o ensino a distância, que remete às abordagens híbridas.

A EaD possui um grande potencial para contribuir para a democratização do ensino e, consequentemente, do acesso ao conhecimento pela população. Entretanto, existem algumas problemáticas ou desafios relacionados à EaD e seus recursos tecnológicos, dentre eles o processo avaliativo.

A avaliação do estudante é um processo complexo que envolve não somente os elementos quantitativos a serem verificados por um exame para a composição de uma nota (LUCKESI, 2011), o que é denominado de avaliação somativa. A avaliação envolve o caráter processual do processo ensino-aprendizagem, serve de constante feedback e é norteadora para significar e ressignificar a atividade educativa, rever estratégias referentes ao processo ensino-aprendizagem, redefinir rotas, envolvendo a avaliação formativa e diagnóstica, que trazem elementos qualitativos, para além dos quantitativos (LIMA, 2016), elementos de auto e heteroavaliação e da avaliação informal (VILAS-BOAS, 2008), dentre outros.

A partir dessa necessidade de informações do docente nos processos de avaliação do estudante, Lima (2016), em sua tese, levanta, com especialistas da EaD do Brasil e da Europa, um conjunto de necessidades de informações dos docentes online para a realização do processo avaliativo dos estudantes. Dentre as necessidades levantadas, alguns especialistas comentam da dificuldade de avaliação do nível de presença dos materiais fornecidos pelo docente para estudo de um conteúdo nos textos elaborados pelos alunos. Dessa forma, o estudo evidenciou a importância de um indicador que poderia ser tomado como referência

Page 5: Estudo de um algoritmo de comparação semântica de textos a ... · Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos,

pelo docente para avaliar, dentre outros aspectos, como o aluno está se comportando em relação ao material de estudo disponibilizado (LIMA, 2016).

Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos, implementadas no contexto da computação, de modo a identificar um algoritmo e analisar a possibilidade da sua utilização no contexto da EaD, a partir da perspectiva da teoria cognitivista de Piaget.

Teoria de aprendizagem pela abordagem cognitivista de Jean Piaget

No que se refere às teorias de aprendizagem, existe uma pluralidade de abordagens.

Segundo Moreira (2014), teorias de aprendizagem são “construções humanas e representam nossos melhores esforços, numa determinada época, para interpretar, de maneira sistemática, a área de conhecimento que chamamos de aprendizagem”. Com base nessa definição, entende-se que as teorias de aprendizagem são os estudos humanos que buscam compreender, da melhor maneira possível, a partir dos recursos limitados em uma determinada época, como ocorre a aprendizagem.

Devido a essa perspectiva histórica, ao longo do tempo, diversas teorias de aprendizagem foram propostas, em que se pode citar, dentre várias: a teoria behaviorista (comportamentalista), humanista, cognitiva e sociocultural (CAVALCANTI; OSTERMANN, 2011).

Segundo Moreira (2014), o cognitivismo busca investigar os processos mentais. Portanto, ocupa-se de estudar as complexidades internas que levam a compreensão da realidade e representação dessa pelo ser humano.

O cognitivismo envolve uma nomenclatura que tem um caráter abrangente e que permeia também outras abordagens, como, por exemplo, o construtivismo (MOREIRA, 2014).

A teoria cognitivista de Piaget, segundo Moreira (2014), pode ser considerada como uma teoria de desenvolvimento cognitivo, sendo também considerada como uma teoria construtivista de acordo com Ferreira (2003) e Crossland (2016).

Piaget pode ser considerado um dos principais pesquisadores da corrente cognitivista/construtivista de pensamento. Ele trilhou seus estudos com base na explicação do desenvolvimento mental, tendo inicialmente uma ênfase sob o ponto de vista da biologia. Entretanto, sua teoria passou também a ser de grande importância e utilizada nas pesquisas na área de educação, uma vez que a compreensão do processo de aprendizagem está fortemente relacionada ao desenvolvimento mental e aos processos biológicos, porém não se reduzindo a eles (MOREIRA, 2014).

Piaget (1972) traz a concepção de que o ser humano vive em um constante processo de aprendizagem e desenvolvimento. O desenvolvimento está relacionado aos processos biológicos espontâneos ligados a embriogênese, que diz respeito ao desenvolvimento do corpo, sistema nervoso e funções mentais.

Já a aprendizagem, diferentemente do conhecimento, não se trata de um processo

Page 6: Estudo de um algoritmo de comparação semântica de textos a ... · Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos,

espontâneo como o desenvolvimento, sendo provocada por situações. Essas situações são geralmente provocadas por um experimentador psicológico como, por exemplo, um professor ou uma situação externa (PIAGET, 1964; PIAGET, 1972).

Para Piaget, a interiorização do conhecimento requer uma ação que vai além da observação; essa ação é relacionada com a interação com o objeto de estudo. Segundo Piaget, o conhecimento não se trata de uma cópia da realidade, mas sim de estruturas que permitem a realização de um conjunto de ações sobre um objeto e a realidade. Essas estruturas se desenvolvem a partir de operações ou vivências, que compõem um conjunto de ações que o indivíduo realiza com o objeto de estudo que provocam o surgimento e/ou alteração das estruturas mentais (PIAGET, 1964; CROSSLAND, 2016).

Com base nessa concepção sobre o conhecimento e a forma com que ele passa a ser adquirido pelo indivíduo, pode-se inferir que, para Piaget, o conhecimento não é algo transmitido, mas sim algo que é construído e reconstruído. Essa reconstrução também será influenciada pelo estágio de desenvolvimento do indivíduo, que, como já foi dito, acontece involuntariamente (SANTOS, 1998; PIAGET, 1964).

A partir do estudo do cognitivismo, chegou-se aos indicadores que são propostos e explicados de forma mais detalhada no tópico “Resultados” do presente artigo, quando serão correlacionados com os indicadores do algoritmo de comparação semântica, correlação essa que compõe o elemento focal do presente estudo.

Algoritmos de Comparação de Textos e o algoritmo de Liu e Wang

Segundo Rozeva e Zerkova (2017), a temática de mensuração da similaridade semântica vem sendo amplamente pesquisada na atualidade com diferentes áreas de aplicação, como a classificação textual, recuperação de informações, agrupamento de documentos, detecção de tópicos, entre outras. Os autores também ressaltam o potencial dessa área com relação à educação online, especialmente no que se refere ao processo de avaliação.

Existe uma pluralidade de técnicas de comparação de textos. Observa-se a complexidade dessa temática principalmente devido às várias definições de similaridade entre textos que variam de acordo com diferentes áreas de estudo e envolve elementos referentes à linguística, particularidades do idioma, particularidades do conceito ou da mensagem a ser transmitida, entre outras (ALI, 2011).

Ali (2011) define três categorias principais de algoritmos de comparação textual, sendo elas: abordagens baseadas no espaço vetorial, abordagens baseadas na distância entre termos e abordagens baseadas em ontologias. O autor também ressalta a existência de outras abordagens que podem não ser agregadas por essas categorias, entretanto, verifica-se que as principais abordagens são abrangidas por essas categorias.

Gan, Dou e Jiang (2013) estabelecem cinco classificações para esses algoritmos, sendo eles: métodos baseados na distância semântica entre termos, métodos baseados no conteúdo de informação dos termos, métodos baseados em características dos termos, métodos baseados na estrutura hierárquica de uma ontologia e métodos híbridos.

Gomaa e Fahmy (2013) também definem classificações, entretanto, de maneira geral,

Page 7: Estudo de um algoritmo de comparação semântica de textos a ... · Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos,

dividem os métodos de comparação em duas categorias principais: comparação semântica e a comparação léxica. Segundo os autores, a similaridade entre palavras ou textos pode ser mensurada de forma léxica – considerando apenas as letras e palavras em comum – e de forma semântica, em que se busca analisar o significado da palavra no contexto do texto.

Com base nos estudos de Rozeva e Zerkova (2017), Gomaa e Fahmy (2013) e Ali (2011), percebe-se a pluralidade de ferramentas propostas na computação para a identificação da similaridade entre textos bem como uma grande diversidade de enfoques e elementos identificados pelos diversos métodos propostos. O enfoque desse estudo foi estabelecido na análise de uma técnica que combina a análise de ontologias com o cálculo do espaço vetorial proposta por Liu e Wang, que será descrita a seguir.

Para o entendimento da proposta de Liu e Wang torna-se necessário o entendimento do conceito de ontologia que, neste contexto, pode ser definido como um tipo de estrutura que busca descrever o conhecimento em uma área ou domínio, estabelecendo, assim, relação entre seus termos e conceitos e descrevendo suas propriedades. (LIU; WANG, 2014).

Dessa forma, uma ontologia modela um conjunto de termos e a relação entre eles, bem como suas propriedades em um determinado contexto ou domínio, que corresponde à área de estudo ou contexto com que aquele determinado termo assume determinado significado, relações e outras propriedades.

O algoritmo proposto por Liu e Wang utiliza, portanto, uma ontologia de domínio, ou seja, trata-se de uma ontologia que define um conjunto de conceitos de uma área, suas relações e propriedades. Essa ontologia é representada no algoritmo através da estrutura chamada Hierarchical Concept Tree (HTC) ou Árvore Hierárquica de Conceitos (tradução nossa). (LIU; WANG, 2014).

Essa árvore organiza os conceitos da ontologia em nós e em uma ordem hierárquica, em que se tem um nó de origem e nós filhos que partem desse nó de origem, sendo que os filhos desse nó raiz apresentam também outros filhos e assim por diante. Cada conjunto de nós filhos representam, portanto, um nível hierárquico na árvore, envolvendo o conceito da ortogonalidade, onde os nós filhos não podem apresentar convergência semântica entre ele. Além disso, a cobertura semântica dos filhos deve ter como limite a divisão da cobertura semântica do nó pai. (LIU; WANG, 2014). Na Figura 1 é exibido um exemplo de uma HTC.

Outro conceito importante para o entendimento do algoritmo é a filtragem feita nos termos do texto, em que se busca apenas considerar termos mais relevantes como substantivos e verbos. Termos relacionados à sintaxe e à fluência do texto são retirados.

Com os termos filtrados do texto e a ontologia que organiza os conceitos de forma hierárquica, é feita a comparação entre os termos do texto e os conceitos da ontologia. Quando um conceito apresenta uma conexão direta a um termo, esse ganha um peso maior. Além disso, os nós que são próximos ao nó/conceito com conexão direta – exceto nós irmãos devido ao princípio da ortogonalidade, que não possuem correspondência semântica – também ganham pesos, porém menores por possuírem relação com esse conceito.

Page 8: Estudo de um algoritmo de comparação semântica de textos a ... · Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos,

Figura 1 – Ilustração de uma árvore hierárquica de conceitos elaborada a partir de Liu e Wang (2014).

O mesmo processo é feito com o outro texto. Dessa forma, a ontologia serve como parâmetro de comparação, ou seja, a ontologia é comparada aos termos oriundos dos dois textos. Cada texto gera um conjunto diferente de pesos na ontologia a partir da conexão estabelecida entre os termos presentes e os conceitos na ontologia. Dessa forma, com a comparação, cada árvore com os pesos respectivos relacionados a cada texto é transformada em um vetor de dados.

São, portanto, obtidos dois vetores oriundos da transformação de cada ontologia e os pesos atribuídos a cada conceito em um vetor. Para verificar a similaridade entre os dois vetores gerados a partir das ontologias, é usada a fórmula de similaridade do cosseno, apresentada em (1).

𝐶𝑜𝑠 𝜃 =𝑣1 .𝑣2

‖𝑣1‖‖𝑣2‖ (1).

A fórmula do cosseno para similaridade (1) busca comparar dois vetores, v1 e v2, de modo a apresentar a similaridade entre eles. Trata-se, portanto, de uma fórmula amplamente usada em outras metodologias de mensuração de similaridade entre textos, como pode ser visto em Ali (2011), Rozeva e Zerkova (2017) e Gan, Dou e Jiang (2013). Nessa técnica, a similaridade é calculada em uma divisão que relaciona a multiplicação interna entre os dois vetores, dividida pela multiplicação do comprimento Euclidiano dos dois vetores (ALI, 2011).

O resultado do ângulo entre os dois vetores, portanto, determinará o resultado. Quando o ângulo entre os vetores for igual a 0, a fórmula de cosseno retornará 1, indicando que os textos são iguais. Quando houver algum valor angular entre os vetores, o valor será menor que 1. Se o ângulo formado entre os dois vetores for igual a -1, significa que os vetores são totalmente diferentes (ALI, 2011).

De forma, geral, compreende-se que quanto mais similares forem os pesos atribuídos a cada posição do vetor, mais perto de 1 será o valor e consequentemente, mais similares serão os dois vetores.

Page 9: Estudo de um algoritmo de comparação semântica de textos a ... · Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos,

Metodologia e Limitações do estudo

Com base na classificação proposta por Vergara (2014), a pesquisa foi classificada quanto aos fins e quanto aos meios.

A pesquisa, quanto aos fins, foi exploratória, metodológica e explicativa. Exploratória, por se tratar de uma problemática de pesquisa relativamente nova em que não foram encontrados estudos similares. Metodológica, pois se buscou, a partir do estudo da teoria cognitivista de Piaget e da concepção e técnicas do algoritmo de Liu e Wang (2014), avaliar a possibilidade de uso da técnica analisada no contexto da avaliação docente, conforme o foco da pesquisa, buscando também trazer sugestões teóricas para nortear o desenvolvimento futuro de algoritmos / ferramentas de comparação textual mais aderentes à teoria cognitivista de Piaget. A pesquisa também foi explicativa, pois buscou avaliar e esclarecer os elementos de adequação do algoritmo proposto por Liu e Wang (2014) a partir da análise sob a ótica da teoria cognitivista de Piaget.

Quanto aos meios, a pesquisa foi bibliográfica, pois se baseou em estudos e teorias publicados em livros, artigos e revistas, dentre outros, para a realização dos estudos referentes ao cognitivismo e aos algoritmos e recursos de comparação semântica de textos.

Foram consultadas as bases de dados LISA, Scopus, Web of Science e Google Scholar.

A partir da escolha do algoritmo, foi feito o estudo da concepção do algoritmo e da teoria cognitivista de Piaget para identificação dos indicadores para a análise.

As principais limitações do estudo envolvem a teoria cognitivista de Piaget e o algoritmo. Com relação à teoria cognitivista de Piaget, delimitou-se o estudo no processo de equilibração, em virtude do tempo limite para conclusão da pesquisa e da amplitude, complexidade e densidade teórica do cognitivismo. Com relação ao algoritmo, destaca-se a impossibilidade de realizar um estudo empírico do código fonte do algoritmo, pelo fato dele não ser disponibilizado, sendo que a análise feita teve como base a descrição pormenorizada realizada por Liu e Wang (LIU; WANG, 2014), no artigo científico, a respeito do funcionamento e das técnicas usadas no algoritmo.

Resultados

Para evidenciar o olhar e a compreensão tida da teoria para a realização da análise, foram elaboradas definições operacionais dos indicadores extraídos tanto da teoria Cognitivista de Piaget (com mais ênfase na equilibração) como das técnicas usadas no algoritmo para direcionar o processo de análise, conforme se apresenta na sequência.

Indicadores da Teoria Cognitivista de Piaget

Construção do conhecimento: na teoria cognitivista de Piaget, o conhecimento é adquirido ao longo da vida do indivíduo, relacionando a sua vivência e as diferentes interações com os estímulos externos que levaram a diferentes modificações das suas estruturas e moldaram sua formação. Trazendo essa concepção a uma análise de caráter mais prático de ensino, ao estudar determinado conteúdo, o resultado obtido é uma interação entre as estruturas internas do indivíduo e seu atual conjunto estrutural, sendo necessário um determinado

Page 10: Estudo de um algoritmo de comparação semântica de textos a ... · Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos,

desenvolvimento das estruturas para a compreensão de itens mais complexos (ARGENTO, 2008; WADSWORTH, 1996; FERREIRA, 2003; LAMPREIA, 1992; PIAGET, 1964).

Estruturas e equilibração majorante: O conceito de estrutura na teoria cognitivista de Piaget é um dos fundamentais e mais abstratos. Uma estrutura pode ser definida como a base para a inteligência e compreensão da realidade pelo ser humano, sendo que, por meio dessas estruturas, o ser humano compreende o ambiente externo e interage com ele; quanto mais desenvolvidas estão essas estruturas, melhor serão as chances de compreensão do meio externo e maior o conjunto de ações e interações a se realizar com esse ambiente. Existem diferentes tipos de estruturas como: estruturas de ação, conhecimento e conceptualização. Através da interação entre o ser humano e o meio externo, ocorre o processo de adaptação que engloba a acomodação e assimilação no qual, a partir desses, novas estruturas são criadas e estruturas existentes são adaptadas e também mantidas. O conjunto de todas as estruturas compreende ao conjunto de ações que o ser humano pode fazer sobre a realidade (ARGENTO, 2008; WADSWORTH, 1996; LAMPREIA, 1992; PIAGET, 1964).

Por meio da concepção da equilibração majorante, é necessário um desenvolvimento prévio das estruturas para a assimilação e acomodação de realidades mais complexas. O ser humano e suas estruturas têm diferentes estados de equilíbrio que, ao interagir com um objeto, favorecem surgir novos estímulos que levam a novos desequilíbrios, sendo esses estímulos referentes às novas complexidades percebidas através da interação. Com isso, percebe-se a existência de estados superiores e inferiores de equilíbrio de uma determinada estrutura, em que os estados superiores de equilíbrio estão relacionados diretamente a um maior tempo de interação com uma determinada realidade ou objeto. (ARGENTO, 2008; FERREIRA, 2003; LAMPREIA, 1992; PIAGET, 1964).

Processo de Adaptação, Equilibração e regulamentação: Os conceitos de equilibração, assimilação, acomodação e regulação estão muito interligados na teoria cognitivista de Piaget. Compreende-se que esses conceitos estão relacionados e incluídos no processo de adaptação. Como já foi descrito anteriormente, o ser humano compreende a realidade através de estruturas, que são organizadas internamente de modo a orientar as interações com o exterior. Considerando a existências das estruturas, o conceito de adaptação, bem como os de assimilação, acomodação, equilibração e regulamentação, estão relacionados ao desenvolvimento dessas estruturas (FERREIRA, 2003; LAMPREIA, 1992; CROSSLAND, 2016).

Para Piaget, a inteligência é um elemento que, assim como muitos sistemas biológicos, tem como um de seus principais destaques a adaptação. O conceito de adaptação envolve o equilíbrio entre a realidade interna humana (estruturas) e a externa. Quando existem provocações assimiladas que não podem ser compreendidas, o ser humano se encontra em um estado de desequilíbrio e é, nesse momento, que acontece o processo de equilibração, que busca alcançar novamente o estado de equilíbrio através da assimilação das informações e acomodações das estruturas, que vão modificar a realidade interna para novamente entrar em convergência com a realidade externa (FERREIRA, 2003; LAMPREIA, 1992; CROSSLAND, 2016).

Page 11: Estudo de um algoritmo de comparação semântica de textos a ... · Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos,

O processo de adaptação que envolve a equilibração, nem sempre é bem-sucedido; a razão disso pode estar relacionada à: falta de preparo das estruturas para compreensão de determinada realidade ou falta de informações ou perturbações que podem estar relacionadas às lacunas no conhecimento. Isto pode gerar as perturbações e compensações, que são espécies de regulações desse processo que prolongam ou causam mais dificuldade no processo de equilibração, visando que um equilíbrio realmente coerente com a realidade seja alcançado (ARGENTO, 2008; LAMPREIA, 1992; FERREIRA, 2003).

A partir das análises realizadas, percebe-se a grande influência do conteúdo para determinadas adaptações sugeridas e também que grande parte do que foi inferido a partir da teoria cognitivista de Piaget pode ser utilizado no algoritmo, não como uma mudança direta na metodologia utilizada para a comparação dos textos, mas como diferentes comparações que podem ser realizadas de modo a abordar algumas concepções do cognitivismo de Piaget. Dessa forma, podem ser fornecidas diferentes visões sobre o desenvolvimento do aluno e interação do aluno com o conhecimento apresentado como foi abordado nas considerações.

Não foi possível estabelecer, a partir da delimitação estabelecida (teoria cognitivista com ênfase na equilibração), sugestões a respeito de como é inferida a similaridade, mas como essa técnica utilizada no algoritmo pode ser utilizada de diferentes formas de modo a abordar conceitos da teoria cognitivista de Piaget e possibilitar informações importantes ao docente sobre o aprendizado do aluno.

Indicadores relacionados ao Algoritmo

Filtragem de Palavras: Como o objetivo do algoritmo é verificar a presença de um determinado assunto ou tema em um texto, para diminuir a carga de processamento e para simplificação é feita a extração de apenas termos que contextualizem determinado assunto, sendo retirados termos que estão relacionados à fluência do texto como conjunções, artigos, preposições (LIU; WANG, 2014).

Ontologia utilizada e mapeamento: A ontologia utilizada é a denominada Hierarchical Concept Tree (HTC) ou Árvore Hierárquica de Conceitos, que busca estabelecer uma relação hierárquica entre os conceitos, situando nós, que representam conceitos mais abstratos em lugares mais altos na hierarquia, e nós que representam conceitos mais específicos em lugares mais baixos ou perto das folhas. Busca-se, na árvore, abordar o conceito de ortogonalidade, com que os filhos de um determinado nó não têm sobreposição semântica, isto é, compreendem conceitos diferentes (LIU; WANG, 2014).

O mapeamento entre os conceitos da ontologia e os vocábulos do texto é feito considerando dois conceitos, os nós de conexão direta e os nós relevantes. Os nós de conexão direta são os que possuem ligação direta com algum termo do texto e, consequentemente, possuem maior peso. Os nós relevantes são os que possuem alguma relação de parentesco com o nó de ligação direta, sendo atribuídos a ele um determinado peso menor que os dos nós de conexão direta (LIU; WANG, 2014).

Fórmula de similaridade de cosseno: O que se pode compreender da fórmula de cosseno é que esse é um modelo amplamente utilizado para análise de termos, entretanto,

Page 12: Estudo de um algoritmo de comparação semântica de textos a ... · Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos,

essa proposta se diferencia por comparar vetores gerados a partir de ontologias, utilizando a fórmula para verificar a similaridade entre esses dois vetores. O que a fórmula fornece é um resultado que varia de 1 a -1; quanto mais próximo de 1, maior é a similaridade entre os vetores e quanto mais próximo de -1, mais os textos são diferentes. A fórmula calcula a divisão da multiplicação escalar entre os dois vetores pela multiplicação da norma de cada vetor – que informa o tamanho de cada vetor. De uma maneira geral, pode-se compreender que quanto mais próximos forem os pesos em cada nó conceitual, presente nos dois vetores, maior será a similaridade relatada pelo resultado. (LIU; WANG, 2014).

Discussões e Conclusão

O estudo, ligado ao objetivo da pesquisa, envolveu analisar e verificar se um algoritmo, que foi proposto no contexto da computação, poderia ser utilizado no contexto da educação e avaliação para proporcionar um indicador auxiliar ao complexo processo de avaliação realizado pelo docente relacionado à utilização e presença dos materiais fornecidos para estudo nas produções do aluno.

A partir da análise dos indicadores do algoritmo em relação à teoria do Cognitivismo, verificou-se que as concepções do algoritmo possuem características muito ligadas à prática e às ações mais concretas de similaridade entre dois textos, em contraste com as concepções complexas e abstratas da teoria de Piaget. A partir das análises realizadas, constatou-se que o algoritmo carece de aspectos teóricos da teoria de Piaget e não permite afirmar que oprocessamento do texto feito pelo algoritmo, para se chegar a um indicador de similaridade,compreende a complexidade do processamento cognitivo interno da teoria do cognitivismode Piaget.

A partir da análise do algoritmo, tendo como ponto de partida os indicadores selecionados da teoria cognitivista de Piaget, identificaram-se elementos que permitiram a proposição de sugestões que proporcionariam a um algoritmo uma maior aderência ao cognitivismo. As principais sugestões são relacionadas a como o algoritmo pode trazer uma maior pluralidade de visões sobre determinado conteúdo e como pode ser proporcionada ao docente uma visão da construção do conhecimento pelo aluno e melhor adequação de suas estruturas para a compreensão do conteúdo atual.

Com relação ao indicador das estruturas e equilibração majorante, propõe-se duas sugestões de comparações que podem ser realizadas pelo algoritmo para a maior adequação com relação a esse aspecto teórico:

A primeira sugestão é relacionada a uma perspectiva de visualização mais abrangenteda produção do aluno. Isto é, sugere-se que o algoritmo permita uma comparaçãoentre o texto elaborado pelo aluno e materiais estudados anteriormente,proporcionando ao docente um indicador relacionado à construção doconhecimento, verificando se o aluno faz referências a materiais trabalhadosanteriormente e, consequentemente, se suas estruturas atuais - que deveriam serpreparadas a partir desses materiais - realmente oferecem suporte para acompreensão do material de estudo atual.

Page 13: Estudo de um algoritmo de comparação semântica de textos a ... · Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos,

A partir da concepção teórica de Piaget relacionada aos diferentes níveis assumidospelas estruturas do indivíduo, sugere-se também uma perspectiva histórica dodesempenho do aluno em atividades que envolvem produções textuais referentes aconteúdos anteriormente abordados. Isto é, poderia ser fornecida, em casos em queo aluno apresenta um desempenho insatisfatório, uma visão da presença dos textostrabalhados anteriormente em atividades referentes a esses materiais fornecidospelo docente. Viabiliza-se, portanto, ressaltar algum conteúdo preparatório abordadoanteriormente que o aluno pode ter tido uma dificuldade pontual econsequentemente, não atingiu um equilíbrio adequado com relação a esseconteúdo, o que pode dificultar a compreensão do atual material em estudo.

Com relação ao indicador do processo de adaptação, equilibração e regulamentação:

Seria interessante que um algoritmo pudesse, a partir da comparação dos textos,verificar se o equilíbrio atingido corresponde a uma aprendizagem adequada, seexistem lacunas de conhecimento que impedem o aluno de atingir melhores estadosde equilíbrio. Contudo, entende-se que esse aspecto apresenta uma enormecomplexidade, encontrando-se em um domínio muito subjetivo e abstrato, que ossistemas computacionais não conseguem alcançar, estando no domínio de análise evalidação do docente, levando em consideração os aspectos sociais, culturais,ambientais etc.

Julga-se também que as sugestões já apresentadas no indicador das estruturas eequilibração majorante – visando proporcionar ao docente a visualização de como oaluno vem entendendo conteúdos anteriores e preparatórios ao conteúdo atual –podem auxiliar o docente na verificação se as estruturas do aluno estão preparadaspara a acomodação do conteúdo em estudo.

Outra sugestão, considerando o indicador da construção do conhecimento e asanálises discorridas nos parágrafos anteriores, seria um algoritmo que buscasse não apenas comparar o texto produzido pelo aluno com o material fornecido pelo docente, mas também com outros materiais, como, por exemplo, textos complementares sobre o tema presentes, por exemplo, na Internet. Essa sugestão se baseia na concepção de que o texto produzido pelo estudante é o produto resultante da interação entre as estruturas cognitivas e de conhecimento prévios do estudante – adquiridas ao longo da vida e nos processos de aprendizagem – com o novo conteúdo ou realidade estudada. Dessa forma, uma maior quantidade de textos comparados ao da produção do estudante pode trazer uma maior pluralidade de visões e do amadurecimento das estruturas do estudante, aumentando as chances de que um desses textos apresente uma visão mais próxima a do aluno, indicando, inclusive, a possibilidade de construção do conhecimento para além do que foi disponibilizado pelo docente.

Como sugestão de futuros estudos e pesquisa sobre a temática, poderiam ser abordados aspectos referentes à computação da similaridade envolvendo outras abordagens de comparação léxica ou semântica e também as diferentes técnicas algorítmicas. Desse modo, a partir da teoria de Piaget, ou outra teoria de aprendizagem, pode-se avaliar qual técnica apresenta uma computação de similaridade semântica com maior aderência a teoria

Page 14: Estudo de um algoritmo de comparação semântica de textos a ... · Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos,

analisada. Outra sugestão envolve pesquisar as diferentes correntes do cognitivismo. Nesse estudo, buscou-se abordar a corrente Europeia, que traz uma concepção mais abstrata e mais aprofundada em conceitos teóricos. Tais estudos podem envolver o modelo de processamento da informação, do campo da psicologia cognitivista, que, diferentemente da teoria de Piaget, traz uma concepção mais prática que se relaciona com a concepção da computação para o processamento da informação.

De forma geral, torna-se importante ressaltar que, apesar do presente estudo ter se limitado a análise de um algoritmo de similaridade semântica, foi possível obter, a partir das análises, um conjunto de indicadores e elementos que podem contribuir para nortear a proposição de algoritmos e ferramentas mais aderentes à teoria cognitivista de Piaget.

Por fim, estudos de abordagens algorítmicas de comparação de texto, tendo como base as teorias da educação a respeito da aprendizagem, precisam ser realizados para se chegar a um mapeamento das potencialidades da tecnologia, considerando as diversas abordagens pedagógicas, para construção de ferramentas de apoio ao docente no processo complexo de tomada de decisão nos processos de avaliação do desenvolvimento do conhecimento e cognitivo do estudante, em ambientes de aprendizagem mediados por tecnologia ou na EaD.

Referências

ALI, A. Textual Similarity. 2011. Technical University of Denmark, 2011. Disponível em:<http://www2.imm.dtu.dk/pubdb/views/edoc_download.php/6048/pdf/imm6048.pdf>. Acesso em: 5 out. 2017.

ARGENTO, H. Teoria Construtivista. 2008. Disponível em: <http://www.robertexto.com/archivo5/teoria_construtivista.htm/>. Acesso em: 19 set. 2017.

LIMA, José Leonardo Oliveira. Avaliação discente em cursos de graduação a distância medi-ados por ambientes virtuais de aprendizagem: Necessidade de informações dos docentes na visão de especialistas europeus e brasileiros. 2016. 298 p. Tese (Doutorado em Ciência da Informação). Faculdade de Ciência da Informação, Universidade de Brasília, Brasília.

CAVALCANTI, C. J. DE H.; OSTERMANN, F. Teorias de Aprendizagem. 1. ed. Porto Alegre: Evangraf, 2011.

CROSSLAND, John. Optimal learning in schools – theoretical evidence: Part 1 Piaget's theoretical background. School Science Review, v. 98 n. 363 p. 115-122, 2016.

GAN, M.; DOU, X.; JIANG, R. From ontology to semantic similarity: calculation of ontology-based semantic similarity. TheScientificWorldJournal, v. 2013, 2013.

GOMAA, W. H.; FAHMY, A. A. A Survey of Text Similarity Approaches. International Journal of Computer Applications, v. 68, n. 13, p. 13–18, 2013. Disponível em: <http://search.proquest.ez163.periodicos.capes.gov.br/docview/1357066216/89B8A510C8D64F7DPQ/1?accountid=146809>. Acesso em: 27 mar. 2017.

HENRIQUE DA COSTA FERREIRA. A teoria Piagetiana da Equilibração e as suas

Page 15: Estudo de um algoritmo de comparação semântica de textos a ... · Em face dessa necessidade, o presente estudo buscou estudar técnicas e ferramentas de comparação de textos,

consequências educacionais. Bragança: Instituto Politécnico de Bragança, 2003.

LAMPREIA, C. As Propostas Anti-mentalistas no Desenvolvimento Cognitivo: uma discussão de seus limites. 1992. Pontifícia Universidade Católica do Rio de Janeiro, 1992. Disponível em: <http://www2.dbd.puc-rio.br/pergamum/tesesabertas/8526601_92_cap_02.pdf>. Acesso em: 18 ago. 2017.

LIU, H.; WANG, P. Assessing Text Semantic Similarity Using Ontology. Journal of Software, v. 9, n. 2, p. 490–497, 2014. Disponível em: <http://www.jsoftware.us/vol9/jsw0902-32.pdf>. Acesso em: 2 ago. 2017.

LUCKESI, C. C. Avaliação da aprendizagem: componente do ato pedagógico. São Paulo: Cortez, 2011.

MOREIRA, MARCO ANTONIO. Teorias de Aprendizagem. 2. ed. São Paulo: E.P.U, 2014.

MOORE, M. G.; KEARSLEY, G. Uma Visão Integrada Educação a Distância. São Paulo: Cengage Learning, 2008.

MORAN, J. Novos desafios na educação: a Internet na educação presencial e virtual. Saberes e Linguagens de educação e comunicação. Pelotas: Editora da UFPel, 2001. p. 19–44.

MORAN, J. O que é educação a distância. Disponível em: <http://www2.eca.usp.br/moran/wp-content/uploads/2013/12/dist.pdf>. Acesso em: 23 maio 2017.

PIAGET, J. Cognitive Development in Children: Development and Learning. Journal of Research in Science teaching, v. 2, p. 176-186, 1964.

PIAGET, J. Development and Learning. Reading in child behavior and development. New York: Hartcourt Brace Janovich, 1972.

PRETI, O. Educação a Distância: Fundamentos e Políticas. Cuiabá: EdUFMT, 2009.

ROZEVA, Anna; ZERKOVA, Silvia. Assessing Semantic Similarity of Texts – Methods and Algorithms. In: AIP Conference Proceedings, v. 2003, n. 1, 2018.

SANGRÀ, A.; VLACHOPOULOS, D.; CABRERA, N. Building an inclusive definition of e-learning: An approach to the conceptual framework. International Review of Research in Open and Distance Learning, v. 13, n. 2, p. 145–159, 2012.

SANTOS, C. R. Avaliação no processo ensino-aprendizagem: abordagem histórico-cultural. 1998. Disponível em: <https://repositorio.ufsc.br/xmlui/handle/123456789/77493>. Acesso em: 2 jun. 2017.

VERGARA, S. C. Projetos e relatórios de pesquisa em administração. 15. ed. São Paulo: Atlas, 2014.

VILAS-BOAS, B. M. Portfólio, avaliação e trabalho pedagógico. 5. ed. Campinas: Papirus, 2008.

WADSWORTH, B. J. Intellectual Organization and Adaptation. 5. ed. New York: White Plains, 1996.