Classificador de legibilidade de textos em língua inglesa

Sange, Levi Matheus Martins

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/29984

Título:	Classificador de legibilidade de textos em língua inglesa
Título(s) alternativo(s):	English text readability classifier
Autor(es):	Sange, Levi Matheus Martins
Orientador(es):	Candido Junior, Arnaldo
Palavras-chave:	Língua inglesa - Estudo e ensino - Falantes estrangeiros Aprendizado do computador Inteligência artificial - Aplicações educacionais English language - Study and teaching - Foreign speakers Machine learning Artificial intelligence - Educational application
Data do documento:	17-Ago-2021
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Medianeira
Citação:	SANGE, Levi Matheus Martins. Classificador de legibilidade de textos em língua inglesa. 2021. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2021.
Resumo:	A língua inglesa alcançou o nível de língua global ou globalizada, ou seja, escolhida como intermediadora entre as comunicações mundialmente devido as suas características como vocabulário extenso, junção de outras línguas, facilidade de aprendizado, além de ter sido aceita com maior apreço. Devido a esse status e poder alcançado, a fluência nessa língua tem sido requisito em diversos setores e áreas. Consequentemente, gerou-se um aumento no numero de pessoas interessadas em obter proficiência e domínio. Algumas das maneiras de melhorar as habilidades são através do ler e escutar, leituras e textos permitem a descoberta de diversos aspectos da língua, entretanto, procurar uma leitura em que há proximidade com o nível e conhecimento da língua inglesa do leitor, sem ajuda, pode ser muito desmotivante. Porem, esta busca tem sido facilitada com o avanço da inteligência artificial e das técnicas de processamento de língua natural, que permitem, em conjunto com datasets de textos, gerar resultados como características dos conteúdos, permitindo categorizá-los conforme o nível de conhecimento, por exemplo, de um usuário na língua inglesa. Para o escopo deste trabalho foram utilizadas técnicas de Inteligência Artificial e Aprendizado de Máquina com algoritmos como o Naive Bayes, Maquina de vetor suporte e árvores de decisão, para gerar classificações e Processamento de Língua Natural sobre dois datasets disponíveis gratuitamente na internet, estas possuem milhares de definições de palavras. O objetivo principal do trabalho foi desenvolver um classificador de legibilidade de textos em língua inglesa, a partir da aplicação dos algoritmos de aprendizagem de máquina supracitados. Foram analisadas métricas e características textuais, extraídas de cada artigo do dataset Wikipedia e Simple Wikipedia. Foram alcançados através do treinamento dos algoritmos, com destaque para o algoritmo J48 de Arvore de decisão, uma acurácia de 94,17%, realçando como atributos textuais importantes, a frequência de palavras complexas, o índice de Gunning Fog, verbos auxiliares e to be. Algunsitens como datasets pré-processados e scripts foram gerados e disponibilizados gratuitamente em repositório 1 online com o objetivo de contribuir para pesquisas e trabalhos futuros na área. Através da utilização do classificador desenvolvido e possível a construção de, por exemplo, ferramentas e sistemas de recomendação de conteúdo para usuários aprendizes da língua inglesa como segunda língua ou para pessoas interessadas em desenvolver sua capacidade de leitura. Com estes resultados, tem-se então, mais espaço para pesquisas e desenvolvimento de ferramentas gratuitas complementares na área de legibilidade e inteligibilidade de textos através do Processamento de língua Natural e Aprendizado de Maquina.
Abstract:	The English language has reached the level of a global or globalized language, that is, chosen as an intermediary among communications worldwide due to its characteristics such as extensive vocabulary, combination of other languages, ease of learning. Due to this status and power achieved, fluency in this language has been a requirement in several sectors and areas. Consequently, there was an increase in the number of people interested in obtaining proficiency and mastery. Some of the ways to improve skills are through reading and listening, readings and texts allow the discovery of various aspects of the language, however, looking for a reading that is close to the reader’s level and knowledge of the English language, without help, can be very demotivating. However, this search has been facilitated with the advancement of artificial intelligence and natural language processing techniques, which allow, together with text datasets, to generate results as content characteristics, allowing them to be categorized. For the scope of this work, Artificial Intelligence and Machine Learning techniques were used with algorithms such as Naive Bayes, Support Vector Machine and Decision Trees, to generate classifications and Natural Language Processing on two datasets freely available on the Internet. These datasets have thousands of words. The main objective of this work was to develop a readability classifier for texts in English, based on the application of the aforementioned machine learning algorithms. Metrics and textual characteristics were analyzed, such as number of syllables, frequency of long and complex words, readability formulas, extracted from each articles in the Wikipedia and Simple Wikipedia datasets. An accuracy of 94,17% was achieved through the training of the algorithms, with emphasis on the J48 Decision Tree algorithm, highlighting as important textual attributes, the frequency of complex words, the Gunning Fog index, auxiliary and to be verbs. Some items such as pre-processed datasets and scripts were also generated and made available for free in an online repository in order to contribute to future research and work in the area. Through the use of the developed classifier, it is possible to build, for example, tools and content recommendation systems for users who learn English as a second language or for people interested in developing their reading skills. With these results, more space was opened up for research and development of complementary free tools in the area of readability and intelligibility of texts through Natural Language Processing and Machine Learning.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/29984
Aparece nas coleções:	MD - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
classificadorlegibilidadelinguainglesa (1).pdf		1,69 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas