Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/12524
Título: | Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto |
Título(s) alternativo(s): | Extrinsic comparison of word embedding algorithms in text lexical simplification |
Autor(es): | Sales, Alisson Mariano de |
Orientador(es): | Candido Junior, Arnaldo |
Palavras-chave: | Computação semântica Processamento de linguagem natural (Computação) Inteligência artificial Semantic computing Natural language processing (Computer science) Artificial intelligence |
Data do documento: | 23-Nov-2017 |
Editor: | Universidade Tecnológica Federal do Paraná |
Câmpus: | Medianeira |
Citação: | SALES, Alisson Mariano de. Comparação extrínseca de algoritmos de word embedding na simplificação léxica de texto. 2017. 67 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2017. |
Resumo: | O advento das áreas de Inteligência Artificial tem proporcionado o avanço e a criação de soluções aplicadas às mais diversas áreas. Com o Processamento de Linguagem Natural isso não está sendo diferente, nos últimos cinco anos as pesquisas sobre os algoritmos de representação vetorial e captura semântica das palavras obtiveram grandes resultados. Chamados também de word embeddings, esses algoritmos agregam benefícios que métodos anteriores não disponibilizavam. Visando a necessidade de maior estudo sobre esses novos algoritmos, como Skip-Gram, Glove e CBOW e, ao mesmo tempo, observando a importância da automatização de simplificação léxica em benefício de pessoas em aprendizagem do português, disléxicos, portadores de afasia, entre outros, desenvolveu-se neste trabalho um simplificador léxico utilizando-se dessas representações. Esse simplificador utilizou-se também de Rede Neural Artificial e alguns dicionários para criar simplificações. Nos experimentos realizados, gerou-se três contribuições, sendo elas: um simplificador capaz de auxiliar um falante proficiente no processo de simplificação léxica, uma estrutura de rede neural com tendência ao aprendizado automatizado e a comparação extrínseca dos algoritmos. Como melhor algoritmo, nas observações realizadas, o Wang2vec CBOW obteve os melhores resultados para a atividade de simplificação léxica. |
Abstract: | The advent of Artificial Intelligence has provided the advance and the creation of solutions applied to the most diverse areas. Within Natural Language Processing this has not been different, in the last five years, the studies of algorithms for vector representation and semantic retrieval of words have shown great advances. Also called word embeddings, these algorithms add benefits that earlier methods did not provide. Aiming at the need to further study these new algorithms, such as Skip-Gram, Glove and CBOW, and at the same time, noting the importance of the automation of lexical simplification for the benefit of Portuguese learners, dyslexics, aphasia, among others, this work proposes the development of a lexical simplifier using these representations. This simplifier also used a Artificial Neural Network and some dictionaries to create simplifications. There were three main contributions observed in the experiments carried out: a simplifier capable of assisting a proficient speaker in the lexical simplification process, an artificial neural network structure with a tendency to automated learning and the extrinsic comparison of the algorithms. The algorithm Wang2vec Continuous Bag-of-Words performed the best results for the lexical simplification activity during this work’s experiments. |
URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/12524 |
Aparece nas coleções: | MD - Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
comparaçãoalgoritmoswordembedding.pdf | 1,52 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.