Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/33271
Título: | Validação de técnicas de data augmentation em corpus textuais sobre diabetes |
Título(s) alternativo(s): | Validation of data augmentation techniques in corpus textuals on diabetes |
Autor(es): | Muniz Filho, Eduardo Santiago |
Orientador(es): | Fávero, Eliane Maria De Bortoli |
Palavras-chave: | Diabetes mellitus Aprendizado do computador Inteligência artificial Diabetes mellitus Machine learning Artificial intelligence |
Data do documento: | 29-Nov-2023 |
Editor: | Universidade Tecnológica Federal do Paraná |
Câmpus: | Pato Branco |
Citação: | MUNIZ FILHO, Eduardo Santiago. Validação de técnicas de data augmentation em corpus textuais sobre diabetes. 2023. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023. |
Resumo: | A diabetes é uma doença crônica que afeta milhões de pessoas no mundo. Com o auxílio de modelos computacionais é possível auxilíar no controle e até prevenção da diabetes. Esses modelos podem ser baseados em métodos de aprendizado de máquina, que objetivem o reconhecimento de padrões de comportamento, por exemplo, em conjuntos de dados textuais de redes sociais, como o Twitter. Entretanto, a eficiência desses modelos inteligentes, está relacionada com o volume de dados disponíveis, bem como sua qualidade. Nesse contexto, o presente estudo propõe a validação das técnicas de aumento de dados em um corpus sobre diabetes proveniente do Twitter, com o objetivo de estabelecer uma fonte confiável e de qualidade para futuras pesquisas envolvendo processamento de linguagem natural aplicada à essa área específica da saúde. Os resultados demonstram que em algumas amostras do corpus o significado das sentenças foi alterado após o aumento dos dados, porém essa alteração não foi significativa para afetar a eficiência, garantindo ao corpus aumentado um desempenho melhor em modelos de classificação de texto. |
Abstract: | Diabetes is a chronic disease that affects millions of people worldwide. With the assistance of computational models, it is possible to aid in the control and even prevention of diabetes. These models can be based on machine learning methods that aim to recognize patterns of behavior, for example, in textual datasets from social networks, such as Twitter. However, the efficiency of these intelligent models is linked to the volume and quality of available data. In this context, the study proposes to validate data augmentation techniques in a corpus related to diabetes derived from Twitter, with the aim of establishing a reliable and high-quality source for future research in natural language processing applied to this specific area of health. The results demonstrate that in some samples of the corpus, the meaning of sentences was altered after data augmentation; however, this change was not significant enough to affect efficiency, ensuring that the augmented corpus performs better in text classification models. |
URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/33271 |
Aparece nas coleções: | PB - Engenharia de Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
validacaotecnicasdataaugmentation.pdf | 2,05 MB | Adobe PDF | Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons