Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/34269
Título: | Uma abordagem de classificação de subtipos de leucemia para identificação de genes diferencialmente expressos utilizando dados genéticos aliado à técnicas de aprendizado de máquina |
Título(s) alternativo(s): | A leukemia subtype classification approach to identify differentially expressed genes using genetic data combined with machine learning techniques |
Autor(es): | Queiroz, Alvaro Pedroso |
Orientador(es): | Sanches, Danilo Sipoli |
Palavras-chave: | Aprendizado do computador Leucemia Informática na medicina Machine learning Leukemia Medical informatics |
Data do documento: | 18-Dez-2023 |
Editor: | Universidade Tecnológica Federal do Paraná |
Câmpus: | Cornelio Procopio |
Citação: | QUEIROZ, Alvaro Pedroso. Uma abordagem de classificação de subtipos de leucemia para identificação de genes diferencialmente expressos utilizando dados genéticos aliado à técnicas de aprendizado de máquina. 2023. Dissertação (Mestrado em Informática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2023. |
Resumo: | A leucemia e uma das principais doenças cancerígenas prejudiciais que confere mortalidade e morbidade em diferentes faixas etárias. O desafio do diagnóstico é causado por diversos fatores, sendo a classificação incorreta dos subtipos da doença um dos principais deles. Logo, torna-se fundamental descobrir os distúrbios genéticos ocorridos que ocasionou uma determinada doença. Nesse contexto, o uso de aprendizado de maquina pode ser aplicado para resolução de problemas relacionados a leucemia. Dessa forma, tem-se por objetivo criar uma ferramenta para aplicação de um modelo de aprendizado de máquina que seja interpretável e capaz de identificar genes diferencialmente expressos e classificar subtipos de leucemia. Para tal, foi proposto um pipeline baseado na metodologia CRISP-DM, com a finalidade de preparar dados genéticos e treinar modelos classificadores multi-classe. Assim, foram utilizadas diferentes abordagens e classificadores para determinar modelos otimizados de aprendizado de maquina com alta precisão. Os modelos utilizados possuem abordagens canônicas e hierárquicas, além de utilizarem técnicas de seleção de características para seu treinamento. Resultados altamente precisos foram obtidos nos experimentos realizados em relação a resultados obtidos na literatura, sendo possível comparar diferentes abordagens, técnicas e seleções de recursos. Por fim, uma aplicação foi criada abordando os conceitos homologados ˜ para a criação de modelos de aprendizado de máquina de forma intuitiva e para interpretabilidade dos resultados, utilizou-se a biblioteca SHAP para estabelecer os principais genes para classificação de forma global e as contribuições de cada gene para a classificação de um determinada amostra. |
Abstract: | Leukemia is one of the main specific cancer diseases that confer mortality and morbidity in different age groups. The diagnostic challenge is caused by several factors, with the incorrect classification of disease subtypes being one of the main ones. Therefore, it becomes essential to discover the genetic disorders that occurred that caused a certain disease. In this context, the use of machine learning can be applied to solve problems related to leukemia. Therefore, we aim to create a tool for applying a machine learning model that is interpretable and capable of identifying differentially expressed genes and classifying subtypes of leukemia. To this end, a pipeline based on the CRISP-DM methodology was proposed, with the purpose of preparing genetic data and training multi-class classified models. Therefore, different approaches and classifiers were used to determine optimized machine learning models with high accuracy. The models used have canonical and hierarchical approaches, in addition to using feature selection techniques for their training. Highly accurate results were obtained in experiments carried out in comparison with results obtained in the literature, making it possible to compare different approaches, techniques and specific resources. Finally, an application was created addressing the approved concepts for creating machine learning models in an intuitive way and given the need to interpret the results, the SHAP library was used to establish the main genes for global classification and how contributions of each gene to the classification of a given sample. |
URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/34269 |
Aparece nas coleções: | CP - Programa de Pós-Graduação em Informática |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
classificacaoleucemiagenesaprendizadodemaquina.pdf | 6,58 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.