Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/39464| Título: | Genomas bacterianos antifúngicos: um pipeline baseado empython para extração de características e classificação por aprendizado de máquina |
| Título(s) alternativo(s): | Bacterial genomes with antifungal activity: a python-basedpipeline for feature extraction and classification using machine learning |
| Autor(es): | Souza, Alisson Lucas de |
| Orientador(es): | Bressan, Glaucia Maria |
| Palavras-chave: | Bioinformática Aprendizado do computador Genoma Bioinformatics Machine learning Genomes |
| Data do documento: | 18-Fev-2025 |
| Editor: | Universidade Tecnológica Federal do Paraná |
| Câmpus: | Cornelio Procopio |
| Citação: | SOUZA, Alisson Lucas de. Genomas bacterianos antifúngicos: um pipeline baseado em python para extração de características e classificação por aprendizado de máquina. 2025. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025. |
| Resumo: | A evolução da agricultura trouxe consigo o desafio de lidar com pragas que ameaçam a produtividade e a qualidade dos alimentos. Inicialmente, o uso de agrotóxicos foi uma solução eficaz para combater insetos, roedores, fungos e bactérias. No entanto, o uso indiscriminado desses produtos resultou em sérios problemas ambientais e de saúde pública, como a contaminação da água e do solo, o acúmulo de resíduos tóxicos nos alimentos e o desenvolvimento de pragas resistentes. Este cenário tem impulsionado a busca por alternativas mais sustentáveis e menos prejudiciais ao meio ambiente e à saúde humana. Dentro deste contexto, a utilização de microrganismos que formam associações benéficas com plantas tem se mostrado uma estratégia promissora. Bactérias pertencentes aos gêneros Pseudomonas e Bacillus são conhecidas por sua capacidade de sintetizar metabólitos antifúngicos, contribuindo para o controle biológico de doenças em culturas agrícolas. Esta pesquisa tem como objetivo principal desenvolver um pipeline automatizado, utilizando a linguagem de programação Python, para extração de características de genomas bacterianos e classificar essas bactérias quanto à sua atividade antifúngica, empregando algoritmos de Aprendizado de Máquina. A ferramenta central utilizada é o MathFeature, que foi desenvolvida para extrair, de sequências genômicas, tanto informações biológicas quanto informações matemáticas. Este estudo visa analisar as características extraídas pelo MathFeature com o objetivo de treinar um modelo de aprendizado de máquina que realize a classificação binária das bactérias (com propriedades antifúngicas ou não). A pesquisa também inclui uma revisão de ferramentas computacionais e bancos de dados biológicos, como o GenBank e o MIBiG, além de abordar estudos anteriores que exploram a capacidade de bactérias de suprimir patógenos e os métodos de extração de características genômicas combinados com algoritmos de Aprendizado de Máquina. Nos estágios iniciais da pesquisa, foram conduzidos testes com algoritmos clássicos de Aprendizado de Máquina (SVM, Regressão Logística, Random Forest e Extra Trees) a fim de validar a abordagem proposta. No entanto, os resultados indicaram desafios significativos, como a dificuldade de adaptação dos modelos ao conjunto de dados e o desbalanceamento entre as classes de bactérias com e sem atividade antifúngica. Para contornar essas limitações, foi conduzida uma segunda etapa na qual foram incorporadas novas estratégias, incluindo algoritmos adicionais (Gradient Boosting, AdaBoost, Multi-Layer Perceptron e LightGBM), técnicas de balanceamento de classes (SMOTE) e métodos avançados de seleção de características (ANOVA, RFE e Mutual Information). Essas abordagens mostraram-se promissoras para melhorar a capacidade preditiva do modelo, evidenciando a necessidade de um refinamento contínuo do pipeline proposto. |
| Abstract: | The evolution of agriculture has brought with it the challenge of managing pests that threaten food productivity and quality. Initially, the use of pesticides was an effective solution to combat insects, rodents, fungi, and bacteria. However, the indiscriminate use of these products has led to serious environmental and public health problems, such as water and soil contamination, the accumulation of toxic residues in food, and the development of pesticide-resistant pests. This scenario has driven the search for more sustainable alternatives that are less harmful to the environment and human health. Within this context, the use of microorganisms that establish beneficial associations with plants has emerged as a promising strategy. Bacteria belonging to the genera Pseudomonas and Bacillus are known for their ability to synthesize antifungal metabolites, contributing to the biological control of plant diseases in agricultural crops. The primary objective of this research is to develop an automated pipeline using the Python programming language to extract genomic features from bacterial genomes and classify these bacteria based on their antifungal activity, employing Machine Learning algorithms. The central tool used in this study is MathFeature, which was designed to extract both biological and mathematical information from genomic sequences. This study aims to analyze the features extracted by MathFeature to train a machine learning model capable of performing binary classification of bacteria (with antifungal properties or not). The research also includes a review of computational tools and biological databases, such as GenBank and MIBiG, in addition to discussing previous studies that explore bacterial pathogen suppression capabilities and genomic feature extraction methods combined with Machine Learning algorithms. In the initial stages of this research, tests were conducted using classical Machine Learning algorithms (SVM, Logistic Regression, Random Forest, and Extra Trees) to validate the proposed approach. However, the results indicated significant challenges, such as the difficulty of adapting the models to the dataset and the imbalance between bacterial classes with and without antifungal activity. To overcome these limitations, a second phase was conducted, incorporating new strategies, including additional algorithms (Gradient Boosting, AdaBoost, Multi-Layer Perceptron, and LightGBM), class balancing techniques (SMOTE), and advanced feature selection methods (ANOVA, RFE, and Mutual Information). These approaches have proven to be promising in improving the model’s predictive capability, highlighting the need for continuous refinement of the proposed pipeline. |
| URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/39464 |
| Aparece nas coleções: | CP - Programa de Pós-Graduação em Bioinformática |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| genomasbacterianospipeline.pdf | 1,25 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons

