Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/37935
Título: | Reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas |
Título(s) alternativo(s): | Recognition of patterns in microbiome and prediction ofcontinuous environmental variables |
Autor(es): | Barbosa, Murilo Caminotto |
Orientador(es): | Paschoal, Alexandre Rossi |
Palavras-chave: | Aprendizado do computador Produtividade agrícola Bioinformática Machine learning Agricultural productivity Bioinformatics |
Data do documento: | 29-Mai-2025 |
Editor: | Universidade Tecnológica Federal do Paraná |
Câmpus: | Cornelio Procopio |
Citação: | BARBOSA, Murilo Caminotto. reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas. 2025. Tese (Doutorado em Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025. |
Resumo: | Com o avanço das tecnologias de sequenciamento, torna-se cada vez mais neces sário o desenvolvimento de ferramentas capazes de processar e extrair conhecimento deste tipo de informação. Uma aplicação promissora é a identificação de bactérias correlacionadas com a produtividade agrícola, com potencial de prever o rendimento de safras futuras. Esta aplicação tem impacto direto na indústria agrícola e elevado potencial econômico. Embora existam ferramentas que integrem dados físicos, químicos e biológicos do solo paraapoiar o manejo agrícola, elas não foram projetadas para lidar com a natureza composicional dos dados de sequenciamento e, por isso, não conseguem identificar as bactérias responsáveis pela produção desses elementos. A seleção de bactérias, em vez de apenas elementos presentes no solo, é essencial, uma vez que elas respondem dinamicamente a mudanças ambientais, como chuvas e secas, oferecendo informações mais sensíveis e preditivas sobre a saúde do solo. A fim de preencher essa lacuna, desenvolvemos o CODARFE (COmpositional Data Analysis with Recursive Feature Elimination), uma ferramenta capaz de associar dados de microbioma a variáveis ambientais contínuas e realizar predições em novas amostras — algo inédito até então entre ferramentas da área. O desenvolvimento do CODARFE foi realizado em parceria com a empresa SUPERBAC, que forneceu seu banco de dados de microbioma para o treinamento e validação do modelo. A ferramenta foi capaz de prever a produtividade de soja em solos argilosos com erro médio absoluto de 248 kg/ha, equivalente a um desvio de apenas 7% em relação à média nacional, ao integrar a abundância de bactérias selecionadas com variáveis físicas e químicas do solo. Além disso, durante um período de 10 meses no European Bioinformatics Institute (EMBL-EBI), sob supervisão do Dr. Robert Finn, por meio do Programa de Doutorado Sanduíche no Exterior (PDSE) da CAPES, o método foi refinado e testado em dados públicos variados, resultando em sua integração à plataforma MGnify. O método foi validado em 24 banco de dados diferentes (19 de solo e 5 de humanos), e comparado com quatro outras ferramentas, superando-as em 21 dos 24 bancos de dados testados (87.5%) nos quesitos correlação com o alvo e taxa de verdadeiro positivos. Como resultado, o CODARFE foi disponibilizado em cinco formatos acessíveis (classe Python, executável para Windows, linha de comando Linux, notebook interativo e via MGnify) e publicado no periódico GigaScience, contribuindo para sua ampla disseminação e acessibilidade. A ferramenta possui dois registros de software: um registro público, assegurando6 sua disponibilidade à comunidade científica, e um registro privado vinculado à parceria com a SUPERBAC, protegendo os direitos de uso comercial do modelo desenvolvido com dados proprietários. |
Abstract: | With the advancement of sequencing technologies, the development of tools capable of processing this type of data and extracting actionable knowledge for industry has become increasingly necessary. A promising application is the identification of bacteria correlated with agricultural productivity, with the potential to predict crop yields in future harvests. This type of application has a direct impact on the agricultural industry and significant economic potential. Although there are tools that integrate physical, chemical, and biological soil data to support agricultural management, they are not designed to handle the compositional nature of sequencing data and, therefore, cannot identify the bacteria responsible for producing these elements. Selecting bacteria, rather than just soil elements, is essential, as microbial communities respond dynamically to environmental changes—such as rainfall or drought—offering more sensitive and predictive insights into soil health. To address this gap, we developed CODARFE (COmpositional Data Analysis with Recursive Feature Elimination), a tool capable of associating microbiome data with continuous environmental variables and making predictions on new samples — a capability not previously available in tools from this field. CODARFE was developed in collaboration with the company SUPERBAC, which provided its proprietary microbiome database for model training and validation. The tool was able to predict soybean yield in clay soils with a mean absolute error of 248 kg/ha, equivalent to only 7% deviation from the national average, by integrating selected bacterial abundances with physical and chemical soil variables. Furthermore, during a 10-month research exchange at the European Bioinfor matics Institute (EMBL-EBI), under the Dr. Robert Finn’s supervision, through the CAPES (PDSE) program, the method was refined and tested on a variety of public datasets, leading to its integration into the MGnify platform. As a result, CODARFE was made available in five accessible formats (Python class, Windows executable, Linux command line, interactive notebook, and via MGnify) and published in the journal GigaScience, enhancing its visibility and accessibility to the scientific community. The tool has two software registrations: a public registration, ensuring access for the research community, and a private registration tied to the partnership with SUPERBAC, protecting the commercial usage rights of the model developed with proprietary data. |
URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/37935 |
Aparece nas coleções: | CP - Programa de Pós-Graduação em Bioinformática |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
reconhecimentodepadroesemmicrobioma.pdf Disponível a partir de 2095-07-30 | 26,22 MB | Adobe PDF | ![]() Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.