Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/37935
Registro completo de metadados
Campo DCValorIdioma
dc.creatorBarbosa, Murilo Caminotto-
dc.date.accessioned2025-08-19T23:25:09Z-
dc.date.available2095-07-30-
dc.date.available2025-08-19T23:25:09Z-
dc.date.issued2025-05-29-
dc.identifier.citationBARBOSA, Murilo Caminotto. reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas. 2025. Tese (Doutorado em Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/37935-
dc.description.abstractWith the advancement of sequencing technologies, the development of tools capable of processing this type of data and extracting actionable knowledge for industry has become increasingly necessary. A promising application is the identification of bacteria correlated with agricultural productivity, with the potential to predict crop yields in future harvests. This type of application has a direct impact on the agricultural industry and significant economic potential. Although there are tools that integrate physical, chemical, and biological soil data to support agricultural management, they are not designed to handle the compositional nature of sequencing data and, therefore, cannot identify the bacteria responsible for producing these elements. Selecting bacteria, rather than just soil elements, is essential, as microbial communities respond dynamically to environmental changes—such as rainfall or drought—offering more sensitive and predictive insights into soil health. To address this gap, we developed CODARFE (COmpositional Data Analysis with Recursive Feature Elimination), a tool capable of associating microbiome data with continuous environmental variables and making predictions on new samples — a capability not previously available in tools from this field. CODARFE was developed in collaboration with the company SUPERBAC, which provided its proprietary microbiome database for model training and validation. The tool was able to predict soybean yield in clay soils with a mean absolute error of 248 kg/ha, equivalent to only 7% deviation from the national average, by integrating selected bacterial abundances with physical and chemical soil variables. Furthermore, during a 10-month research exchange at the European Bioinfor matics Institute (EMBL-EBI), under the Dr. Robert Finn’s supervision, through the CAPES (PDSE) program, the method was refined and tested on a variety of public datasets, leading to its integration into the MGnify platform. As a result, CODARFE was made available in five accessible formats (Python class, Windows executable, Linux command line, interactive notebook, and via MGnify) and published in the journal GigaScience, enhancing its visibility and accessibility to the scientific community. The tool has two software registrations: a public registration, ensuring access for the research community, and a private registration tied to the partnership with SUPERBAC, protecting the commercial usage rights of the model developed with proprietary data.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsembargoedAccesspt_BR
dc.subjectAprendizado do computadorpt_BR
dc.subjectProdutividade agrícolapt_BR
dc.subjectBioinformáticapt_BR
dc.subjectMachine learningpt_BR
dc.subjectAgricultural productivitypt_BR
dc.subjectBioinformaticspt_BR
dc.titleReconhecimento de padrões em microbioma e predição de variáveis ambientais contínuaspt_BR
dc.title.alternativeRecognition of patterns in microbiome and prediction ofcontinuous environmental variablespt_BR
dc.typedoctoralThesispt_BR
dc.description.resumoCom o avanço das tecnologias de sequenciamento, torna-se cada vez mais neces sário o desenvolvimento de ferramentas capazes de processar e extrair conhecimento deste tipo de informação. Uma aplicação promissora é a identificação de bactérias correlacionadas com a produtividade agrícola, com potencial de prever o rendimento de safras futuras. Esta aplicação tem impacto direto na indústria agrícola e elevado potencial econômico. Embora existam ferramentas que integrem dados físicos, químicos e biológicos do solo paraapoiar o manejo agrícola, elas não foram projetadas para lidar com a natureza composicional dos dados de sequenciamento e, por isso, não conseguem identificar as bactérias responsáveis pela produção desses elementos. A seleção de bactérias, em vez de apenas elementos presentes no solo, é essencial, uma vez que elas respondem dinamicamente a mudanças ambientais, como chuvas e secas, oferecendo informações mais sensíveis e preditivas sobre a saúde do solo. A fim de preencher essa lacuna, desenvolvemos o CODARFE (COmpositional Data Analysis with Recursive Feature Elimination), uma ferramenta capaz de associar dados de microbioma a variáveis ambientais contínuas e realizar predições em novas amostras — algo inédito até então entre ferramentas da área. O desenvolvimento do CODARFE foi realizado em parceria com a empresa SUPERBAC, que forneceu seu banco de dados de microbioma para o treinamento e validação do modelo. A ferramenta foi capaz de prever a produtividade de soja em solos argilosos com erro médio absoluto de 248 kg/ha, equivalente a um desvio de apenas 7% em relação à média nacional, ao integrar a abundância de bactérias selecionadas com variáveis físicas e químicas do solo. Além disso, durante um período de 10 meses no European Bioinformatics Institute (EMBL-EBI), sob supervisão do Dr. Robert Finn, por meio do Programa de Doutorado Sanduíche no Exterior (PDSE) da CAPES, o método foi refinado e testado em dados públicos variados, resultando em sua integração à plataforma MGnify. O método foi validado em 24 banco de dados diferentes (19 de solo e 5 de humanos), e comparado com quatro outras ferramentas, superando-as em 21 dos 24 bancos de dados testados (87.5%) nos quesitos correlação com o alvo e taxa de verdadeiro positivos. Como resultado, o CODARFE foi disponibilizado em cinco formatos acessíveis (classe Python, executável para Windows, linha de comando Linux, notebook interativo e via MGnify) e publicado no periódico GigaScience, contribuindo para sua ampla disseminação e acessibilidade. A ferramenta possui dois registros de software: um registro público, assegurando6 sua disponibilidade à comunidade científica, e um registro privado vinculado à parceria com a SUPERBAC, protegendo os direitos de uso comercial do modelo desenvolvido com dados proprietários.pt_BR
dc.degree.localCornélio Procópiopt_BR
dc.publisher.localCornelio Procopiopt_BR
dc.creator.IDhttps://orcid.org/0000-0003-3528-1239pt_BR
dc.creator.Latteshttps://lattes.cnpq.br/8338646558284491pt_BR
dc.contributor.advisor1Paschoal, Alexandre Rossi-
dc.contributor.advisor1IDhttps://orcid.org/0000-0002-8887-0582pt_BR
dc.contributor.advisor1Latteshttps://lattes.cnpq.br/5834088144837137pt_BR
dc.contributor.referee1Varani, Alessandro de Mello-
dc.contributor.referee1Latteshttps://lattes.cnpq.br/9429712259649346pt_BR
dc.contributor.referee2Paschoal, Alexandre Rossi-
dc.contributor.referee2Latteshttps://lattes.cnpq.br/5834088144837137pt_BR
dc.contributor.referee3Lopes, Fabricio Martins-
dc.contributor.referee3Latteshttps://lattes.cnpq.br/1660070580824436pt_BR
dc.contributor.referee4Valente, Guilherme Targino-
dc.contributor.referee5Boas, Laurival Antonio Vilas-
dc.contributor.referee5Latteshttps://lattes.cnpq.br/6053806923630324pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)pt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS SOCIAIS APLICADASpt_BR
dc.subject.capesCiência da Computaçãopt_BR
Aparece nas coleções:CP - Programa de Pós-Graduação em Bioinformática

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
reconhecimentodepadroesemmicrobioma.pdf
  Disponível a partir de 2095-07-30
26,22 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.