Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/37936
Título: Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo
Título(s) alternativo(s): Prediction of protein-coding regions in circular rna and de novo assembled transcriptomes
Autor(es): Barbosa, Denilson Fagundes
Orientador(es): Kashiwabara, Andre Yoshiaki
Palavras-chave: Bioinformática
Proteínas
Biologia molecular
Bioinformatics
Proteins
Molecular biology
Data do documento: 29-Abr-2025
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Cornelio Procopio
Citação: BARBOSA, Denilson Fagundes. Predição de regiões codificadoras de proteínas em rna circulares e transcriptoma em montagem de novo. 2025. Tese (Doutorado em Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.
Resumo: A predição de regiões codificadoras de proteína (CDSs) em RNAs circulares (circRNAs) e transcriptomas montados de novo representam problemas relevantes em aberto na bioinformática, devido à natureza não canônica da tradução em circRNAs e à heterogeneidade de transcritos gerados em montagens. Esta tese propõe métodos computacionais que integram abordagens complementares de métodos de kernel e modelos probabilísticos para superar essas limitações. Desenvolvemos quatro contribuições principais: (i) circTIS, uma ferramenta baseada em uma máquina de vetores de suporte (SVM) com o string kernel de grau ponderado (WDK) para predição de sítios de iniciação de tradução (TIS) em circRNAs, que alcançou precisão de 93,12% e sensibilidade de 86,03%, superando ferramentas consolidadas; (ii)cirCodAn, um anotador que emprega modelos de Markov ocultos generalizados (GHMMs) adaptados à ciclicidade molecular, obtendo F1-scores de até 77,06% na identificação de CDSs em circRNAs de H. sapiens; (iii) strkernels, um pacote Python de alta performance com implementações eficientes de string kernels, validado em tarefas como classificação de peptídeos antimicrobianos (AUC-ROC de 0,99); e (iv) CodAnSVM, um método híbrido que combina GHMMs e SVMs para anotação de transcriptomas de montagens de novo, com ganho de 5 pontos percentuais em F1-score sobre métodos tradicionais em transcritos completos e resultados satisfatórios para transcritos parciais. Os resultados mostram que a integração de modelos generativos (GHMMs) e discriminativos (SVMs) possibilita análises precisas em cenários biológicos desafiadores, como a predição de códons de iniciação não canônicos e a anotação de transcritos parciais. As ferramentas desenvolvidas, disponíveis como software aberto, preenchem lacunas metodológicas no estudo de circRNAs codificantes e na análise funcional de transcriptomas.
Abstract: The prediction of protein-coding regions (CDSs) in circular RNAs (circRNAs) and de novo assembled transcriptomes represents significant open challenges in bioinformatics due to the non-canonical nature of translation in circRNAs and the heterogeneity of transcripts generated in assemblies. This thesis proposes computational methods that integrate complementary approaches of kernel methods and probabilistic models to overcome these limitations. We developed four main contributions: (i) circTIS, a tool based on a Support Vector Machine (SVM) with the weighted degree kernel (WDK) for predicting translation initiation sites (TIS) in circRNAs, achieving a precision of 93.12% and sensitivity of 86.03%, outperforming established tools; (ii) cirCodAn, an annotator employing generalized hidden Markov models (GHMMs) adapted to molecular cyclicity, achieving F1-scores of up to 77.06% in identifying CDSs in H. sapiens circRNAs; (iii) strkernels, a high-performance Python package with efficient implementations of string kernels, validated in tasks such as antimicrobial peptide classification (AUC-ROC of 0.99); and (iv) CodAnSVM, a hybrid method combining GHMMs and SVMs for annotating de novo assembled transcriptomes, demonstrating a 5 percentual points F1-score improvement over traditional methods for complete transcripts and satisfactory results for partial transcripts. The results show that integrating generative (GHMMs) and discriminative (SVMs) models enables precise analyses in challenging biological scenarios, such as predicting non-canonical initiation codons and annotating partial transcripts. The developed tools, available as open-source software, address methodological gaps in the study of coding circRNAs and the functional analysis of transcriptomes.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/37936
Aparece nas coleções:CP - Programa de Pós-Graduação em Bioinformática

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
predicaoregioescodificadorasrna.pdf1,55 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.