Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/36716
Registro completo de metadados
Campo DCValorIdioma
dc.creatorPereira, Israel Yago-
dc.date.accessioned2025-04-30T22:33:30Z-
dc.date.available2025-04-30T22:33:30Z-
dc.date.issued2024-12-11-
dc.identifier.citationPEREIRA, Israel Yago. Automatic gene annotation with artificial intelligence: binary classification between enzymes and non-enzymes. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Bioprocessos e Biotecnologia) - Universidade Tecnológica Federal do Paraná, Dois Vizinhos, 2025.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/36716-
dc.description.abstractGenomic annotation, a pivotal step in genomics, entails uncovering functional elements such as genes and regulatory components within DNA sequences. This process is crucial for comprehending biological processes and pinpointing disease-related mutations. Integrating highthroughput DNA sequencing and computational tools has revolutionized genetic annotation, ensuring heightened accuracy through data integration. Manual genetic annotation, involving the identification and annotation of diverse genomic elements, is labor-intensive, making traditional methods challenging due to the intricate nature of genomic data, species diversity, and the continual influx of new genomic information with different annotation practices among research groups also makes the problem harder. In this work, we created a dataset of amino acid sequences with the binary class of enzymes and non-enzymes and a model for classifying enzymes and non-enzymes sequences, eliminating some of these current problems of the genomic annotation pipeline. The dataset was compiled from The UniProt Consortium, encompassing both enzyme and non-enzyme amino acid sequences represented in standard FASTA format. The core of the model architecture adapted the Transformer’s encoder segment, renowned for its ability to capture intricate dependencies within sequential data. We treated each amino acid in the sequence as an analogous token, and the adapted architecture excludes the decoder component as it is unnecessary for the problem formulation. Model size considerations are based on both computing budget and token quantitypt_BR
dc.languageengpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rightsAttribution 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/*
dc.subjectGenômicapt_BR
dc.subjectInteligência artificialpt_BR
dc.subjectAminoácidospt_BR
dc.subjectGenomicspt_BR
dc.subjectArtificial intelligencept_BR
dc.subjectAmino acidspt_BR
dc.titleAutomatic gene annotation with artificial intelligence: binary classification between enzymes and non-enzymespt_BR
dc.title.alternativeAnotação gênica automática com inteligência artificial: classificação binária entre enzimas e não-enzimaspt_BR
dc.typebachelorThesispt_BR
dc.description.resumoA anotação genômica, um passo pivotal na gênomica, implica descobrir elementos funcionais, tais como genes e componentes regulatórios, dentro das sequências de DNA. Esse processo é crucial para compreender processos biológicos e apontar mutações relacionadas às doenças. A integração de ferramentas de alto desempenho de sequenciamento de DNA e ferramentas computacionais tem revolucionado a anotação gênica, garantindo elevada acurácia através da integração de dados. A anotação genética manual, envolvendo a identificação e anotação de diversos elementos genômicos, é muito trabalhosa, tornando metódos tradicionais desafiadores devido à intríseca natureza dos dados genômicos e diversidade de espécies, além do contínuo influxo de novas informações gênicas com diferentes práticas de anotação entre grupos de pesquisadores, o que dificulta ainda mais faz o problema. Neste trabalho, propôs a criação um dataset de sequências de amino ácidos com a classe binária de enzima e não-enzima e um modelo para classificar as sequências em enzimas e não-enzimas, eliminando alguns dos problemas atuais do processo de anotação gênica. O dataset foi compilado a partir do UnitProt Consortium, contendo tanto sequências de amino ácidos de enzimas e não-enzimas representadas no formato padrão FASTA. O núcleo da arquitetura foi adaptado do segmento codificador do Transformador, reconhecido por sua capacidade de capturar dependências intrínsecas dentre os dados sequenciais. Cada amino ácido na sequência foi tratado analogamente como um token e a arquitetura adaptada excluiu a componente decodificadora por ser desnecessária na formulação do problema. As considerações do tamanho do modelo foram baseadas tanto no orçamento computacional quanto na quantidade de tokens.pt_BR
dc.degree.localDois Vizinhospt_BR
dc.publisher.localDois Vizinhospt_BR
dc.contributor.advisor1Marcon, Marlon-
dc.contributor.advisor-co1Gabiatti, Naiana Cristine-
dc.contributor.referee1Rocha, Tatianne Costa Negri-
dc.contributor.referee2Maruyama, Teruo Matos-
dc.contributor.referee3Marcon, Marlon-
dc.publisher.countryBrasilpt_BR
dc.publisher.programEngenharia de Bioprocessos e Biotecnologiapt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::ENGENHARIAS::ENGENHARIA QUIMICApt_BR
Aparece nas coleções:DV - Engenharia de Bioprocessos e Biotecnologia

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
automaticgeneartificialintelligence.pdf2,34 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons