Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/36716
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.creator | Pereira, Israel Yago | - |
dc.date.accessioned | 2025-04-30T22:33:30Z | - |
dc.date.available | 2025-04-30T22:33:30Z | - |
dc.date.issued | 2024-12-11 | - |
dc.identifier.citation | PEREIRA, Israel Yago. Automatic gene annotation with artificial intelligence: binary classification between enzymes and non-enzymes. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Bioprocessos e Biotecnologia) - Universidade Tecnológica Federal do Paraná, Dois Vizinhos, 2025. | pt_BR |
dc.identifier.uri | http://repositorio.utfpr.edu.br/jspui/handle/1/36716 | - |
dc.description.abstract | Genomic annotation, a pivotal step in genomics, entails uncovering functional elements such as genes and regulatory components within DNA sequences. This process is crucial for comprehending biological processes and pinpointing disease-related mutations. Integrating highthroughput DNA sequencing and computational tools has revolutionized genetic annotation, ensuring heightened accuracy through data integration. Manual genetic annotation, involving the identification and annotation of diverse genomic elements, is labor-intensive, making traditional methods challenging due to the intricate nature of genomic data, species diversity, and the continual influx of new genomic information with different annotation practices among research groups also makes the problem harder. In this work, we created a dataset of amino acid sequences with the binary class of enzymes and non-enzymes and a model for classifying enzymes and non-enzymes sequences, eliminating some of these current problems of the genomic annotation pipeline. The dataset was compiled from The UniProt Consortium, encompassing both enzyme and non-enzyme amino acid sequences represented in standard FASTA format. The core of the model architecture adapted the Transformer’s encoder segment, renowned for its ability to capture intricate dependencies within sequential data. We treated each amino acid in the sequence as an analogous token, and the adapted architecture excludes the decoder component as it is unnecessary for the problem formulation. Model size considerations are based on both computing budget and token quantity | pt_BR |
dc.language | eng | pt_BR |
dc.publisher | Universidade Tecnológica Federal do Paraná | pt_BR |
dc.rights | openAccess | pt_BR |
dc.rights | Attribution 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by/4.0/ | * |
dc.subject | Genômica | pt_BR |
dc.subject | Inteligência artificial | pt_BR |
dc.subject | Aminoácidos | pt_BR |
dc.subject | Genomics | pt_BR |
dc.subject | Artificial intelligence | pt_BR |
dc.subject | Amino acids | pt_BR |
dc.title | Automatic gene annotation with artificial intelligence: binary classification between enzymes and non-enzymes | pt_BR |
dc.title.alternative | Anotação gênica automática com inteligência artificial: classificação binária entre enzimas e não-enzimas | pt_BR |
dc.type | bachelorThesis | pt_BR |
dc.description.resumo | A anotação genômica, um passo pivotal na gênomica, implica descobrir elementos funcionais, tais como genes e componentes regulatórios, dentro das sequências de DNA. Esse processo é crucial para compreender processos biológicos e apontar mutações relacionadas às doenças. A integração de ferramentas de alto desempenho de sequenciamento de DNA e ferramentas computacionais tem revolucionado a anotação gênica, garantindo elevada acurácia através da integração de dados. A anotação genética manual, envolvendo a identificação e anotação de diversos elementos genômicos, é muito trabalhosa, tornando metódos tradicionais desafiadores devido à intríseca natureza dos dados genômicos e diversidade de espécies, além do contínuo influxo de novas informações gênicas com diferentes práticas de anotação entre grupos de pesquisadores, o que dificulta ainda mais faz o problema. Neste trabalho, propôs a criação um dataset de sequências de amino ácidos com a classe binária de enzima e não-enzima e um modelo para classificar as sequências em enzimas e não-enzimas, eliminando alguns dos problemas atuais do processo de anotação gênica. O dataset foi compilado a partir do UnitProt Consortium, contendo tanto sequências de amino ácidos de enzimas e não-enzimas representadas no formato padrão FASTA. O núcleo da arquitetura foi adaptado do segmento codificador do Transformador, reconhecido por sua capacidade de capturar dependências intrínsecas dentre os dados sequenciais. Cada amino ácido na sequência foi tratado analogamente como um token e a arquitetura adaptada excluiu a componente decodificadora por ser desnecessária na formulação do problema. As considerações do tamanho do modelo foram baseadas tanto no orçamento computacional quanto na quantidade de tokens. | pt_BR |
dc.degree.local | Dois Vizinhos | pt_BR |
dc.publisher.local | Dois Vizinhos | pt_BR |
dc.contributor.advisor1 | Marcon, Marlon | - |
dc.contributor.advisor-co1 | Gabiatti, Naiana Cristine | - |
dc.contributor.referee1 | Rocha, Tatianne Costa Negri | - |
dc.contributor.referee2 | Maruyama, Teruo Matos | - |
dc.contributor.referee3 | Marcon, Marlon | - |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.program | Engenharia de Bioprocessos e Biotecnologia | pt_BR |
dc.publisher.initials | UTFPR | pt_BR |
dc.subject.cnpq | CNPQ::ENGENHARIAS::ENGENHARIA QUIMICA | pt_BR |
Aparece nas coleções: | DV - Engenharia de Bioprocessos e Biotecnologia |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
automaticgeneartificialintelligence.pdf | 2,34 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons