Automatic gene annotation with artificial intelligence: binary classification between enzymes and non-enzymes

Pereira, Israel Yago

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/36716

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Pereira, Israel Yago	-
dc.date.accessioned	2025-04-30T22:33:30Z	-
dc.date.available	2025-04-30T22:33:30Z	-
dc.date.issued	2024-12-11	-
dc.identifier.citation	PEREIRA, Israel Yago. Automatic gene annotation with artificial intelligence: binary classification between enzymes and non-enzymes. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Bioprocessos e Biotecnologia) - Universidade Tecnológica Federal do Paraná, Dois Vizinhos, 2025.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/36716	-
dc.description.abstract	Genomic annotation, a pivotal step in genomics, entails uncovering functional elements such as genes and regulatory components within DNA sequences. This process is crucial for comprehending biological processes and pinpointing disease-related mutations. Integrating highthroughput DNA sequencing and computational tools has revolutionized genetic annotation, ensuring heightened accuracy through data integration. Manual genetic annotation, involving the identification and annotation of diverse genomic elements, is labor-intensive, making traditional methods challenging due to the intricate nature of genomic data, species diversity, and the continual influx of new genomic information with different annotation practices among research groups also makes the problem harder. In this work, we created a dataset of amino acid sequences with the binary class of enzymes and non-enzymes and a model for classifying enzymes and non-enzymes sequences, eliminating some of these current problems of the genomic annotation pipeline. The dataset was compiled from The UniProt Consortium, encompassing both enzyme and non-enzyme amino acid sequences represented in standard FASTA format. The core of the model architecture adapted the Transformer’s encoder segment, renowned for its ability to capture intricate dependencies within sequential data. We treated each amino acid in the sequence as an analogous token, and the adapted architecture excludes the decoder component as it is unnecessary for the problem formulation. Model size considerations are based on both computing budget and token quantity	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution 4.0 International	*
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	*
dc.subject	Genômica	pt_BR
dc.subject	Inteligência artificial	pt_BR
dc.subject	Aminoácidos	pt_BR
dc.subject	Genomics	pt_BR
dc.subject	Artificial intelligence	pt_BR
dc.subject	Amino acids	pt_BR
dc.title	Automatic gene annotation with artificial intelligence: binary classification between enzymes and non-enzymes	pt_BR
dc.title.alternative	Anotação gênica automática com inteligência artificial: classificação binária entre enzimas e não-enzimas	pt_BR
dc.type	bachelorThesis	pt_BR
dc.description.resumo	A anotação genômica, um passo pivotal na gênomica, implica descobrir elementos funcionais, tais como genes e componentes regulatórios, dentro das sequências de DNA. Esse processo é crucial para compreender processos biológicos e apontar mutações relacionadas às doenças. A integração de ferramentas de alto desempenho de sequenciamento de DNA e ferramentas computacionais tem revolucionado a anotação gênica, garantindo elevada acurácia através da integração de dados. A anotação genética manual, envolvendo a identificação e anotação de diversos elementos genômicos, é muito trabalhosa, tornando metódos tradicionais desafiadores devido à intríseca natureza dos dados genômicos e diversidade de espécies, além do contínuo influxo de novas informações gênicas com diferentes práticas de anotação entre grupos de pesquisadores, o que dificulta ainda mais faz o problema. Neste trabalho, propôs a criação um dataset de sequências de amino ácidos com a classe binária de enzima e não-enzima e um modelo para classificar as sequências em enzimas e não-enzimas, eliminando alguns dos problemas atuais do processo de anotação gênica. O dataset foi compilado a partir do UnitProt Consortium, contendo tanto sequências de amino ácidos de enzimas e não-enzimas representadas no formato padrão FASTA. O núcleo da arquitetura foi adaptado do segmento codificador do Transformador, reconhecido por sua capacidade de capturar dependências intrínsecas dentre os dados sequenciais. Cada amino ácido na sequência foi tratado analogamente como um token e a arquitetura adaptada excluiu a componente decodificadora por ser desnecessária na formulação do problema. As considerações do tamanho do modelo foram baseadas tanto no orçamento computacional quanto na quantidade de tokens.	pt_BR
dc.degree.local	Dois Vizinhos	pt_BR
dc.publisher.local	Dois Vizinhos	pt_BR
dc.contributor.advisor1	Marcon, Marlon	-
dc.contributor.advisor-co1	Gabiatti, Naiana Cristine	-
dc.contributor.referee1	Rocha, Tatianne Costa Negri	-
dc.contributor.referee2	Maruyama, Teruo Matos	-
dc.contributor.referee3	Marcon, Marlon	-
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Engenharia de Bioprocessos e Biotecnologia	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::ENGENHARIAS::ENGENHARIA QUIMICA	pt_BR
Aparece nas coleções:	DV - Engenharia de Bioprocessos e Biotecnologia

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
automaticgeneartificialintelligence.pdf		2,34 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons