Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/40247
Título: Tigre: uma ferramenta escalável para extração de regiões intergênicas a partir de anotações GFF3
Título(s) alternativo(s): Tigre: tool for intergenic region extraction
Autor(es): Dupin, Breno Cesar
Orientador(es): Rocha, Tatianne Costa Negri
Palavras-chave: Bioinformática
Genômica
Software - Desenvolvimento
Bioinformatics
Genomics
Computer software - Development
Data do documento: 26-Nov-2025
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Cornelio Procopio
Citação: DUPIN, Breno Cesar. Tigre: uma ferramenta escalável para extração de regiões intergênicas a partir de anotações GFF3. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.
Resumo: A extração de regiões intergênicas a partir de arquivos de anotação genômica é essencial para estudos de genômica comparativa e biologia evolutiva, porém apresenta desafios computacionais ao lidar com features sobrepostas, genomas circulares e processamento em larga escala. O objetivo geral deste trabalho é apresentar a TIGRE (Tool for Intergenic Regions Extraction), uma ferramenta de linha de comando desenvolvida em Python para extração automatizada de regiões intergênicas de arquivos GFF3. Originalmente concebida como etapa de pré- processamento em um projeto de pesquisa sobre organelas de plantas, a ferramenta foi generalizada e transformada em uma solução stand alone, encontrando-se atualmente em processo de publicação na revista STAR Protocols. A TIGRE implementa três comandos sequenciais: clean, para preparação e padronização de arquivos GFF3, incluindo resolução de sobreposições e fragmentação de features que atravessam limites de genomas circulares; extract, para identificação e anotação de regiões intergênicas; e getfasta, para recuperação de sequências de nucleotídeos. A arquitetura permite processamento tanto de genomas individuais quanto em lote, com suporte a paralelização via multiprocessamento e otimização de memória através de arquitetura servidor-cliente quando integrada com a ferramenta GDT. A validação foi realizada através do processamento de 1.207 genomas mitocondriais de plantas, demonstrando execução eficiente com tempo total de 11.1 segundos em servidor e consumo máximo de memória de 155.7 MB. A ferramenta está disponível como software de código aberto sob licença MIT, distribuída via PyPI, e já processou mais de 35.000 genomas em seu uso contínuo no projeto de pesquisa original. A TIGRE representa uma contribuição significativa para a comunidade de bioinformática, oferecendo solução robusta, escalável e flexível para extração de regiões intergênicas, facilitando análises genômicas comparativas em larga escala.
Abstract: The extraction of intergenic regions from genomic annotation files is essential for comparative genomics and evolutionary biology studies, but presents computational challenges when dealing with overlapping features, circular genomes, and large-scale processing. The overall objective of this work is to present TIGRE (Tool for Intergenic Regions Extraction), a command-line tool developed in Python for automated extraction of intergenic regions from GFF3 files. Originally conceived as a preprocessing step in a research project on plant organelles, the tool was generalized and transformed into a standalone solution, currently undergoing publication in STAR Protocols journal. TIGRE implements a pipeline of three sequential commands: clean, for preparation and standardization of GFF3 files, including overlap resolution and fragmentation of features spanning circular genome boundaries; extract, for identification and annotation of inter- genic regions; and getfasta, for retrieval of nucleotide sequences. The architecture supports both single-genome and batch processing, with parallelization via multiprocessing and memory optimization through server-client architecture when integrated with the GDT tool. Validation was performed through processing of 1,207 plant mitochondrial genomes, demonstrating efficient execution with total time of 11.1 seconds on server and maximum memory consumption of 155.7 MB. The tool is available as open-source software under MIT license, distributed via PyPI, and has already processed over 35,000 genomes in its continued use in the original research project. TIGRE represents a significant contribution to the bioinformatics community, offering a robust, scalable, and flexible solution for intergenic region extraction, facilitating large-scale comparative genomic analyses.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/40247
Aparece nas coleções:CP - Engenharia da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
tigreregiaointergenica.pdf1,68 MBAdobe PDFVisualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons