Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/39877| Título: | BITSER: uma ferramenta para classificação de genomas virais |
| Título(s) alternativo(s): | BITSER: a tool for classifying viral genomes |
| Autor(es): | Fuganti, Lucas Costa |
| Orientador(es): | Lopes, Fabricio Martins |
| Palavras-chave: | Genômica Classificação Bioinformática Genomics Classification Bioinformatics |
| Data do documento: | 27-Jun-2025 |
| Editor: | Universidade Tecnológica Federal do Paraná |
| Câmpus: | Cornelio Procopio |
| Citação: | FUGANTI, Lucas Costa. BITSER: uma ferramenta para classificação de genomas virais. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Software) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025. |
| Resumo: | O aumento exponencial nos dados biológicos disponíveis, incrementado por tecnologias de sequenciamento de alto rendimento, leva a um caso particular de pesquisa "big data" conhecido como bioinformática. Logo, com a necessidade no desenvolvimento de métodos de análise de dados biológicos que sejam eficientes, interpretáveis e guiados pelos dados para descoberta de conhecimento. Este trabalho propõe o método BITSER, como uma nova abordagem livre de alinhamento para a extração de características e classificação de sequências biológicas. BITSER faz uso de adaptações de técnicas de análise de textura da área de visão computacional, como Local Binary Pattern (LBP) e aspectos derivados para extrair histogramas de sequências, baseando-se nos valores de potencial de interação elétron-íon (EIIP) de nucleotídeos. O método adota como entrada de dados arquivos no formato FASTA, não sendo necessário alinhamento ou anotação prévia, e oferece uma representação de características direta e com significado biológico. A validação de BITSER foi feita com os genomas virais SARS-CoV-2 e DENV, obtendo valores de acurácia de classificação superiores a 99% em diversos algoritmos de classificação. A análise de importância de características possibilitou uma redução dimensional de características significativas, preservando o poder discriminatório do método com apenas algumas características por conjunto de dados. Em comparação com métodos existentes, BITSER indicou resultados superiores, eficiência computacional e interpretabilidade. Esses resultados reforçam a robustez, escalabilidade e potencial para aplicação em larga escala de análise genômica do método. |
| Abstract: | The exponential increase of available biological data, augmented by high-throughput sequen- cing technologies, has led to a particular case of big data research known as bioinformatics. Therefore, there is a need to develop methods for analyzing biological data that are efficient, interpretable and data-driven for knowledge discovery. This paper proposes the BITSER method as a new alignment-free approach for feature extraction and classification of biological sequen- ces. BITSER makes use of adaptations of texture analysis techniques from the field of computer vision, such as Local Binary Pattern (LBP) and derived aspects to extract sequence histograms, based on the electron-ion interaction potential (EIIP) values of nucleotides. The method adopts files in the FASTA format as input data, with no need for alignment or prior annotation, and offers a direct representation of characteristics with biological significance. The validation of BITSER was performed considering the SARS-CoV-2 and DENV viral genomes, achieving classification accuracy values of over 99% in various classification algorithms. The feature importance analy- sis enabled a significant dimensional reduction of features, preserving the discriminatory power of the method with only a few features per data set. Compared to existing methods, BITSER indicated superior results, computational efficiency, and interpretability. These results reinforce the method's robustness, scalability and potential for large-scale application in genomic analysis. |
| URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/39877 |
| Aparece nas coleções: | CP - Engenharia de Software |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| ferramentaclassificacaogenomasvirais.pdf | 2,62 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons

