Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/32829
Título: Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum
Título(s) alternativo(s): Comparative analysis of single nucleotide polymorphism identification strategies in gossypium hirsutum
Autor(es): Patera, Andressa Caroline
Orientador(es): Domingues, Douglas Silva
Palavras-chave: Sequenciamento de nucleotídeo
Bioinformática
Polimorfismo (Genética)
Nucleotide sequence
Bioinformatics
Genetic polymorphisms
Data do documento: 18-Ago-2023
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Cornelio Procopio
Citação: PATERA, Andressa Caroline. Análise comparativa de estratégias de identificação de polimorfismos de nucleotídeo único em gossypium hirsutum. 2023. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2023.
Resumo: Plataformas de sequenciamento de alto rendimento viabilizam a geração de enorme quantidade de dados de forma extremamente rápida. No entanto, metodologias de sequenciamento são altamente sensíveis a erros, tornando o processo de obtenção de dados altamente dependente de ferramentas de bioinformática. A identificação de variantes alélicas é um importante desafio no processamento de dados de sequenciamento, o qual inclui o alinhamento das sequências com o genoma de referência da espécie alvo. A diferença nas variantes genéticas, obtida através de várias abordagens de identificação de polimorfismos, pode causar impactos diretos no uso desses dados em estudos genéticos. Esses impactos podem ser observados em áreas como o mapeamento associativo e a seleção genômica. O presente estudo teve como objetivo comparar duas abordagens de detecção de variantes (Fast-GBS e BWA/BFCTools) para determinar o seu impacto na identificação de nucleotídeos de polimorfismo único (SNPs) em um painel de 250 genótipos de algodão (Gossypium hirsutum), dos quais 72 correspondem a genótipos do banco de germoplasma da TMG (sequências single-end obtidas por GBS com sequenciamento Ion Torrent) e outros 178 são provenientes de um estudo na literatura (sequências paired-end obtidas por sequenciamento Illumina). Os resultados foram comparados através do levantamento do número total de SNPs recuperados, bem como o número de SNPs recuperados por cromossomo. Outras métricas utilizadas foram o SNP-Score (capaz de ponderar o número de ocorrências de SNPs por pipeline de chamada de alelos), tempo computacional e análise de componentes principais. O pipeline Fast-GBS recuperou um total de 417.975 SNPs para o subconjunto de dados brutos da TMG e 38.685.370 SNPs para o subconjunto de dados brutos da literatura enquanto o pipeline BWA/BCFTools recuperou um total de 254.805 SNPs para o subconjunto de dados brutos da TMG e 38.685.377 SNPs para o subconjunto de dados brutos da literatura. Podemos identificar que existem 24.402 SNPs em comum em todos os conjuntos de dados quando o pipeline BWA/BCFTools foi utilizado e 15.348 SNPs em comum entre todos os conjuntos de dados quando o pipeline Fast-GBS foi utilizado. Ao final das análises, foi possível concluir que o pipeline Fast-GBS possui um melhor desempenho computacional e que sequências paired-end sofrem pouca influência do software utilizado para chamada de alelos, devido à sua elevada precisão. Para sequências single-end, o pipeline Fast-GBS obteve melhor desempenho para dados brutos de sequenciamento e o BWA/BCFTools obteve melhor desempenho com dados filtrados. Os resultados obtidos reforçam a necessidade de considerar vários aspectos durante a escolha dos métodos para análise.
Abstract: High-throughput sequencing platforms make it possible to generate huge amounts of data extremely quickly. However, sequencing methodologies are highly sensitive to errors, making the process of obtaining data highly dependent on bioinformatics tools. The challenge of identifying allelic variants in the processing of sequencing data encompasses the alignment of sequences with the reference genome of the target species. Variations in genetic variants, acquired through diverse approaches to polymorphism identification, may impart direct impacts upon the utilization of such data in genetic studies, including associative mapping and genomic selection.The present study aimed to compare two variant calling approaches (Fast-GBS and BWA/BFCTools) to determine their impact on the identification of single polymorphism nucleotides (SNPs) in a panel of 250 cotton (Gossypium hirsutum) genotypes of which 72 correspond to genotypes from TMG's germplasm bank (single-end sequences obtained by GBS with Ion Torrent sequencing) and 178 come from a study in the literature (paired-end sequences obtained by Illumina sequencing). The results were compared by surveying the total number of SNPs recovered, as well as the number of SNPs recovered per chromosome. Other metrics used were the SNP-Score (capable of weighting the number of SNP occurrences per allele calling pipeline), computational time and principal component analysis. The Fast-GBS pipeline retrieved a total of 417,975 SNPs for the TMG raw data subset and 38,685,370 SNPs for the literature raw data subset. We can identify that there are 24,402 SNPs in common across all datasets when the BWA/BCFTools pipeline was used and 15,348 SNPs in common across all datasets when the Fast-GBS pipeline used. At the end of these analyses, it was possible to conclude that the Fast-GBS pipeline has a better computational performance and that paired-end sequences suffer little influence from the software used to call alleles, due to its high precision. For single-end sequences, Fast-GBS pipeline performed better for raw sequencing data and BWA/BCFTools performed better with filtered data. The results obtained reinforce the need to consider several aspects when choosing methods for analysis.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/32829
Aparece nas coleções:CP - Programa de Pós-Graduação em Bioinformática

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
identificacaodepolimorfismosgossypiumhirsutum.pdf1,51 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.