Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/31504
Registro completo de metadados
Campo DCValorIdioma
dc.creatorBarreta, Guilherme Augusto-
dc.date.accessioned2023-05-31T12:14:33Z-
dc.date.available2023-05-31T12:14:33Z-
dc.date.issued2022-04-28-
dc.identifier.citationBARRETA, Guilherme Augusto. Modelagem filogenética das cepas de SARS-CoV-2 via árvore de extensão mínima. 2022. Monografia (Especialização em Ciência de Dados) - Universidade Tecnológica Federal do Paraná, Dois Vizinhos, 2022.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/31504-
dc.description.abstractSince the pandemic that started in Wuhan, China, on December 12, 2019, many strains of SARS-CoV-2 appear. With that, monitoring was necessary. Fortunately, there is a international effort for genomic sequencing and makes these data publicly available. Data alone do not produce relevant information until some strategy is used to manipulate them. The strategy used in this work is the construction of the phylogenetic tree. For this, it is necessary to abstract the problem as a graph and apply a minimum spanning tree (MST). The edges are the result of dissimilarities between genetic sequences. This dissimilarity is measured with Levenshtein distance. The complexity of this approach is O(n 2 (k) 2 ), where n is the number of sequences and k is the average size of the sequences. To reduce the complexity of this algorithm, a heuristic algorithm was also proposed. In this way the complexity becomes O(n(f(n)+r(n))(k) 2 ), where f is the average number of visited leaves and r is the average number of visited nodes (with the exception of leaves) until it finds the optimal location. It is also valid that f(n) + r(n) ≤ n. The results indicate that the time of execution relative to the deterministic algorithm tends to decrease at the same time that the minimal sum of edges has an average error of 6%. It is expected that, with the results presented, this work can serve as a basis for understanding and predicting mutations in the coronavirus in future work.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttps://creativecommons.org/licenses/by-sa/4.0/deed.pt_BRpt_BR
dc.subjectCOVID-19 (Doença)pt_BR
dc.subjectRepresentações dos grafospt_BR
dc.subjectAlgorítmos computacionaispt_BR
dc.subjectCOVID-19 (Disease)pt_BR
dc.subjectRepresentations of graphspt_BR
dc.subjectComputer algorithmspt_BR
dc.titleModelagem filogenética das cepas de SARS-CoV-2 via árvore de extensão mínimapt_BR
dc.title.alternativePhylogenetic modeling of SARS-CoV-2 strains via minimal spanning treept_BR
dc.typespecializationThesispt_BR
dc.description.resumoDesde a pandemia iniciada em Wuhan na China, em 12 de dezembro de 2019, surgiram muitas cepas do SARS-CoV-2. Na esteira da pandemia um esforço internacional para o sequenciamento genômico foi instalado, com o objetivo de monitorar a evolução do vírus e auxiliar na tomada de decisão. No entanto a análise de sequências genéticas não é trivial e requer algumas transformações a fim de facilitar a análise. A estratégia utilizada nesse trabalho é a construção da árvore filogenética e, para isso, é necessário abstrair o problema como um grafo e aplicar um algoritmo de árvore de extensão mínima. As arestas são resultantes das dissimilaridades entre sequências genéticas. Essa dissimilaridade é medida com a distância de Levenshtein. A complexidade dessa abordagem é O(n 2 (k) 2 ), sendo n o número de sequências e k o tamanho médio das sequências. Para reduzir a complexidade desse algoritmo, foi proposto também um algoritmo heurístico. Dessa maneira a complexidade passa a ser O(n(f(n) + r(n))(k) 2 ), sendo f o número médio de folhas visitadas e r o número médio de nós visitados (com exceção das folhas) até encontra o ótimo local. Também é válido que f(n) + r(n) ≤ n. Os resultados indicam que o tempo de execução relativo ao algoritmo determinístico tende a diminuir ao mesmo tempo em que a soma mínima de arestas apresenta um erro médio de 6%. Espera-se que, com os resultados apresentados, esse trabalho possa servir como base de compreensão e predição de mutações do coronavírus em trabalhos futuros.pt_BR
dc.degree.localDois Vizinhospt_BR
dc.publisher.localDois Vizinhospt_BR
dc.contributor.advisor1Casanova, Dalcimar-
dc.contributor.advisor-co1Varela, Paulo Júnior-
dc.contributor.referee1Pola, Ives Renê Venturini-
dc.contributor.referee2Lopes, Yuri Kaszubowski-
dc.contributor.referee3Casanova, Dalcimar-
dc.publisher.countryBrasilpt_BR
dc.publisher.programEspecialização em Ciência de Dadospt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
Aparece nas coleções:DV - Ciência de Dados

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
modelagemsars-cov-2.pdf1,67 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons