Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/5309
Título: Classificação de elementos transponíveis por redes neurais convolucionais
Autor(es): Cruz, Murilo Horacio Pereira da
Orientador(es): Bugatti, Pedro Henrique
Palavras-chave: Genoma
Redes neurais (Neurobiologia)
Classificação
Genomes
Neural networks (Neurobiology)
Classification
Data do documento: 13-Mar-2020
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Cornelio Procopio
Citação: CRUZ, Murilo Horacio Pereira da. Classificação de elementos transponíveis por redes neurais convolucionais. 2020. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2020.
Resumo: Elementos transponíveis são o tipo de sequência mais presente nos genomas eucarióticos. Estes são capazes de se transpor e produzir múltiplas cópias ao longo do genoma hospedeiro. Devido a estas ações, estas sequências produzem uma variedade de efeitos nos organismos, como por exemplo podem atuar na regulação da expressão gênica. Existem diversos tipos destes elementos, os quais são classificados de maneira hierárquica em classes, ordens e superfamílias. Poucos métodos da literatura abordam a classificação nos níveis mais profundos da hierarquia, como o nível de superfamílias. Além disso, a maioria dos métodos da literatura utilizam características manualmente definidas como: k-mers; presença de ORF; presença de domínios proteicos; e busca por similaridade. Tais características podem ser ineficientes para atingir a generalização dos métodos e computacionalmente custosas. Neste trabalho é apresentada uma abordagem, denominada Transposabel Element Representation Learner (TERL), a qual é capaz de representar sequências 1D em uma imagem 2D da sequência. A abordagem proposta é genérica e pode ser utilizada para classificar qualquer tipo de sequência biológica em qualquer nível do sistema de classificação da mesma, além de ser flexível quanto ao tipo de arquitetura que pode ser utilizada. No presente trabalho sete bases de dados da literatura foram utilizadas para criar nove conjuntos de treinamento e teste. Estes conjuntos foram utilizados em uma série de 21 experimentos conduzidos para avaliar o desempenho da abordagem proposta e dos métodos TEclass e PASTEC da literatura. O TERL foi capaz de obter acurácia e F1-score de 0,95 e 0,71 respectivamente na classificação de 11 superfamílias e acurácia e especificidade de 0,89 e 0,93 respectivamente na classificação a nível de ordem de um conjunto com sequências de diversos organismos e bases de dados. Estes resultados superam os obtidos pelo TEclass e PASTEC. Outra grande vantagem apresentada pela abordagem proposta diz respeito ao tempo de classificação das sequências, sendo que o TERL é em média 76 vezes mais eficiente que o TEclass e quatro ordens de grandeza mais eficiente que o PASTEC.
Abstract: Transposable elements are the most represented sequences in eukaryotic genomes. They are capable to transpose and produce multiple copies throughout the host genome. By doing so, these sequences can produce a variety of effects on organisms, such as the regulation of gene expression. There are several kinds of these elements, which are classified in a hierarchic way into classes, orders and superfamílies. Few methods of the literature classify these sequences into the deeper levels of the classification hierarchy, such as superfamily. Moreover, most methods use handcrafted features, such as: k-mers; presence of ORF; presence of protein domains; and homology based search. These features could be inneficient for generalization to non homologous sequences and time-consuming. In this work, we introduce an approach, called Transposabel Element Representation Learner (TERL), which is capable to represent 1D sequences into 2D sequence images. Our approach is generic and can be used to classify any type of biological sequence in any level of the classification system, also it is flexible to the type of architecture to use for the classification. In this work we use seven databases to create nine data sets. These data sets were used in a series of 21 experiments designed to assess the performance of the methods TEclass, PASTEC and the proposed approach. TERL obtained an accuracy and F1-score of 0.95 and 0.71 respectively on the classification of 11 superfamilies. Considering accuracy and specificity our approach obtained 0.89 and 0.93 respectively on the classification of order sequences from a data set created with sequences from different organisms and from different databases. These results surpass the metrics obtained by TEclass and PASTEC. Our approach showed great advantage regarding the classification time, which is on average 76 times more efficient than TEclass and four orders of magnitude more efficient than PASTEC.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/5309
Aparece nas coleções:CP - Programa de Pós-Graduação em Bioinformática

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
CP_PPGBIOINFO_M_Cruz,_Murilo_Horacio_Pereira_da_2020.pdf8,19 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.