Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/5309
Registro completo de metadados
Campo DCValorIdioma
dc.creatorCruz, Murilo Horacio Pereira da-
dc.date.accessioned2020-10-27T01:06:31Z-
dc.date.available2020-10-27T01:06:31Z-
dc.date.issued2020-03-13-
dc.identifier.citationCRUZ, Murilo Horacio Pereira da. Classificação de elementos transponíveis por redes neurais convolucionais. 2020. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2020.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/5309-
dc.description.abstractTransposable elements are the most represented sequences in eukaryotic genomes. They are capable to transpose and produce multiple copies throughout the host genome. By doing so, these sequences can produce a variety of effects on organisms, such as the regulation of gene expression. There are several kinds of these elements, which are classified in a hierarchic way into classes, orders and superfamílies. Few methods of the literature classify these sequences into the deeper levels of the classification hierarchy, such as superfamily. Moreover, most methods use handcrafted features, such as: k-mers; presence of ORF; presence of protein domains; and homology based search. These features could be inneficient for generalization to non homologous sequences and time-consuming. In this work, we introduce an approach, called Transposabel Element Representation Learner (TERL), which is capable to represent 1D sequences into 2D sequence images. Our approach is generic and can be used to classify any type of biological sequence in any level of the classification system, also it is flexible to the type of architecture to use for the classification. In this work we use seven databases to create nine data sets. These data sets were used in a series of 21 experiments designed to assess the performance of the methods TEclass, PASTEC and the proposed approach. TERL obtained an accuracy and F1-score of 0.95 and 0.71 respectively on the classification of 11 superfamilies. Considering accuracy and specificity our approach obtained 0.89 and 0.93 respectively on the classification of order sequences from a data set created with sequences from different organisms and from different databases. These results surpass the metrics obtained by TEclass and PASTEC. Our approach showed great advantage regarding the classification time, which is on average 76 times more efficient than TEclass and four orders of magnitude more efficient than PASTEC.pt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.subjectGenomapt_BR
dc.subjectRedes neurais (Neurobiologia)pt_BR
dc.subjectClassificaçãopt_BR
dc.subjectGenomespt_BR
dc.subjectNeural networks (Neurobiology)pt_BR
dc.subjectClassificationpt_BR
dc.titleClassificação de elementos transponíveis por redes neurais convolucionaispt_BR
dc.typemasterThesispt_BR
dc.description.resumoElementos transponíveis são o tipo de sequência mais presente nos genomas eucarióticos. Estes são capazes de se transpor e produzir múltiplas cópias ao longo do genoma hospedeiro. Devido a estas ações, estas sequências produzem uma variedade de efeitos nos organismos, como por exemplo podem atuar na regulação da expressão gênica. Existem diversos tipos destes elementos, os quais são classificados de maneira hierárquica em classes, ordens e superfamílias. Poucos métodos da literatura abordam a classificação nos níveis mais profundos da hierarquia, como o nível de superfamílias. Além disso, a maioria dos métodos da literatura utilizam características manualmente definidas como: k-mers; presença de ORF; presença de domínios proteicos; e busca por similaridade. Tais características podem ser ineficientes para atingir a generalização dos métodos e computacionalmente custosas. Neste trabalho é apresentada uma abordagem, denominada Transposabel Element Representation Learner (TERL), a qual é capaz de representar sequências 1D em uma imagem 2D da sequência. A abordagem proposta é genérica e pode ser utilizada para classificar qualquer tipo de sequência biológica em qualquer nível do sistema de classificação da mesma, além de ser flexível quanto ao tipo de arquitetura que pode ser utilizada. No presente trabalho sete bases de dados da literatura foram utilizadas para criar nove conjuntos de treinamento e teste. Estes conjuntos foram utilizados em uma série de 21 experimentos conduzidos para avaliar o desempenho da abordagem proposta e dos métodos TEclass e PASTEC da literatura. O TERL foi capaz de obter acurácia e F1-score de 0,95 e 0,71 respectivamente na classificação de 11 superfamílias e acurácia e especificidade de 0,89 e 0,93 respectivamente na classificação a nível de ordem de um conjunto com sequências de diversos organismos e bases de dados. Estes resultados superam os obtidos pelo TEclass e PASTEC. Outra grande vantagem apresentada pela abordagem proposta diz respeito ao tempo de classificação das sequências, sendo que o TERL é em média 76 vezes mais eficiente que o TEclass e quatro ordens de grandeza mais eficiente que o PASTEC.pt_BR
dc.degree.localCornélio Procópiopt_BR
dc.publisher.localCornelio Procopiopt_BR
dc.creator.IDhttps://orcid.org/0000-0002-6667-1144pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/3523313355084418pt_BR
dc.contributor.advisor1Bugatti, Pedro Henrique-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/2177467029991118pt_BR
dc.contributor.advisor-co1Paschoal, Alexandre Rossi-
dc.contributor.advisor-co1ID0000-0002-8887-0582pt_BR
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/5834088144837137pt_BR
dc.contributor.referee1Fujita, André-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/0247990329725342pt_BR
dc.contributor.referee2Kashiwabara, Andre Yoshiaki-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/3194328548975437pt_BR
dc.contributor.referee3Lopes, Fabricio Martins-
dc.contributor.referee3Latteshttp://lattes.cnpq.br/1660070580824436pt_BR
dc.contributor.referee4Bugatti, Pedro Henrique-
dc.contributor.referee4Latteshttp://lattes.cnpq.br/2177467029991118pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-Graduação em Bioinformáticapt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRApt_BR
dc.subject.capesEngenharia/Tecnologia/Gestãopt_BR
Aparece nas coleções:CP - Programa de Pós-Graduação em Bioinformática

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
CP_PPGBIOINFO_M_Cruz,_Murilo_Horacio_Pereira_da_2020.pdf8,19 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.