Redução de dimensionalidade em bases de dados de classificação hierárquica multirrótulo usando autoencoders

Siqueira, Rafael Fernandes

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/4472

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Siqueira, Rafael Fernandes	-
dc.date.accessioned	2019-09-30T11:35:27Z	-
dc.date.available	2019-09-30T11:35:27Z	-
dc.date.issued	2019-07-02	-
dc.identifier.citation	SIQUEIRA, Rafael Fernandes. Redução de dimensionalidade em bases de dados de classificação hierárquica multirrótulo usando autoencoders. 2019. 118 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2019.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/4472	-
dc.description.abstract	Protein prediction in bioinformatics data is an example of a Hierarchical Multilabel Classification problem in which each instance can be associated with multiple classes, which in turn are organized in a hierarchy. The high dimensionality of attributes and classes influences the performance of the classifiers, both in computational cost and in predictive capacity, as it impairs the search for patterns and the discovery of useful knowledge. Feature Extraction is one of the techniques used to achieve dimensionality reduction in databases, and thus eliminate irrelevant and/or redundant attributes that tend to confuse a learning algorithm. In this technique, by means of combinations and/or transformations of the original attributes, new attributes, which are more significant and represent the database, are generated in a smaller space. Thus, this work proposes a new method of feature extraction, FEAE-HMC, for the hierarchical multi-label classification, based on concepts and techniques of Deep Learning, through adaptations in a classic Autoencoder network. The FEAE-HMC method is divided into two main steps: the feature extraction and the evaluation of the reduced data set using a hierarchical multi-label classifier (Clus-HMC and MHC-CNN) and its performance measure (AUPRC). To perform the experiments, biological data from 10 Genetic Ontology databases are used, and their classes are structured in a hierarchy in the form of a Directed Acyclic Graph (DAG). According to the experimental results, the FEAE-HMC method was able to extract representations of smaller dimension that can add correlations between the attributes and labels. These representations, when submitted to a Hierarchical Multi-label Classifier, generate models with predictive performance equivalent or even superior to the performance of the original base. The difference between the full-base AUPRC measurement and a reduced base with a reduction of up to 90% of the original dimensionality is less than 0.047 in both classifiers. Statistical tests show that the reduced bases extracted by the FEAE-HMC are at least statistically equivalent to the original bases.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.subject	Bioinformática	pt_BR
dc.subject	Análise dimensional	pt_BR
dc.subject	Controle preditivo	pt_BR
dc.subject	Banco de dados	pt_BR
dc.subject	Bioinformatics	pt_BR
dc.subject	Dimensional analysis	pt_BR
dc.subject	Predictive control	pt_BR
dc.subject	Data bases	pt_BR
dc.title	Redução de dimensionalidade em bases de dados de classificação hierárquica multirrótulo usando autoencoders	pt_BR
dc.title.alternative	Dimensionality reduction in hierarchical multi-label databases using autoencoders	pt_BR
dc.type	masterThesis	pt_BR
dc.description.resumo	A predição de proteínas em dados de bioinformática é um exemplo de problema de Classificação Hierárquica Multirrótulo no qual cada instância pode estar associada a múltiplas classes, e estas por sua vez, estão organizadas em uma hierarquia. A alta dimensionalidade dos atributos e das classes influencia no desempenho dos classificadores, tanto no custo computacional quanto na capacidade preditiva, pois prejudica a busca por padrões e descoberta de conhecimento útil. A extração de atributos é uma das técnicas utilizadas para alcançar a redução de dimensionalidade em base de dados, e assim eliminar atributos irrelevantes e/ou redundantes que tendem a confundir um algoritmo de aprendizagem. Nessa técnica, por meio de combinações e/ou transformações dos atributos originais, geram-se novos atributos, mais significativos e que melhor representam a base de dados, em um espaço de menor dimensão. Desse modo, neste trabalho propõe-se um novo método de extração de atributos, FEAE-HMC, para classificação hierárquica multirrótulo, baseado em conceitos e técnicas de Deep Learning, por meio de adaptações em uma rede Autoencoder clássica. O método FEAE-HMC é dividido em duas etapas principais: a extração de atributos e a avaliação do conjunto de dados reduzido por meio de um classificador hierárquico multirrótulo (Clus-HMC e MHC-CNN) e sua medida de desempenho (AUPRC). Para a realização dos experimentos são utilizados dados biológicos de 10 bases de dados da Ontologia Gênica, sendo que as classes das mesmas estão estruturadas em uma hierarquia no formato de um Grafo Acíclico Dirigido (DAG). Conforme os resultados experimentais, o método FEAE-HMC se mostrou capaz de extrair representações de menor dimensão, que podem agregar correlações entre os atributos e rótulos. Essas representações, quando submetidas a um Classificador Hierárquico Multirrótulo, geram modelos nos quais se obtêm o desempenho preditivo equivalente e até mesmo superior ao desempenho da base original. A diferença obtida entre a medida AUPRC da base completa e uma base reduzida, com uma redução de até 90% da dimensionalidade original, é inferior a 0,047 em ambos classificadores. Testes estatísticos demonstram que as bases reduzidas extraídas pelo FEAE-HMC, são no mínimo estatisticamente equivalentes as bases originais.	pt_BR
dc.degree.local	Ponta Grossa	pt_BR
dc.degree.date	Ponta Grossa	pt_BR
dc.publisher.local	Ponta Grossa	pt_BR
dc.creator.ID	https://orcid.org/0000-0002-6095-9331	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/6630128370380670	pt_BR
dc.contributor.advisor1	Borges, Helyane Bronoski	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/8340106221427112	pt_BR
dc.contributor.referee1	Nievola, Julio Cesar	-
dc.contributor.referee1ID	https://orcid.org/0000-0002-2212-4499	pt_BR
dc.contributor.referee1Lattes	http://lattes.cnpq.br/9242867616608986	pt_BR
dc.contributor.referee2	Matos, Simone Nasser	-
dc.contributor.referee2ID	https://orcid.org/0000-0002-5362-2343	pt_BR
dc.contributor.referee2Lattes	http://lattes.cnpq.br/2608583610949216	pt_BR
dc.contributor.referee3	Borges, Helyane Bronoski	-
dc.contributor.referee3Lattes	http://lattes.cnpq.br/8340106221427112	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação	pt_BR
dc.publisher.initials	Brasil	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
dc.subject.capes	Ciência da Computação	pt_BR
Aparece nas coleções:	PG - Programa de Pós-Graduação em Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
reducaodimensionalidadebasesdados.pdf		2,6 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas