Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/28364
Título: Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas
Autor(es): Conque, Bruno Mendes Moro
Orientador(es): Lopes, Fabrício Martins
Palavras-chave: Bioinformática
Genômica
Classificação
Bioinformatics
Genomics
Classification
Data do documento: 2014
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Cornelio Procopio
Citação: CONQUE, Bruno Mendes Moro. Extração de características a partir de redes complexas: um estudo de caso na classificação de sequências genômicas. 2014. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2014.
Resumo: No âmbito da bioinformática, o reconhecimento de padrões dentro de sequências genômicas pode ser utilizado para classificar regiões (gênica, promotora, não-codificante) de um DNA. Neste sentido, caso uma boa classificação ocorra um modelo pode ser gerado para inferir sequências desconhecidas. Frente a essa perspectiva, medidas que representam particularidades dentro dessas sequências devem ser identificadas. Este trabalho propõe duas metodologias para caracterizar as sequências genômicas baseadas na teoria das redes complexas e teoria da informação. A teoria da informação lida com a frequência das ocorrências de nucleotídeos, dinucleotídeos e trinucleotídeos dentro de uma sequência para calcular entropia, soma de entropia e valor máximo da entropia para compor as características da mesma. As redes complexas por sua vez, retratam as sequências como uma rede através da ocorrência de encontro entre os nucleotídeos, dinucleotídeos e trinucleotídeos dentro da sequência. As medidas das metodologias são utilizadas na classificação com métodos classificadores como SVM, MultiLayerPerceptron, J48, IBK, NaiveBayes e RandomForest, para os quais foram obtidos resultados similares apresentando pouca diferença a favor das redes complexas, sendo que o RandomForest apresentou os melhores resultados com aproximadamente 86% de acurácia, seguido do J48 com 84% e do MultiLayerPerceptron com 82%. Os resultados obtidos indicam que através dessa abordagem de extração de características é possível alcançar bons níveis de classificação considerando a simplicidade dos métodos uma vez que são utilizadas somente as sequências genômicas sem nenhum outro conhecimento acerca delas.
Abstract: Within the scope of bioinformatics, pattern recognition in genomic sequences can be used to classify regions (gene, promoter, non-coding) of a DNA. In this sense, if a model a good classification occurs can be generated to infer unknown sequences. Faced with this prospect, measures that represent characteristics within these sequences must be identified. This paper proposes two methods to characterize the genomic sequences based on the theory of complex networks and information theory. Information theory deals with the frequency of occurrences of nucleotide, dinucleotide and trinucleotide within a sequence to calculate entropy, sum entropy and maximum entropy to compose the same characteristics. Complex networks in turn retrate the sequences as a network through the occurring of the nucleotides, dinucleotides and trinucleotides within the same. Measures of methodologies are used in the classification methods such as SVM classifiers, MultiLayerPerceptron, J48, IBK, and NaiveBayes RandomForest, where similar results were obtained among the methods, showing little difference in favor of the complex networks, wherein RandomForest showed the best results with approximately 86 % accuracy, followed by J48 with 84 % and MultiLayerPerceptron with 82 %. The results indicate that by such feature extraction approach can achieve good classification levels considering the simplicity of the methods used since they are only genomic sequences without any further knowledge about them.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/28364
Aparece nas coleções:CP - Tecnologia em Análise e Desenvolvimento de Sistemas

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
CP_COADS_2014_2_03.pdf1,9 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.