Classificação de sites a partir das análises estrutural e textual

Ribas, Oeslei Taborda

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/616

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Ribas, Oeslei Taborda	-
dc.date.accessioned	2013-10-16T17:43:26Z	-
dc.date.available	2013-10-16T17:43:26Z	-
dc.date.issued	2013-08-28	-
dc.identifier.citation	RIBAS, Oeslei Taborda. Classificação de sites a partir das análises estrutural e textual. 2013. 125 f. Dissertação (Mestrado em Computação Aplicada) - Universidade Tecnológica Federal do Paraná, Curitiba, 2013.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/616	-
dc.description.abstract	With the wide use of the web nowadays, also with its constant growth, task of automatic classification of websites has gained increasing importance. In many occasions it is necessary to block access to specific sites, such as in the case of access to adult content sites in elementary and secondary schools. In the literature different studies has appeared proposing new methods for classification of sites, with the goal of increasing the rate of pages correctly categorized. This work aims to contribute to the current methods of classification by comparing four aspects involved in the classification process: classification algorithms, dimensionality (amount of selected attributes), attributes evaluation metrics and selection of textual and structural attributes present in webpages. We use the vector model to treat text and an machine learning classical approach according to the classification task. Several metrics are used to make the selection of the most relevant terms, and classification algorithms from different paradigms are compared: probabilistic (Na¨ıve Bayes), decision tree (C4.5), instance-based learning (KNN - K-Nearest Neighbor) and support vector machine (SVM). The experiments were performed on a dataset containing two languages, English and Portuguese. The results show that it is possible to obtain a classifier with good success indexes using only the information from the anchor text in hyperlinks, in the experiments the classifier based on this information achieved 99.59% F-measure.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.subject	Sites da web - Avaliação e classificação	pt_BR
dc.subject	Processamento de textos (Computação)	pt_BR
dc.subject	Aprendizado do computador	pt_BR
dc.subject	Redes neurais (Computação)	pt_BR
dc.subject	HTML (Linguagem de marcação de documento)	pt_BR
dc.subject	Métodos de simulação	pt_BR
dc.subject	Web sites - Ratings and rankings	pt_BR
dc.subject	Text processing (Computer science)	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Neural networks (Computer science)	pt_BR
dc.subject	HTML (Document marKup language)	pt_BR
dc.subject	Simulation methods	pt_BR
dc.title	Classificação de sites a partir das análises estrutural e textual	pt_BR
dc.type	masterThesis	pt_BR
dc.description.resumo	Com a ampla utilização da web nos dias atuais e também com o seu crescimento constante, a tarefa de classificação automática de sítios web têm adquirido importância crescente, pois em diversas ocasiões é necessário bloquear o acesso a sítios específicos, como por exemplo no caso do acesso a sítios de conteúdo adulto em escolas elementares e secundárias. Na literatura diferentes trabalhos têm surgido propondo novos métodos de classificação de sítios, com o objetivo de aumentar o índice de páginas corretamente categorizadas. Este trabalho tem por objetivo contribuir com os métodos atuais de classificação através de comparações de quatro aspectos envolvidos no processo de classificação: algoritmos de classificação, dimensionalidade (número de atributos considerados), métricas de avaliação de atributos e seleção de atributos textuais e estruturais presentes nas páginas web. Utiliza-se o modelo vetorial para o tratamento de textos e uma abordagem de aprendizagem de máquina clássica considerando a tarefa de classificação. Diversas métricas são utilizadas para fazer a seleção dos termos mais relevantes, e algoritmos de classificação de diferentes paradigmas são comparados: probabilista (Naıve Bayes), árvores de decisão (C4.5), aprendizado baseado em instâncias (KNN - K vizinhos mais próximos) e Máquinas de Vetores de Suporte (SVM). Os experimentos foram realizados em um conjunto de dados contendo sítios de dois idiomas, Português e Inglês. Os resultados demonstram que é possível obter um classificador com bons índices de acerto utilizando apenas as informações do texto ˆancora dos hyperlinks. Nos experimentos o classificador baseado nessas informações atingiu uma Medida-F de 99.59%.	pt_BR
dc.degree.local	Curitiba	pt_BR
dc.degree.level	Mestrado	pt_BR
dc.publisher.local	Curitiba	pt_BR
dc.contributor.advisor1	Kaestner, Celso Antônio Alves	-
dc.publisher.program	Programa de Pós-Graduação em Computação Aplicada	pt_BR
Aparece nas coleções:	CT - Programa de Pós-Graduação em Computação Aplicada

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
CT_PPGCA_M_Ribas, Oeslei Taborda_2013.pdf		2,52 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas