Uma base textual em português destinada a pesquisas de processamento de linguagem natural aplicados a engenharia do software

Recuero Junior, Max Humberto

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/31679

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Recuero Junior, Max Humberto	-
dc.date.accessioned	2023-07-06T12:52:45Z	-
dc.date.available	2023-07-06T12:52:45Z	-
dc.date.issued	2023-06-21	-
dc.identifier.citation	RECUERO JUNIOR, Max Humberto. Uma base textual em português destinada a pesquisas de processamento de linguagem natural aplicados a engenharia do software. 2023. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/31679	-
dc.description.abstract	Applications of Natural Language Processing (NLP) mostly require large volumes of data. This is necessary in order to develop a robust application, typically based on machine learning algorithms. Much of the research in this field relies on specific and curated databases created by the authors themselves, which rarely reach the volume required by machine learning aplications. With the aim of providing a textual database in Brazilian Portuguese for the Software Engineering field, this work presents the process of automatic data retrieval and processing, extracted from questions and answers on the popular portal Stack Overflow, widely used by members of the field. Therefore, this work encompasses concepts of web crawling and web scraping, tools used to extract data from the internet, as well as preprocessing methods for the extracted texts using NLP techniques. Preprocessing is important because this type of data often contains HTML language characteristics and a wide range of irregular data, but the goal is to maintain the originality and coherence of the sentences, allowing future research to consistently utilize this database for various NLP tasks. The results present the approach used, its characteristics, and the challenges encountered. Finally, the generated database is presented, highlighting its main features.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	pt_BR
dc.subject	Textos	pt_BR
dc.subject	Processamento de textos (Computação)	pt_BR
dc.subject	Sistemas de informação geográfica	pt_BR
dc.subject	Visualização da informação	pt_BR
dc.subject	Sistemas de coleta automática de dados	pt_BR
dc.subject	Texts	pt_BR
dc.subject	Text processing (Computer science)	pt_BR
dc.subject	Geographic information systems	pt_BR
dc.subject	Information visualization	pt_BR
dc.subject	Automatic data collection systems	pt_BR
dc.title	Uma base textual em português destinada a pesquisas de processamento de linguagem natural aplicados a engenharia do software	pt_BR
dc.title.alternative	A textual database on portuguese language to natural language processing aplications on software engineering	pt_BR
dc.type	bachelorThesis	pt_BR
dc.description.resumo	Aplicações de Processamento de Linguagem Natural (PLN), em sua maioria, requisitam grandes volumes de dados. Isso é necessário para que que seja possível gerar uma aplicação consistente, o que normalmente é obtido por meio de métodos de aprendizado de máquina. Grande parte das pesquisas nessa área apresentam bases de dados específicas e elaboradas pelos próprios autores, o que dificilmente atinge o volume necessário para que aplicações de aprendizagem de máquina obtenham um resultado satisfatório. Visando disponibilizar uma base de dados textuais em Português brasileiro, para a área de Engenharia de Software, este trabalho apresenta o processo de obtenção automática e tratamento de dados textuais, extraídos de perguntas e respostas contidas no portal Stack Overflow, bastante popular entre os membros da área. Sendo assim, esse trabalho aborda conceitos de web crawler e web scrapper, ferramentas utilizadas para extrair dados da Internet, e também métodos de pré-processamento dos textos extraídos, aplicando técnicas de PLN. O pré-processamento se faz importante, pois esse tipo de dado possui diversas características de linguagem HTML e uma grande variabilidade de dados considerados estranhos, porém busca-se manter a originalidade e coêrencia das sentenças, para que futuras pesquisas possam utilizar-se dessa base em diversas tarefas de PLN de forma consistente. Os resultados apresentam a abordagem utilizada, características e dificuldades encontradas. Por fim, é apresentada a base de dados gerada com destaque para suas principais características.	pt_BR
dc.degree.local	Pato Branco	pt_BR
dc.publisher.local	Pato Branco	pt_BR
dc.contributor.advisor1	Fávero, Eliane Maria De Bortoli	-
dc.contributor.referee1	Fávero, Eliane Maria De Bortoli	-
dc.contributor.referee2	Casanova, Dalcimar	-
dc.contributor.referee3	Ascari, Rúbia Eliza de Oliveira Schultz	-
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Departamento Acadêmico de Informática	pt_BR
dc.publisher.program	Engenharia de Computação	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
Aparece nas coleções:	PB - Engenharia de Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
basetextualengenhariasoftware.pdf		1,09 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons