Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/31679
Registro completo de metadados
Campo DCValorIdioma
dc.creatorRecuero Junior, Max Humberto-
dc.date.accessioned2023-07-06T12:52:45Z-
dc.date.available2023-07-06T12:52:45Z-
dc.date.issued2023-06-21-
dc.identifier.citationRECUERO JUNIOR, Max Humberto. Uma base textual em português destinada a pesquisas de processamento de linguagem natural aplicados a engenharia do software. 2023. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/31679-
dc.description.abstractApplications of Natural Language Processing (NLP) mostly require large volumes of data. This is necessary in order to develop a robust application, typically based on machine learning algorithms. Much of the research in this field relies on specific and curated databases created by the authors themselves, which rarely reach the volume required by machine learning aplications. With the aim of providing a textual database in Brazilian Portuguese for the Software Engineering field, this work presents the process of automatic data retrieval and processing, extracted from questions and answers on the popular portal Stack Overflow, widely used by members of the field. Therefore, this work encompasses concepts of web crawling and web scraping, tools used to extract data from the internet, as well as preprocessing methods for the extracted texts using NLP techniques. Preprocessing is important because this type of data often contains HTML language characteristics and a wide range of irregular data, but the goal is to maintain the originality and coherence of the sentences, allowing future research to consistently utilize this database for various NLP tasks. The results present the approach used, its characteristics, and the challenges encountered. Finally, the generated database is presented, highlighting its main features.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/pt_BR
dc.subjectTextospt_BR
dc.subjectProcessamento de textos (Computação)pt_BR
dc.subjectSistemas de informação geográficapt_BR
dc.subjectVisualização da informaçãopt_BR
dc.subjectSistemas de coleta automática de dadospt_BR
dc.subjectTextspt_BR
dc.subjectText processing (Computer science)pt_BR
dc.subjectGeographic information systemspt_BR
dc.subjectInformation visualizationpt_BR
dc.subjectAutomatic data collection systemspt_BR
dc.titleUma base textual em português destinada a pesquisas de processamento de linguagem natural aplicados a engenharia do softwarept_BR
dc.title.alternativeA textual database on portuguese language to natural language processing aplications on software engineeringpt_BR
dc.typebachelorThesispt_BR
dc.description.resumoAplicações de Processamento de Linguagem Natural (PLN), em sua maioria, requisitam grandes volumes de dados. Isso é necessário para que que seja possível gerar uma aplicação consistente, o que normalmente é obtido por meio de métodos de aprendizado de máquina. Grande parte das pesquisas nessa área apresentam bases de dados específicas e elaboradas pelos próprios autores, o que dificilmente atinge o volume necessário para que aplicações de aprendizagem de máquina obtenham um resultado satisfatório. Visando disponibilizar uma base de dados textuais em Português brasileiro, para a área de Engenharia de Software, este trabalho apresenta o processo de obtenção automática e tratamento de dados textuais, extraídos de perguntas e respostas contidas no portal Stack Overflow, bastante popular entre os membros da área. Sendo assim, esse trabalho aborda conceitos de web crawler e web scrapper, ferramentas utilizadas para extrair dados da Internet, e também métodos de pré-processamento dos textos extraídos, aplicando técnicas de PLN. O pré-processamento se faz importante, pois esse tipo de dado possui diversas características de linguagem HTML e uma grande variabilidade de dados considerados estranhos, porém busca-se manter a originalidade e coêrencia das sentenças, para que futuras pesquisas possam utilizar-se dessa base em diversas tarefas de PLN de forma consistente. Os resultados apresentam a abordagem utilizada, características e dificuldades encontradas. Por fim, é apresentada a base de dados gerada com destaque para suas principais características.pt_BR
dc.degree.localPato Brancopt_BR
dc.publisher.localPato Brancopt_BR
dc.contributor.advisor1Fávero, Eliane Maria De Bortoli-
dc.contributor.referee1Fávero, Eliane Maria De Bortoli-
dc.contributor.referee2Casanova, Dalcimar-
dc.contributor.referee3Ascari, Rúbia Eliza de Oliveira Schultz-
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentDepartamento Acadêmico de Informáticapt_BR
dc.publisher.programEngenharia de Computaçãopt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
Aparece nas coleções:PB - Engenharia de Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
basetextualengenhariasoftware.pdf1,09 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons