Agrupamento de bugs de software a partir do modelo de linguagem pré-treinado BERT e métodos de clustering

Luna, Ryan Camargo

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/29092

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Luna, Ryan Camargo	-
dc.date.accessioned	2022-07-14T14:16:40Z	-
dc.date.available	2022-07-14T14:16:40Z	-
dc.date.issued	2022-06-21	-
dc.identifier.citation	LUNA, Ryan Camargo. Agrupamento de bugs de software a partir do modelo de linguagem pré-treinado BERT e métodos de clustering. 2022. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2022.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/29092	-
dc.description.abstract	The need of software maintenance after its implementation, even the user’s difficulties in using a software application is a reality to this day. A user’s problem or software bug, it is a user’s relate that a particular procedure of the system didn’t work as expected. Some times the related fact concerns to a problem to be solved (e.g. of implementation, configuration of software, lack of users expertise), which have been occurred and had its solution documented. This fact facilitates and speeds up the service from the support team, being not necessary to send the problem to others enterprise departments or spend a lot of time in its solution. Therefore, the present work aims to classify these software problems based in text of users requirements to the support department, in order to find potential solutions rapidly. For this it was created a data base of software bugs in Portuguese, on which the PLN methods were applied to perform the pre-processing and the textual representation of texts of bugs. The textual representation occurred by applying the contextualized pre-trained model BERT in its BERT_base version. The representation of the texts was used in the application of the clustering method DBSCAN, in order to classify them. After performing tests with different hyperparameter values and dimensionality reduction methods, the results revealed that there is no underlying structure from the applied data representation. One hypothesis for the result achieved is that the pre-trained model applied is not able to adequately represent the context of bugs texts in Portuguese. Future works are proposed seeking to find more effective methods for the proposed objective.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/	pt_BR
dc.subject	Processamento de linguagem natural (Computação)	pt_BR
dc.subject	Falhas de sistemas de computação	pt_BR
dc.subject	Software - Manutenção	pt_BR
dc.subject	Natural language processing (Computer science)	pt_BR
dc.subject	Computer system failures	pt_BR
dc.subject	Software maintenance	pt_BR
dc.title	Agrupamento de bugs de software a partir do modelo de linguagem pré-treinado BERT e métodos de clustering	pt_BR
dc.title.alternative	Grouping of software bugs based on the pre-trained BERT language model and clustering methods	pt_BR
dc.type	bachelorThesis	pt_BR
dc.description.resumo	A necessidade de manutenção de software após sua implantação, ou mesmo a dificuldade dos usuários em usar um aplicativo de software é uma realidade até os dias atuais. Um problema de usuário ou bug de software, trata-se de um relato de um usuário de que determinado procedimento do sistema não funciona como o esperado. Algumas vezes o fato relatado se refere a um problema a ser resolvido, seja de implementação, de configuração do software, de falta de conhecimento do usuário, o qual já ocorreu e teve sua solução documentada. Esse fato facilita e agiliza o atendimento por parte do pessoal do suporte, não sendo necessário enviar o problema para outros departamentos da empresa ou investir muito tempo na sua solução. Sendo assim, o presente trabalho objetiva classificar esses problemas de software com base em textos de solicitações de usuários ao departamento de suporte, a fim de retornar possíveis soluções de forma rápida. Para isso foi criada uma base de dados de bugs de software na língua portuguesa, sobre a qual foram aplicados métodos de Processamento de Linguagem Natural (PLN) para realizar o pré-processamento e a representação textual dos textos de bugs. A representação textual ocorreu pela aplicação do modelo pré-treinado contextualizado Bidirectional Encoder Representations from Transformers (BERT) em sua versão BERT_base. A representação dos textos foi usada na aplicação do método de agrupamento Density-Based Clustering Based on Connected Regions with High Density (DBSCAN), a fim de classificá-los. Após realizar testes com diferentes valores de hiperparâmetros e métodos de redução de dimensionalidade, os resultados revelaram que não existe uma estrutura subjacente a partir da representação de dados aplicada. Uma hipótese para o resultado alcançado é a de que o modelo pré-treinado aplicado não é capaz de representar adequadamente o contexto dos textos de bugs em português. Trabalhos futuros são propostos buscando encontrar métodos mais eficazes para o objetivo proposto.	pt_BR
dc.degree.local	Pato Branco	pt_BR
dc.publisher.local	Pato Branco	pt_BR
dc.contributor.advisor1	Fávero, Eliane Maria De Bortoli	-
dc.contributor.referee1	Fávero, Eliane Maria De Bortoli	-
dc.contributor.referee2	Casanova, Dalcimar	-
dc.contributor.referee3	Brito, Robison Cris	-
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Departamento Acadêmico de Informática	pt_BR
dc.publisher.program	Tecnologia em Análise e Desenvolvimento de Sistemas	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO	pt_BR
Aparece nas coleções:	PB - Tecnologia em Análise e Desenvolvimento de Sistemas

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
clusteringbugssoftwarebert.pdf		4,13 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons