Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/30886
Registro completo de metadados
Campo DCValorIdioma
dc.creatorFernandes Junior, Ricardo Corso-
dc.date.accessioned2023-03-21T16:47:03Z-
dc.date.available2023-03-21T16:47:03Z-
dc.date.issued2022-11-28-
dc.identifier.citationFERNANDES JUNIOR, Ricardo Corso. Improving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, dataset. 2022. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2022.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/30886-
dc.description.abstractDeep neural networks, a class of machine learning algorithms, added a huge leap in performance for many different tasks since they won ImageNet competition in 2012. Among the benefited fields, Natural Language Processing (NLP) was specially impacted by the publication of “Attention is All you Need” paper, in 2017, which gave foundation to many posterior advancesin the field. Since then, models are getting progressively more accurate, at the cost of getting bigger and more expensive to train. Transfer Learning contributes by enabling the reuse of large Language Models pre-trained parameters, as they are expensive to optimize. It is possible tofine-tune them from the pre-trained model checkpoint for downstream (derived) tasks. This helps with computational costs of training such large models as well as it avoids the need to gather all data needed for such endeavour. Parameter Efficient Language-model Tuning (PELT) strategies tries to deepen fine-tuning advantages by at least maintaining final model performance whilefine-tuning as few parameters as possible. This enables two things: even less computational costs and competitive performance on small data sets for fine-tuning. This work leveraged these advantages in order to obtain better model performance on a legal text classification dataset,built during this work. BitFit performance on small, domain-specific, real-world dataset wascompared with complete fine-tuning performance. Results have shown that BitFit fine-tuningis more resistant to fine-tuning data noise and, perhaps, solves the “Catastrophic Forgetting”problem. Also, BitFit outperformed complete fine-tuning on 3 out 5 dataset versions. Finally, themodel was presented to and amused the brazillian Federal Court of Audits (from Portuguese: TCU - Tribunal de Contas da União).pt_BR
dc.languageengpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/pt_BR
dc.subjectProcessamento de linguagem natural (Computação)pt_BR
dc.subjectAprendizado do computadorpt_BR
dc.subjectRedes neurais (Computação)pt_BR
dc.subjectNatural language processing (Computer science)pt_BR
dc.subjectMachine learningpt_BR
dc.subjectNeural networks (Computer science)pt_BR
dc.titleImproving model performance: comparing complete fine-tuning with parameter efficient language model tuning on a small, portuguese, domain-specific, datasetpt_BR
dc.title.alternativeMelhorando a performance do modelo: comparando ajuste-fino completo com ajuste-fino eficiente de modelos de língua em um conjunto de dados pequeno, em português e de domínio específicopt_BR
dc.typebachelorThesispt_BR
dc.description.resumoRedes Neurais Profundas, uma classe de algoritmos de aprendizado de máquina, ocasionaram um grande salto de performance para várias tarefas diferentes desde que ganharam a competição ImageNet, em 2012. Entre as áreas beneficiadas, Processamento de Linguagem Natural (PLN) foi especialmente impactada desde a publicação do artigo “Attention is All YouNeed”, em 2017, o qual deu base para muitos dos avanços recentes no campo. Desde então, modelos estão ficando cada vez mais precisos, ao custo de se tornarem maiores e mais custosos de treinar. A Transferência de Aprendizado permite o reuso dos parâmetros pré-treinados de grandes Modelos de Língua. Esse torna possível fazer o ajuste-fino dos modelos à partir do Modelo de Língua pré-treinado para a realização de tarefas afluentes. Isso contribui para a redução dos custos computacionais de treinar um modelo deste tamanho, assim como evita a necessidade de coletar todos os dados necessários para a realização de um pré-treinamento. Estratégias de Ajuste Eficiente de Parâmetros de Modelos de Língua (PELT, do inglês) buscam aprofundar as vantagens do ajuste-fino ao pelo menos manter a performance do modelo com ajuste-fino de todos os parâmetros com o mínimo de parâmetros ajustados possível. Isso permite duas coisas: um custo computacional ainda menor e performance competitiva para ajuste-fino em conjuntos de dados pequenos. Este trabalho utilizou destas vantagens para melhorar a performance do modelo no conjunto de dados de classificação de texto jurídico, feito ao decorrer deste trabalho. Foi comparada a performance entre o ajuste-fino parcial com BitFit e o ajuste-fino completo para um conjunto de dados pequeno, de domínio específico e do mundo real, utilizando-se do ambiente do Google Collaboratory. Os resultados mostraram que o ajuste-fino com BitFit é mais resistente a ruídos nos dados de ajuste-fino e, talvez, resolve o problema de “Esquecimento Catastrófico”. Ajuste-fino com BitFit também superou o ajuste-fino completo em 3 das 5 versões do conjunto de dados construído. Finalmente, o modelo foi apresentado e causou uma boa impressão no Tribunal de Contas da União.pt_BR
dc.degree.localMedianeirapt_BR
dc.publisher.localMedianeirapt_BR
dc.contributor.advisor1Aikes Junior, Jorge-
dc.contributor.advisor-co1Candido Junior, Arnaldo-
dc.contributor.referee1Aikes Junior, Jorge-
dc.contributor.referee2Gavioli, Alan-
dc.contributor.referee3Hoffmann, Alessandra Bortoletto Garbelotti-
dc.publisher.countryBrasilpt_BR
dc.publisher.programCiência da Computaçãopt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
Aparece nas coleções:MD - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
modelperformancelanguagemodel.pdf1,34 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons