Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/33993
Título: Aplicação de knowledge distillation em transfer learning
Título(s) alternativo(s): Knowledge distillation in transfer learning
Autor(es): Rangel, Juan Felipe da Silva
Orientador(es): Foleiss, Juliano Henrique
Palavras-chave: Redes neurais (Computação)
Aprendizado do computador
Compressão de dados (Computação)
Neural networks (Computer science)
Machine learning
Data compression (Computer science)
Data do documento: 23-Nov-2023
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Campo Mourao
Citação: RANGEL, Juan Felipe da Silva. Aplicação de knowledge distillation em transfer learning. 2023. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2023.
Resumo: A criação de modelos de redes neurais mais profundas foi possibilitada pelo avanço no desenvolvimento de hardware, buscando atingir os melhores desempenhos preditivos por meio da construção de modelos cada vez mais profundos. Entretanto, é necessário estar ciente dos impactos e restrições que grandes modelos trazem. Algumas implicações são: a exigência de hardware computacionalmente poderosos, o longo tempo de treinamento, o esforço computacional para realizar a inferência desses modelos, e até o impacto que esses processos podem causar no meio ambiente, por meio do grande consumo energético. Um dos modos de diminuir o consumo energético durante o processo de treinamento é por meio da utilização de Transfer Learning. Todavia, a inferência ainda deve ser realizada utilizando o modelo computacional custoso. Este trabalho visa utilizar o método de compressão Knowledge Distillation para construção de uma rede estudante com menor custo computacional, aproximando as características extraídas ao realizar Transfer Learning com a rede professora. O propósito é encontrar modelos estudantes que possam substituir as redes professoras ao realizar a inferência do modelo. Com essa finalidade, foram avaliadas diversas arquiteturas e modelos professores, comparando o quão bem os modelos estudantes aproximam as características e o desempenho preditivo do modelo professor em múltiplas tarefas. Para aproximação das características dos modelos professores foram empregadas 3 arquiteturas estudantes. Os resultados obtidos por meio dessas redes estudantes são comparáveis ou melhores do que os resultados alcançados por meio das redes professoras VGG-16, ResNet50V2, InceptionV3 e DenseNet201 em 2 dos 3 conjuntos de dados (Modified National Institute of Standards and Technology (MNIST) e Fashion-MNIST). Utilizando a Support Vector Machine (SVM) para classificação das características extraídas e aproximadas, os melhores F1-score no conjunto MNIST e Fashion-MNIST foram 0,98+-0,001 e 0,96+-0,004, respectivamente. Já no conjunto CIFAR-10 o melhor resultado foi obtido pela rede professora DenseNet201, com um F1-score de 0,71+-0,005. Devido aos resultados atingidos utilizando redes estudantes muito menos complexas do que as redes professoras, é possível dizer que os desempenhos obtidos sugerem a possibilidade da substituição do modelo professor pelo modelo estudante no processo de treinamento e inferência.
Abstract: The development of deeper neural network models has been made possible by advancements in hardware, aiming to achieve the best predictive performance through the construction of increasingly deeper models. However, it is necessary to be aware of the impacts and constraints that large models bring. Some implications include the requirement for computationally powerful hardware, long training times, computational effort to perform inference with these models, and even the environmental impact that these processes can cause through high energy consumption. One way to reduce energy consumption during the training process is through the use of Transfer Learning. However, inference still needs to be performed using the computationally expensive model. This work aims to use the Knowledge Distillation compression method to construct a student network with lower computational cost, approximating the extracted characteristics when performing Transfer Learning with the teacher network. The purpose is to find student models that can replace teacher networks when performing model inference. To achieve this goal, various architectures and teacher models were evaluated, comparing how well student models approximate the characteristics and predictive performance of the teacher model across multiple tasks. To approximate the characteristics of teacher models, three student architectures were employed. The results obtained through these student networks are comparable or better than the results achieved through the VGG-16, ResNet50V2, InceptionV3, and DenseNet201 teacher networks on 2 out of 3 datasets (MNIST and Fashion-MNlST). Using the SVM for classification of the extracted and approximated characteristics, the best F1-scores in the MNIST and Fashion-MNlST datasets were 0.98 +- 0.001 and 0.96 +- 0.004, respectively. In the CIFAR-10 dataset, the best result was obtained by the DenseNet201 teacher network, with an F1-score of 0.71 +- 0.005. Due to the results achieved using student networks much less complex than teacher networks, it is possible to suggest that the performances obtained indicate the possibility of replacing the teacher model with the student model in the training and inference process.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/33993
Aparece nas coleções:CM - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
knowledgedistillationtransferlearning.pdf17,54 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons