Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/32389
Título: Classificação da faixa de peso de produtos com deep learning e BERT
Título(s) alternativo(s): Classification of products weight ranges using deep learning and BERT
Autor(es): Andrade, Lucas Dybax de
Orientador(es): Mantovani, Rafael Gomes
Palavras-chave: Logística
Processamento de linguagem natural (Computação)
Aprendizado do computador
Logistics
Natural language processing (Computer science)
Machine learning
Data do documento: 5-Nov-2022
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Dois Vizinhos
Citação: ANDRADE, Lucas Dybax de. Classificação da faixa de peso de produtos com deep learning e BERT. 2022. Monografia (Especialização em Ciência de Dados) – Universidade Tecnológica Federal do Paraná, Dois Vizinhos, 2022.
Resumo: Dado o crescimento exponencial do comércio virtual nas últimas décadas e a criação de plataformas de marketplace, as operações logísticas cada vez mais buscam automatizar e melhorar a previsibilidade de entrega e custos de seus itens. Um problema encontrado pelas plataformas que oferecem esse serviço é a correta estimativa do peso-frete de um produto, informação que afeta desde o planejamento logístico de empacotamento até entrega por algum veículo no endereço do cliente. Com muitos vendedores cadastrando seus itens erroneamente, dimensões erradas geram ineficiências operacionais em entregas. As soluções de aprendizado de máquina servem, nesse contexto, para utilizar dados de itens já vendidos e aferidos a fim de categorizar aqueles que ainda não foram: espera-se que produtos similares tenham características de peso e dimensões próximas. Dada a insurgência recente de classificadores de aprendizado profundo, como o BERT, e tornando-se estado da arte em problemas de classificação textual, foram propostos experimentos para avaliar a aplicabilidade dos mesmos no problema de estimativa de peso de itens de entrega. Experimentos foram realizados comparando BERT com soluções já existentes baseadas em aprendizado de máquina tradicional em um ambiente de produção de uma empresa varejista. Os modelos propostos foram avaliados utilizando dados com e sem pré-processamento, etapa que é comum à resolução de problemas baseados com redes neurais artificiais. Os resultados obtidos mostraram um desempenho preditivo superior dos classificadores baseados em BERT quando comparado aos modelos tradicionais. No entanto, o valor de acurácia balanceada de 0.63 obtido pelo melhor classificador, mesmo que superior a todas as baselines, indica que há muito espaço para melhorias antes de que a solução seja factualmente implementável. A análise das predições errôneas do modelo indicam que uma melhor etapa de pré-processamento dos dados textuais, diretamente alinhada à definição do problema, seria útil para melhorar o desempenho preditivo dos modelos induzidos.
Abstract: Given the exponential growth of e-commerce in recent decades and the creation of marketplace platforms, logistics operations increasingly seek to automate and improve the predictability of delivery and costs of their items. A recurrent problem encountered by the platforms that offer this service is the correct estimation of the freight weight of a product, an information that affects everything from the logistical planning of packaging to last-mile delivery to the customers’ addresses. With many sellers wrongly listing their items, relying on wrong dimensions lead to operational inefficiencies in delivery. Machine learning solutions serve, in this context, to use data from items already sold and measured to categorize new items that have not been sold yet: similar products are expected to have similar weight, dimensions, and characteristics. Given the recent insurgency of BERT classifiers as a state of the art in textual classification problems, different experiments were proposed to evaluate their applicability in the weight estimation problem. Experiments were performed comparing BERT against existing solutions based on traditional machine learning in the production environment of a retail company. The proposed models were evaluated using data with and without preprocessing, a pipeline step common to solutions based on artificial neural networks. The obtained results suggest a superior performance of the BERT-based classifiers compared to traditional models. However, the balanced accuracy of 0.63 in the best classifier, even being superior to all baselines, indicates that there is much room for improvement before the solution is factually implementable. The study of the misclassified instances also indicates that better data preprocessing, directly aligned with the problem definition, would be useful to improve the performance of the best estimator.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/32389
Aparece nas coleções:DV - Ciência de Dados

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
classificacaoprodutosdeeplearning.pdf493,35 kBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons