Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/27571
Título: Clusterização e análise de tweets com foco em postagens relacionadas às ações da Petrobrás
Título(s) alternativo(s): Clusterization and analysis of tweets focusing on posts releted to petobras stocks
Autor(es): Murato, Demetrius Milton
Orientador(es): Santos, Bruno Samways dos
Palavras-chave: Mineração de dados (Computação)
Análise por agrupamento
Indústria petrolífera
Data mining
Cluster analysis
Petroleum, Industry and trade
Data do documento: 29-Nov-2021
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Londrina
Citação: MURATO, Demetrius Milton. Clusterização e análise de tweets com foco em postagens relacionadas às ações da Petrobrás. 2021. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Produção) - Universidade Tecnológica Federal do Paraná, Londrina, 2021.
Resumo: A Brasil, Bolsa e Balcão (B3), responsável por R$6,45 trilhões de reais movimentados no ano de 2020, contribui diretamente e indiretamente para o aumento das informações disseminadas pelas mídias sociais, impactando o mercado acionário. Por ser em grande quantidade, os investidores não conseguem analisá-las, então, ter um artifício que colabora para o agrupamento de notícias ligadas ao um mesmo assunto, pode contribuir para o desempenho dos investidores. Diante deste cenário, o presente trabalho utilizou o aprendizado de máquina não supervisionado para agrupar posts coletados do Twitter relacionados às ações da Petrobrás. Originando-se da coleta de dados por meio da sincronização com a plataforma Twitter API, foi realizado o pré-processamento baseado em técnicas de mineração de texto, aplicação de Bag-of-Words (BoW) e Term Frequency Inverse Document Frequency (TFIDF) para definir os termos mais recorrentes e o peso de cada post até a realização do agrupamento. Neste caso, para comparação, foi realizado um agrupamento direto da matriz obtida por TFIDF e outro agrupamento após redimensionamento da matriz de pesos pelo Principal Component Analysis (PCA). Afim de confrontar e facilitar a visualização das principais diferenças, foram criados gráficos de dispersão e nuvens de palavras para cada agrupamento. Os resultados obtidos mostraram que realizar agrupamento em uma matriz redimensionada pelo Principal Component Analysis tem um melhor desempenho para a separação de textos relacionados entre si, contribuindo para a sua interpretação.
Abstract: Brasil, Bolsa e Balcão (B3), responsible for R$6.45 trillion in transactions in 2020, directly and indirectly contributes to the increase of information disseminated by social media, impacting the stock market. Because there is a large amount, investors cannot analyze them, so having an artifice that contributes to the grouping of news related to the same subject can contribute to the performance of investors. Given this scenario, the present work used unsupervised machine learning to group posts collected from Twitter related to Petrobras' stocks. Originating from data collection through synchronization with the Twitter API platform, preprocessing was performed based on text mining techniques, application of BagofWords (BoW) and Term FrequencyInverse Document Frequency (TF) IDF) to define the most recurrent terms and the weight of each post until grouping is carried out. In this case, for comparison, a direct grouping of the matrix obtained by TFIDF and another grouping after resizing the weight matrix by the Main Component Analysis (PCA) was performed. In order to confront and facilitate the visualization of the main differences, scatter plots and word clouds were created for each grouping. The results obtained showed that performing grouping in a matrix resized by the Principal Component Analysis has a better performance for the separation of related texts, contributing to its interpretation.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/27571
Aparece nas coleções:LD - Engenharia de Produção

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
clusterizacaotweetspostagenspetrobras.pdf865,17 kBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.