Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/27571
Título: | Clusterização e análise de tweets com foco em postagens relacionadas às ações da Petrobrás |
Título(s) alternativo(s): | Clusterization and analysis of tweets focusing on posts releted to petobras stocks |
Autor(es): | Murato, Demetrius Milton |
Orientador(es): | Santos, Bruno Samways dos |
Palavras-chave: | Mineração de dados (Computação) Análise por agrupamento Indústria petrolífera Data mining Cluster analysis Petroleum, Industry and trade |
Data do documento: | 29-Nov-2021 |
Editor: | Universidade Tecnológica Federal do Paraná |
Câmpus: | Londrina |
Citação: | MURATO, Demetrius Milton. Clusterização e análise de tweets com foco em postagens relacionadas às ações da Petrobrás. 2021. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Produção) - Universidade Tecnológica Federal do Paraná, Londrina, 2021. |
Resumo: | A Brasil, Bolsa e Balcão (B3), responsável por R$6,45 trilhões de reais movimentados no ano de 2020, contribui diretamente e indiretamente para o aumento das informações disseminadas pelas mídias sociais, impactando o mercado acionário. Por ser em grande quantidade, os investidores não conseguem analisá-las, então, ter um artifício que colabora para o agrupamento de notícias ligadas ao um mesmo assunto, pode contribuir para o desempenho dos investidores. Diante deste cenário, o presente trabalho utilizou o aprendizado de máquina não supervisionado para agrupar posts coletados do Twitter relacionados às ações da Petrobrás. Originando-se da coleta de dados por meio da sincronização com a plataforma Twitter API, foi realizado o pré-processamento baseado em técnicas de mineração de texto, aplicação de Bag-of-Words (BoW) e Term Frequency Inverse Document Frequency (TFIDF) para definir os termos mais recorrentes e o peso de cada post até a realização do agrupamento. Neste caso, para comparação, foi realizado um agrupamento direto da matriz obtida por TFIDF e outro agrupamento após redimensionamento da matriz de pesos pelo Principal Component Analysis (PCA). Afim de confrontar e facilitar a visualização das principais diferenças, foram criados gráficos de dispersão e nuvens de palavras para cada agrupamento. Os resultados obtidos mostraram que realizar agrupamento em uma matriz redimensionada pelo Principal Component Analysis tem um melhor desempenho para a separação de textos relacionados entre si, contribuindo para a sua interpretação. |
Abstract: | Brasil, Bolsa e Balcão (B3), responsible for R$6.45 trillion in transactions in 2020, directly and indirectly contributes to the increase of information disseminated by social media, impacting the stock market. Because there is a large amount, investors cannot analyze them, so having an artifice that contributes to the grouping of news related to the same subject can contribute to the performance of investors. Given this scenario, the present work used unsupervised machine learning to group posts collected from Twitter related to Petrobras' stocks. Originating from data collection through synchronization with the Twitter API platform, preprocessing was performed based on text mining techniques, application of BagofWords (BoW) and Term FrequencyInverse Document Frequency (TF) IDF) to define the most recurrent terms and the weight of each post until grouping is carried out. In this case, for comparison, a direct grouping of the matrix obtained by TFIDF and another grouping after resizing the weight matrix by the Main Component Analysis (PCA) was performed. In order to confront and facilitate the visualization of the main differences, scatter plots and word clouds were created for each grouping. The results obtained showed that performing grouping in a matrix resized by the Principal Component Analysis has a better performance for the separation of related texts, contributing to its interpretation. |
URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/27571 |
Aparece nas coleções: | LD - Engenharia de Produção |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
clusterizacaotweetspostagenspetrobras.pdf | 865,17 kB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.