Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/27571
Registro completo de metadados
Campo DCValorIdioma
dc.creatorMurato, Demetrius Milton-
dc.date.accessioned2022-03-08T22:15:04Z-
dc.date.available2022-03-08T22:15:04Z-
dc.date.issued2021-11-29-
dc.identifier.citationMURATO, Demetrius Milton. Clusterização e análise de tweets com foco em postagens relacionadas às ações da Petrobrás. 2021. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Produção) - Universidade Tecnológica Federal do Paraná, Londrina, 2021.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/27571-
dc.description.abstractBrasil, Bolsa e Balcão (B3), responsible for R$6.45 trillion in transactions in 2020, directly and indirectly contributes to the increase of information disseminated by social media, impacting the stock market. Because there is a large amount, investors cannot analyze them, so having an artifice that contributes to the grouping of news related to the same subject can contribute to the performance of investors. Given this scenario, the present work used unsupervised machine learning to group posts collected from Twitter related to Petrobras' stocks. Originating from data collection through synchronization with the Twitter API platform, preprocessing was performed based on text mining techniques, application of BagofWords (BoW) and Term FrequencyInverse Document Frequency (TF) IDF) to define the most recurrent terms and the weight of each post until grouping is carried out. In this case, for comparison, a direct grouping of the matrix obtained by TFIDF and another grouping after resizing the weight matrix by the Main Component Analysis (PCA) was performed. In order to confront and facilitate the visualization of the main differences, scatter plots and word clouds were created for each grouping. The results obtained showed that performing grouping in a matrix resized by the Principal Component Analysis has a better performance for the separation of related texts, contributing to its interpretation.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.subjectMineração de dados (Computação)pt_BR
dc.subjectAnálise por agrupamentopt_BR
dc.subjectIndústria petrolíferapt_BR
dc.subjectData miningpt_BR
dc.subjectCluster analysispt_BR
dc.subjectPetroleum, Industry and tradept_BR
dc.titleClusterização e análise de tweets com foco em postagens relacionadas às ações da Petrobráspt_BR
dc.title.alternativeClusterization and analysis of tweets focusing on posts releted to petobras stockspt_BR
dc.typebachelorThesispt_BR
dc.description.resumoA Brasil, Bolsa e Balcão (B3), responsável por R$6,45 trilhões de reais movimentados no ano de 2020, contribui diretamente e indiretamente para o aumento das informações disseminadas pelas mídias sociais, impactando o mercado acionário. Por ser em grande quantidade, os investidores não conseguem analisá-las, então, ter um artifício que colabora para o agrupamento de notícias ligadas ao um mesmo assunto, pode contribuir para o desempenho dos investidores. Diante deste cenário, o presente trabalho utilizou o aprendizado de máquina não supervisionado para agrupar posts coletados do Twitter relacionados às ações da Petrobrás. Originando-se da coleta de dados por meio da sincronização com a plataforma Twitter API, foi realizado o pré-processamento baseado em técnicas de mineração de texto, aplicação de Bag-of-Words (BoW) e Term Frequency Inverse Document Frequency (TFIDF) para definir os termos mais recorrentes e o peso de cada post até a realização do agrupamento. Neste caso, para comparação, foi realizado um agrupamento direto da matriz obtida por TFIDF e outro agrupamento após redimensionamento da matriz de pesos pelo Principal Component Analysis (PCA). Afim de confrontar e facilitar a visualização das principais diferenças, foram criados gráficos de dispersão e nuvens de palavras para cada agrupamento. Os resultados obtidos mostraram que realizar agrupamento em uma matriz redimensionada pelo Principal Component Analysis tem um melhor desempenho para a separação de textos relacionados entre si, contribuindo para a sua interpretação.pt_BR
dc.degree.localLondrinapt_BR
dc.publisher.localLondrinapt_BR
dc.contributor.advisor1Santos, Bruno Samways dos-
dc.contributor.referee1Santos, Bruno Samways dos-
dc.contributor.referee2Lima, Rafael Henrique Palma-
dc.contributor.referee3Ribas, Carlos Alberto-
dc.publisher.countryBrasilpt_BR
dc.publisher.programEngenharia de Produçãopt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::ENGENHARIAS::ENGENHARIA DE PRODUCAOpt_BR
Aparece nas coleções:LD - Engenharia de Produção

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
clusterizacaotweetspostagenspetrobras.pdf865,17 kBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.