Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/30878
Título: | Modelo para extração de dados e análise de sentimentos em cidades intermediárias: uma abordagem utilizando usuários centrais do Twitter |
Título(s) alternativo(s): | Model for data extraction and sentiment analysis in intermediate cities: an approach using Twitter central users |
Autor(es): | De Bortoli, Arthur Facin |
Orientador(es): | Santos, Gilson Ditzel |
Palavras-chave: | Banco de dados Cidades inteligentes Algorítmos computacionais Aprendizado do computador Data bases Smart cities Computer algorithms Machine learning |
Data do documento: | 27-Fev-2023 |
Editor: | Universidade Tecnológica Federal do Paraná |
Câmpus: | Pato Branco |
Citação: | DE BORTOLI, Arthur Facin. Modelo para extração de dados e análise de sentimentos em cidades intermediárias: uma abordagem utilizando usuários centrais do Twitter. 2023. Dissertação (Mestrado em Engenharia de Produção e Sistemas) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023. |
Resumo: | Acredita-se que a população urbana global, no ano de 2050, alcance a marca de 68% do total de habitantes. Na esteira da crescente, rápida e contínua urbanização, tem-se a complexificação dos desafios de gestão, que tem feito com que as cidades, pensando em prover melhor qualidade de vida aos seus cidadãos, passem a adotar conceitos de Cidades Inteligentes. Uma cidade passa a ser razoavelmente tecnológica, sob a ótica de Cidades Inteligentes, quando é capaz de fazer uso das ferramentas de TIC para resolução de problemas urbanos. Enquanto subconjunto destas ferramentas de TIC tem-se as redes sociais, que são produtoras de dados contínuos, de ampla difusão e disseminação. A capacidade de conhecer sobre que assuntos os cidadãos mais estão discutindo, e como se sentem diante disso, por meio dos dados de redes sociais, é algo que vai ao encontro da utilização da TIC, voltada ao contexto de Cidades Inteligentes. Todavia, a tarefa de extração e análise de dados de redes sociais não é algo trivial, especialmente em cidades de porte intermediário, brasileiras, o que clama por novas soluções. Assim, o que se propõe aqui é um modelo para extração e análise de dados, tendo por fonte a rede social Twitter, geograficamente situados no contexto das cidades intermediárias, tendo a cidade de Maringá, como lócus do estudo. Para tanto, faz-se uso de uma abordagem em usuários centrais da rede social Twitter, para extração dos dados. Para análise, são aplicadas a Alocação Latente de Dirichlet (LDA), para identificar o(s) tópico(s) proeminente(s), e Análise de Sentimentos, para descobrir sua polaridade. A extração situada no contexto das cidades, fazendo uso tanto da abordagem de usuários centrais, como da abordagem geolocalizada foi bem-sucedida e a aplicação da LDA obteve êxito, indicando os tópicos mais discutidos, o que possibilitou a constatação das temáticas mais discutidas pelos netizens. Observou-se que os tópicos principais identificados por meio da LDA foram relacionados a: Pandemia, no primeiro teste de aplicação do modelo, com coleta em janeiro de 2022, e Mobilidade Urbana, com coleta feita de setembro a dezembro de 2022, no segundo teste de aplicação do modelo. Realizando a coleta temática acerca destes assuntos, a polaridade de sentimento predominante dos netizens sobre o tema foi negativa. Verificou-se ainda que a estratégia supervisionada foi mais bem sucedida para classificação da polaridade de sentimento dos tweets, sobretudo os métodos SVM e Random Forest, sobretudo no segundo teste de aplicação do modelo. Tendo o aporte da literatura e posterior a realização de dois testes, o fluxograma final bem como um modelo genérico são apresentados ao final, sendo, posteriormente, levantadas limitações do trabalho e oportunidades para estudos futuros. |
Abstract: | It is believed that the global urban population, in the year 2050, will reach the mark of 68%. In the wake of the growing, rapid and continuous urbanization, management challenges have become more complex, which has made cities, thinking about providing a better quality of life for their citizens, start to adopt concepts of Smart Cities. A city becomes reasonably technological, from the point of view of Smart Cities, when it is able to make use of ICT tools to solve urban problems. As a subset of these ICT tools, there are social media, in which are produced continuous data, of wide diffusion and dissemination. The ability to know what subject citizens are talking about the most, and how they feel about it, through data from social media, is something that meets the use of ICT, aimed at the context of Smart Cities. However, the task of extracting and analyzing data from social media is not trivial, especially in Brazilian cities of intermediate size, which calls for new solutions. Thus, what is proposed here is a model for extracting and analyzing data, having the social media Twitter as the source of content, geographically located in the context of intermediate cities, with the city of Maringá as the locus of this study. For that, an approach of central users is used, in the social network Twitter, to extract the data. For analysis, Dirichlet Latent Allocation (LDA) is applied to identify the prominent topic(s), and Sentiment Analysis to discover its polarity. The data extraction located in the context of cities, using both the central users approach and the geotagged approach was successful as was the application of the LDA, indicating the most proeminent topics, which made it possible to verify the themes most discussed by netizens. The main topics identified through the LDA were related to: Pandemic, with data collected in January 2022, in the first model test, and Urban Mobility, with data collected from September to December 2022, in the second model test. Carrying out the thematic collection on these subjects, the predominant sentiment within the data was negative. It was also found that the supervised strategy was more successful for classifying the sentiment polarity of tweets, especially the SVM and Random Forest methods, especially in the second application test of the model. Having the contribution of the literature and subsequent performance of two tests, the final flowchart as well as a generic model are presented at the end, being, subsequently, raised limitations of the work and opportunities for future studies. |
URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/30878 |
Aparece nas coleções: | PB - Programa de Pós-Graduação em Engenharia de Produção e Sistemas |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
usuarioscentriaisanalisesentimentos.pdf | 4,64 MB | Adobe PDF | Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons