Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/36594
Título: | Detecção de fraudes em licitações públicas através da identificação de anomalias nos valores cobrados e da análise de redes complexas formadas por interações de compra |
Título(s) alternativo(s): | Fraud detection in public biddings through the identification of anomalies in the charged values and the analysis of complex networks formed by purchase interactions |
Autor(es): | Abreu, Breno Moura de Pereira, Thomaz Hugo Suzuki |
Orientador(es): | Gomes Júnior, Luiz Celso |
Palavras-chave: | Aprendizado do computador Estruturas de dados (Computação) Licitação pública Fraude - Detecção Machine learning Data structures (Computer science) Letting of contracts Fraud - Detection |
Data do documento: | 5-Dez-2023 |
Editor: | Universidade Tecnológica Federal do Paraná |
Câmpus: | Curitiba |
Citação: | ABREU, Breno Moura de; PEREIRA, Thomaz Hugo Suzuki. Detecção de fraudes em licitações públicas através da identificação de anomalias nos valores cobrados e da análise de redes complexas formadas por interações de compra. 2023. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) - Universidade Tecnológica Federal do Paraná, Curitiba, 2023. |
Resumo: | A detecção de anomalias em conjuntos de dados é de grande relevância em diversos cenários atuais, principalmente na área contábil onde anomalias podem ser consideradas indícios de fraude. Este tipo de análise pode ser usado para mitigar riscos e evitar perdas financeiras, sobretudo em órgãos públicos. Este trabalho tem como objetivo a detecção de anomalias em dados de notas fiscais de compras do setor público brasileiro de forma autônoma, para ajudar e acelerar o trabalho de auditores na área. Foram exploradas duas frentes distintas: (i) a detecção em dados estruturados utilizando o Local Outlier Factor (LOF), Isolation Forest (iForest) e Self-Organizing Maps (SOM); e (ii) a detecção em redes complexas utilizando Generative Adversarial Attributed Network Anomaly Detection (GAAN) e Contrastive self-supervised Learning framework for Anomaly detection on attributed networks (CoLA). No caso da detecção em dados estruturados (i), o iForest demonstrou ser o método mais promissor para a detecção de fraudes enquanto que o LOF apresentou resultados insatisfatórios; o SOM se mostrou mais eficaz na detecção de outliers isolados, tornando impossível identificar casos de fraudes. No caso da detecção de anomalias em redes complexas (ii), o modelo CoLA demonstrou um resultado mais favorável na identificação de nós irregulares, onde foi possível observar diferenças entre o nó apontado pelo modelo e nós semelhantes, sendo isso uma indicação que o nó é realmente uma instância anômala. Já o modelo GAAN identificou como nós anômalos instâncias bastante isoladas, ou seja, nós com poucas relações ligadas a ele (arestas) e poucos nós semelhantes, dificultando bastante a análise do resultado, não sendo possível identificar se de fato é uma instância possivelmente anômala ou uma instância normal. |
Abstract: | Anomaly detection in datasets is of great relevance to multiple current scenarios, particularly in the accounting field where anomalies can be considered signs of fraud. This type of analysis can be used to mitigate risks and avoid financial losses, especially in the public sector. The goal of this project is to use anomaly detection methods in invoice data from the Brazilian public sector autonomously, in order to help and speed up the work of financial auditors. Two distinct fronts were explored: (i) anomaly detection in structured data using Local Outlier Factor (LOF), Isolation Forest (iForest) and Self-Organizing Maps (SOM); and (ii) anomaly detection in complex networks using Generative Adversarial Attributed Network Anomaly Detection (GAAN) and Contrastive self-supervised Learning framework for Anomaly detection on attributed networks (CoLA). The results with higher anomaly scores were analyzed manually by the developers and, after comparing them with similar entries, were categorized according to their probability of being fraudulent instances. For the detection in structured data (i), the iForest proved to be the most promising method for detecting frauds, while the LOF showed unsatisfactory results; the SOM method proved to be more effective in detecting isolated outliers, making it impossible to identify fraud cases. For the detection in complex networks (ii), the CoLA model showed better results in the identification of irregular nodes where it was possible to observe differences between a node pointed by the model and other similar nodes, indicating that the node is, in fact, an anomaly instance. The GAAN model identified greatly isolated anomaly nodes, in other words nodes with few connections and few similar nodes, making it difficult to analyze the results and to identify if the instance is an anomaly or not. |
URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/36594 |
Aparece nas coleções: | CT - Sistemas de Informação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
deteccaofraudeslicitacoespublicas.pdf | 3,03 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons