Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/6012
Título: Extração e análise de publicações associadas à cibersegurança no Pastebin
Título(s) alternativo(s): Extraction and analysis of publication related with cybersecurity in Pastebin
Autor(es): Ramos, Felipe Veiga
Orientador(es): Campiolo, Rodrigo
Palavras-chave: Processamento de linguagem natural (Computação)
Compartilhamento de arquivos de computador
Recuperação de dados (Computação)
Proteção de dados
Natural language processing (Computer science)
Computer file sharing
Data recovery (Computer science)
Data protection
Data do documento: 19-Nov-2018
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Campo Mourao
Citação: RAMOS, Felipe Veiga. Extração e análise de publicações associadas à cibersegurança no Pastebin. 2018. 85 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2018.
Resumo: O Pastebin é uma ferramenta de compartilhamento de texto puro, ou seja, permite a publicação de textos, inclusive de forma anônima. Nesta monografia objetiva-se investigar os textos (pastes) postados no Pastebin quanto à sua relevância para extrair e identificar informações que possam ser utilizadas para ações proativas ou reativas mais rápidas na proteção de redes de computadores e sistemas. Para identificar tais informações, foram utilizadas expressões regulares, palavras-chave, detecção de idioma e análise manual, que também serviram de entrada para algoritmos de classificação. A coleta foi realizada num intervalo de 21 dias, resultando em uma base com 3650 pastes. A partir do pré-processamento e análise da base por meio de processamento de linguagem natural e estatística, foram extraídas características que resultaram em uma base de inteligência para uso na identificação de novos pastes de interesse. Verificou-se que existem informações relacionadas à cibersegurança no Pastebin, como venda de informações bancárias, vazamento de credenciais (por exemplo e-mails), disponibilização de informações pessoais e programas alterados. Essas informações são importantes para ações proativas ou reações mais rápidas contra ciberameaças.
Abstract: Pure-text sharing tools allows the anonymous sharing of any kind of text. One of the oldest and most used tools is Pastebin. The goal of this monography is to analyse the relevance of texts (known as pastes), that were posted on Pastebin, to Cybersecurity: how to extract and identify information that can be useful to proactive and quickly reactive actions to protect computer networks and systems. In order to identify such information, the methods used were regular expressions, keywords, word count, frequency of bigrams, trigrams and quadgrams and classification’s algorithms. The collector ran for 21 days and 3650 pastes were manually inspected. A base of knowledgement was built using the chraracteristics extracted. Because of it,was possible to know that there are sensible information,like financial and personal data and cracked programs hosted on Pastebin. This kind of information allow better answer to cyber threatments.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/6012
Aparece nas coleções:CM - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
publicacoesassociadascibersegurancapastebin.pdf1,15 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.