Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/3173
Título: | Deep learning approaches for soft biometrics classification in videos |
Título(s) alternativo(s): | Abordagens de aprendizado profundo para classificação de biometrias fracas em vídeo |
Autor(es): | Aquino, Nelson Marcelo Romero |
Orientador(es): | Lopes, Heitor Silvério |
Palavras-chave: | Biometria Computação Aprendizado do computador Processamento de imagens - Técnicas digitais Identificação biométrica Visão por computador Métodos de simulação Engenharia elétrica Biometry Computer science Machine learning Image processing - Digital techniques Biometric identification Computer vision Simulation methods Electric engineering |
Data do documento: | 2-Mar-2018 |
Editor: | Universidade Tecnológica Federal do Paraná |
Câmpus: | Curitiba |
Citação: | AQUINO, Nelson Marcelo Romero. Deep learning approaches for soft biometrics classification in videos. 2018. 88 f. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2018. |
Resumo: | O número de câmeras de vigilância instaladas em locais públicos cresceu enormemente nos últimos anos devido à necessidade de aumentar a segurança pública, permitindo obter uma grande quantidade de imagens e vídeos em tempo real sem muito esforço. Diferentes tipos de problemas podem ser resolvidos através do processamento dos dados obtidos por estas câmeras, como a identificação de indivíduos. As biometrias fracas podem ser úteis para executar esta tarefa, uma vez que elas fornecem informações que podem ser usadas para diferenciar uma pessoa de outra sem exigir a cooperação direta delas. No entanto, isso exige uma tarefa exaustiva de análise a ser feita por observadores humanos. Dependendo da quantidade de câmeras, isso pode até se tornar uma tarefa impossível. Métodos de visão computacional podem ser uma alternativa válida para realizar classificação de biometrias fracas em imagens ou vídeos. Os métodos de Deep Learning (DL) têm alcançado desempenhos muito bons em tarefas de visão computacional, como reconhecimento e detecção de objetos, ou segmentação de imagens. Seguindo esta linha, este trabalho tem como objetivo estudar a adequação de métodos de DL para classificar biometrias fracas em imagens ou vídeos. Três contribuições são apresentadas sobre este tema nesta dissertação. Primeiro, realizou-se um estudo sobre o efeito do aumento de dados no desempenho de redes neurais convolucionais para classificação de biometrias fracas em imagens. A segunda contribuição está relacionada com a transferência de informação de um conjunto de imagens a outro. Este processo se baseia em treinar um modelo com dados de uma distribuição e testá-lo em dados de outra distribuição. Finalmente, foi avaliado o uso de modelos de DL para realizar a classificação em vídeos. Para este propósito, foi proposta uma nova abordagem baseada no uso de redes de memória bidirecionais de longo e curto prazo. Resultados para os experimentos de aumento de dados mostram que grandes aumentos não induzem ao sobre-ajuste e que balancear um conjunto de dados antes do treino requer menor aumento para que o desempenho do modelo melhore. Quanto à transferência de informação, os resultados mostram que pode haver uma correlação entre a complexidade e similaridade dos conjuntos de dados que são utilizados para treinar e testar um modelo. Assim, se esta técnica for aplicada, o conjunto de treinamento deve preferencialmente ser muito semelhante ao do teste e deve ser de maior complexidade. Embora isso não seja definitivo, já que pode haver exceções dependendo da biometria fraca a classificar. Em termos de classificação de vídeo, em geral, nossas abordagens baseadas em uma rede neural recorrente e um modelo DL que representa dependências temporais através de um filtro passa-baixas produziram melhores resultados, em termos de acurácia geral e balanço de classificação, que uma abordagem baseada em classificar um vídeo usando apenas um de seus quadros. |
Abstract: | The number of surveillance cameras installed in public places has grown enormously during the past years due to the necessity to increase public security, allowing to obtain a large amount of images and videos in real time without much effort. Different types of problems can be solved by processing the data obtained by security cameras, such as the identification of individuals. Soft biometrics attributes can be useful to perform this task, since they provide information that can be used to differentiate one person from another without requiring their direct cooperation. However, this demands an exhaustive process of analysis to be carried by one or more human observers. Depending on the quantity of cameras, this could even become an impossible task for humans. Hence, computer vision methods could be a valid alternative to perform soft biometric classification in images or videos. Within this score, Deep Learning (DL) methods have risen recently, achieving state-of-the art performances for several computer vision tasks such as object recognition, object detection and image segmentation. This is possible due to their capability to learn both, features and classifier, at once, in order to solve a particular problem. Following this line, this work aims at empirically studying the suitability of DL methods for classifying soft biometrics in images or videos. We present three contributions regarding this subject in this dissertation. First, we perform a study on the effect of data augmentation on the performance of convolutional neural networks for soft biometrics classification. The second contribution is related to transferring information from one soft biometric dataset into another to perform classification. This process is achieved by training a model with data from a dataset in order to test it on data from another one. Finally, we evaluate the use of DL models to represent or learn temporal dependencies, so as to perform soft biometrics classification in videos. For this task, we propose a novel approach based on the use of bidirectional long short term memory networks. Results for the experiments regarding data augmentation show that large augmentation sizes do not induce overfitting and that balancing a dataset before performing on-line data augmentation leads to the necessity of smaller augmentation sizes in order to start improving the performance of the networks. As for transfer learning, results show that there could be a correlation between the complexity and the similarity of the datasets that are used for training and testing a model. Thus, if this technique is applied, the training set should preferably be very similar to the test data and should have a higher complexity. Although this is not definitive, since there could be exceptions depending on the soft biometric attribute to classify. Regarding video classification, in general, our approaches based on a recurrent network and a DL model that represents temporal dependencies through a low-pass filter yielded better results, in terms of overall accuracy and classification balance, than the baseline, based on classifying a video using only one of its frames. |
URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/3173 |
Aparece nas coleções: | CT - Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
CT_CPGEI_M_Aquino, Nelson Marcelo Romero_2018.pdf | 28,22 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.