Aprendizado contrastivo para a classificação de espécimes de herbário da família Piperaceae

Vieira, Alisson da Silva

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/39949

Título:	Aprendizado contrastivo para a classificação de espécimes de herbário da família Piperaceae
Título(s) alternativo(s):	Contrastive learning for the classification of herbarium specimens of the Piperaceae family
Autor(es):	Vieira, Alisson da Silva
Orientador(es):	Schwerz, André Luís
Palavras-chave:	Processamento de imagens - Técnicas digitais Aprendizado do computador Herbários Image processing - Digital techniques Machine learning Herbaria
Data do documento:	19-Nov-2025
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Campo Mourao
Citação:	VIEIRA, Alisson da Silva. Aprendizado contrastivo para a classificação de espécimes de herbário da família Piperaceae. 2025. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Campo Mourão, 2025.
Resumo:	Os herbários têm a função de registrar amostras de plantas coletadas na natureza, preservando-as como exsicatas, amostras secas fixadas em cartolinas, acompanhadas de descrições detalhadas. Essas amostras são essenciais para estudos taxonômicos, biogeográficos e ecológicos, mas precisam ser adequadamente identificadas. Normalmente, a identificação constitui um gargalo no fluxo de trabalho dos herbários, pois é uma tarefa custosa, propensa a erros e altamente dependente da capacidade e da disponibilidade dos especialistas. Recentemente, iniciativas para mitigar esse problema têm empregado imagens disponíveis em herbários virtuais para criar e disponibilizar conjuntos de dados. Esses conjuntos são destinados ao treinamento de modelos preditivos por meio de Aprendizagem de Máquina, visando apoiar os especialistas na tarefa de identificação. Entretanto, o desempenho desses modelos não tem sido satisfatório para muitas famílias botânicas devido a fatores como a alta similaridade interespécies, a grande variabilidade intraespécies e, principalmente, à distribuição de cauda longa dos conjuntos de dados, na qual muitas espécies apresentam poucas amostras. Este cenário de alta dificuldade é encontrado no conjunto de dados da família Piperaceae Giseke, em que os resultados obtidos ainda não são suficientes para auxiliar os especialistas. Em busca de uma abordagem mais robusta, o objetivo desta pesquisa é investigar o uso da Aprendizagem Contrastiva para aprimorar a identificação automatizada de espécies em herbários, em específico, na identificação de espécies da família Piperaceae. De modo geral, a Aprendizagem Contrastiva busca, em um espaço de representações, aproximar amostras semelhantes, enquanto, simultaneamente, separa aquelas que são distintas. Para a avaliação dessa abordagem, realizou-se uma série de experimentos utilizando amostras da família botânica Piperaceae Giseke. A abordagem contrastiva, especificamente o framework SimCLRv2, demonstrou bons resultados, registrando 0,62 de F1-Score com os melhores hiperparâmetros encontrados. Os resultados obtidos superam a abordagem tradicional em 26 pontos percentuais. Mais importante, os resultados destacaram a eficiência da Aprendizagem Contrastiva, que, utilizando apenas 15% dos rótulos, foi capaz de superar a abordagem tradicional utilizando 100% dos dados rotulados. Os resultados validam a Aprendizagem Contrastiva como uma estratégia robusta e de alto impacto para a classificação automatizada de espécies.
Abstract:	Herbaria serve the function of documenting plant samples collected from nature, preserving them as exsiccatae: dried specimens mounted on cardstock, accompanied by detailed descriptions. These specimens are essential for taxonomic, biogeographical, and ecological studies, but they require proper identification. Typically, identification constitutes a bottleneck in the herbarium workflow, as it is an arduous task, prone to errors, and highly dependent on the capacity and availability of specialists. Recently, initiatives to mitigate this problem have leveraged the images available in virtual herbaria to create and release datasets. These datasets are intended for training predictive models through Machine Learning, aiming to support experts in the identification task. However, the performance of these models has been unsatisfactory for many botanical families due to factors such as high inter-species similarity, significant intra-species variability, and, primarily, the long-tailed distribution of the datasets, in which many species are represented by few samples. This highly challenging scenario is exemplified by the dataset of the Piperaceae Giseke family, where the performance achieved is still insufficient to effectively assist specialists. To address this issue, this research aims to investigate the use of Contrastive Learning to enhance the automated identification of species in herbaria, with a specific focus on the species of the Piperaceae family. In general, Contrastive Learning aims to structure a representation space by pulling similar samples closer while simultaneously pushing dissimilar ones apart. To evaluate this approach, a series of experiments is proposed using samples from the botanical family Piperaceae Giseke. The contrastive approach, specifically SimCLRv2 framework, demonstrated strong performance, achieving a peak F1-Score of 0.62. This result surpasses the traditional baseline by 26 percentage points. Moreover, the findings highlight the data efficiency of Contrastive Learning, it surpassed the fully-trained traditional model’s performance while using only 15% of the labeled data. These results validate Contrastive Learning as a robust and high-impact strategy for automated species classification.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/39949
Aparece nas coleções:	CM - Programa de Pós-Graduação em Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
aprendizadocontrastivoespecimesherbario.pdf		2,5 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons