Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/32342
Título: Segmentação e classificação de espécimes de herbário: um estudo de caso com a família piperaceae giseke
Título(s) alternativo(s): Segmentation and classification of herbarium specimens: a case study with the piperaceae giseke family
Autor(es): Kajihara, Alexandre Yuji
Orientador(es): Schwerz, André Luís
Palavras-chave: Aprendizado do computador
Espécimes biológicos - Coleta e preservação
Herbários
Machine learning
Biological specimens - Collection and preservation
Herbaria
Data do documento: 28-Jul-2023
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Campo Mourao
Citação: KAJIHARA, Alexandre Yuji. Segmentação e classificação de espécimes de herbário: um estudo de caso com a família piperaceae giseke. 2023. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Campo Mourão, 2023.
Resumo: Herbários são repositórios de plantas ou fungos desidratados, que registram a riqueza de uma região. Atualmente, mais de 3.500 herbários no mundo abrigam cerca de 400 milhões de espécimes, mas milhares ainda não estão identificados, por causa da lentidão do processo manual de determinação de nomes e da escassez de taxonomistas. Uma solução promissora para esse problema é a identificação automatizada de espécimes. Assim, este estudo teve por objetivo propor uma abordagem baseada em Aprendizado de Máquina, para a identificação de exemplares de herbário, em nível de espécie. A família botânica selecionada para este trabalho foi a Piperaceae, pois a identificação de seus exemplares é complexa e desafiadora, por causa do grande número de espécies e da grande similaridade morfológica entre elas. Primeiramente, foram selecionadas, no speciesLink, 10.514 amostras de 235 espécies de Piperaceae coletadas no Brasil, que foram identificadas por especialistas com experiência na taxonomia dessa família. Esses espécimes formaram o conjunto de dados Brasil que foi, posteriormente, subdividido em subconjuntos com amostras coletadas no Paraná e nas regiões Norte, Nordeste, Sudeste, Centro-Oeste e Sul. Após a segmentação dos espécimes, por meio da U-Net, o conjunto Paraná foi utilizado para avaliar quais modo de cor (RGB e tons de cinza) e dimensão (256×256, 400×400 e 512×512 pixels) das imagens, descritores (LBP, SURF, MobileNetV2, ResNet50 e VGG16), e classificadores (DT, 𝑘-NN, MLP, RF e SVM) produziriam melhores resultados na classificação. Em decorrência dessa avaliação, a classificação das espécies dos conjuntos regionais e do Brasil foi realizada utilizando a combinação do MLP com características extraídas pela VGG16, em imagens RGB com 512×512 pixels. Entre os subconjuntos regionais, as melhores médias de F1-Score, entre 0,58 e 0,69, foram registradas naqueles com muitos exemplares, mas de poucas espécies: Nordeste (≥ 10 imagens de 35 espécies; ≥ 20 imagens de 21 espécies) e Centro-Oeste (≥ 10 imagens de 29 espécies; ≥ 20 imagens de 17 espécies). No Brasil, cujos subconjuntos com, pelo menos, 10 e 20 amostras, têm de 105 a 160 espécies, as médias de F1-Score variaram entre 0,41 e 0,46. Os resultados da classificação parecem ter sido influenciados pelos fatores: número mínimo de exemplares, de cada espécie, no subconjunto; total de espécies no subconjunto; similaridade interclasses; variabilidade intraespécie e desbalanceamento dos conjuntos de dados. Os resultados Top-3 e Top-5 foram promissores e podem contribuir com os pesquisadores, fornecendo listas de ocorrência em que as espécies procuradas tenham maiores possibilidades de estarem incluídas. Nos subconjuntos regionais com, no mínimo, 10 e 20 exemplares de cada espécie, o Top-3 e o Top-5, do MLP com a VGG16 variou entre 66,45% e 95,00%; e nos subconjuntos Brasil, entre 64,92% e 78,69%. Em suma, os resultados obtidos neste estudo demonstraram que os melhores desempenhos foram obtidos utilizando o classificador MLP em características non-handcrafted (VGG16) extraídas de imagens coloridas com 512×512 pixels. Portanto, as técnicas de Aprendizado de Máquina, aplicadas em imagens de espécimes de herbário, podem proporcionar ferramentas computacionais que auxiliem os botânicos na classificação de exemplares que aguardam identificação.
Abstract: Herbaria are deposits of dehydrated plants or fungi that register a region’s richness. In fact,more than 3,500 herbaria worldwide host approximately 400 million specimens, thousands of which have not been identified due to slowness in the process of name determining and the sheer lack of taxonomists. A promising solution for such an issue is the automated identification of specimens. The current analysis aims at proposing an approach based on Machine Learning for the identification of herbarium samples at species level. Piperaceae was the botanic family selected for this study since samples’ entification is highly complex due to the great number of species and their great morphological similarities. In the first place, 10,514 samples of 235 Piperaceae species collected in Brazil have been retrieved in speciesLink. They have been identified by experts with experience in the family’s taxonomy. The specimens constituted the dataset named Brazil, which was later subdivided into subsets with samples collected in the state of Paraná and regions North, Northeast, Southeast, Midwest and South. After specimen segmentation by U-Net, the Paraná set was employed to assess which color modes (RGB and grayscale) and dimensions (256×256, 400×400 and 512×512 pixels) of images, descriptors (LBP, SURF, MobileNetV2, ResNet50 and VGG16), and classifiers (DT, 𝑘-NN, MLP, RF and SVM) would produce the best classification results. Due to such assessment, classification of species of regional and Brazil sets was undertaken by a combination of MLP with characteristics retrieved by VGG16, in RGB images with 512×512 pixels. Among the regional subsets, the best F1-Score average, between 0.58 and 0.69, were registered in those with most samples, albeit featuring few species: Northeast (≥ 10 images of 35 species; ≥ 20 images of 21 species) and Midwest (≥ 10 images of 29 species; ≥ 20 images of 17 species). In Brazil sets with subsets of at least 10 and 20 samples and between 105 and 160 species, F1-Score average varied between 0.41 and 0.46. Classification results seem to have been affected by factors: minimum number of samples of each specie within the subset; total number of species in the subset; interclass similarity; intraspecies variability and imbalance of datasets. Results Top-3 and Top-5 were promising and may be useful to researchers with lists of occurrences in which species would have a greater inclusion possibility. In regional subsets with at least 10 and 20 samples for each species, Top-3 and Top-5 of MLP with VGG16 varied between 66.45% and 95.00%; in subsets Brazil, between 64.92% and 78.69%. Summing up, results in current study showed that best performances were obtained by classifier MLP in non-handcrafted features (VGG16) retrieved from colored images with 512×512 pixels. Consequently, Machine Learning techniques applied on herbarium specimen images may provide a computer tool that would help botanists in the classifications of samples that need identification.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/32342
Aparece nas coleções:CM - Programa de Pós-Graduação em Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
segmentacaoclassificacaoherbariopiperacea.pdf21,72 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons