Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica

Lemes, André Luis Guimarães

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/6596

Título:	Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica
Autor(es):	Lemes, André Luis Guimarães
Orientador(es):	Bona, Evandro
Palavras-chave:	Espectroscopia de infravermelho Análise de componentes principais Redes neurais (Computação) Mínimos quadrados Café Infrared spectroscopy Principal components analysis Neural networks (Computer science) Least squares Coffee
Data do documento:	4-Ago-2014
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Campo Mourao
Citação:	LEMES, André Luis Guimarães. Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica. 2014. 58 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2014.
Resumo:	Atualmente o Brasil é o maior produtor mundial de café, sendo responsável por 33,6% da produção mundial. O café pertence ao gênero Coffea, e família Rubiacea. Suas espécies arábica e canéfora (robusta) têm grande importância econômica mundial, sendo a arábica responsável por 90% da produção. Além da espécie, o genótipo do café também influencia na qualidade da bebida. O objetivo deste projeto foi desenvolver uma metodologia capaz de discriminar os diferentes genótipos de café arábica cultivados no Brasil e identificar sua região de origem. Setenta e quatro amostras de grãos verdes de 20 genótipos do café arábica, cultivados nas cidades de Mandaguari, Londrina, Paranavaí e Cornélio Procópio foram fornecidos pelo IAPAR (Londrina – PR). Foram obtidos espectros das amostras por espectroscopia de infravermelho com transformada de Fourier (FTIR). Após a realização dos pré-tratamentos dos dados, foram criados modelos de dois estágios: um estágio linear e outro não linear. No primeiro estágio do modelo de classificação foram empregados a análise de componentes principais (ACP) e o método de mínimos quadrados parciais com análise discriminante (PLS-DA) com o objetivo de reduzir a dimensionalidade dos dados. Com a realização do PLS-DA, também foi possível realizar a classificação das amostras, proporcionando uma posterior comparação entre o modelo linear e o modelo de dois estágios. Na criação do segundo estágio do modelo, foi utilizada uma rede neural artificial denominada de rede de funções de base radial de regularização (RBF de regularização). Na etapa de construção das redes neurais, uma série de parâmetros deveriam ser escolhidos, e para isto utilizou-se método simplex sequencial para otimização dos mesmos. Na classificação geográfica, o melhor modelo foi o PLS-DA utilizando a faixa espectral entre 750 e 3750 cm-1 com os dados puros, pois além de classificar corretamente 100% das amostra, teve melhor performance calculada através dos limiares estabelecidos pelo teorema de Bayes. Na classificação genotípica, o melhor modelo encontrado foi o modelo de dois estágios que utilizou a faixa espectral entre 800 e 1900 cm-1 com a primeira derivada dos dados e PLS-DA como primeiro estágio. Esse modelo foi capaz de classificar corretamente 89,04% das amostras de teste, e obteve melhor performance calculada através do teorema de Bayes. Mesmo realizando uma classificação geográfica correta de 100% das amostras, a performance de Bayes mostrou que os modelos ainda devem ser modificados na tentativa de encontrar melhores resultados de sensibilidade e especificidade e diminuir o número de amostras na região de rejeição.
Abstract:	Currently, Brazil is the largest producer of coffee, accounting for 33.6% of world production. The coffee belongs to the Coffea genus, from Rubiaceae family. The arabica and canephora (robust) species have great global economic importance, being the arabica responsible for 90% of production. In addition to the species, the coffee genotype also influences the quality of the beverage. The objective of this project was to develop a methodology to discriminate the different genotypes of arabica coffee, and also identify the cultivation region. Seventy-four samples of green beans of 20 genotypes of arabica coffee, grown in the cities of Mandaguari, Londrina, Paranavaí and Cornélio Procópio were provided by IAPAR (Londrina-PR). Spectra of samples were obtained by infrared spectroscopy with Fourier transform (FTIR). So, two-stage models were created using a first linear stage and a second nonlinear one. For the linear stage it was used the principal component analysis (PCA) and partial least squares method with discriminant analysis (PLS-DA). With PLS-DA, it was also possible to perform the classification of samples, providing a further comparison between the linear model and the two-stage model. For the second stage of the model it was used a regularized radial basis functions artificial neural network (RBF-R). In neural networks construction several parameters should be optimized and, in this work the sequential simplex method was used for this purpose. For geographical classification, the best model was the PLS-DA using the raw spectra in the range of 750 and 3750 cm-1. The obtained model classify correctly 100% of the samples and, had better performance confirmed by the thresholds established by Bayes' theorem. In genotypic classification, the best model found was the two-stage one using the first derivative of spectra in the range between 800 and 1900 cm-1 and PLS-DA as first stage. This model was able to correctly classify 89.04% of test specimens, and obtained better performance based on Bayes' theorem. Even performing a 100% correct geographical classification of samples, Bayes' inference showed that the models should still be modified in an attempt to find better results for sensitivity and specificity, and decrease the number of samples in the rejection region.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/6596
Aparece nas coleções:	CM - Engenharia de Alimentos

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
CM_COEAL_2014_1_01.pdf		2,29 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas