Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica

Lemes, André Luis Guimarães

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/6596

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Lemes, André Luis Guimarães
dc.date.accessioned	2020-11-10T12:23:16Z	-
dc.date.available	2020-11-10T12:23:16Z	-
dc.date.issued	2014-08-04
dc.identifier.citation	LEMES, André Luis Guimarães. Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica. 2014. 58 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2014.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/6596	-
dc.description.abstract	Currently, Brazil is the largest producer of coffee, accounting for 33.6% of world production. The coffee belongs to the Coffea genus, from Rubiaceae family. The arabica and canephora (robust) species have great global economic importance, being the arabica responsible for 90% of production. In addition to the species, the coffee genotype also influences the quality of the beverage. The objective of this project was to develop a methodology to discriminate the different genotypes of arabica coffee, and also identify the cultivation region. Seventy-four samples of green beans of 20 genotypes of arabica coffee, grown in the cities of Mandaguari, Londrina, Paranavaí and Cornélio Procópio were provided by IAPAR (Londrina-PR). Spectra of samples were obtained by infrared spectroscopy with Fourier transform (FTIR). So, two-stage models were created using a first linear stage and a second nonlinear one. For the linear stage it was used the principal component analysis (PCA) and partial least squares method with discriminant analysis (PLS-DA). With PLS-DA, it was also possible to perform the classification of samples, providing a further comparison between the linear model and the two-stage model. For the second stage of the model it was used a regularized radial basis functions artificial neural network (RBF-R). In neural networks construction several parameters should be optimized and, in this work the sequential simplex method was used for this purpose. For geographical classification, the best model was the PLS-DA using the raw spectra in the range of 750 and 3750 cm-1. The obtained model classify correctly 100% of the samples and, had better performance confirmed by the thresholds established by Bayes' theorem. In genotypic classification, the best model found was the two-stage one using the first derivative of spectra in the range between 800 and 1900 cm-1 and PLS-DA as first stage. This model was able to correctly classify 89.04% of test specimens, and obtained better performance based on Bayes' theorem. Even performing a 100% correct geographical classification of samples, Bayes' inference showed that the models should still be modified in an attempt to find better results for sensitivity and specificity, and decrease the number of samples in the rejection region.	pt_BR
dc.description.sponsorship	CNPq e Fundação Araucária	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.subject	Espectroscopia de infravermelho	pt_BR
dc.subject	Análise de componentes principais	pt_BR
dc.subject	Redes neurais (Computação)	pt_BR
dc.subject	Mínimos quadrados	pt_BR
dc.subject	Café	pt_BR
dc.subject	Infrared spectroscopy	pt_BR
dc.subject	Principal components analysis	pt_BR
dc.subject	Neural networks (Computer science)	pt_BR
dc.subject	Least squares	pt_BR
dc.subject	Coffee	pt_BR
dc.title	Aplicação de modelos de dois estágios em problemas de classificação de alta complexidade: segmentação geográfica e genotípica de café arábica	pt_BR
dc.type	bachelorThesis	pt_BR
dc.description.resumo	Atualmente o Brasil é o maior produtor mundial de café, sendo responsável por 33,6% da produção mundial. O café pertence ao gênero Coffea, e família Rubiacea. Suas espécies arábica e canéfora (robusta) têm grande importância econômica mundial, sendo a arábica responsável por 90% da produção. Além da espécie, o genótipo do café também influencia na qualidade da bebida. O objetivo deste projeto foi desenvolver uma metodologia capaz de discriminar os diferentes genótipos de café arábica cultivados no Brasil e identificar sua região de origem. Setenta e quatro amostras de grãos verdes de 20 genótipos do café arábica, cultivados nas cidades de Mandaguari, Londrina, Paranavaí e Cornélio Procópio foram fornecidos pelo IAPAR (Londrina – PR). Foram obtidos espectros das amostras por espectroscopia de infravermelho com transformada de Fourier (FTIR). Após a realização dos pré-tratamentos dos dados, foram criados modelos de dois estágios: um estágio linear e outro não linear. No primeiro estágio do modelo de classificação foram empregados a análise de componentes principais (ACP) e o método de mínimos quadrados parciais com análise discriminante (PLS-DA) com o objetivo de reduzir a dimensionalidade dos dados. Com a realização do PLS-DA, também foi possível realizar a classificação das amostras, proporcionando uma posterior comparação entre o modelo linear e o modelo de dois estágios. Na criação do segundo estágio do modelo, foi utilizada uma rede neural artificial denominada de rede de funções de base radial de regularização (RBF de regularização). Na etapa de construção das redes neurais, uma série de parâmetros deveriam ser escolhidos, e para isto utilizou-se método simplex sequencial para otimização dos mesmos. Na classificação geográfica, o melhor modelo foi o PLS-DA utilizando a faixa espectral entre 750 e 3750 cm-1 com os dados puros, pois além de classificar corretamente 100% das amostra, teve melhor performance calculada através dos limiares estabelecidos pelo teorema de Bayes. Na classificação genotípica, o melhor modelo encontrado foi o modelo de dois estágios que utilizou a faixa espectral entre 800 e 1900 cm-1 com a primeira derivada dos dados e PLS-DA como primeiro estágio. Esse modelo foi capaz de classificar corretamente 89,04% das amostras de teste, e obteve melhor performance calculada através do teorema de Bayes. Mesmo realizando uma classificação geográfica correta de 100% das amostras, a performance de Bayes mostrou que os modelos ainda devem ser modificados na tentativa de encontrar melhores resultados de sensibilidade e especificidade e diminuir o número de amostras na região de rejeição.	pt_BR
dc.degree.local	Campo Mourão	pt_BR
dc.publisher.local	Campo Mourao	pt_BR
dc.contributor.advisor1	Bona, Evandro
dc.publisher.department	Departamento de Engenharia e Tecnologia de Alimentos	pt_BR
dc.subject.cnpq	Engenharia de Alimentos	pt_BR
Aparece nas coleções:	CM - Engenharia de Alimentos

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
CM_COEAL_2014_1_01.pdf		2,29 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas