Classificação do nível de crescimento de colônias de fungos em meio sólido: uma abordagem baseada em aprendizado de máquina

Vismara, Edgar de Souza

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/30124

Título:	Classificação do nível de crescimento de colônias de fungos em meio sólido: uma abordagem baseada em aprendizado de máquina
Título(s) alternativo(s):	Classification of the growth level of fungal colonies on solid state: a machine learning approach
Autor(es):	Vismara, Edgar de Souza
Orientador(es):	Mantovani, Rafael Gomes
Palavras-chave:	Aprendizado do computador Fungos Algorítmos computacionais Machine learning Fungi Computer algorithms
Data do documento:	21-Dez-2021
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Dois Vizinhos
Citação:	VISMARA, Edgar de Souza. Classificação do nível de crescimento de colônias de fungos em meio sólido: uma abordagem baseada em aprendizado de máquina. 2021. Trabalho de Conclusão de Curso (Especialização em Ciência de Dados) – Universidade Tecnológica Federal do Paraná, Dois Vizinhos, 2021.
Resumo:	A aferição do crescimento de colônias em meio sólido é uma técnica comumente empregada em estudos de agentes de controle de fungos fitopatogênicos. Os procedimentos de aferição usualmente utilizados são baseados na identificação visual e na medição manual das colônias em placas de PetriR. Recentemente, tem-se desenvolvido algumas técnicas de aferição do crescimento microbiano baseadas na segmentação das imagens da colônia. Esta segmentação é feita aplicando-se a análise digital das imagens ou técnicas de aprendizado de máquina (AM). Estas abordagens tem dois pontos em comum: grande controle do processo de obtenção das imagens e ter como saída uma imagem segmentada que, no caso do AM, só é possível através da aplicação de um método exaustivo de rotulação manual em nível de pixel. Além disso, os trabalhos baseados em AM pouco exploram a importância dos atributos das imagens no processo de classificação e testam uma gama muito limitada de algoritmos. Uma característica interessante do AM é o fato deste permitir a realização de tarefas de classificação de imagens inteiras sem a necessidade da rotulação em nível de pixel. Desta forma, este trabalho propõe um método de classificação do crescimento fúngico, baseado em AM, que realiza esta tarefa em imagens inteiras obtidas sem controle das condições de luminosidade. Este método foi aplicado à um conjunto de 537 imagens de placas de PetriR incubadas com Botrytis cinerea e obtidas num experimento conduzido no laboratório de fitopatologia da UTFPR/DV. As imagens foram pré processadas e delas foram extraídas 94 características que deram origem à quatro conjuntos de dados: "Canais de cor", "Histogramas", "Demais características" (borda + textura) e "Completo" (todas as características). Destes foram removidas as características constantes, identificadoras e auto correlacionadas (limiar de 0,85). Ao final, uma novo conjunto de dados foi criado pela agregação das características remanescentes dos três primeiros. A rotulação considerou 3 níveis de crescimento e foi realizado por um especialista. Para cada um dos 5 conjuntos de dados foram treinados 9 algoritmos de AM (dois baseline através de um procedimento de validação cruzada do tipo k-fold, com k = n = 10, gerando 45 modelos induzidos. A fim de comparar o desempenho dos modelos foi computado o valor de acurácia balanceada, posteriormente comparados pelo teste de Kruskal-Wallis. 16 modelos apresentaram acurácia balanceada acima de 0,8, sendo que destes, os 11 primeiros não apresentaram diferença à 5% de significância pelo teste estatístico. Dentre as características testadas, as de Cor se mostraram as mais relevantes, de acordo com aos valores de importância computados no algoritmo Random Forest e pelo fato de haver 6 modelos induzidos apenas com estas características no rol dos 11 melhores. Dentre todas as características a mais importante foi o desvio padrão da intensidade dos canais. Por fim, destes 11 melhores modelos foram selecionados 3 de acordo com a complexidade do algoritmo e sempre utilizando as características de cor como preditores. Foram eles: Multinomial, k-NN e SVM. Ao final estes modelos foram utilizados para predição no conjunto de dados a partir de um processo de voting, obtendo-se uma acurácia balanceada de 0,9099667.
Abstract:	The measurement of colony growth in solid state is a common technique applied in atudies that develops control agents of pathogenic fungi. The measurement procedures usually envolves the visual identification and manual measurement of colonies in petri dishes. Recently, some measurement techniques have been developed based on the segmentation of colony images. This segmentation is done by applying digital image analysis techniques or machine learning models (ML). These approaches have two things in common: high controlled enviroment where the images were obtained; and a segmented image as final output, which in the case of AM, is only possible through the application of an exhaustive method of manual labeling at the pixel level. In addition, those ML-based studies little explores the importance of image features in the classification process and they also tests a very limited range of ML algorithms. An interesting characteristic of ML is the fact that it allows to perform the classification tasks of entire images without the need of pixel-level labeling. Thus, this work proposes a classification method of fungal growth, based on ML, which performs this task in entire images obtained with any control of the luminosity conditions. This method was applied to a set of 537 images of petri dishes incubated with Botrytis cinerea and obtained in an experiment ran in the phytopathology laboratory of UTFPR/DV. The images were pre-processed and from them were extracted 94 features that gave rise to four data sets: "Color channels", "Histograms", "Remain features" (edge + texture) and "Complete" (all features). From these, were removed constant, identifiers and self-correlated features (threshold of 0.85). Also a new data set was created by aggregating the first three. The labeling process considered 3 growth levels and was performed by a specialist. For each of the 5 datasets, 9 ML algorithms (including two baselines) were trained through a k-fold cross-validation procedure with k = n = 10, producing 45 trained models. In order to compare the performance of the models, the balanced accuracy was computed and it values were submitted to comparison through Kruskal-Wallis test. From all trained models, 16 showed balanced accuracy above 0.8 and the top 11 showed no difference at 5% of significance by the statistical test. Among the tested features, those related to the color chanels were the most relevant according to the importance values computed in the Random Forest and because there are 6 models trained only with these features on the top 11. Among all, the most important feature was the standard deviation of the channel intensity. Finally, from these 11 top models we selected 3 according to the complexity of its algorithm and always using the color channels as features. They were: Multinomial, k-NN and SVM. At the end these models were combined trough a voting procedure and used for prediction, obtaining a balanced accuracy of 0.9099667.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/30124
Aparece nas coleções:	DV - Ciência de Dados

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
classificacaocrescimentocoloniafungos.pdf		8,9 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons