Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/3415
Registro completo de metadados
Campo DCValorIdioma
dc.creatorNegri, Tatianne da Costa-
dc.date.accessioned2018-09-04T13:00:53Z-
dc.date.available2018-09-04T13:00:53Z-
dc.date.issued2017-08-24-
dc.identifier.citationNEGRI, Tatianne da Costa. RNAplonc: um classificador para identificação de Longos RNAs não codificantes em plantas. 2017. 47 f. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2017.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/3415-
dc.description.abstractLong non-coding RNAs (lncRNAs) correspond to a non-coding RNA class that has gained emerging attention in the last years as a higher layer of regulation for gene expression in cells. There is, however, a lack of specific computational approaches to reliably predict lncRNA in plants, which contrast with the myriad of prediction tools available for mammalian lncRNAs. Given that the biological features and mechanisms generating lncRNAs in the cell are likely different between animals and plants, specific tools for plants is a need for these studies. With this in mind, we present here RNAplonc, a classifier approach for the identification of lncRNAs in plants from mRNA-based data. To build this tool, we used publicly available lncRNA and mRNA sequences from six plant genomes: Arabidopsis thaliana, Cucumis sativus, Glycine max, Oryza sativa, Populus trichocarpa and Setaria italica. This data was extracted from the public databases PLNlncRbase, GreeNC and Phytozome, from which we used 22.543 lncRNAs and 29.960 mRNAs as a training set. We selected 16 features that could best classify lncRNAs from 5.468 features with the REPTree algorithm for lncRNA. After an extensive comparison with tools used for lncRNA identification in plants (CPC) and animals (PLEK and lncRScan-SVM), we found that RNAplonc obtained a better accuracy (92%) in the training dataset when compared to the 77% of accuracy obtained with the CPC tool. We also found that RNAplonc produced more reliable lncRNA predictions from plant transcripts, as estimated for 17 datasets in 13 species from the CANTATAdb, GreeNC and PNRD databases. We also evaluated RNAplonc performance in two case studies that identified lncRNAs from Populus tomentosa and Gossypium, respectively. RNAplonc could correctly identify 98.5% of biologically validated lncRNAs in Populus and 99.1% in Gossypium. RNAplonc, its documentation and training datasets are available at the website: http://rnaplonc.cp.utfpr.edu.br/. We can conclude that RNAplonc retrieves correctly known plant lncRNAs. Moreover, RNAplonc can be a strategy for lncRNA discovery, providing a rich resource of candidate lncRNAs specifically for plants.pt_BR
dc.description.sponsorshipFundação Araucária de Apoio ao Desenvolvimento Científico e Tecnológico do Paranápt_BR
dc.description.sponsorshipUniversidade Tecnológica Federal do Paraná (UTFPR)pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.subjectBioinformáticapt_BR
dc.subjectPlantas - Análisept_BR
dc.subjectBiologia - Classificaçãopt_BR
dc.subjectBioinformaticspt_BR
dc.subjectPlants - Analysispt_BR
dc.subjectBiology - Classificationpt_BR
dc.titleRNAplonc: um classificador para identificação de longos RNAs não codificantes em plantaspt_BR
dc.typemasterThesispt_BR
dc.description.resumoLongos RNAs não-codificantes (lncRNAs) pertencem a classe dos RNAs que não codificam proteínas e que estão relacionados às diversas funções biológicas, como modificações da cromatina, regulação pós-transcricional, tradução, organização nuclear e diversos processos de desenvolvimento. Atualmente há uma lacuna de abordagens computacionais específicas para a identificação de lncRNAs em plantas, em oposição à variedade de ferramentas disponíveis para mamíferos. Diferente do que ocorre para outras classes de RNAs não-codificantes, a distinção dos lncRNA entre plantas e animais ainda não está esclarecida. Dado este cenário, este trabalho apresenta o RNAplonc, uma abordagem para a identificação de lncRNAs em plantas. A base da construção foram sequências públicas de lncRNAs e mRNAs disponíveis de seis genomas de plantas: Arabidopsis thaliana, Cucumis sativus, Glycine max, Oryza sativa, Populus trichocarpa e Setaria italica. Foram usados 22.543 lncRNAs e 29.960 mRNAs como conjunto de treinamento a partir de bases de dados públicas PLNlncRbase, GreeNC e Phytozome. Ainda, avaliaram-se 5.468 características em 10 algoritmos de aprendizado de máquina. Os resultados obtidos pela análise de sensibilidade e especificidade de classificação permitiram selecionar 16 características com o algoritmo REPTree, alcançando 93% de acertos na classificação de lncRNAs. Em seguida, avaliou-se o desempenho do RNAplonc com uma ferramenta largamente utilizada para a identificação de lncRNA em plantas (CPC) e outras duas aplicadas para animais (PLEK e lncRScan-SVM). O RNAplonc obteve uma sensibilidade de 99,83% na identificação de lncRNAs no conjunto de dados de treinamento quando comparado com a ferramenta CPC. Ainda, avaliou-se o desempenho do RNAplonc em dois estudos de caso independente que identificaram com evidências biológicas lncRNAs em Populus e Gossypium, tendo assim obtido 98,5% e 99,1% dos lncRNAs identificados em Populus e Gossypium, respectivamente. Toda a documentação e os conjuntos de utilizados (treinamento e testes) estão disponíveis no endereço: http://rnaplonc.cp.utfpr.edu.br/. Por fim, acredita-se que o RNAplonc é uma estratégia para contribuir na descoberta de lncRNAs candidatos especificamente para plantas.pt_BR
dc.degree.localCornélio Procópiopt_BR
dc.publisher.localCornelio Procopiopt_BR
dc.creator.Latteshttp://lattes.cnpq.br/2796315436577373pt_BR
dc.contributor.advisor1Paschoal, Alexandre Rossi-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/5834088144837137pt_BR
dc.contributor.advisor-co1Domingues, Douglas Silva-
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/7905667701769534pt_BR
dc.contributor.referee1Paschoal, Alexandre Rossi-
dc.contributor.referee2Vitorello, Claudia Barros Monteiro-
dc.contributor.referee3Walter, Maria Emília Machado Telles-
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-Graduação em Bioinformáticapt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRApt_BR
dc.subject.capesGenéticapt_BR
Aparece nas coleções:CP - Programa de Pós-Graduação em Bioinformática

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
CP_PPGBIOINFO_M_Negri, Tatianne da Costa_2017.pdf11,41 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.