Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/36396
Registro completo de metadados
Campo DCValorIdioma
dc.creatorRamos, Lucas Michel Candido de-
dc.date.accessioned2025-04-04T19:48:36Z-
dc.date.available2025-04-04T19:48:36Z-
dc.date.issued2024-10-16-
dc.identifier.citationRAMOS, Lucas Michel Candido de. Identificação e caracterização de novos lncRNAS no genoma de lúpulo (Humulus lupulus), usando ferramentas de bioinformática. 2024. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Bioprocessos e Biotecnologia) - Universidade Tecnológica Federal do Paraná, Dois Vizinhos, 2024.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/36396-
dc.description.abstractHops (Humulus lupulus) have been used in beer production for over 1,200 years and also have pharmaceutical applications, exhibiting considerable benefits for human health. Although Brazil is the third largest beer producer in the world, approximately 98% of the hops used in the country are imported, which significantly increases the final cost of the product. Knowing these lncRNAs sequences is essential for breeding programs, with the aim of adapting hops to different climates, increasing their productivity and improving their resistance to pathogens. In this context, long non-coding RNAs (lncRNAs) plays important roles in the plant genome, including the regulation of gene expression, epigenetic regulation and response to abiotic and biotic stresses. During the analysis of the AlnC database, we identified that the largest lncRNA sequence, registered as AlnC 91911, had 2.405 base pairs. This data was crucial to define the process of preparing the genome for subsequent analyses. Based on the largest lncRNA fragment size found, we developed a Python script to cut the genome into overlapping sequences, defining the size of 2.500 bp with overlaps of 2.499 bp. After assembling the genomic library, composed of 8,713 files of approximately 1,1 GB each, we used the CPC2 and RNAplonc software to predict lncRNAs. CPC2 identified 3.582.809 transcripts as lncRNAs, while RNAplonc cataloged 2.263.355 transcripts. To remove redundant sequences generated by overlaps and extract only those classified as lncRNAs or non-coding, we used the Pentaho Business Intelligence tool. After eliminating redundancies, the sequences were analyzed in other prediction programs to increase the reliability of the results. The non-coding sequences identified by CPC2 and RNAplonc were validated using other prediction programs. Thus, we classified the sequences according to the number of programs that confirmed the prediction. The lncRNA sequences identified by the predictors were compared with those in the AlnC database to eliminate duplicates and ensure the originality of the results. This approach was optimized due to the large volume of data (approximately 8.7 TB) and the processing time required for each 1,1 GB file. In addition, in order to validate and compare the effectiveness of the different tools, we re-evaluated the sequences found in the AlnC database with the same tools RNAplonc (99.69%), CPC2 (99.62%), CNCI (98%) and PLEK (99%). We conclude that the ‘genomic slicing’ method used in this study is as efficient as conventional methods based on RNA-seq, which present a lower number of identifications when compared to the method proposed in this study. Furthermore, through cross-validation and comparison of already known sequences, we ensure reliability and innovation in the new predicted sequences. The lncRNAsidentified in this study represent a rich resource for future research, opening new perspectives for the genetic improvement of hops. Understanding the function of these regulatory elements can lead to the development of more productive varieties, resistant to diseases and with superior agronomic characteristics.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rightsAttribution 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/*
dc.subjectLúpulopt_BR
dc.subjectPlantas - Melhoramento genéticopt_BR
dc.subjectBioinformáticapt_BR
dc.subjectHopspt_BR
dc.subjectPlant breedingpt_BR
dc.subjectBioinformaticspt_BR
dc.titleIdentificação e caracterização de novos lncRNAS no genoma de lúpulo (Humulus lupulus), usando ferramentas de bioinformáticapt_BR
dc.title.alternativeIdentification and characterization of novel lncRNAs in the hop (Humulus lupulus) genome, using bioinformaticspt_BR
dc.typebachelorThesispt_BR
dc.description.resumoO lúpulo (Humulus lupulus) é usado na produção de cerveja há mais de 1.200 anos e também tem aplicações farmacêuticas, exibindo benefícios consideráveis para a saúde humana. Apesar de o Brasil ser o terceiro maior produtor de cerveja do mundo, cerca de 98% do lúpulo utilizado no país é importado, o que aumenta significativamente o custo final do produto. Conhecer essas sequências de lncRNAs é essencial para programas de melhoramento genético da espécie, com o objetivo de adaptar o lúpulo a diferentes climas, aumentar sua produtividade e melhorar sua resistência a patógenos. Nesse contexto, os RNAs longos não codificantes (lncRNAs) desempenham funções importantes no genoma de plantas, incluindo a regulação da expressão gênica, regulação epigenética e resposta a estresses abióticos e bióticos. Durante a análise do banco de dados AlnC, identificamos que a maior sequência de lncRNA, registrada como AlnC 91911, possuía 2.405 pares de bases. Esse dado foi crucial para definir o processo de preparo do genoma para análises subsequentes. Com base no maior tamanho de fragmento de lncRNA encontrado, desenvolvemos um script em Python para recortar o genoma em sequências sobrepostas, definindo o tamanho de 2.500 pb com sobreposições de 2.499 pb. Após a montagem da biblioteca genômica, composta por 8713 arquivos de aproximadamente 1,1 GB cada, utilizamos os softwares CPC2 e RNAplonc para a predição de lncRNAs. O CPC2 identificou 3.582.809 transcritos como lncRNAs, enquanto o RNAplonc catalogou 2.263.355 transcritos. Para remover sequências redundantes, geradas pelas sobreposições, e extrair apenas aquelas classificadas como lncRNAs ou non-coding, utilizamos a ferramenta de Business Intelligence Pentaho. Após a eliminação das redundâncias, as sequências foram analisadas em outros programas de predição para aumentar a confiabilidade dos resultados. As sequências não codificantes identificadas pelo CPC2 e RNAplonc foram validadas através de outros programas preditores. Assim, classificamos as sequências conforme o número de programas que confirmaram a predição. As sequências de lncRNA identificadas pelos preditores foram comparadas com aquelas do banco de dados AlnC para eliminar duplicatas e garantir a originalidade dos resultados. Essa abordagem foi otimizada devido ao grande volume de dados (aproximadamente 8,7 TB) e ao tempo de processamento necessário para cada arquivo de 1,1 GB. Além disso com o objetivo de validar e comparar a eficácia das diferentes ferramentas, reavaliamos as sequências encontradas no banco de dados AlnC com as mesmas ferramentas RNAplonc (99,69%), CPC2(99,62%), CNCI(98%) e PLEK(99%). Concluímos que o método de ’fatiamento genômico’ empregado neste trabalho se mostra tão eficiente quanto os métodos convencionais baseados em RNA-seq, os quais apresentam um número inferior de identificações quando comparadas com o método proposto neste trabalho. Além disso, através da validação cruzada e comparação de sequências já conhecidas, garantimos confiabilidade e inovação nas novas sequências preditas. Os lncRNAs identificados neste estudo representam um rico recurso para futuras pesquisas, abrindo novas perspectivas para o melhoramento genético do lúpulo. A compreensão da função desses elementos regulatórios pode levar ao desenvolvimento de variedades mais produtivas, resistentes a doenças e com características agronômicas superiores.pt_BR
dc.degree.localDois Vizinhospt_BR
dc.publisher.localDois Vizinhospt_BR
dc.contributor.advisor1Rocha, Tatianne Costa Negri-
dc.contributor.referee1Barros, Flavia Regina Oliveira de-
dc.contributor.referee2Perseguini, Juliana Morini Küpper Cardoso-
dc.contributor.referee3Rocha, Tatianne Costa Negri-
dc.publisher.countryBrasilpt_BR
dc.publisher.programEngenharia de Bioprocessos e Biotecnologiapt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::ENGENHARIAS::ENGENHARIA QUIMICApt_BR
Aparece nas coleções:DV - Engenharia de Bioprocessos e Biotecnologia

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
identificacaolncrnaferramentasbioinformatica.pdf5,98 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons