Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/32396
Título: Integração de dados proteômicos de tecidos humanos para potencializar a descoberta de genes como alvos moleculares a nível proteico
Título(s) alternativo(s): Integration of proteomic data from human tissues to enhance the discovery of genes as molecular targets at the protein level
Autor(es): Machado, Karla Cristina Tabosa
Orientador(es): Carniel, Anderson Chaves
Palavras-chave: Proteínas
Antígenos
Integração de dados (Computação)
Proteins
Antigens
Data integration (Computer service)
Data do documento: 6-Out-2022
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Dois Vizinhos
Citação: MACHADO, Karla Cristina Tabosa. Integração de dados proteômicos de tecidos humanos para potencializar a descoberta de genes como alvos moleculares a nível proteico. 2022. Monografia (Especialização em Ciência de Dados) – Universidade Tecnológica Federal do Paraná, Dois Vizinhos, 2022.
Resumo: A proteômica é uma área do conhecimento responsável por analisar todo o conjunto de dados proteicos sintetizados pelo genoma, bem como suas modificações pós-traducionais. Essa área tem passado por grandes avanços tecnológicos na última década em termos de sensibilidade e capacidade de sequenciamento, em consequência, a quantidade de dados proteômicos disponibilizados em repositórios públicos tem aumentado significativamente, possibilitando a integração e análise exploratória de tais dados. Tradicionalmente, análises genômicas e transcriptômicas foram utilizadas para o entendimento do perfil de todo ambiente tumoral. No entanto, o estudo do genoma e do transcriptoma não são suficientes para elucidar os mecanismos moleculares de uma célula, pois a função ocorre em sua maioria a nível proteico. Além disso, a quantidade de mRNA em uma célula não é necessariamente proporcional ao nível de proteína codificado. Com o desenvolvimento das tecnologias proteômicas, tornou-se possível utilizar o proteoma para explorar a caracterização molecular do câncer, bem como para revelar novos biomarcadores de proteínas. Uma dificuldade é que, enquanto estudos transcriptômicos trabalham com centenas de amostras, de células ou tecidos, os estudos proteômicos trabalham com poucas amostras. A integração de dados proteômicos de vários estudos pode solucionar esta problemática, proporcionando uma visão mais global do número das amostras biológicas. O objetivo deste trabalho é integrar dados proteômicos públicos de tecidos humanos de vários estudos e realizar uma análise exploratória desses dados por meio da descoberta de proteínas abundantes em tecidos tumorais, a fim de potencializar a identificação de genes a nível proteico como alvos moleculares para o câncer. Durante o pré-processamento, foram realizados os processos de limpeza, integração e transformação dos dados. Foram processados aproximadamente 10 Tb de dados proteômicos, contendo mais de 500 amostras de tecidos saudáveis, tumores coletados de pacientes e de linhagens celulares imortalizadas usadas como modelo em câncer. Com a integração de dados proteômicos, amostras biológicas de diferentes estudos foram classificadas de acordo com tecido de origem e agrupadas, com o intuito de amplificar o número de amostras por tecido. O agrupamento revelou 140 amostras de tecidos saudáveis, que foram agrupadas em um único tecido e, 385 amostras tumorais, que foram agrupadas de acordo com o tecido tumoral de origem. Em seguida, a variável que indica a abundância das proteínas nos tecidos biológicos foi normalizada e convertida em quatro tipos de categoria (“muito baixa”, “baixa”, “média”, “alta”). Para realizar a identificação de proteínas como alvos moleculares para o câncer, a análise exploratória focou na caracterização de antígenos de câncer/testículo (CTAs) a nível proteico. Para isso, CTAs preditos anteriormente em trabalhos transcriptômicos foram considerados. Como resultado, a integração dos dados proteicos identificou 17200 proteínas únicas e a análise exploratória dos dados revelou 212 CTAs a nível de proteína, dos quais 40 foram categorizadas com expressão “média” em tecidos cancerígenas e “muito baixa” ou “baixa” no grupamento saudável. Em conclusão, a análise exploratória realizada neste trabalho apresenta potencial para permitir futuros avanços na caracterização de proteomas tumorais e consequentemente, na identificação de proteínas como alvos moleculares para o câncer.
Abstract: Proteomics is is an area of knowledge responsible for analyze synthesized protein dataset by the genome, as well as its post-translational modifications. This area has undergone technological breakthroughs in the last decade regarding sensitivity and throughput, and as a result, the size of proteomic data available in public repository has increased significantly, enabling the integration and exploratory data analysis. Traditionally, genomics and transcriptomics analysis were used to understand the profile of the whole tumor environment. But genomic and transcriptomic studies are not sufficient to elucidate all molecular mechanisms in the cell, since function occurs mostly at the protein level. Moreover, the amount of mRNA is not necessarily proportional to the translated protein level. Proteomic approaches allowed to use the proteome to explore cancer molecular characterization, as well as reveal new biomarkers, leading toward personalized medicine. One challenge is that while transcriptomics studies can be done using hundreds of samples, from cells or tissues, proteomics studies work with few samples. The integrated proteomic data from multiple studies can solve this problem, allowing a more comprehensive view of the samples under analysis. This work aims to perform to integrate public protemic data from human tissues and perform an exploratory data analysis through the discovery of abundant proteins in tumoral tissue, in order to enhance the identification genes as molecular targes for cancer at the protein level. During pre-processing, data cleaning, integrating and transforming processes were carried out. Approximately 10 Tb of proteomic data were processed, containing more than 500 samples of healthy tissues, tumors collected from patients and immortalized cell lines used as a model in cancer. To integrate proteomic data, the samples were grouped according to the tissues to which they belonged, for the purpose of amplifying the sample number by tissue. Such clustering revealed 140 samples of healthy tissues were clustered into unique group and, 385 tumoral samples were clustered according to the tumoral tissue of origin. Then, the variable that indicates protein abundance in biological tissues was normalized and converted into four categories (“very low”, “low”, “medium”, “high”). To perform the identification of proteins as molecular targets for the cancer, the exploratory data analysis focused on cancer / testis antigens (CTAs) characterization at protein level. CTAs previously predicted in transcriptomics works were used. As a result, the protemic data integration identify 17200 unique proteins and the exploratory data analysis revealed 222 CTAs at the proteomic level, of which 40 were categorized with ”medium”expression in tumoral tissue and “very low” or “low” in healthy group. In conclusion, the exploratory data analysis performed in this study to show potential to enable future advances in the characterization of tumoral proteome and, consequently, in the identification of proteins as target molecular for the cancer.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/32396
Aparece nas coleções:DV - Ciência de Dados

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
integracaoproteomicostecidoshumanos.pdf563,62 kBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons