TCGABiolinks:解锁更新后 TCGA 数据的全新指南
2023-09-24 14:20:32
探索更新后的 TCGA 数据:癌症基因组学研究的宝库
TCGA 数据:癌症研究的基石
TCGA 数据集是一个无价的资源,汇集了来自数千名癌症患者的全面基因组信息。作为癌症基因组学研究的基石,TCGA 数据一直推动着对癌症生物学的深入理解。
TCGA 数据的演变:从 HT-Counts 到 STAR-Counts
最近,TCGA 数据库升级了其数据格式,从 HT-Counts 迁移到 STAR-Counts。这一转变旨在增强数据质量和可比性,但同时需要更新数据下载和分析的方法。
TCGABiolinks:与时俱进
TCGABiolinks 是一个 R 包,提供了一组简便的函数,用于下载和处理 TCGA 数据。为了跟上 TCGA 数据的更新,TCGABiolinks 包也进行了相应的调整,以支持新的 STAR-Counts 格式。
下载更新后的 TCGA 数据:逐步指南
- 安装或更新 TCGABiolinks 包:
install.packages("TCGAbiolinks")
- 指定数据类型:
使用 TCGAquery_data
函数指定您要下载的数据类型。对于 STAR-Counts 数据,使用 data_category = "RNASeq"
。
- 下载数据:
brca_starcounts <- TCGAbiolinks::TCGAbiolinks(
cancer_type = "BRCA",
data_category = "RNASeq",
data_type = "STAR"
)
探索和分析数据
下载更新后的 TCGA 数据后,您可以使用各种 R 包和工具进行探索和分析。以下是几个有用的资源:
- TCGA 数据探索器:https://gdc.cancer.gov/about-data/publications/gdc-data-portal-tcga
- Bioconductor TCGA 数据包:https://bioconductor.org/packages/release/bioc/html/TCGA.html
- Bioconductor CancerGenomics 包:https://bioconductor.org/packages/release/bioc/html/CancerGenomics.html
- maftools 包:https://github.com/mskcc/maftools
结论:开启癌症基因组学研究的新篇章
TCGA 数据的更新以及 TCGABiolinks 包的适应为癌症基因组学研究带来了令人兴奋的新可能性。通过遵循本文概述的步骤,您可以轻松访问和探索更新后的 TCGA 数据,从而获得对癌症生物学的深刻见解。
常见问题解答
-
如何检查我下载的数据是否是最新的?
- 检查您的 TCGABiolinks 包是否为最新版本(
devtools::session_info()
)。数据格式应显示为 "STAR-Counts"。
- 检查您的 TCGABiolinks 包是否为最新版本(
-
我可以一次下载多个癌症类型的 STAR-Counts 数据吗?
- 是的,您可以使用
c()
函数组合多个癌症类型,例如:
multi_cancer_starcounts <- TCGAbiolinks::TCGAbiolinks( cancer_type = c("BRCA", "LUAD"), data_category = "RNASeq", data_type = "STAR" )
- 是的,您可以使用
-
如何获取特定患者的 STAR-Counts 数据?
- 使用
TCGAquery_patient
函数并指定患者的 TCGA 标识符(例如:TCGA-A2-A006)。
- 使用
-
TCGA 数据还有哪些其他可用数据类型?
- 除 STAR-Counts 外,您还可以下载 HT-Counts、甲基化、拷贝数变异和临床数据。
-
哪里可以获得有关 TCGA 数据和 TCGABiolinks 包的更多信息?
- 有关 TCGA 数据的更多信息,请访问:https://www.cancer.gov/about-cancer/research/data-and-genomics
- 有关 TCGABiolinks 包的更多信息,请访问:https://bioconductor.org/packages/release/bioc/html/TCGAbiolinks.html