返回

TCGABiolinks:解锁更新后 TCGA 数据的全新指南

见解分享

探索更新后的 TCGA 数据:癌症基因组学研究的宝库

TCGA 数据:癌症研究的基石

TCGA 数据集是一个无价的资源,汇集了来自数千名癌症患者的全面基因组信息。作为癌症基因组学研究的基石,TCGA 数据一直推动着对癌症生物学的深入理解。

TCGA 数据的演变:从 HT-Counts 到 STAR-Counts

最近,TCGA 数据库升级了其数据格式,从 HT-Counts 迁移到 STAR-Counts。这一转变旨在增强数据质量和可比性,但同时需要更新数据下载和分析的方法。

TCGABiolinks:与时俱进

TCGABiolinks 是一个 R 包,提供了一组简便的函数,用于下载和处理 TCGA 数据。为了跟上 TCGA 数据的更新,TCGABiolinks 包也进行了相应的调整,以支持新的 STAR-Counts 格式。

下载更新后的 TCGA 数据:逐步指南

  1. 安装或更新 TCGABiolinks 包:
install.packages("TCGAbiolinks")
  1. 指定数据类型:

使用 TCGAquery_data 函数指定您要下载的数据类型。对于 STAR-Counts 数据,使用 data_category = "RNASeq"

  1. 下载数据:
brca_starcounts <- TCGAbiolinks::TCGAbiolinks(
  cancer_type = "BRCA",
  data_category = "RNASeq",
  data_type = "STAR"
)

探索和分析数据

下载更新后的 TCGA 数据后,您可以使用各种 R 包和工具进行探索和分析。以下是几个有用的资源:

结论:开启癌症基因组学研究的新篇章

TCGA 数据的更新以及 TCGABiolinks 包的适应为癌症基因组学研究带来了令人兴奋的新可能性。通过遵循本文概述的步骤,您可以轻松访问和探索更新后的 TCGA 数据,从而获得对癌症生物学的深刻见解。

常见问题解答

  1. 如何检查我下载的数据是否是最新的?

    • 检查您的 TCGABiolinks 包是否为最新版本(devtools::session_info())。数据格式应显示为 "STAR-Counts"。
  2. 我可以一次下载多个癌症类型的 STAR-Counts 数据吗?

    • 是的,您可以使用 c() 函数组合多个癌症类型,例如:
    multi_cancer_starcounts <- TCGAbiolinks::TCGAbiolinks(
      cancer_type = c("BRCA", "LUAD"),
      data_category = "RNASeq",
      data_type = "STAR"
    )
    
  3. 如何获取特定患者的 STAR-Counts 数据?

    • 使用 TCGAquery_patient 函数并指定患者的 TCGA 标识符(例如:TCGA-A2-A006)。
  4. TCGA 数据还有哪些其他可用数据类型?

    • 除 STAR-Counts 外,您还可以下载 HT-Counts、甲基化、拷贝数变异和临床数据。
  5. 哪里可以获得有关 TCGA 数据和 TCGABiolinks 包的更多信息?