生物信息学基础教程

4. 基因表达数据分析

Linux 基本操作

在 Linux 命令行中:
一个字符都不能多!一个字符都不能少!一个字符都不能错!

例如:文件名为 chr21.fa,以下输入均为错误:

数据比对与定量

  1. 索引构建
    bowtie2-build chr21.fa chr21
  2. 序列比对
    bowtie2 -x chr21 -1 test_1.fastq -2 test_2.fastq -S alignment.sam -p 4 --very-sensitive --no-unal
  3. 定量分析

    常用工具:SAMtools、featureCounts、HTSeq-count

  4. 差异分析

    常用工具:DESeq2、EdgeR、limma

数据可视化

基因表达分析结果通常通过以下图表展示:

示例数据文件已移除,请自行准备基因表达矩阵与差异表达结果后按下方步骤练习。

思考题

基因表达矩阵差异表达结果 在数据格式上有何区别?

要点: 火山图使用差异表达结果;热图和小提琴箱线图使用基因表达矩阵。

基因表达数据:
行是基因,列是样本,数值是表达值(如 TPM、FPKM 或 counts)。

差异表达结果:
Gene:基因名称。
Log2FoldChange:Case 组 vs Control 组的 log₂ 倍数变化。正值表示上调,负值表示下调。
P-value:差异显著性 p 值(通常 < 0.05 为显著)。
Q-value:多重检验校正后的 p 值(如 FDR),< 0.05 通常认为可靠。
Significance:根据统计阈值判定是否显著(如 “Significant” / “Not Significant”)。

可视化在线工具