图源:https://www.spandidos-publications.com/10.3892/mmr.2012.753
2、 条形图
条形图(Bar Chart)是将柱状图横向旋转,用水平的条形来表示数据,条形的长度与数值成正比。当类别的名称较长,或类别数量较多时,建议使用条形图。
例如:下图为横向展示基因在不同的生物过程、细胞组分、分子功能中
的分布情况。
图源:https://www.bioinformatics.com.cn/plot_basic_horizontal_bar_062
3、 饼图
饼图(Pie Chart)是通过将一个圆分解为多个扇形切片,来展示各部分占总体的比例或百分比。每个切片的面积代表其所占的比例,所有切片的总和必须为100%,它强调的是“部分-整体”的关系。
例如:下图为通过饼图显示甲状腺乳头状癌各类T淋巴细胞的浸润比例。
需要注意的是,当类别过多时,图表会变得难以辨认和比较,就像下图。我们可以尝试将一些不重要的变量合并为“其他”,避免扇形切片超过5个。
二、 数据分布与特征分析图表:直方图、箱线图、小提琴图和P-P/Q-Q图
这一类图表主要用于揭示数据的分布形态、集中趋势、离散程度以及异常值。
1、 直方图
直方图(Histogram) 一般用横轴表示数据区间,纵轴表示分布情况,柱子越高,则落在该区间的数量越大。
它能直观地展示数据的总体形状、中心位置、分布范围和偏态。适合用来显示在连续间隔或特定时间段内的数据分布,如正态分布、偏态分布等。
在生物学中,常用于分析测序数据的质量分数分布、基因表达量分布、或者某个生物学参数的数值分布。
例如:下图为用直方图展示HeLa细胞在细胞周期中,547个基因表达水平时间序列之间互相关系。
直方图vs柱状图?
直方图看似与柱状图相像,实则完全不同。柱状图需要1个分类变量,是离散的,因此柱子间有空隙。但直方图的数据均为连续的数值变量,因此柱子间是没有空隙的。
图源:https://www.biorender.com/template/bar-chart-vs-histogram
2、 箱线图
箱线图(Box Plot),也常被称为盒须图(Box-and-Whisker Plot),是一种用“五数概括法”(最小值、中位数、最大值、上下四分位数)来简洁地展示一组连续型数据分布情况的统计图。接下来,我们讲解一下箱线图如何看。
箱子的顶端和底端,分别代表上下四分位数。箱子中间的是中位数线,它将箱子一分为二。从方块延伸出的“须线”通常代表数据变异的期望范围,而超出须线范围的点则被标记为离群值。
图源:http://tuzhidian.com/chart?id=5c666f91372bb033b9c2fa75
通过箱形图,我们可以很快知道一些关键的信息,如:是否存在离群值、离群值分别是多少;数据是否对称、是否有偏向性,如果有,它偏向于哪一边。
例如:下图是MDPC23细胞在PTH暴露不同时长(P1、P24和P48组)一个48小时培养周期后的细胞计数。
箱线图真正的强大之处在于,我们还可以用多个箱型图,并排比较多组数据的分布,从而快速获得对数据结构、数据质量的认知。
但如果遇到分组过多的情况,就会出现箱线太多不容易查看的情况:
图源:http://tuzhidian.com/chart?id=5c666f91372bb033b9c2fa75
从上面的例子可以看出,箱线图只能提供数据的分布概况,我们看见的是直观的趋势。如果要进一步查看每组内数据详细分布的情况,就需要考虑小提琴图。
3、 小提琴图
小提琴图(Violin Plot)可以理解为是箱线图的升级版。
它在箱线图的基础上增加了旋转的核密度估计(KDE)图,从而展示了数据的完整概率密度分布。小提琴曲线的宽度与每个区域中数据点的大致频率相对应,中间的黑色粗条表示四分位数范围。
图源:https://datavizcatalogue.com/ZH/index.html
数据分布的“曲线轮廓”越宽,则意味着数据越集中于该处,反之则说明该处时数据越少。非常适合用于比较不同组别之间数据分布的细微差异。
例如:下图是利用小提琴图显示淋巴细胞计数及CMV-CD8⁺IFN-γ、CMV-CD4⁺IFN-γ与传播的关联性
4、 P-P/Q-Q图
P-P图(Probability-Probability Plot)和Q-Q图(Quantile-Quantile Plot)这两种图表都用于检验数据是否服从某种理论分布(最常见的是正态分布)。
它适合用于数据差异性分析之前,对数据进行提前的检验。如果数据点基本落在对角线上,则表明数据服从该理论分布。
P-P图和Q-Q图的功能基本一致,但Q-Q图用“p值分布”替代普通表达量数据——因为实际分析中p值正态性直接影响结果可靠性,更适合用于新人使用,例如用于检验实验数据是否呈正态性(如T检验)。
图源:https://www.bilibili.com/video/BV1354y1N7zc/vd_source=64a04bd9a68e4d289c94ca458b36008b
三、 变量关系与相关性分析类:散点图、火山图、气泡图、热力图
这一类图表主要用于揭示两个或多个变量之间的关系、相关性或相似性。
1、 散点图
散点图(Scatter Plot)是探索两个连续型变量之间关系的实用图表。通过将一个变量放在X轴,另一个放在Y轴,它能直观地揭示变量之间的相关性(正相关、负相关、无相关)和关系类型(线性、曲线),并突出离群值。
图源:https://antv.vision/old-site/vis/doc/chart/details/scatter-plot.html
在生物学研究中,可用于分析基因表达量与某种表型指标的关系、或者两个基因表达量之间的相关性。
例如:下图通过散点图显示COPD患者血浆指标的相关性:(A) IL-6与FEV1呈负相关(r= -0.565,p < 0.001);(B) IL-8与FEV1呈负相关(r= -0.453,p < 0.05)。
2、 火山图
火山图(Volcano Plot)是散点图的一种变体,火山图只适合展示两组样品之间的比较。火山图的右上和左上区域的点通常被认为是上调和下调的显著基因。
图源:https://www.bioinformatics.com.cn/plot_basic_3_color_volcano_plot_086_en
例如:筛选癌症组织vs正常组织的转录组数据中显著差异的基因。
要读懂火山图,首先要理解一个概念,什么是Fold Change?
Fold Change在图中代表比值,例如某基因在一组样品中的表达量均值除以其在另一组样品中的表达量均值,例如疾病组vs对照组。
如果疾病组除以对照组,大于1,择表示疾病组的该基因表达量更高,小于1表示基因表达量更低。
横坐标通常表示log2倍数变化(log2FC),纵坐标表示-log10P值,可以非常清晰的展示出基因在不同样本中的差异倍数和显著性。它能直观地筛选出那些在统计学上显著(P值小)且表达量变化大(倍数变化大)的基因。
以下图为例,右侧是表达量上调的基因,横坐标如果对应数字2,代表该基因在疾病组的表达量是对照组的2倍;左侧是表达量下调的基因,如横坐标对应数字0.5,代表该基因在疾病组表达量是对照组的50%。
图源:https://mp.weixin.qq.com/s/-ux-xtvOYNLR8ny2xlVPnQ
3、 气泡图
气泡图(Bubble Chart)也是散点图的一种变体,由直角坐标系和大小不一的圆组成,用于展示三个数值变量之间的关系。其中两个变量由气泡的X、Y轴位置表示,而第三个变量则由气泡的大小表示 。
图源:http://tuzhidian.com/chart?id=5c56e2954a8c5e048189c6af
在生物学研究中,我们尝试利用气泡可以展示不同基因的表达量(X轴)、其功能富集P值(Y轴)以及该基因家族的基因数量(气泡大小),从而在一张图上呈现更丰富的信息。
它常用于展示KEGG通路富集分析结果:横轴基因富集倍率,纵轴-log10P值,气泡大小代表通路包含基因数。
4、 热力图
热力图(Heatmap)是一种通过色块颜色来显示数据的统计图表。它将数据点由X、Y轴的交点定义,并使用第三个值确定该点的颜色。
颜色通常遵循一个映射规则,例如较大的值由较深的颜色或暖色表示,较小的值由较浅的颜色或冷色表示。
图源:http://tuzhidian.com/chart?id=5c56e4284a8c5e048189c6fe
热力图主要用于查看数据整体的情况、显示多个变量之间的相关性和相似性。
在生物学研究中,可用于展示不同样品在基因表达谱上的相似性、不同基因在不同样品中的表达模式、或者基因之间相关性的矩阵。可以直观地发现具有相似表达模式的基因群。
例如:下图模型是通过热力图展示不同基因在不同模式下的表达变化。
图源:https://www.biorender.com/template/heatmap-or-gene-expression-patterns-across-conditions
四、 分析变化趋势类:折线图
1、 折线图
折线图(Line Chart)通过连接一系列数据点,展示一个或多个连续型数据随时间或另一个连续变量的变化趋势。
它强调的是数据的连续性或流向,特别适合用于展示连续数据随时间、空间或其他连续变量的变化趋势。
在生物学中,可用于展示细胞生长曲线、药物剂量-效应曲线、或者某种生理参数随时间的变化。
例如:下图是绘制不同的海洋微藻随培养时间的细胞密度变化趋势,揭示细胞生长动力学特征。
五、 预测与模型预估类:混淆矩阵、ROC曲线
这一类图表主要用于评估分类或预测模型的性能。
1、 混淆矩阵
混淆矩阵 (Confusion Matrix)是评判模型结果的一种基于机器学习的可视化工具。
简单来说,它就是一个表格,将特定类的基本真实实例数量与预测类实例数量进行对比。用于总结分类模型在测试集上的预测结果,能列出真阳性、假阳性、真阴性、假阴性的数量。
混淆矩阵每一行对应着预测属于该类的所有样本,混淆矩阵的对角线表示预测正确的样本个数。在模型预测过程中,将预测类别分布在对角线上。
预测值在对角线上分布越密集,则表现模型性能越好。通过混淆矩阵还容易看出模型对于哪些类别容易分类出错。
2、 ROC曲线
ROC曲线 (Receiver Operating Characteristic Curve),中文名称为“受试者工作特征曲线”。
ROC曲线的构建基于混淆矩阵中的两个关键指标:真阳性率(TPR)和假阳性率(FPR)。ROC曲线的横轴是假阳性率,而纵轴是真阳性率。
图源:https://zh-yue.wikipedia.org/wiki/ROC_%E6%9B%B2%E7%B7%9A
在生物学研究中,可用于表明一个生物标志物区分对照组、实验组或者健康个体和疾病患者的能力。
例如:下图为区分伴高血压与不伴高血压的肌营养不良患者的细胞因子聚类分析ROC曲线。
返回搜狐,查看更多