基础统计量怎么算怎么读:均值、方差、标准差一篇讲透

刚接触数据分析的人最容易卡在一个地方:一组数摆在面前,知道能算出一堆量,却不知道每个量到底在说什么,也不知道该看哪一个。这篇就把六个最基础的描述统计量讲清楚:均值、中位数、众数、方差、标准差、极差。它们各自衡量数据的不同侧面,选错了就会得出偏掉的结论。

三个"中心":均值、中位数、众数

这三个量都想回答同一个问题,数据的"中间"在哪里,但各有各的算法和脾气。

均值就是所有数加起来除以个数,日常说的"平均"。中位数是把数从小到大排好,取正中间那个,偶数个就取中间两个的平均。众数是出现次数最多的那个值,如果每个值都只出现一次,那就没有众数,这是正确答案不是算错。

它们之间最关键的差别:均值对极端值敏感,中位数不敏感。举个例子,一组收入数据(单位万元):

3.2, 3.5, 3.8, 4.1, 4.3, 4.5, 4.8, 5.1, 5.5, 6.2, 7.8, 15.0

把这串数粘进基础统计计算器,你会看到均值是 5.32,中位数是 4.65。均值明显被最后那个 15.0 拽高了一截。这也是为什么各国政府公布家庭收入时报的是中位数而不是均值,少数高收入者会把均值推得脱离大多数人的真实水平,中位数则稳稳停在中间那个人身上。

什么时候用哪个:数据大致对称、没有明显极端值,用均值;数据有长尾或异常值(收入、房价、等待时间),优先看中位数;关心"最常见的那个取值"(衣服尺码、最热门的选项),用众数。

两个"离散程度":方差和标准差

光知道中心还不够。两组数可能均值完全一样,但一组挤在中心附近,另一组散得很开。衡量这种"散开程度"的就是方差和标准差。

方差的算法是:每个数减去均值,平方,再求平均。平方是为了让正负偏差都变成正贡献,不会相互抵消。标准差就是方差开根号,把单位还原回和原始数据一致,所以标准差比方差更好直接读。

这里有一个新手常被绊倒的点:方差和标准差各有"总体"和"样本"两个版本。总体方差除以 n,样本方差除以 n−1。判断标准很简单:如果这组数是从更大群体里抽出来的样本,你想拿它估计整个群体,用样本版本(÷ n−1);如果这组数字面上就是你关心的全部对象、不往外推,用总体版本(÷ n)。

拿一组小数据 {2, 4, 6, 8, 10} 算给你看:总体方差 σ² = 8(÷5),样本方差 s² = 10(÷4),对应标准差分别是 2.83 和 3.16。除以 n−1 让样本估计稍微大一点,这正是"无偏估计"在补偿一个事实,样本均值本身是从这组数里估出来的,占用了一个自由度。绝大多数应用统计课默认用样本版本。

极差:最简单的散度指标

极差就是最大值减最小值,一句话算完。它最直观,但也最脆弱,只看两端,完全不管中间数据怎么分布,而且只要有一个异常值就会被严重放大。所以极差适合快速估一下数据跨度,真正描述离散程度还是要靠标准差。

完整跑一遍:一组考试成绩

把抽象的定义落到一组真实数据上。假设十个人的考试成绩:

78, 85, 90, 72, 88, 95, 84, 91, 76, 89

粘进计算器后,主要结果是:均值 84.8,中位数 86.5,极差 23(95−72),样本标准差约 7.4。

怎么读这几个数:均值和中位数挺接近(84.8 对 86.5),说明这组成绩分布比较对称,没有谁被极端拉偏。标准差 7.4 告诉你大多数人的成绩落在均值上下一个标准差,也就是大约 77 到 92 这个区间。极差 23 只是提醒你最高和最低差了 23 分,但它不告诉你这 23 分是均匀铺开还是集中在某一段。

我自己常用的读数顺序

我处理一组陌生数据时,习惯按固定顺序看:先看均值和中位数差多少,差得大就警惕有长尾或异常值;再看标准差判断数据散不散;最后扫一眼极差和最大最小,确认有没有明显录错的离谱值。这套顺序几秒钟就能对一组数形成大致判断,比逐个量孤立地看高效得多。这些基础量算清楚之后,再上更复杂的工具(回归、检验)才不会建在错误的直觉上。需要更高级的科学函数运算时,可以配合科学计算器一起用。

小结

六个量各管一摊:均值、中位数、众数描述中心,方差、标准差、极差描述散度。记住三条最实用的经验,数据有长尾就别只看均值,描述离散优先用标准差而不是极差,分不清样本还是总体就问自己一句"这组数是要往外推的样本,还是关心的全部"。把这几条落实到每次读数,基础统计就不会再是一堆记不住的公式。

Made by Toolora · Updated 2026-06-13