皮尔逊相关系数 r 怎么读:从 -1 到 +1 看懂两组数据的关系
讲清皮尔逊相关系数 r 的取值范围、正负相关的强弱怎么分、相关为什么不等于因果, 配一组真实数据演示 r 值算法与解读, 还有散点图的看法。
皮尔逊相关系数 r 怎么读:从 -1 到 +1 看懂两组数据的关系
手里有两列数, 一列是学习时长, 一列是考试分, 你想知道它们到底有没有关系。皮尔逊相关系数 r 就是回答这个问题的那个数字。它把两列数据沿直线一起变动的紧密程度, 压缩成一个介于 -1 到 +1 的值。这篇说清 r 怎么算、各档怎么读、散点图为什么不能省, 以及那条几乎所有人都踩过的坑:相关不等于因果。
r 的取值范围:永远落在 -1 到 +1 之间
r 不会超出 -1 到 +1 这个范围, 这是它的硬边界。三个锚点先记住:r = +1 是完美正相关, 所有点严丝合缝落在一条上升的直线上;r = -1 是完美负相关, 点全在一条下降的直线上;r = 0 表示看不出任何直线关系。现实数据几乎不会是 +1 或 -1, 多数落在中间, 所以关键不是记锚点, 而是会读中间值。
正相关、负相关与强弱怎么分
符号和大小说的是两件事。符号表示方向:正号意味着 X 大时 Y 也大, 负号意味着 X 大时 Y 反而小。绝对值表示强弱, 跟符号无关。常用的一套分档 (Evans, 1996) 按绝对值看:小于 0.20 极弱, 0.20 到 0.40 弱, 0.40 到 0.60 中等, 0.60 到 0.80 强, 0.80 及以上很强。
这里最容易搞混的是把负号当成弱。r = -0.9 是很强的关系, 不是弱关系, 负号只说明方向是反的。反过来, r = 0.1 虽然是正的, 关系仍然非常弱, 接近噪音。判断强弱时永远先取绝对值。
一组真实数据:r 值是怎么算出来又怎么读的
我自己第一次真正信服 r, 是拿一组手头数据跑出来的。假设五次小测的学习时长 (小时) 和分数是这样几对:
2, 55
3, 62
4, 70
5, 76
6, 88
把这五对粘进相关系数计算器, 边输入边出结果:r 约等于 0.997。这是一个极强的正相关, 说明在这组数据里学习时长和分数几乎沿一条直线同步上升。打开回归线还能拿到方程, 大致是 y = 8x + 39, 意思是每多学一小时, 分数大约多 8 分。
但别急着兴奋。r = 0.997 同时也提醒我数据点太少、太干净, 真实场景里很难这么漂亮。换成几十次小测、加上熬夜、心情、题目难度这些干扰, r 通常会掉到 0.6 到 0.8 之间, 那才是更可信的"强但不绝对"。
r² 把相关变成能说出口的百分比
r 平方一下就是 r² (决定系数), 它告诉你 Y 的变化里有多大比例能由 X 解释。上面那组 r = 0.997, r² 约为 0.994, 也就是分数的波动有 99.4% 能由学习时长解释。换个更现实的例子:若某渠道广告投入和销售的 r = 0.80, 则 r² = 0.64, 可以在汇报里直接说"销售波动大约有 64% 跟着投入走, 剩下 36% 来自别的因素"。r² 的好处就是把抽象的相关翻译成一句能写进结论的话。
散点图不能省:数字会骗人
只看 r 不看图, 迟早出事。皮尔逊只衡量直线关系, 一条明显的抛物线关系可能算出接近 0 的 r, 让你误以为两者无关。反过来, 一个极端离群点能把本来接近 0 的 r 硬拉到 0.7。所以每次都该扫一眼散点图:点是不是真的贴着一条直线、有没有孤零零的离群点、是不是其实是条曲线。一张图能挡掉单个数字藏起来的大部分陷阱, 这也是工具在结果旁直接画图的原因。
相关不等于因果:最该记住的一条
这是统计里被引用最多、也最常被忘的一句:相关不等于因果。冰淇淋销量和溺水人数一起上升, r 很高, 但不是因为吃甜品危险, 而是两者都跟着夏天的高温走。高温就是那个藏在背后的第三因素。
r 高只说明两个数同步变动, 背后可能是第三个因素在推动, 可能是反向因果 (其实是 Y 影响 X), 也可能纯属巧合。要下因果结论, 靠的是对照实验或扎实的因果论证, 而不是一个大 r 值。把 r 当成线索可以, 当成证据不行。
配合其它计算器一起用
算出 r 之后, 常常还要把均值、标准差、占比这些基础量一起摆出来才好下判断。需要快速过一遍描述统计时, 可以配合基础统计计算器一起看, 把相关系数放回整组数据的背景里, 结论会更稳。
读懂 r 其实就三步:先看符号定方向, 再看绝对值定强弱, 最后看散点图和因果逻辑别被一个数字带偏。把这三步走完, 你就能从两列数里读出真正站得住的关系。
Made by Toolora · Updated 2026-06-13