GC 含量怎么算:DNA 序列里 G 和 C 占比的完整指南

第一次跑 PCR 失败那天,我盯着两条怎么都扩不出条带的引物看了很久,最后发现问题出在一个我以为无关紧要的数字上:其中一条引物的 GC 含量只有 32%,另一条却有 71%。两条引物的熔解温度差了快十度,退火温度一旦定下来,总有一条贴不牢。从那以后,设计引物前我都会先把序列丢进 GC 含量计算器看一眼,这个习惯帮我省下了不少试剂和时间。

GC 含量到底是什么

GC 含量指的是一段 DNA 或 RNA 序列里,鸟嘌呤(G)和胞嘧啶(C)这两种碱基所占的比例,通常写成百分数。剩下的腺嘌呤(A)和胸腺嘧啶(T,RNA 里是尿嘧啶 U)合起来就是 AT 含量。两者相加,覆盖链上每一个有效碱基。

它之所以是序列分析里最先看的一个指标,是因为它同时关联到三件事:双链的热稳定性、引物的退火行为,以及物种本身的特征。细菌基因组的 GC 含量能从约 25% 跨到 75%,这种分布差异甚至能当成区分物种的快速指纹。

GC 含量的计算公式

公式本身很直白:

GC含量 = (G 的数量 + C 的数量) ÷ 总碱基数 × 100%

举个具体例子。序列 ATGCGC 一共六个碱基,其中 G 和 C 加起来有四个(第三位 G、第四位 C、第五位 G、第六位 C),于是 GC 含量就是 4 ÷ 6 × 100%,约等于 67%。换几个极端例子更能看清:GCGC 四个全是 G 或 C,GC 含量 100%;ATAT 一个都没有,0%;均衡的 ATGC 正好两个,50%。

这里有个容易被忽略的细节:非法字符要不要算进分母。如果序列里混进了 N 或者模糊碱基代码,正确的做法是把它计为「其他」并留在总长度里,这样一条满是 N 的序列读出的 GC% 就会比只看有效碱基时低,数字才诚实。相信结果之前,先确认有没有非法碱基提示。

为什么 GC 含量高,熔点就高

答案藏在氢键的数量里。一对 G 和 C 之间由三个氢键固定,而一对 A 和 T 之间只有两个氢键。氢键越多,把双链拉开成单链需要的能量就越大,于是 GC 含量高的序列更热稳定,熔解温度(Tm)也更高。

这不是抽象的化学,它直接决定你的实验条件。在 PCR 里,退火温度是跟着引物的熔解温度走的,而引物的 Tm 又由它的长度和 GC 含量共同决定。GC 含量高的引物贴得更牢,需要更高的退火温度;两条引物若 GC 含量悬殊,Tm 就对不齐,正是我那次失败的根源。

PCR 引物设计里的 GC 区间

经验上,引物的 GC 含量通常希望落在 40% 到 60% 之间,并且让一对引物的熔解温度彼此接近,相差最好不超过几度。对短引物估算 Tm 有个很常用的经验法则,叫 Wallace 规则,也叫 2 加 4 规则:每个 A 或 T 计 2°C,每个 G 或 C 计 4°C,相加就是估算的 Tm。

以 4 碱基的 ATGC 为例,两个 GC 加两个 AT,Tm = 4×2 + 2×2 = 12°C。这个规则在约 13 到 14 个碱基以内表现良好,超过这个长度就会明显高估,需要换用基于 GC 比例和长度的近邻法风格公式。所以别拿 Wallace 数值去套一条 40 碱基的长序列。

怎么快速统计一段 ATCG

手动数碱基既慢又容易出错,尤其是从 GenBank 复制下来、还带着 FASTA 标题行和空格的序列。把序列粘进 GC 含量计算器,它会自动去掉空格、换行、数字和以 > 开头的标题行,把字母统一转成大写,然后给出 GC%、AT%、A/C/G/T/U 各碱基计数、清洗后长度和 Tm 估算,非法碱基也会单独标出。整个过程在浏览器本地完成,序列不上传。

如果你想看的是更通用的字符出现频率,而不只是四种碱基,可以用字符频率统计器,它能列出任意文本里每个字符的出现次数和占比,处理非标准符号或带注释的序列时很顺手。

小结

GC 含量是序列分析里一个简单却信息量很大的数字。公式就是 G 加 C 除以总长再乘 100%,但它背后连着氢键数量、双链熔点和引物设计这一整条逻辑链。下次设计引物或核对一段序列时,先看一眼 GC 含量,往往比直接上机更省事。

Made by Toolora · Updated 2026-06-13