中文
关于我们
主营业务
技术平台
学术交流
新闻中心
加入我们
主营业务
表单填写
*姓名
*电话
*邮箱
*公司
*留言信息
熙宁小课-第62期 | T检验的发现与应用
发布作者:熙宁生物发布时间:2022-01-21

T 检验即 student’s t test, 是统计学中常用的检验方法之一,主要适用于小样本量(n<30),总体标准差未知的正态分布。本期文章将会介绍T检验的由来, T检验的分类以及在流式数据研究中的应用。

T检验的由来

1876年William Sealy Gosset 出生于英国坎特伯雷。他曾就读于温彻斯特学院,之后被牛津大学自然科学学院录取。1899年从牛津毕业后加入了爱尔兰都柏林的Arthur Guinness & Son啤酒厂参与研究工作。

image.png

图 1 William Sealy Gosset旧照

在研究产酒量最优的大麦品种时,由于样本量不足,不适合使用传统的统计学方法(Z检验)。Gosset通过自学,反复试验,与他人合作以及在1906年至1970年在统计学泰斗Karl Pearson 的生化实验室进修时得到了Pearson在数学推导上的指导与帮助,开发了新的统计学方法。但是酒厂老板因担心该研究论文会泄露关于啤酒酿造的商业机密,不允许员工公开发表研究成果。经过沟通,酒厂董事会允许使用笔名以及在不能提及啤酒和Guinness的前提下发表论文。最后Gosset使用student 为笔名在Pearson 主编的 journal Biometrika 上发表了这一研究。这就是student’s t test方法和名字的由来。

T检验的分类

T检验是用于衡量两个均值是否有显著差异的统计量。那为什么不直接观察两个均值呢?因为直接比较均值只能看出数值上的差异,但是不能知道这个差异是否显著或可靠。比如A和B掷骰子100次,分别得到52个正面和49个正面。这可以得出在将来A也比B更容易掷到骰子正面的结论吗?显然不能!实际上这两个结果的差异并不显著,这个结果可能是偶然事件。统计学分为描述统计和推断统计。描述统计只能描述我们现有样本的一个情况,比如说样本均值。但是不能告诉我们这个结果是否在将来会再次出现。相反,推断统计学不仅仅对样本进行描述,它还可以将结果递推到新样本中。T test就是推断统计学的方法之一。下面来看看它的三个分类:

1.单样本均值检验

当我们只有一组数据,并且我们想要将这组数据与一个假设检验值对比或者将数据与已知的总体均值对比。计算公式如下:

image.png

image.png

image.png

图 2  t临界值表


上述例子中提到了双边假设。什么时候使用双边假设和单边假设取决于研究问题。比如:

1.为研究某种治疗儿童贫血新药的疗效,以常规药作为对照,治疗一段时间后,检验施以新药的儿童血红蛋白的增加量是否比常规药的大(单侧检验)

2.检验两种药物对治疗高血压的效果,检验两组药物的降压水平是否相等(双侧检验)


2.两独立样本均值检验(independent-samples t-test)

2.1.当总体方差相等且未知,样本方差满足下述关系时:

 image.png

该检验是最常用的T检验,目的是检验两独立样本的均值是否相等。 要求样本独立且近似正态分布。

比如:药物研究员研发了一款新药,希望该新药可以降低胆固醇。于是进行一项对照组研究,将志愿者分为两组,一组给予新药(Tetesterol),一组给予安慰剂(Control),如图3。

image.png

图 3 对照组实验

一个月后,研究员测量两组的胆固醇值。然后发现安慰剂组的胆固醇平均值为36,给药组的胆固醇的平均值为34。从描述性统计量(均值) 看来,两组数据确有不同,但这个不同是偶然还是药物确实起作用了?用推断统计学方法(T test)会知道这个不同是否可靠或只是偶然。用图4的公式计算得到t 值,查询相应的t检验表,就可以得出相应的结论。此处的自由度=两组样本量相加减2.

image.png

图 4 两独立样本T值计算

2.2.当总体方差不相等时,t值和自由度计算如下:

 image.png

image.png

3.配对样本均值检验

该方法适用于检验将同一组样品测试两次后的分析。这种情况常常出现在生物医学研究中,常见的情形有:

配对的受试对象分别接受不同的处理(如将小白鼠配对为两组,分别接受不同的处理,检验处理结果的差异)

同一受试对象的两个部分接受不同的处理(如对于一批血清样本,将其分为两个部分,利用不同的方法接受某种化合物的检验,检验结果的差异)

同一受试对象的自身前后对照(如检验癌症患者术前、术后的某种指标的差异)

该方法要求:数据总体方差相等且近似正态。目的是判断不同的处理是否有差别。

计算公式如下:

image.png

其中为样本中各配对差值的均值,为样本中各配对差值的标准差,自由度为配对数减1。

举个例子:

假设研究某种解毒药对大白鼠血中胆碱酯酶含量的影响,将20只小白鼠按性别、体重、窝别配成对子。每对中随机抽取一只服用解毒药,另一只作为阴性对照,服用生理盐水。经过一定时间,测量大白鼠血中胆碱酯酶含量,数据如表1,求问大白鼠服用解读药和生理盐水后血中胆碱酯酶含量有无不同?

Table 1配对小鼠实验数据

image.png

根据问题可知应该选择双边配对t检验,根据公式计算得到:

image.png

自由度为10-1=9。选取检验水平为0.05(置信水平95%)查询t临界值表可知临界值为2.262。因为4.620>2.262,所以认为配对子之间的差异是显著的。因此我们认为:大白鼠服用解毒药和生理盐水后血中胆碱酯酶含量不同,服用解毒药后大白鼠血中胆碱酯酶含量高于生理盐水对照。(例子来源于流行病学与统计学)


虽然t 检验是强有力的统计工具之一,但是也有其局限性。T检验的局限性包括:

1. 只能将从样本得到的结果扩大到同类目标人群中。

2. 样本和总体需要近似正态分布

3. 每组需要有一样的数据量

4. 所有数据必须是独立的


流式数据中的T检验应用

T检验也在流式数据研究中被广泛应用。近期Cell Stem Cell上刊登了一篇关于“追踪出生后骨形成过程中的骨骼组细胞的转变”的文章。文章通过t检验得到了“强迫跑步显着增加围产期软骨细胞的成骨细胞形成,而对成年 Lepr+ BMSCs无明显促成骨作用(图5)”的结论。

图5中:

(A)展示了AcancreER ;R26tdTomato; Col1a1-GFP 小鼠实验时间表。

(B-D) 将幼龄小鼠分为两组强迫跑步组(C)和不跑步组(B),用流式细胞术分析每个组的AcancreER; R26tdTomato; Col1a1-GFP小鼠股骨的Col1a1 GFP+成骨细胞(Tomato+成骨细胞)的百分比。总共做5次独立实验,每种条件有5只小鼠。实验数据取每次实验的平均值± SD。然后使用双边T检验评估两组差异,最后得到的P值< 0.01,证明两组小鼠跑步和不跑步的情况下成骨细胞有显著差异。

(H-J) 用流式细胞术分析 成年小鼠跑步组(I)的Lepr-creER; R26tdTomato; Col1a1-GFP和不跑步组(H)股骨的Col1a1 GFP+成骨细胞(Tomato+成骨细胞)的百分比。同样地,做5 次独立实验,每种条件下有 5 只小鼠实验数据取每次实验的平均值 ± SD。然后使用双边T检验评估两组差异,结果显示两者无显著差异(J)。

文章中的其他实验还发现了,青春期以前的成骨细胞主要来源于Acan+软骨细胞,而青春期以后的成骨细胞主要来源于Lepr+基质细胞。他们分别参与维持了骨骼的增长和增厚。加上上述的实验结果可以得出跑步对青春期的骨发育起到了明显的促进作用,但是对成年鼠没有显著帮助。

image.png

图 5流式细胞分析结果


小结:

T检验是常用的统计学工具之一,有三种分类:单样本均值检验,两独立样本均值检验和配对样本均值检验。在生物医学领域最常用的是配对样本均值检验和两独立样本均值检验。每种分类的计算公式有区别,计算出t值,然后查询T检验临界值表,若t值小于t临界值则两者的差异不显著。反之两者有显著差异。


参考资料:

T Test (Students T Test) - Understanding the math and how it works - Machine Learning Plus

t-table.xls (sjsu.edu)

Student’s t-test | Definition, Formula, & Example | Britannica

Tracing the skeletal progenitor transition during postnatal bone formation: Cell Stem Cell

T检验 - MBA智库百科 (mbalib.com)

一文详解t检验 - 知乎 (zhihu.com)

流行病学与医学统计学

骨生物学进展:追踪出生后骨形成过程中的骨骼祖细胞的转变


专属客服
免费通话
表单填写
回到顶部