第二回 美女午后品茶 费雪突发灵感 养猴人心中暗笑:“朝四暮三和朝三暮四,不是都等于七吗?这畜牲就是不如人聪明。”猴子们窃窃私语:“朝四暮三和朝三暮四,虽然吃到肚子里都等于七,但朝四暮三更符合早吃饱,晚吃少的科学道理,不信去问问费雪。人虽然比我们聪明,但没学过统计的人,智商还真不如我们高。” ——新《齐物论》 二十世纪二十年代后期的一个夏日午后,一群风度翩翩的学者偕夫人及漂亮的女友,正在英国剑桥的户外餐桌旁,悠闲的品茶论道。席间,一位美丽的女士惊呼,午茶的调制顺序对味道有很大影响。把茶加进牛奶里和把牛奶加进茶里,喝起来风味完全不同。出于对女性的尊重,那些学者们面带绅士的微笑,内心却不以为然,甚至是藐视,依据他们的科学头脑分析,茶和牛奶两种物质混合结果的化学成份不会因为调制顺序不同而产生不同,怎么会喝起来不一样呢?文中暗表,这个命题的假定前提是不论调制顺序如何,牛奶和茶的比例是固定的或是基本不变的。美丽女士提出的问题是朝四暮三和朝三暮四的关系,而不是朝四暮三和朝四暮四的关系。古板的英国绅士一定会把古板的精神带到生活细节中,所以这个假设前提一般会成立。书归正传,正当众学者对美丽女士的说法嗤之以鼻时,有个身材瘦小的,嘴上留着灰白胡子的绅士挺身而出,抓住了这个问题。 此人便是在统计发展史上地位显赫、大名鼎鼎的费雪(Ronald Aylmer Fisher,1890-1962),伦敦人氏,英国统计学家。费雪当时显得非常兴奋,好像发现了大元宝。“让我们来检定这个命题。”说着,在众位学者的帮助下,他开始进行实验。他们设计并调制出很多杯不同的茶,有些先放茶水再加牛奶,有些先放牛奶再加茶水,然后按照既定的顺序一杯一杯拿给美丽女士品尝分辨,但她并不知道每杯茶的调法。费雪端给她第一杯茶,她尝了一口,然后说出这杯茶是先放茶水后加的牛奶,还是先放牛奶后加的茶水。费雪记录下她的说法,再送上第二杯,……。 读者可能会问,这个看上去没什么科学价值的实验,是我们的这位尊敬的费雪先生从事科研之余闲着没事干,找个由头和美女套近乎,还是有什么别的原因。 说来话长,从16世纪甚至更早的时候起,科学实验已经进行了几百年。实验是发现、检验和积累知识的工具。但是在费雪时代以前,实验带有科学家个人浓厚的独特风格,并没有科学的规范、程序,更谈不上实验设计。一流的科学家可以做出很有价值的实验,产生新知识;而不入流的科学家只是盲目地进行实验,虽然生产出一些数据,但对生产和积累知识没什么用处。此外,19世纪以前的科学家很少发表自己的实验结果,他们仅描述研究结论,并公布那些能证明此结论真实性的数据。至于实验过程和实验结果的科学性和可靠性我们不得而知。虽然科学是从发现问题、周密思考、观测与实验发展而成的,但究竟要怎样做实验,却从来没有被提及。经过多年的成功与失败,实验设计的理论和方法才发展起来。 1857年,奥地利统计学家孟德尔(Gregor Johann Mendel,1822-1884)不知为什么突然对豌豆情有独钟,非要把豌豆及遗传规律弄明白不可。他在教堂的后花园内一块不到2400平方英尺的畦田上,对豌豆及和豌豆有关的属类进行了实验,一干就是八年。经过八个春秋的耐心实验、仔细观测、不厌其烦,终于从宝贵的实验数据中获得了具有普遍意义的遗传统计规律。孟德尔成功的诀窍之一就是在整个实验进程中,自始至终都闪烁着可贵的统计思想。孟德尔靠自己敏锐的直觉,无意中按照现代推断统计的初步原则,粗糙地进行了实验设计。也就是说要设计一种较少规模的实验,既要保持植物天然杂交的程序,具有一定的代表性,又要尽量简化不必要的过程和减少偶然的随机干扰,便于观察研究。费雪在1936年指出:孟德尔是在总结前人实验的基础上,已经从理论上预料到会出现什么样的数据,然后才去安排实验的,因而只需要不多的数据就得出完美的结果。但是孟德尔只是公布了能够证明结论的数据,而不是全部实验数据。1940年,费雪检验了孟德尔公布的数据,发现这些数据完美得像真的,根本没有展现应有的随机程度。 在孟德尔之后,统计实验有了很大的发展,以剑桥学派首要人物贝特森(William Bateson,1861-1926)教授为首的遗传实验学派主张在实验中贯彻样本统计推断思想,以园田小样本实验为基本方法。他们认为没有一定实验设计在事先指导,就是把数据收集得再多,也难说是很充分的,说不定还可能是没有价值的。如果事先有了精心的实验设计,就不需要大样本,其结果也能够接近理论预测水平。可见,贝特森学派的统计实验已接近现代推断统计。 以英国生物学家和统计学家皮尔逊(Karl Pearson,1857-1936)为首的生物统计学派以统计观察和描述作为进化和遗传的研究方法。他们认为:从大量信息中提取出的数据是得出一切正确结论的充要条件,其有效性是不可怀疑的。而仅仅做几个实验就推出全面的结论,在他们看来只是井底观天,是危险的。令人反感的(Naughty)从大量观察中整理和计算出有说服力的数据才是实验的关键。因而生物统计学派在整理手段和计算手段上取得了很大的成绩,如卡方检验、相关法、回归法的发展和完善等。 1899年,英国统计学家戈塞特(William Seely Gosset,1876-1937)在都柏林找到了一个令笔者垂涎的职业,到一家酿酒公司担任酿造化学技师,从事统计和实验分析工作,可以边喝啤酒边搞科研。但戈塞特首先碰到的困难,是供应实验用的麦子数量有限,无法采用当时通行的大样本观察和推断理论,而且每批进厂原料的质量都有所波动,对温度的变化也很敏感。万般无奈,戈塞特着手从小样本开始分析实验数据。小样本数据存在两个问题:一是误差怎样解决,二是如何从中尽可能得到较为可靠的结果。酒是个好东西,李白斗酒诗百篇,戈塞特的酒也没白喝。他经过反复研究实验,确立了小样本理论。1908年戈塞特以学生(student)为笔名,在《生物计量学》杂志上发表了“平均数的概率误差”。由于这篇文章确立了“学生t检验”的基础,因而许多统计学家把1908年看作统计推断理论发展史上的里程碑。将戈塞特称为小样本理论的创立者和实验分析的先驱。费雪称他为“统计学史中的法拉第”。 费雪生的挺是时候,前面有很多科学家在实验设计方面积累了经验和教训,眼下又有美女相伴引发了灵感,更重要的是他的天赋和勤奋,创立和完善了实验设计理论和方法。 自1919年起,费雪在卢桑姆斯坦德农业实验站工作了14年,在实验活动中,不断收集肥料、雨量、遗传、土质、细菌、收获量等资料。与孟德尔修道院的后花园的条件相比,实验的环境更不易控制。引起实验结果差异的因素主要有两个:一是在田间实验中,土质、光照等客观条件不同;二是实验方法不同。由于这两个因素往往同时起作用,因此,如何从总差异中分解出这两个因素各自的影响以及如何测定它们,是费雪所面临的问题。经过多年的努力,自1923年费雪陆续发表了关于在农业实验中控制误差的论文。首次提出了方差分析、随机区组、拉丁方等控制、分解和测定实验误差的方法。这样,费雪的主要实验设计方法在20至40年代完成。 1935年,费雪完成了在科学实验理论和方法上具有划时代意义的一本书《实验设计》。在书的第二章,费雪就提到了剑桥午后的品茶和那位美丽的女士。当时,费雪设计了各种可能的实验方法,来测试美丽女士能否分辨出不同的茶。问题是,如果美丽女士只是哗众取宠而没有真本领能分辨出不同的茶,那么拿一杯茶给她品尝,她也有50%的机会猜出这杯茶的调制方法;如果给她两杯茶,她还是有猜出的可能;如果给她两杯调制方法不同的茶,她可能一次全部猜错或全部猜对。如果美丽女士有真本事,确实能够分辨调制方法不同的茶,但她还有可能弄错,或是茶水和牛奶没有混合好,或茶水温度不够影响了味道,或她喝了很多杯以后感觉已经不太灵敏。总之,品了十杯茶,有可能会弄错一杯。在书里,费雪讨论了各种可能结果,描述了该准备多少杯茶,依照什么顺序拿给她,然后根据她回答的正确与否,计算出各种结果的概率。这就像笔者给学生出考卷一样,根据教学的内容,一份考卷应出多少道题,各类题的顺序如何,选择题的备选答案如何排列。总之,是为了让学生考出水平,让好学生可以得高分,让不好好学习、仅凭临阵蒙事的学生,可能蒙对一、两道题,但还是不及格。 费雪的成就引起了广泛关注,首先是农业科学家了解到实验设计的伟大价值。 不久,费雪的方法成为农业科技上的主流学派,后来又被他的学生推广到其他科学领域。 至于剑桥午后品茶的那位女士,据说她能分辨出每一杯茶,全部答对,看来,这位女士不仅仅是美丽。 哲人说得好,女人是感性动物,男人是理性动物。如果感性动物与理性动物联起手来,科学的天空将更加美丽。请看第三回:彩虹为何眩目 且听统计描述。 参考文献: [1]《统计,改变了世界》萨尔斯伯格著,叶伟文译,台湾天下文化书坊,2002.4 [2]《世界统计名人传记》龚鉴尧著,中国统计出版社,2001.1 [3]《统计发展史》陈善林、张浙编著,立信会计图书用品社,1987.9 [4]《殴美统计学史》高庆丰,中国统计出版社,1987.8 |