经济

为何数据科学最早应用于农业?

  近年来,数据科学成为一门显学。数据科学利用数据学习知识,其目标是通过从数据中提取出有价值的部分来生产数据产品。这门学科横跨了统计、人工智能、高性能计算等诸多领域,并为很多大企业创造了核心业务价值。“数据科学家”被追捧为最性感的职业。但数据科学最早的应用,却发生在不显眼的农业

  引领数据科学应用的,是罗纳德·费舍尔。1919年,29岁的费舍尔来到英国东部的赫特福德郡。赫特福德郡有一个古老的农业研究机构——罗森斯得农业实验站,费舍尔刚刚成为这个实验站的研究员。费舍尔是毕业于剑桥大学的天文学家,并曾做过一段时间的数学讲师。但此后的十四年里,费舍尔都会和田里的泥巴打交道。 

  早在1843年, 富商约翰·本尼特·劳斯就创立了罗森斯得农业实验站。这个实验站是一个农业科研机构。劳斯的财富来自化肥生意,因此一直想寻找最有效的化肥配方。化学家、植物学家、园艺学家纷纷加入科研机构。根据不同学科的理论,科学家们设计并进行了大量的实验。经过半个多世纪的积累,实验站积累了不少数据。这个时候,数据的问题却越来越突出。很多研究员都在抱怨,无法从数据中获得结论。 

  用于处理数据的统计方法已经诞生了两百多年。早期统计学偏重数据探索,只采用了简单的求和、求平均、求百分比等算术方法。这些方法能发现数据中的一些浅层结论。比如17世纪的数据科学家约翰·葛兰特,就通过死亡统计表来发现城市居民死因。此外,统计主要用于物理和化学的实验结果分析。这两门学科都有严格的科学定律来说明因果关系,并且实验环境非常可控。因此,测量误差相对微小。科学家可以通过多次重复实验来检验科学定律是否成立。

  但农业提出的问题完全不同。在费舍尔的时代,DNA还没有发现,就连达尔文提出的“进化论”也充满争议。所以农业完全没有科学定律可以参考。即便能写出数学公式,还是没法解决所有问题。物理学家做实验时,会在室内使用简单的小球。但农业研究的对象是复杂的生物,而且这些生物必须存活于开放的室外环境。田里作物长势如何,除了化肥起作用,阳光、灌溉、病虫害、土壤肥力、耕作方式等诸多因素都要掺合。某个季节的一阵风,就可能造成两块田地完全不同的产量。如果用一般的统计方法进行分析,实验站至少要把每种情况的数据都收集一遍。

  因此,在农业这种复杂系统的研究中,数据科学家必须满足于有限的少量数据样本。要知道,数据科学家那里,大数据能减少不确定性,是一件绝对的好事。但复杂系统的研究没法提供那么奢侈的条件。农业实验的周期非常漫长。化学家一个小时能做好几组实验。可作物的收获,至少需要几个月的时间。如果按照物理化学那样通过大量重复实验来控制误差,那农业研究永远都无法达成。

  费舍尔最大的贡献,是变换了数据分析的视角。他不再试图从完整的群体数据中获得结论,而是把少量数据当做从一个理想群体抽样,然后用概率的方式“猜测”这个抽样告诉我们什么样的群体信息。用样本来推测群体的信息,这被称为“统计推断”。费舍尔发展出一系列统计推断方法,如ANOVA、F分布检验、p值分析。此外,费舍尔还提出用统计推断的思路来设计农业实验,从而降低农业实验成本。他的所有努力最终解决了一个简单的农业问题:选择最佳化肥。

  费舍尔有一个简单的例子能说明这个问题。就拿上海这个2000多万人口的城市来说,我们想知道所有人的平均身高。由于调查上的困难,我们对这个平均身高是多少一无所知,我找到身边的两位朋友,小明和老陈。小明身高182,老陈身高175。既然对群体的平均身高没有任何知识,那小明的身高有一半的概率比平均身高高。老陈也是一样。因此,平均身高有50%的概率落在175和182之间。因此,即使只抽出两个样本,我们还是以概率的形式获得群体的一些有用信息。

  人们可能难以想象,20世纪最重要的数学发展居然是为了解决一个看似简单的农业生产问题。但我们不必对产业厚此薄彼。农业提供着人类生存必须的食物。在技术革命和工业革命之前,农业革命都会先行。在19世纪工业革命之前,英国引领的四轮耕作、育种等农业革命已经悄然进行了将近一百年。费舍尔的农业统计工作,也可以算作这场革命的后期发展部分。一批专业的化肥公司、种子公司和牲畜育种公司采用费舍尔的数据方法,成为最早享受数据红利的产业公司。其中一部分公司建立起强大的数据壁垒,因此成为延续到今天的百年企业。

  值得注意的是,刺激农业大发展的那套数据方法,要等到二战之后才在工业上推广使用。一方面,这可以归因于产业发展的优先级。在任何时候,食物供应比枪炮子弹都要重要。墨索里尼在推动意大利粮食自给时,就特别倡导农业育种新方法的推广应用。另一方面,工业环境类似于物理化学实验室,环境相对可控。工业产品的随机浮动不像农产品那么大。早期工业把注意力放在产品和产线的设计上。直到二战后,工业精度和工业效率都大为提高,数据方法才成为工业发展的新动力。通过采用数据方法,二战后的日本制造业才实现弯道超车,在质量和效率两个方面都赶超了美国。

  农业在技术应用上的领先并不鲜见。农业对技术的要求相对宽松,并能直接产生经济效益和战略意义。早在80年代,遥感和地理信息技术就大规模应用于农业。这比地图软件和打车软件领先了四分之一个世纪。率先推广的美国在农产品生产和农产品贸易方面获得信息优势,因此巩固了农业霸主地位。在最新的智能化运动中,农业已经在暗中打磨“智慧农业”。物联网AI技术已经在不断提高农业效率,自动驾驶等技术也被引入农机。美、日等国已经研发出成熟的自动驾驶农机,中国的科技公司也开始布局这一方向。相对于汽车面临的道路安全挑战,农业反而可能成为自动驾驶技术最先落地的领域。

  数据科学在农业的应用历史,也能给今天的数据科学带来启示。可以看到,只有数据没有方法,数据不能产生真正的价值。随着信息革命的到来,数据收集难度大为降低。无论是物联网的电子信号,还是社交网络的亲密留言,都可以轻松地采集、传输和存储。但大数据也带给人一种错局,认为数据科学可以依靠全方位的数据来“暴力破解”一切问题。但我们面临着和费舍尔相似的情况,看似海量的数据其实远远不够。

  无论是自然的生态系统,还是人类构成的社会系统都极为复杂,随机性是不可回避的一部分。在复杂问题面前,大数据并不意味着足够的数据。事实上,数据科学的最新研究,也越来越倾向于从小样本中推断和建模。泥土中产生的数据哲学,依然充满智慧。

技能Get
订阅新闻电邮