客观日本

【野依良治的视点】从累计数据中发掘“意义”的开放科学

2021年08月25日 高等教育

更多请看: “野依良治的视点”专辑

2018年5月10日

学术研究的主要目的始终是追寻实验和观测结果背后的科学意义。决不是为了生产枯燥乏味的数值化碎片事实。现在也有很多研究人员是这样认为的。另一方面也有意见认为,随着利用数据驱动的研究不断进展,只有准确客观的数据才重要,其他都是附带的,是没有意义的。这种看法在天体和海洋观测以及灾害、健康管理等以收集大量数据为目的的研究中当然是正确的,但对于相信意外与偶然发现的笔者而言,是难以接受的极端言论。然而,在运用大数据解析和人工智能(AI)明显提高效率的现代社会,我也改正想法认为其也有一定的道理。

开放科学的振兴基础

牛顿曾经说过:“如果说我看得比别人更远些,那是因为我站在巨人的肩膀上”。这句话是这位17世纪的自然哲学家在对哥白尼和开普勒等伟大的先人为自己的思考提供灵感所表示的感谢。随着时代的前行,20世纪的物理学家爱因斯坦及分子生物学家沃森和克里克也是巨人的代表。现代的高水平科学研究就是基于他们发现的那些不可动摇的基本原理的反复再利用,他们的贡献是巨大的。

另一方面,20世纪上半叶的思想家何塞·奥尔特加则未采用“站在巨人的肩膀上”的说法,而是主张“实验科学的进展在很大程度上要归功于那些资质异常平庸、甚至连平庸都算不上的人所做的工作”。奥尔特加认为,颠覆常识的创新、破坏性指导原理的发现是与无数细微事实的日积月累复杂地交织在一起的,在如今的信息通信技术创新潮流中,忽然觉得这种看法值得我们重新思考。

在科学不断发展壮大、先端化的同时,领域的细分也越来越显著,知识分散于各个专业人员与领域中。因此,研究人员在论文中所描述的结论只是自己感兴趣的特定课题的关联主张。虽然也有高度关注的人,但不一定能得到整个科学社会的关心,产生的影响也大致限定于现有领域的周边范围。从原理上来说,收集并公开通过论文获得的准确数据,让更多领域的研究人员尽可能地利用的开放科学才能实现科学知识的增幅和囊括。目前已经有附带评审内容的出版物《科学数据》(施普林格·自然)和《Data in Brief》(爱思唯尔)等发布研究数据的开放索取(OA)期刊。

大数据解析还被称为继实验、理论和计算模拟之后的第四种科学范式,一些领域的研究方法正面临着转换。在新兴的天文信息学和生物信息学领域等,大数据解析已被证实有效,通过跨越现有领域,组合多样化知识,从理论和实践上可以解决的课题数量无疑会急剧增加,甚至可能会产生“地壳变动”般的影响。

研究人员公开数据的心理

今后,科学界需要能把被埋没的未使用数据作为资源共享和利用的统一管理。但遗憾的是,学术界根深蒂固的论文至上主义习惯会阻碍研究人员公开自己的实验数据。出于研究人员猜疑心的隐匿性早在17世纪的科学巨人伽利略·伽利雷身上就体现出来了。科学研究最重要的是发现和发明的领先性,当今的专业研究人员处在激烈的竞争和各种伦理缺失的环境中,为了保障自己的职位、研究资金、报酬和社会名誉等利益,对信息共享非常消极。实验的原始数据是自己取得重要发现的源头,不会希望这些数据能帮到竞争对手。

不过,请认真想一想。科学的本质是构筑全人类共有的知识资产,其进步很多得益于17世纪通过在科学论文杂志上公开而确定的成果,也即通过确立“开放的信息传播制度”而获得的。非公开成果不会得到学术界的认可。因此,基础数据是支撑研究人员所主张的科学结论的最重要依据,应该在公开认可其合理性的同时实现最大限度的公开。另外,20世纪以来,研究活动主要依靠的是以国家财政为首的公共财政支援,支援的前提就是为社会贡献尽最大努力。因此,以研究的个人得失为由,妨碍“社会中的科学,为了社会的科学”发展的保守主义是绝对不能容忍的。

投资未来的研究基础设施

我国政府每年投入3.6万亿日元的资金用于研究和开发(官民资金合计为18.9万亿日元)。以往那种缺乏长期愿景只管将公共资金投入研究的做法,毫无秩序地推进研究的做法,以及只管写论文和专利的做法绝对称不上合理的“研究投资”。日本全国有66万名研究人员,每年大约会写出10万篇论文,此外还有未公开的大量研究。后者大部分是没有被认可具有学术意义的,但所有研究活动无论目标是否达成,都确实产生了数据。因此,希望能有效利用好这些投入巨额资金所取得的中间成果。

有人说,科学将在未来50年间实现伽利略时代以来花费400多年才完成的变化。其关键就在于开放科学,未来的研究基础是此前一直由出版社和学术图书馆承担的科学论文的管理,以及可以再利用的高品质数据的积累。需要高度评价有助于广泛共享的数据提供行为,同时将其作为资源进行公正地管理,以消除研究人员个人受损的感觉,为其赋予任何人都能接受的动机。随着在众多领域电子实验笔记的普及,IoL(Internet of Laboratories)到来之日,那些不符合标准规格的研究室就有可能被排除在国际联合研究之外。所以有必要积极做好准备。

行政和科研界在数据统一管理方面的作用

世界正朝着开放科学的方向前进,数据公开还被写入了G7/G8科技部长会议的声明中。日本也必须创建能共享和最大限度利用实验数据的知识库,建立起牢固的体制,如果像目前这样毫无对策的状态继续下去的话,10年后一定会留下极大的遗憾。因此,有必要明确科学技术研究政策的制定者与实施主体之间的责任分工。

首先,主导振兴开放科学的政府和研究经费分配机构,需要唤醒仍然保守的科学界认识到开放科学的重要性。在此基础上,应该制定发表论文时一同公开数据的方针,呼吁大家同时改变行为模式。具体实施对策的应该是日本学术振兴会、科学技术振兴机构或者国立信息学研究所。在此之前,科学技术振兴机构根据内阁府召开的“立足国际动向的开放科学研讨会”出台的方针,制定了“旨在促进开放科学的研究成果基本处理方针”,并要求研究单位制定数据管理计划等,但具体的数据管理和数据应用还取决于研究人员个人的意愿。内阁府正在讨论作为国家今后应该推进的措施,但代表学术界意见的学术会议、各类学会和协会以及大学等研究一线单位又是怎样考虑的呢?在欧美,为了适应新的社会环境的正论会推动政治对应,例如“百慕大原则”就规定,提供研究资助的前提条件是共享人类基因数据。

瞄准的目标应该是构筑有条不紊的秩序,而非杂乱地汇集数据。1965年创建的剑桥晶体结构解析数据库(CSD)中录入的数据件数在2016年已经超过80万件,已经成为不仅是学术研究,而且对企业研究来说也是不可或缺的资源。另外,美国化学学会旗下的化学文摘社(Chemical Abstracts)所收录的化合物数量截至2015年已超过1亿件,合计收录了6,600万条关于蛋白质和核酸等的序列信息。近年来的录入件数超过了上个世纪最后25年的录入数量总和,如果继续保持这个增长速度,未来50年还将新增加6.5亿件。其他领域的扩展情况也大致一样,没有井然有序的数据管理,科学界就无望健全地开展研究活动。

笔者想明确的一点是,提出这个倡议不是为了实施有损学术自由的研究管理,而是出于实现科学的创新。因此,来自不同价值观和习俗领域的研究主体,具备自下而上的智慧是不可缺少的。且不说那些基于共同自然原理的基础科学,在医疗等与社会密切相关的领域也有各自的专业习俗,统一实施有助于创造集体智慧的数据管理绝非易事。但是,为造福当代和未来,科学界必须立足大局,积极予以协助,以构建起一个包括实施统一技术开发在内的、具有整合性的信息平台。

文:野依 良治(JST研究开发战略中心主任、2001年诺贝尔化学奖得主)
翻译编辑:JST客观日本编辑部