客观日本

【野依良治的视点】大数据利用和活用的前景展望

2021年09月14日 高等教育

更多请看: “野依良治的视点”专辑

2018年6月22日

伴随着大数据时代的到来,数字化统计数据库的价值明显升高。首先,论文开放获取(OA)的普及为开放科学开辟了道路,现在积累、公开和再利用作为其基础的实验数据的做法正进一步加速。不仅是新产生的知识,如果把开放式创新带来的巨大市场经济的可能性,以及SDGs(可持续发展目标)那样的全球目标也纳入视野的话,那么国际化的数据管理则可以说是必然的。

在美国,科技政策办公室(OSTP)已于2013年制定了“扩大论文和科学数据访问计划”,英国、德国、欧盟(EU)及国际科学理事会(ICSU)等也在积极探讨制定类似的计划。基础数据的统一和公开(开放数据)比论文OA化具有更大的连锁效应,今后不仅是基础科学,还会扩展到其他各类科学技术数据中去吧。标准化带来的影响将遍及全世界以及所有社会,因此,必须保持让所有国家和利益相关者都能接受的法律和财政方面的公平性,以及利益分配。另一方面,“全部产生联系的信息”是把双刃剑,或者说是一把万能剑,也能具有巨大的破坏力。如果管理运营不当,可能会损害基本的人权,甚至危及到一个国家的存亡。那么,日本的信息管理对策和体制是否充分呢?

日本的数据管理政策做到了万无一失吗?

虽然研究人员个人的意识多种多样,但在日本学术界,很多人都认为从创意到各种知识产物全部都属于自己。然而,因为个人或单一的小团体等现有组织的可能性明显存在局限,因此在很多问题上,基于国际合作或者跨领域合作的共同作业已成为普遍现象,并且不断催生出新的领域。其典型就是新的数据驱动型研究,日本也对此实施了充分的财政和人力投资,希望能在全球的信息网络中彰显出独立性和存在感。通过数据的统一,在推动科学整体发展的同时,维持和提高本国的科技竞争力至关重要。需要在避免个人利益受损的同时,有必要从国家未来利益的战略性出发,积极参与数据驱动型研究,为确立国际事实标准和构筑研究环境做贡献。绝对不能让研究人员每天努力生产的基础数据被擅长战略的外国掠夺走。

IMD世界竞争力中心公布的《2017年世界竞争力排行榜》显示,日本的数字竞争力在63个国家中仅排名第27位。目前全球都在争夺能够利用数据创造价值的数据科学家,尤其在这方面,预计日本将来会面临严重的数据科学家短缺。但是日本各大学的实践教育行动缓慢,花时间培养数据科学家根本来不及。当务之急的课题是应该活用以美国为中心的海外教育制度以及促进雇用外籍研究技术人员。否则,日本势必会被孤立于全球的数字化社会之外。

重新审视科研论文期刊的情况

首先,希望重新审视一下以公平、中立、公开为宗旨的学术研究成果发布平台——科研论文期刊的全球情况。目前,全球每年发表的科研论文超过210万篇。市场份额最高的是发行约2,000种期刊的爱思唯尔公司(荷兰),该出版社每年受理150多万篇(2016年数据)投稿,经过评审,其中约28%的42万篇会被发表。该出版社拥有全球20%的发表论文份额,剩下的部分则由有限的几家欧美商业出版社和极少数几家学会寡占。日本处于非常严峻的形势之中,但这还只是表面问题。

以论文的形式体现出来的成果只是整个研究活动的一小部分。例如,尤其是那些品牌知效用强的权威期刊所采用的论文还不到10%,而最终公开的数据也只是有直接关系的参考资料的一部分。公开发表的论文都有大量未公开的数据支持,这部分数据也被要求提交。这种情况对于那些未被采用的90%的论文,以及其他大多数科学期刊也都一样。假设平均采纳率为70%,就意味着每年有300万篇的投稿,对这些论文的详细评审过程,以及庞大的未发表数据虽然不会被废弃,但是留存在相应科学期刊的编辑部里。今后如果(这些数据)能与作者的电子实验笔记相连接的话,至少累计超过1,000多万名研究人员和学生的实验详情能够被完全掌握。不知这种情况能否被接受?

基本数据的所有权和使用权的归属

从作者的角度来看,可以说这种方式在很大程度上是在向出版社免费提供私密信息,那么作者究竟应该在怎样的范围、以什么为依据来承担提交的义务呢?出版社、作者和研究资金的提供者应该维护的著作权和知识产权包括什么,交换的价格应该怎样设定呢?目前,著作权仅限于思想或情感的创作表达,不包括单纯表现事实的数据。

旗下拥有数千种科学期刊的大型出版社,实际上也是有能力支配整个科学社会的巨大信息收集机构。尽管从法律和道德的角度,这些被独占的数据不允许被转用,但现在从自动收集的大数据中,能够提取出包括各领域的研究动向、产学研合作关系等在内的各种有用的信息和知识。涉及研究数据的《与科学、技术和医学(STM)出版有关的布鲁塞尔宣言》认为,为促进开放科学,出版社应尽可能多地公开未经加工的研究结果数据,今后应该密切关注实际情况会怎样变化。

考虑到与数据生产有关的人力、财政、信息资源及生产过程,某些特定出版社在煞有介事地在“数据共享政策”的名义下,垄断与著作不对等的数据,并企图通过比较、分类、统计解析和整合数据进行知识产权的再生产,这是完全不当的行为。无论投稿还是未投稿,所有权都属于提供研究经费的各国公共和私人机构(财团、企业等)或者接受研究经费的大学及研究机构。

必须牢记近年来欧美的商业出版社和信息提供机构席卷了科学界,导致可能无法恢复的对科学的全面控制,政府、组织和个人相互合作,负责任地管理基本数据库,这应该是对国民的义务。

研究社会与行政的职责

信息化时代的研究社会应该认识到,维护数据库是可以使自己的活动效果最大化的途径,因此需要提高特定领域的能力并建立有效的生态系统。数据库化的进展情况因领域而异,但似乎大都与预印本档案的普及程度相对应。肆意妄为且缺乏合理性的因循守旧的活动肯定会削弱综合研究能力,因此,希望能够在克服现有领域和组织的特性、价值观及习惯等方面差异的同时,提出能尽快加速共享的最佳方式。当然,这种管理制度不能限制研究,阻碍原本的自由创意和灵活行动。

由于科学技术研究是跨越国界的,因此建立国际共识和进行协商必不可少。此外,还需要进行管理:为所有基础数据赋予永久的数字标识符,以保证提交者的权利。行政方面应该综合判断社会整体的利益、损失和细微之处,坚持国家利益,率先制定应有的国际协议以及开放/封闭战略。放任自流的不作为会让其他国家占有大量数据,决不能允许动摇国家政策、企业经营战略和大学运营基础的事态出现。期待掌管日本学术研究的文部科学省能制定出与研究数据的管理和利用相关的政策,并实施支援措施。

另外,以商业化为目标的企业研究等与由公共资金支持的学术研究有着本质不同,因此有必要从保持竞争优势的立场出发,有必要尽快讨论和梳理基本思路。当然,对于个人隐私和财产价值以及保护与企业活动和国家安全有关的机密都必须进行最大限度的考量。

经济界认为“大数据是超过石油的新资源”,美国的GAFA四公司(谷歌、苹果、脸书、亚马逊)以及中国企业都在争相积累大数据。IoT(物联网)利用云计算创造各种新技术,据说到2025年,以城市、工厂和健康领域为中心,其经济效应将达到11万亿美元。另外,在人生百年时代,个人生涯正被迅速数据化,为了享受健全的个性化医疗有必要建立以匿名化为前提的、综合且公平的数据共享制度。然而,这个领域肯定会出现新的商业模式,例如,特定企业通过机器学习解析和销售庞大的个人数据由此产生巨大的医疗服务产业。美国的私营企业独占性网罗收集医疗健康信息也属于这种情况。另外,日本在采购外国制造的先进医疗器械时,也有可能被要求以提供全部测量数据为前提条件,对此大学和公共机构有必要在在这方面审慎行事。

人文学和社会科学能催生新轴心吗?

数字数据驱动型研究的兴起不仅限于自然科学和技术领域。有日本特点的人文学和社会科学如果疏于构筑电子基础设施,也会孤立于世界之外。欧洲已经顺应数位人文学的潮流,开始推进艺术与人文数字研究基础设施项目(DARIAH:Digital Research Infrastructure for the Arts and Humanities),用来对各种内容按照时间轴和空间轴重新进行包装以及解析中世纪的文书等。在社会科学领域,欧洲社会科学数据档案委员会(CESSDA:Consortium of European Social Science Data Archives)正在构筑可对各国单独建立的档案进行综合搜索的系统。我们不能安于支撑日本之魂的学术研究的特质性,从而被国际社会无视和疏远,乃至最终埋没在全球化潮流中。相反,我们应该促进现在趋于停滞的文理融合,提供能催生新轴心的新方法论。

文:野依 良治(JST研究开发战略中心主任、2001年诺贝尔化学奖得主)
翻译编辑:JST客观日本编辑部