作者简介:肖冬梅(1970—),女,湖南洞口人,湘潭大学知识产权学院院长,二级教授、博士生导师;杨忠(1986—),男,湖南宁乡人,湘潭大学知识产权学院博士研究生。
摘要:实现科技自立自强的当务之急是攻克关键核心技术难题,知识产权大数据中心是助力核心技术攻关的新利器。在数据挖掘技术条件、知识产权数据资源和政策支持都已齐备的基础上,构建面向关键核心技术攻关任务的知识产权大数据中心恰逢其时。针对当前知识产权信息服务平台普遍存在归集数据单一、类别不全、平台功能有待拓展,未能满足关键核心技术攻关需求且存在安全隐患等问题,应明确国家知识产权大数据中心功能定位、归集数据范围以及多方建设主体职责。国家知识产权大数据中心良性运行有赖于知识产权基础数据开放、多方协同的投入和数据安全合规审查三大机制的构建。
关键词:知识产权大数据中心;关键核心技术;“卡脖子”技术难题
近年来,美国先后出台一系列法律制度遏制我国关键核心技术的发展,制裁我国有核心竞争力的实体(包括企业、高校和科研院所)。特别是其2018年颁布实施的《出口管制改革法案》(ECRA),迄今为止,禁止或限制的技术贸易以及与之相关的产品(服务)贸易的新兴和基础技术领域已高达19个,包括人工智能、芯片、量子计算、机器人等 美国由总统牵头建立并领导的机构间程序,对新兴和基础技术出口管制进行认定并动态更新,2018年认定了生物技术、人工智能和机器学习技术、定位、导航和定时(PNT)技术、量子信息和传感技术和脑机接口等14个新兴技术领域,2020年增至20个,2022年调整为19个。,该法案实施以来被纳入美国“实体清单”(Entity list)的中国实体剧增,已高达1300多家,中国成为受制裁实体最多的国家。被列入美国“实体清单”中的实体成为美国商务部产业与安全局(BIS)禁止或限制出口的对象,无法与美国公司和有25%以上美国技术或零件的他国出口商进行技术或货物贸易,美国通过此举实现技术封锁和供应链隔离,一部分“不自主”的核心技术被以美国为主的技术发达国家作为限制中国和恶意竞争的战略武器,“卡脖子”技术难题由此而来。
我国实现科技自立自强的当务之急是攻克“卡脖子”技术难题,掌握关键核心技术的自主权。近两年来,国内关于“卡脖子”技术或关键核心技术的识别、成因与破解方面的研究成果颇多,但迄今为止,如何构建国家知识产权大数据中心,为破解“卡脖子”技术难题提供信息资源保障的成果阙如。虽然国家知识产权局公共服务司认为国家知识产权大数据中心是国家知识产权信息公共服务体系的数据支撑和网络支撑,并认为建设知识产权大数据中心是国家在面对国内外新形式新挑战背景下推进知识产权信息公共服务体系建设工作的重要抓手。但理论界却对此关注不够,专门研究该主题的成果尚未见发布,与该主题密切相关的成果有两篇:崔燕等认为建设知识产权大数据中心需要统一的知识产权数据标准体系提供基础支撑,其从数据基础标准、数据采集标准、数据加工标准、数据存储标准、数据管理标准等五个维度提出知识产权大数据中心数据标准体系的构建方案;李贞贞等聚焦盐湖产业生态链闭环,对中国盐湖产业大数据中心建设的总体架构与主要功能模块进行了初步探究,并重点围绕大数据中心建设过程中的重点和难点,从产业政策数据库、知识产权数据库等九大类数据资源的整合,到不同阶段和不同类型数据的质量控制等角度给出了具体的解决思路和方案。然而,这些研究主要是从原则和要求、数据标准体系及其单个产业等层面对知识产权大数据中心建设提供了一定的参考,但是从建设、运营、管理和维护等对知识产权大数据中心进行全过程的有关研究缺乏。本文旨在探究国家知识产权大数据中心的构成要素与功能定位,试图围绕知识产权“创、保、运、管、服”全链条,剖析破解“卡脖子”技术难题的知识产权大数据中心建设所面临的现实问题,探寻知识产权大数据中心建设顶层设计、架构及其得以良性运行的制度设计。
一、为何要面向关键核心技术难题构建知识产权大数据中心
(一)尽快破解关键核心技术难题的使命在肩
2018年以来,各国在关键核心技术领域的争夺日益激烈,以美国为首的西方国家对中国在科技领域的部署进行动态监测,并不惜动用国家力量进行精准打击。美国一方面通过出台《出口管制改革法案》等国内法,另一方面还通过《瓦森纳协定》、G7、澳大利亚集团等多边机制加快与其他国家的出口管制协同,对关键和新兴技术(见表1)及相关产品和服务进行严格的出口管制甚至断供,导致中国面临严峻的“卡脖子”技术难题;与此同时,美国联邦调查局(FBI)响应特朗普政府的“中国行动计划”(所谓的“中国行动计划”实质上就是美反华势力滥用国家安全概念、对华进行遏制打压的工具),对华裔科学家、研究人员和学者展开了大规模调查,胡安明、陈刚等华裔科学家被美国 FBI 迫害软禁,该计划90%的涉案被告是华裔科学家。2022年2月23日,美国司法部虽然宣布终止“中国行动计划”,但事实上,该计划的所谓终止,仅仅是取消这一招致诟病质疑的名称,并未改变其针对目标和实质内容,这对于关键核心技术信息的正常交流产生了极其负面的影响。在全球化竞争中,知识产权已经成为国家与国家、企业与企业之间竞争的焦点和制高点。市场如战场,置身于专利地雷阵、标准封锁线之中,企业如履薄冰,动辄得咎。关键核心技术尤其是其中的“卡脖子”技术能否得以尽快攻克,关乎重点产业风险治理乃至国家安全。
技术研发有继承性,要“站在巨人肩膀上”创新,才能事半功倍。技术难题的破解不可能一蹴而就,对现有技术尤其是知识产权信息的全面获取和有效吸收,在很大程度上能在攻克关键核心技术上避免资源浪费,提升研发的效率。面向关键核心技术攻关构建知识产权大数据中心,一方面可以在很大程度上避免巨额投入的浪费,另一方面可以有效缩短关键核心技术难题攻克的时间。因为专利文献集科技、经济和法律信息于一体,蕴含极大的使用价值。专利文献包含了详细的技术方案信息,反映技术产生、发展的全过程,对其跟踪可以从中把握技术的未来趋势。根据世界知识产权组织(WIPO)的统计,全球有90%以上的发明创造信息都是首先通过专利文献反映出来的。专利信息中包含了世界上90%-95%的技术信息,这些专利信息当中,有80%以上的技术信息未在其它的技术信息当中出现过。同时也有研究发现,有效运用专利信息,可平均缩短研发时间60%,节省研发费用40%。通过专利信息解读,可以了解竞争对手的研发动向、专利布局和市场策略;通过专利信息分析,企业可以找到最佳的合作伙伴。譬如克罗地亚Pliva公司研制开发了“阿奇霉素”并在八十年代初取得了全球专利保护,但该公司缺少资本打入国际市场。美国辉瑞公司从专利文献中发现了这项专利,意识到了巨大的市场潜力及时与Pliva公司合作,最终获得了双赢。若能加快构建国家知识产权大数据中心,进行技术情报挖掘,大数据赋能,往往比传统信息分析方法效率更高、效果更好,这无疑是为我国破解关键核心技术难题提供利器和助力。


(二)知识产权大数据中心是关键核心技术破解的利器
知识产权大数据中心比起传统知识产权信息系统,更有助于关键核心技术的攻克,尤其是其中的“卡脖子”技术难题的破解。因为根据“信息链”理论,通过数据挖掘和分析,比传统的信息分析更能还原事实和真相。事实(fact)、数据(data)、信息(information)、知识(knowledge)、情报或智能(intelligence) 是信息链 (information chain) 的五个基本节点。事实是客观事物运动的表现,数据是载荷或记录信息且按一定规则排列组合的物理符号(包括数字、文字、图像、声音或计算机代码),信息是数据被赋予现实意义后在信息媒介上的映射,知识是对信息加工、吸收、提取、评价的结果;智能是被目的所激活的知识。“信息链”即“认知链”,在信息时代,人类对描述或呈现“事实”载体或形式的认知,经历了从情报——知识——信息这样的一个过程,大数据时代人类对“事实”的认识则越来越依靠数据,数据被认为是荷载“事实”的最小单位。“数据”(data)在拉丁文中是“已知”的意思,也可以理解为“事实”(Fact)。虽然数据、信息、知识、情报均不能够等同于事实,但都是事实的局部反映,与最接近事实的数据相比,信息、知识、情报有不同程度的主观性,在“信息链”中,数据是原始素材,信息是加工处理后有逻辑的数据,知识是经过组织的信息,情报是知识的应用,越接近事实其客观性越大而主观性越小,故直接源于数据的“还原”比源于信息的“还原”更加精确。可见,数据天然具有还原事实的能力,那么汇集起来的海量数据中的“事实密度”越高,其还原事实的可能性就会越大。
攻克关键核心技术难题,若能明了技术的前世今生,还能预知未来的发展轨迹,势必事半功倍。马克·吐温曾说:历史不会重演,却自有其韵律。虽然万事皆显出自发偶然之态,但实际上,它远比我们想象中的容易预测。无独有偶,全球复杂网络权威巴拉巴西通过研究得出结论:93%的人类行为是可以预测的。这意味着,技术创新轨迹同样可以被预知,其预测的精准度取决于技术领域数据样本的多寡,一般来说,数据样本越全,其透明度越高,精准预测的可能性越大。
(三)在当前构建知识产权大数据中心恰逢其时
1.当下我国已经具备构建知识产权大数据中心的技术条件。随着我国数据挖掘技术的发展和迅速普及,构建知识产权大数据中心的技术条件已然具备。2018年,我国启动新型基础设施建设以来,技术基础设施发展迅猛,这为知识产权大数据中心的建设奠定了坚实的技术基础。据中国信通研究院有关研究报告,截止到2021年年底,我国在用数据中心机架规模近五年均复合增速超过30%,达到520万架,其中,大型以上数据中心机架规模增长占比达到80%。我国的云计算发展同样迅速,云模式正在重新定义软件工程的新业态,如DevOps为云上开发具备多云部署能力、可移植性、可扩展性和高可用性的软件应用提供了清晰的实践流程;云技术的发展可以为知识产权大数据中心提供高并发、高性能、高可用、可复用的云架构。当前,人工智能加快向各产业渗透,正在促进技术与社会的跨界融合发展。新一代的人工智能技术能够更好地将知识产权基础数据进行跨产品连接,为更加深度而清晰地挖掘经济、科技、法律、文化等领域的数据使之成为竞争情报提供了丰富的手段。
2.我国已经具备构建知识产权大数据中心的数据基础。随着我国信息技术的快速发展,我国已经建立了体系完整的信息基础设施,现有的知识产权业务流程基本实现电子化处理,积累了丰富的知识产权基础数据资源。国家PSS专利检索及分析系统、中国专利公布公告系统、中国及多国专利审查信息查询系统、中国商标网上服务系统、地理标志数据查询系统、集成电路布图设计公告查询系统等按照知识产权信息数据规范,实现了对专利、商标、地理标志、集成电路布图设计等知识产权基础数据的加工和处理。如PSS系统汇聚的专利文献资源总量达1.83亿条,涉及中国、美国、日本等100多个国家、组织和地区,同时还收录了引文、同族、法律状态等数据信息;商标网上服务系统提供了商标历史数据及增量数据的下载,内容涉及8张数据表以及60个字段,范围覆盖注册商标基本信息、注册商标商品和服务、商标代理人字典等信息。近年来,国家知识产权局还先后与美、欧、日、韩等国家或地区知识产权管理部门签订知识产权国际数据交换协议。基于此类协议,2014年12月国家知识产权局上线专利数据服务试验系统,向社会公众提供本国知识产权基础数据以及通过国际数据交换协议而获得的外国知识产权基础数据。如果将来国家知识产权局扩展知识产权国际数据交换协议的国家、地区或组织,这将为知识产权大数据中心的国际数据汇集提供更好的基础。
据国家工业信息安全发展研究中心发布的《我国数据开放共享报告2021》,中央62个部门、32个省级地方全面接入国家数据共享体系,累计发布数据共享服务接口超过1300个,支撑跨部门、跨地区数据共享交换量达697亿条。2016年上线的中国知识产权大数据服务系统是中国第一个集专利、商标、法律、文书、期刊、标准、版权等数据资源的应用服务系统,包含的数据量巨大,应用层数据超过400T,采取分布式存储建立知识产权大数据服务系统,资源专利l亿多条,商标3200多万条,标准类110万条,版权700万条,还有地理标志等方面的数据。
3.国家层面已经正式发文明确部署知识产权大数据中心的建设。2019年,国家知识产权局印发的《关于新形势下加快建设知识产权信息公共服务体系的若干意见》明确提出“要积极推进国家知识产权大数据中心立项及顶层设计工作”。2021年,中共中央和国务院共同印发《知识产权强国建设纲要(2021-2035年)》,其提出要“完善国家知识产权大数据中心和公共服务平台,拓展各类知识产权基础信息开放深度、广度,实现与经济、科技、金融、法律等信息的共享融合。”这为我国知识产权大数据中心的建设提供了明确的指引。国家知识产权大数据中心乃知识产权信息的汇集中枢和传输枢纽,既是国家知识产权信息公共服务平台和各地知识产权公共服务平台的数据支撑,也是知识产权信息公共服务体系的网络支撑。
二、构建国家知识产权大数据中心的现实基础与主要问题
(一)面向关键核心技术研发的知识产权大数据中心建设基础
1. 国家知识产权信息公共服务体系
迄今中国国家知识产权局建设了3级信息服务网络——国家专利数据中心、区域专利数据服务中心、47个地方专利数据服务网点。国家知识产权局拥有了包括美国、日本等大多数知识产权局在内的近90个国家地区和国际组织的专利文献数据,由于缺乏数据整合与加工,未能对这些数据进行有效的深层开发和增值利用,使国家知识产权局的检索工作和向公众提供信息服务的能力受到制约;国内商业性开发目前虽有广州奥凯、东方灵盾、大为科技等少量公司在做,但无论是从开发层次还是开发规模都只能说处于起步阶段,与发达国家相比,中国还有很大差距,总的来说,我们的专利数据有待进一步充实,开发主体有待进一步多元化,系统需要进一步互联互通、优化整合、资源共享。
从开发程度来说,中国专利数据资源开发利用还在起步阶段,有很多不足。首先,专利数据开发深度明显不足。专利数据的加工可以根据标引的程度分为初加工和深加工两种,初加工的内容包括数据格式转换和规范整合、对专利外部特征的提取和标引;深加工的内容包括对专利主题信息的标引、专业分类和文摘重写、对专利特殊专业信息的标引等。总的来说,中国专利数据的加工模式,以初加工为主,还未从单一的粗放式“一次开发”,转型到合成的精深式“二次开发”,或者说“二次开发”仍然停留在浅尝辄止的层面,开发深度明显不足。其次,专利数据利用不充分。一方面,以初加工为主的开发模式在很大程度上决定了中国专利数据利用不充分,另一方面,公众利用专利数据的能力低,这也在一定程度上影响了专利数据的充分利用。因此,近年来国家投入巨资建设的专利数据公共服务平台未能被社会公众充分利用和共享,更未能进行进一步深度开发。
纵观世界各主要国家和地区的专利数据开发模式,从开发主体来看,分为商业开发模式与公共开发模式两种,从开发程度来看,分为基础初始开发和增值深度开发两种。目前中国基本上处于公共初始开发模式阶段,与欧盟和美国、日本的商业深度增值模式比较起来,增值开发和利用力度较弱,其经济效益和社会效益远远没有发挥出来。
2.商业化知识产权数据库
目前由于知识产权信息公共服务的局限性,事实上能够为“卡脖子”技术研发活动提供增值服务的主要是商业化的知识产权数据库服务提供商。本文选取市场上主流的四款专利检索分析系统(D1、D2、D3、D4),以典型的卡脖子技术之一——光刻机为例,通过检索分析,评估这些工具的性能,将光刻机所涵盖的五项核心关键技术部件(见表2)作为检索字段,分别限定为“标题”“标题、摘要”“标题、摘要和权利要求”,检索结果分别如表3至表5所示。


以上检索结果表明,对于样本1,在三种不同的检索方式中,D1返回的检索结果的数据量远超其他三大检索平台,D2与D3返回的检索结果数据量差异不大,D4返回的检索结果最少。
对于样本2,D1返回的检索结果的数据量远超其他三大检索平台;三种不同的检索途径,D3返回的检索结果数据量均多于D2,D4返回的检索结果最少。
对于样本3,在三种不同的检索方式中,D1返回的检索结果的数据量远超其他三大检索平台。在D2、D3、D4三大平台中,采用“标题”字段检索,D4返回的检索结果最少;但当检索字段采用“标题、摘要”或“标题、摘要和权利要求”时,D4返回的检索结果超“D2”和“D3”。
对于样本4,在三种不同的检索方式中,D1返回的检索结果最多,D1和D3返回的检索结果远超D2和D4。
对于样本5,其他三大检索平台返回的检索结果数据量远不及D1。除D1外,D3返回的检索结果最多,其次D2,D4返回的检索结果最少。但当检索字段限定为“标题、摘要和权利要求”且检索的专利类型为“发明申请”时,D4的检索结果会对于D2。
综上分析可知,这四大平台返回的数据量差异较大。从总体上来看,D1返回的检索结果最多,其次为D3、D2,而D4返回的检索结果最少;但是,采用不同的检索字段检索不同的专利类型时,D3、D2、D4三大平台返回的数据量并没有遵从上述顺序。
在对D1、D2、D3、D4四大常用商业专利检索平台返回的检索结果进行仔细分析和研究后,笔者认为造成这种数据差异的原因主要体现在如下几个方面:
一是数据加工深度。现实生活中,有的权利人或发明人没有准确地表达好专利的标题或摘要,有的权利人为规避竞争对手或其他目的刻意采用晦涩的语言撰写标题或摘要,同时还有大量的非英语类专利文献,如果仅采用机器翻译的话,不一定能准确表达原专利文献的本意。D1会聘请领域专家对所收录的所有专利的标题和摘要用英语进行通俗易懂的改写,重写后的标题和摘要能更精准的表达专利的技术主题;而D3、D2、D4等平台仅采用机器翻译的方式对非英语专利文献进行改写,没有采用手工的方式对所收录的数据进行深加工。因此,上述的检索结果中,D1返回的检索结果远远超其他三大平台。
二是数据收录范围。数据是专利检索的基础,专利检索平台所收录的数据量是保障检索结果准确性和完整性的关键要素之一。D1收录75个国家或地区的专利全文,D3收录了43个国家或地区的全文,D2收录了30个国家或地区的全文,而D4只收录了23个国家或地区的全文。可见,D1、D2、D3、D4全文数据的收录范围差异较大,由于数据范围的差异,从而导致各检索平台的检索结果差异。
三是检索式的技术处理方式。当数据库检索范围限定为全球专利,D3会将中文检索词翻译为英文进行检索,如将“掩模”简单翻译为“mask”进行全库检索;同时也会对某些检索词进行智能处理,如将“photomask”拆分为“photo mask”进行全库检索。一般而言,用引号标记关键词,如“ENERGY CONTROLLER”,则检索结果严格匹配引号中的内容,位置顺序均固定;但在D4平台中,这种规则仅当检索字段为标题时有效,而检索字段为摘要或权利要求时,不起作用,即会将双引号标记的关键词进行拆分后检索。如检索“ENERGY CONTROLLER”,只要摘要和权利要求中同时出现了ENERGY 和CONTROLLER则会返回检索结果。对于包含中英文检索词的复合检索式,各平台的处理方式也不相同。D1仅对英语检索词有效,D2则会将中文检索词翻译为英语进行检索,而D4则不会对中文关键词进行翻译。
四是数据更新频率。D1的数据更新频率每周至少 3 次,D3对67类数据实现日更新,D2采用周更新的频率更新数据,而D4对部分国家或地区的专利数据更新较慢。
(二)构建知识产权大数据中心面临的主要问题
无论是生产企业还是科研人员,要了解某个技术领域及相关行业的发展背景、技术现状、未来趋势、行业分布情况、市场份额等,检索全球已公开的专利文献应该是最经济的选择。但专利信息资源存量巨大,发展迅速。迄今为止,全球范围内专利已逾1.6亿件。世界上约有110个国家、地区、国际性专利组织用大约30种官方文字出版专利文献。浩如烟海的专利数据的有效利用需要有序而科学的组织和深度挖掘,事实上,中国近年来投入建设的专利数据公共服务平台未能被社会公众充分利用和共享,更未能进行进一步深度开发。在一个直至1985年才颁布实施《专利法》的国家,中国的企业和公众专利数据资源识别和利用能力偏低,获取渠道不畅,更面临如下四方面的问题:
1.我国关键核心技术研发缺乏足够的知识产权信息保障。近年来我国知识产权信息公共服务体系的建设虽然卓有成效,但已有的知识产权信息资源配置依然还很难满足关键核心技术研发方面的知识产权信息需求,譬如关键核心技术领域的知识产权信息类型匹配不足、保障体系不完善、专业人才匮乏等。在这个问题上日本的做法值得我们学习,日本特许厅1998年与世界知识产权组织国际局合作建立了世界知识产权数字图书馆(IPDL),向公众无偿提供专利公报,后又建立了PCT国际专利公报数据库、JOPAL专利审查最低文献量科技期刊数据库之外,日本特许厅每年还把预算的10%左右用于专利文献的深加工,并组织厅内、厅外专家定期绘制关键技术领域的“专利地图”,以指导日本企业实施专利战略。相比日本当初的形势,我国当前“卡脖子”技术攻克更需深度挖掘知识产权数据中的情报,提供专利地图之类的增值服务,为研发主体提供技术研发亟需的信息资源保障。
2.知识产权数据背后存在安全隐患。知识产权信息服务平台贯穿于项目研发全过程,如果借助国外知识产权信息服务平台为军工、核工业、航天航空和战略性新兴产业等关系国家安全的机构提供知识产权信息服务;那么,这些机构用户的所有个人信息、机构相关信息、检索信息等很容易被境外国家有意识地收集、聚合和分析并被有目的地利用,从而可以锁定我国这些特定用户的科研活动轨迹,以及研究领域方向、内容、进展、创新和技术需求等信息,最终有可能上升到国家层面的网络信息安全问题,乃至国家安全问题。因此,构建由我国自主控制的知识产权大数据中心,为我国国内的所有研发活动提供知识产权信息服务,避免我国的研发情报被境外平台非法收集。此外,构建由我国自主可控的知识产权大数据中心也能破解在某些特定情境下被境外当局要求暂停知识产权信息服务给我国研发活动造成的冲击,如俄乌大战期间,众多网络服务提供商终止为俄罗斯提供信息服务。
3.当前知识产权信息服务平台普遍数据类型单一。当前知识产权信息服务平台汇聚的数据主要为专利数据,虽然已有少量平台嵌入了部分商情数据及知识产权诉讼数据,但总体而言,这些平台仅能为专利这一类知识产权的竞争情报检索和分析提供支持,而对于商标、地理标志、集成电路布图设计等技术类知识产权的检索和分析提供的支持相当不够。而构建知识产权大数据中心,将各类知识产权基础数据、国际交换数据和部委共享数据,与经济、科技、法律、文化等信息进行有机整合,破除“信息孤岛”和“数据烟囱”,实现知识产权数据资源的“一网统管”,为高端的知识产权信息服务提供全维度的数据支持,破解当前知识产权信息服务平台数据来源单一的问题。
4.现有知识产权信息服务平台功能有待拓展。由于当前知识产权信息服务平台主要汇聚专利数据,除提供专利信息检索和分析功能外,很难扩展其他服务功能。而知识产权大数据中心汇聚了多维度的知识产权数据,可以为更多的知识产权信息服务场景提供数据支撑。如可以利用数据中心的智能算法,将高校最新研发技术和企业实现及时地精准匹配和主动推送,为校企协同创新提供快速通道,为更好地实现知识产权转移转化提供服务。此外,知识产权大数据中心也可以基于数据优势,实现供应链关系及核心需求人才的精准定位和描述,助力我国核心竞争能力的提升。
此外,目前中国知识产权数据资源亟待优化配置,一方面是知识产权数据获取渠道匮乏,获取不全;另一方面知识产权数据尤其是专利数据资源重复建设现象严重,囿于初始专利数据的提供。譬如不少地方知识产权局,大而全的专利数据服务系统和平台建设方兴未艾。采用由国家知识产权局主导、各地方知识产权局分工合作、市场主体参与深度加工的多层次专利数据开发模式,构建中国知识产权大数据中心,可以优化知识产权数据资源配置,满足多元化的知识产权数据需求。
三、国家知识产权大数据中心构建设想
在当前这个发展阶段,构建覆盖全类全领域的知识产权大数据中心,任务过于艰巨,理想的方案是分步建设,当前应该重点面向关键核心技术尤其是“卡脖子”技术的开发需求,构建相关领域全类全链条知识产权大数据中心。
(一)知识产权大数据中心采集数据的范围
1.构建国家知识产权基础数据中心
根据国家知识产权局的部署,国家知识产权大数据中心将汇聚商标、专利、地理标志、集成电路布图设计等知识产权基础数据,国际交换数据和部委共享数据,与经济、科技、法律、文化等信息相互关联,实现数据资源的统一性、基础性、权威性、安全性和共享性。国家知识产权局的事业单位知识产权出版社2016年上线的中国知识产权大数据与智慧服务系统,目前已经整合了国内外专利、商标、法律文书、科技期刊、标准和版权等知识产权大数据资源,涵盖103个国家和地区的专利数据,中美英等国超过3200万条的商标数据,154万条软件著作权数据、482万余条作品著作权数据,1900多万条期刊数据,33万余条专利复审无效数据和知识产权裁判文书等,可以在这个基础上进一步整合和优化。
以目前知识产权信息服务领域基础最好的专利据分中心的建设为例,应由国家知识产权局牵头建立国家级专利基础数据库以及诉讼、商情等其他相关数据库,提供专利数据公共平台服务。国家级专利基础数据库不仅需要收录各国专利数据,而且需要收录企业商标、资本等商情信息和专利诉讼信息。虽然中国已有数个国家级、省市级的公共专利服务平台提供世界主流国家专利数据,其中典型的公共专利服务平台有中外专利数据库CNIPR和上海市知识产权信息服务平台等,但目前国内专利数据基础数据建设相对薄弱的是专利审查过程数据(如检索报告)、专利诉讼数据和相关商情数据,国内不仅提供专利审查过程数据、专利诉讼信息和相关商情信息的公共平台匮乏,国产化商业数据库也供应不足。专利审查过程数据只公开了一部分,专利诉讼信息散落在裁判文书网,相关商情信息深藏于其他商业数据库,更新比较及时的中国商标网也是一个孤岛,这些信息的获取困难,使得对专利的微观分析、深度分析缺乏有效的数据支持,这在很大程度上影响到专利分析的效率和精确度,很难为卡脖子技术研发提供强有力的支撑。
所以构建国家知识产权基础数据中心,关键在两个方面,一是加快整合商标、专利、地理标志、集成电路布图设计等各类知识产权数据,二是加快整合知识产权审查过程数据、诉讼数据和商情数据。
2.归集关键核心技术领域全类、全链条知识产权数据
(1)关键核心技术尤其是“卡脖子”技术的识别。归集关键核心技术知识产权数据,首先要解决的问题就是对关键核心技术尤其是其中的“卡脖子”技术的识别。譬如对“卡脖子” 技术的识别,有观点认为,可采用从紧迫性和必要性两个方面确定短期需要解决的技术,从隐患性和重要性两个方面确定长期需要解决的“ 卡脖子” 技术。也有学者提出,应采用“ 垄断-难度-价值-相对优势”四步走的筛选方式,在已有文献对共性“ 卡脖子” 技术垄断程度、攻克难度、技术价值判断的基础上增加技术对地区或产业内部价值链重要性的判断,找出那些对某一地区或产业发展至关重要同时又具有研发投资相对优势的技术。上述方法都是可行的,但还需在此基础上动态跟踪美国管制技术清单,根据该清单的变化调整提供信息保障的技术领域,从而实时更新归集数据的范围,以满足“卡脖子”技术研发的迫切需求。
(2)归集关键核心技术尤其是其中的“卡脖子”技术领域全类知识产权数据。根据关键核心技术尤其是其中的“卡脖子”技术攻关需求,对专利、商标、版权、集成电路布图设计等各类知识产权数据,要尽可能应收尽收。因为样本越全,通过大数据挖掘获得情报的精准度则会越高。目前归集得比较好的是专利类数据,其次是商标数据,而集成电路布图设计、植物新品种等类数据的归集,有待于国家有关主管部门做好初始数据的平台建设和开放事宜。
(3)归集关键核心技术领域全链条知识产权大数据。知识产权“创造、保护、管理、运用、服务”全链条上每一个环节的数据,对关键核心技术的攻关都很重要,要尽可能归集。譬如熟知某一关键核心技术领域的知识产权许可、转化数据,对于该领域的市场主体做好知识产权管理至关重要,这是关系到能否识别“谁是我们的竞争对手,谁是我们的潜在合作伙伴”。
(二)知识产权大数据中心的功能定位
构建知识产权大数据中心,首先要明确其职能定位。定位不同,则职责使命不同。根据满足需求和提供服务程度,可以分为以下三个不同层级的定位:(1)数据资源管理,即把大数据整合管理起来提供数据资源服务,有权限的“卡脖子技术”研发人员从大数据中心获得研发需要的数据,这是基本职能;(2)数据的处理和加工服务,根据“卡脖子”技术问题研究需要对原始数据进行处理,从中抽取一些特征,然后提供给一线研发人员。(3)数据的分析服务,即按照技术研发需求进行数据分析,比如特定技术的前世今生、基于数据建立模型进行技术发展趋势与发展轨迹预测等。
若定位为大数据管理职能,则主要涉及整合各个业务系统数据、形成长期的管理机制、根据访问需求进行访问授权等方面的职责。这一定位的工作平台为数据整合平台(ETL)、数据检索系统、数据浏览系统和数据在线使用(虚拟桌面),所需人才为IT工程师。
若定位为加工中心,其职责主要是根据用户需求,从原始数据加工生成特征数据。这一定位的工作平台包含以下几方面:第一,增加自然语言处理工具;第二,建立“卡脖子”技术领域数据库的平台,帮助一线科研人员整理数据;第三,建立专业化技术平台支撑特定数据的处理。该定位所需人才还是IT工程师 。
若定位为分析服务中心,其职责是为用户提供数据分析服务,所需平台除了数据检索、加工分析外,还包括以下几个方面:第一,各种类型的建模工具;第二,可视化平台,通过图表把数据分析结果更直观地展示出来;第三,需建立大数据深度学习平台。这时所需人才除了传统的IT工程师,还需要专门的数据分析工程师。
与其他新型基础设施一样,知识产权大数据中心也是利用物联网、先进计算、人工智能等新一代信息技术对传统基础设施进行数字化、网络化、智能化升级,其重在“创新”“融合”“智能”。因此知识产权大数据中心可分阶段分模块确定不同的定位,面向公众的基础数据中心,可以定位为大数据管理职能,面向关键核心技术攻关的知识产权大数据中心初期可定位为加工中心,中长期则应定位为分析服务中心。
(三)国家知识产权大数据中心建设主体
知识产权基础数据中心由政府来建设显然是最经济的选择,但由于不同的技术领域既有共性需求也有个性需求,短期内由国家全程包办各个技术领域全类知识产权数据资源提供显然缺乏现实可行性。因此,充分发挥国家、创新联合体和龙头企业的优势和能动性,构建分步异构的国家、创新联合体与龙头企业三级联动的知识产权大数据中心,应不失为当前最具有现实操作性的理想方案。因此,本文试图从三个层面面向“卡脖子”技术的研发建构分步异构的知识产权大数据中心:第一层是国家公共基础的知识产权大数据中心,满足基本的知识产权数据需求;第二层是特定技术领域知识产权大数据中心,即在第一层的基础上针对特定技术及其对应的产业进行二次开发,建立产业知识产权大数据中心建设;第三层是龙头企业牵头的产品知识产权数据中心的建设。三个层面所涉知识产权数据由多到精、由浅入深,构成一个有机的整体。
各地区各行业应围绕关键核心技术尤其是“卡脖子”技术领域的攻关需求,加快构建创新联合体,深化科技创新体制机制改革,探索以龙头企业引领支撑、中小微企业积极参与,“学、研、用、金”各方积极支持的融通创新平台,把面向卡脖子技术领域的知识产权大数据中心建设成为融通创新平台的关键信息基础设施,更好集聚创新资源、高效配置要素,集中力量突破关键核心技术,以产业链布局创新链、打造高效协同创新体系,成立知识产权产业联盟,形成专利池,力求通过开拓性、实体化的联合创新,破除“创新孤岛”实现深度融合,提升关键核心技术及其对应产业的创造力。
四、构建国家知识产权大数据中心的主要运行机制
(一)构建知识产权基础数据开放机制
在知识经济时代,知识产权基础数据的获取与利用在很大程度上影响国家技术创新和经济发展,更攸关“卡脖子”技术难题的破解,因此知识产权基础数据的开放至关重要。开放是利用的基础,没有知识产权基础数据的开放,就很难有高透明度的知识产权大数据中心。与传统的政府信息公开不同,政府数据一旦开放,意味着其可以被自由、免费地访问、获取、利用和分享,事实上,将开放的公共数据汇聚于公共平台且能以机器可读的格式发布,以便需求方借助通用和免费的软件即可获取和利用,不受密码或防火墙等技术措施的限制,而这是进行数据挖掘和利用的前提条件。目前国家知识产权局公开了知识产权审查的全部结果数据和部分过程数据,最高人民法院公开了知识产权诉讼的结果数据,这意味着我国知识产权数据虽然大部分已经公开,但几乎都还未以机器可读的格式予以发布,换句话说我国知识产权数据尚局限于公开阶段而非开放阶段,公开的数据虽然可以传统方式获取,但不便进行挖掘和利用。因此,现阶段有必要通过制定知识产权数据开放法规或政策,明确知识产权数据开放的义务主体、数据类型、范围和程序等,通过制度和机制建设,保障知识产权基础数据的开放。
(二)构建多方协同的投入机制
国家知识产权大数据中心的建设是一个复杂的系统工程,需要多方利益攸关主体协同,应建立国家、创新联合体、提供知识产权信息服务的私营部门多方协同的投入机制。
面向关键核心技术尤其是卡脖子技术攻关的知识产权大数据中心,其分析与利用的落脚点在以龙头企业为主导的创新联合体,除了国家负责建设知识产权基础数据中心之外,各牵头进行“卡脖子”技术攻关的龙头企业、科研院所和高等院校,也应当是投入者,这些创新主体可以在国家级知识产权基础数据中心基础上,针对自身攻关需求建设相应技术领域和产品或生产线的知识产权大数据中心。基于国家在知识产权基础数据中心之上的特定技术或产品知识产权大数据中心的前期工作已大大减少,一些共性的需求已在国家大而全的知识产权基础数据中心建设中完成,可以就自身个性化的需求进行更全的数据归集和更加深度的加工。
此外,提供知识产权信息服务的私营部门应当成为知识产权数据再利用和深度开发的主力军。不同的企业与社会公众在知识产权数据方面的需求是多元化的,私营部门进行深层次加工,然后由其将个性化的服务再提供给用户,这样可以解决不同企业多样化的需求。在商业化运作条件下,由越来越多的私营部门参与知识产权数据提供,一方面可以使业务更细分,以充分考虑到用户的基本需求;另一方面也容易打破政府部门提供知识产权数据所存在的局限,满足用户的多样化和个性化的专利数据需求。对于用户来说,则拥有更多的选择个性化知识产权数据服务的机会,当然,用户从公共平台获得知识产权数据的权利也并没有因此削弱。各地区知识产权部门可以联合行业协会根据产业优势建立分布式具体技术领域的知识产权数据库,并在国家知识产权局备案,以避免不同地方相同技术领域知识产权数据系统重复建设。
以专利大数据中心建设为例,其瓶颈问题在于专利数据的筛选,尤其是对外国专利的筛选,需要投入大量的人力对专利摘要和权利要求书进行翻译,所以可根据各地区重点产业的特点按技术领域进行分工,各地区各建其负责的子库,负责子库所涉专利摘要和权利要求书的翻译及专利筛选工作。目前中国专利数据分析涉及大量国外专利,能看懂英文专利的人还多,但能看懂其他语种的人少之又少。目前中国专利分析和预警工作实践当中因缺乏协调而存在着一些亟待解决的矛盾,譬如在专利摘要和权利要求书的翻译上,一方面人手不够,另一方面同一专利摘要和权利要求书在同类企业被重复翻译的现象又十分普遍,所以通过各地区分步建设外国专利摘要和权利要求书译文数据库,提供公共访问,可有效解决专利翻译人力资源不足和重复翻译导致浪费之间的矛盾,从整体上提高专利获取与利用的效率。
(三)构建数据安全合规审查机制
上文测试的四个主流专利商业数据库有三个是外商提供或被外资控股,根据美国《云法案》的长臂管辖规定,服务提供商有义务提供云端数据给公权力机关,欧盟和其他发达国家也有不少与之类似的长臂管辖规定,这无疑将对创新主体的商业秘密带来威胁,涉及“卡脖子”技术攻关的研发人员的检索分析轨迹数据一旦被竞争对手和敌对势力收集,其中的安全隐患不言而喻。所以在安全合规审查方面首先需要考虑的是,在知识产权大数据中心构建过程中,要尽快培育国产化知识产权工具和品牌服务机构。对国产知识产权信息检索分析工具,也要进行数据安全合规审查,防范关键核心技术尤其是 “卡脖子”技术攻关及相关产业发展中的知识产权风险。