和记APP·(中国)首页 欢迎您!
400-888-8888
当前位置: 和记APP·(中国)首页 > 申请流程 >> 正文

专利分析方法 流程步骤有哪些?

时间: 2024-09-14 | 作者: 小编

  和记官网WIPO的专利分析专家在github上开辟了WIPO Patent Analytics专栏(),专门分享专利分析的相关技术,其中有一本关于专利分析开源工具的书The WIPO Manual on Open Source Patent Analytics,这本书我们公众号在几年前的文章中介绍过(相关链接:)。不过今年,WIPO的专利分析专家对其内容进行了更新,出了第二版。今天这篇文章就来介绍一下这本书中对专利分析流程的描述。

  很多人有着这样的误区:专利分析和其他数据分析一样,无外乎就是三个步骤:在数据库中检索、下载数据、向读者展示数据。但实际上专利分析的流程可不仅仅是包括上面三个步骤。下图是WIPO制作的专利分析流程图。

  范围检索的目的在于对分析的技术主题有一个基本的把握。以无人机技术为例,为了实施范围检索,首先仅以关键词“无人机(drone or drones)”进行检索。

  通过范围检索,检索人员可以对检索结果有一个初步的了解,并且从检索到的文献中获取一些能够用于扩展检索的关键词。例如,对于无人机技术,除了使用上述的“无人机(drone or drones)”这个关键词以外,有些专利文献中可能还会将其描述为“无人驾驶飞行器(Unmanned Aerial Vehicle)”以及其他的一些术语。

  此外,在科学文献和专利文献中,还会描述“无人机”的很多用途,如果需要研究某种特定用途的无人机,例如农业植保无人机,我们可以在检索中对其用途进行限定,或者是将某些用途排除在目标文献之外。

  数据可视化往往被认为是数据分析流程中的最后环节。但其实,在专利分析初期,数据可视化可以帮助我们理解数据和选择后续的分析方向。例如,我们可以利用数据可视化来发现专利申请的趋势,也可以尝试利用文本聚类的可视化来识别专利文献中的技术分布。

  检索是一个不断迭代的过程。基于文献量的多少和该技术主题的复杂程度,可能需要进行很多次实验性的检索。

  在探索检索的过程中,最好是将探索检索的过程全都记录下来,以便在以后还能记得当时为什么要这样检索,也便于向其他人解释为什么要构建这样的检索式。

  经过不断迭代的探索性检索之后,就能够得到一个确定的检索式,通过这个检索式进行检索,以获得数据。

  当使用最终确定的检索式在数据中进行检索后,下载下来的数据集,就是核心数据集,也就是我们要进行数据分析的基础。但这里要记住的是,不要直接对这个数据集进行编辑,也就是说,要保留一个原始版本的数据集合,以方便后续出问题的时候可以核对和查找。

  逗号分隔(.csv)或制表符分隔(.tsv)的文件,其中分隔符用于区分列

  在大多数情况下,这些表中包含具有串联信息的列。例如在专利申请人的列中,每一个单元格中可能包含多个人名,如“Google; Alphabet; Smith, Amy”。

  在专利分析的实践中,包含这种串联信息的数据列通常包括:国际专利分类、申请人、发明人。此外,其他的一些数据列,比如日期,也有可能包含串联的信息。对于这种包含串联信息的单元格,应当把数据信息拆分到不同的单元格中,以便于后续进行数据分析。

  专利数据也可以有其他的数据格式,例如XML和JSON。不过,这种数据格式并不是设计来给我们人工读取的,而是给计算机读取的。

  拆分数据就是将同一个单元格中包含的串联信息拆分到不同的单元格中,例如原始下载下来的数据表中的申请人列,每一个单元格中有好几个人名,就需要我们将不同的人名拆分到不同的单元格中,可以使用Excel中的“分列”功能。

  在开源数据处理工具Open Refine中也可以轻松实现分列功能。Open Refine是一个网页版的程序,该网站的用户还为R和Python编写了扩展包。

  第一种情形,清理噪音。例如,在下载的专利数据表中,通常会有申请人列,单元格中会包含多个申请人的姓名,例如,该单元格可能会包含如下信息:

  这种情况下,虽然申请人都是Google这一家公司,但是由于申请人名称的变化,例如有无Inc和后面的点,都会被计算机认为是不同的申请人。此时需要我们人工将这种噪音清理。

  第二种情形,区分相同名称的不同实体。当我们处理发明人名称时,往往会发现一些相同名称的发明人,例如Wang Wei, Smith John。如果不加区分地将这些名字都认为是一个人,这将导致发明人的统计结果出现错误,因此,需要结合其他的信息,例如申请人、共同发明人、或者发明所涉及的技术主题信息,来确定这些叫同一名字的人是一个人还是多个人。处理这类问题比较好用的开源工具是Open Refine。

  其他类型的数据清理还包括将日期转换为可用的格式,例如从2021-12-25中提取年份,或者从IPC分类号中提取大类或者小类,例如从C12Q1/68分类号中提取C12Q,以便于对分类号所代表的技术分布进行数据统计。

  此外,专利分析将越来越多地使用机器学习模型从文本中提取信息,例如概念、化学名称、物种名称、国家或地名以及其他术语。这使得我们将专利数据与其他类型数据链接起来变成可能,从而获得更丰富的信息。

  专利分析的最后一步即是数据可视化和报告撰写,以使得专利分析的成果能够适合于我们的目标受众。

  专利分析是一个不断迭代的过程,它包含许多明确具体的步骤,包括最初的范围检索(scoping searches)和探索性数据分析(exploratory data analysis)、确定的核心数据集(core dataset)、将核心数据集拆分为不同的子表格、清理数据、将专利数据和其他数据来源进行合并,以及最终的数据可视化和报告撰写。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

免费留学规划
快捷咨询
资深顾问一对一为您解答留学问题
电话
咨询服务电话
400-888-8888
微信
二维码
关注了解更多留学信息
QQ
推荐院校
热门推荐