国家社会科学基金重大项目“国家知识产权文献及信息资料库建设研究”开题暨首次学术研
来源:知识产权学术与实务研究网 作者: 时间:2011-03-23 阅读数:
下午3点10-4点30
主持人:来小鹏,中国政法大学民商经济法学院知识产权法研究所所长
议题:(四)国家知识产权文献与信息资料库建设方案
照片二十一:来小鹏教授主持第二阶段研讨(右一)
下面请首席专家冯晓青教授介绍一下课题的的总体方案。
冯晓青:
我首先介绍一下课题的整体定位,这涉及到最终结果是什么。原来的思路,即申报的时候,定位于公益性的资料库。今天很多专家的意见,我比较赞同,在我们原来理念的基础上,更推进一步,为了保持成果的生命力兼顾商业性成长。我们本身并不是设计商业性数据库,但是应当保持它一定的前瞻性。雅虎、谷歌都是从小小的试验开始,当做到点击率很高的时候就转化成为了商业性很高的平台。我们先是做公益性的数据库,但是在设计的时候,就已经考虑了以后商业性的开发,在这个基础上的发展,这个是一个大是大非的问题。
还有一点,就是时间地域范围。收集从什么时候开始的信息?新中国成立、民国或者更早?越早工作量越大,所以必须要选择一个合适的时间范围。目前我个人倾向于自建国以来,不过这需要大家一致讨论确定。文革期间因为种种原因,资料基本没有,所以那十年基本可以砍掉。实际上我国的知识产权制度主要是从78年、80年代开始到现在。
关于地域的范围问题,因为是国家资料库,所以政策上应当包括港澳台。但是鉴于大陆法律与港澳台区别很大,收入港澳台资料的工作量也很大,是否收入可以大家来讨论。这个肯定要统一。内地的信息,肯定是要包括,国外的资料,按照我的理解,应该是不包括的。因为国外的信息,不仅仅包括英文的信息,还有很多其他语言国家的信息,这些工作量是我们无法承受的。国外资料我个人倾向是不放进来。因此,范围最好限定于内地,港澳台可以做一些索引,不要全文覆盖。
下一个安排,是在理论基础、资料收集的基础之上,确定分类的标准——标引。第三、第四年,要建一个样本数据库。数据库要做,但是不是做大本营,而是按分类标准填入有代表性的信息,再推向市场。例如建大楼,我们不是建设工作,而是画设计图,样本设计图还是有一定的量,资料不能只有很少一部分,但是也不能全部收录。法院系统内部都无法收集所有的判决书,有的判决书不好找,有的判决书根本就不愿意拿出来(各种原因),他们自己都不可能全部掌握在手,更何况我们。每个方面选择有代表性的,有一定量的资料。基本做到信息平台和技术支持平台,上网可以正常运行,根据这个链接,可以到很方便查找的程度。如果它具备某些强大的功能,某些创新,甚至有人投资大规模的商业性开发时,我们的目的也就达到了。
仇壮丽:
我主要谈下面三点。
一、用户需求——数据库的定位,哪些地方和别的数据库是不一样的。
二,现有数据库的不足,差距在什么地方。
三,为了实现目标,每个小组做些什么事情。
数据库建成后,检索的准确性和全面性很重要。专利检索的不准确,会导致研究无用。检索的全面、准确应该是基础要求。从用户角度看,要实现快速的检索,有几个因素:最新的信息能检出来,全面检索。根据项目规划,我们数据库会搜集很多信息。用户在检索时,能全面、准确反映用户要求。用户查出来的,正好是他最需要的。不像百度、谷歌这类搜索引擎,搜索结果中有大量不需要的信息。而且如果能做到数据库的信息反映出专利间的关系,将更便于数据库的后续开发。
目前的专利检索系统,如专利局的网站、百度专利、世界知识产权局的数据库等,都有各自的缺陷。关键词检索的缺陷在于,很多专利在技术方面有伪装,比如钢笔,可能取名书写工具,专利申请书的概念与发明人的概念可能不完全一致。分类号检索的缺陷在于,分类号可能不一致。一方面,有数据表明同一类型的专利,有18.7%分类号却不一样,另一方面分类体系也在变,专利号检索,可能检不全。全文检索缺陷在于,虽然结果的数量比关键词检索多一些,但是都是线性检索,都是逐字比较,检索结果肯定包涵这个词,但是有的目标文献可能不包括这个词。有个国外网站,可以进行概念检索,比如检索bicycle,可以检索出不用这个词的结果,系统能够理解这个词意思。台湾中央研究院,建立了一个本体库,例如用“马”全文检索,包涵马字的含义的结果都能检索出来。
我们建立的数据库的整个结构应当包括三个部分:
1. 建立知识产权文献分类体系,即语言数据标准,越规范,数据库质量越高。
2. 开发领域本体,把一些核心概念抽出来,建一个本体库。
3. 由技术专家开发搜索引擎,根据用户的检索词,在本体库中进行转化为更通用的概念,由搜索引擎检索,分析过滤后再返回用户。
这样设计的优势在于可以实现概念检索,使用更为通用的概念检索数据库。各个子课题的研究者参与元数据的开发,这样检索准确率还是比较高的。分类体系是主线检索的基础。本体库的构建,离不开法学领域的专家,提炼出最通用的概念。由技术专家开发搜索引擎,而且现在有的数据库和搜索引擎,是免费的。可以请别人做,或者合作,或者自己自己使用开源的免费软件制作,都是可以的。
(下面主要围绕标引规则展开讨论)
王云娣:
照片二十二:王云娣研究馆员在首次学术研讨会上发言(黑胡桃墙面左起第二)
不同类型文献与信息,其注入规则是不同的。我们的资料库涉及著作权、商标、专利等,选取的数据各有不同的。都有各自的选取标准。一般来说,我们以分类和主题的作为标准。只有当我们明确了这个资料库要选取哪些文献的时候,才能确定著录和标引规则。此外,要处理好不同版本国家标准之间的关系。中国分类国家标准有不同版本,要处理好第四版与第五版的关系,以及与国家标准的关系问题。
欧阳晨红:
收纳资料种类多,标准不是自创的,而是尽量往现有成熟的规则上靠拢。标引的选取并非独创,要听大家的意见。
谢添橹:新浪公司计算机专家
- 个人简介:(学术)
- 中国政法大学教授、博士生导师
- 知识产权法研究所所长、无形资产管理研究中心主任
- 北京大学法学博士
- 中国人民大学法学博士后
- 邮箱:fengxiaoqingipr@sina.com
- 北京市海淀区西土城路25号中国政法大学知识产权法研究所
- 个人简介:(实务)
- 最高法院案例指导工作专家委员会委员
- 最高法院知识产权司法保护研究中心首届研究员
- 中欧仲裁中心仲裁员
- 深圳、南京仲裁委员会仲裁员
- 北京天驰君泰律师事务所律师
- 中国律协知识产权专业委员会委员
- 中国审判研究会知识产权审判理论专业委员会委员
- 通讯处:(Zip:100088)
点击进入免费咨询>>