基于机器学习的论文作者名消歧方法研究

作者:邓可君;华凯;邓昌明;姜宁;袁玲;彭一明;张治坤; 刊名:四川大学学报(自然科学版) 上传者:潘平

【摘要】本文提出了一种基于规则匹配和机器学习的论文作者名自动化消歧方法:首先基于人工构建的人名匹配规则确定候选作者,对于存在多个候选人的情况,基于论文的属性信息(例如合作者、标题、摘要、关键词和出版物名称等)提取特征,然后选取合适的机器学习算法进行消歧.实验效果表明K近邻和Softmax分类器较适合于论文作者名消歧任务;此外,将作者信息与论文的其他信息分开提取特征能够有效提高作者名消歧的准确性.

全文阅读

1 引 言 高校和科研机构都需要统计其单位作者的论文信息,并对该单位的论文进行归档整理,从而建立本单位的文献数据库.但目前对于本单位职工的论文整理并不完善,普遍只记录了论文的标题和署名作者,没有按作者个体归档.这样的情况下,较难评估该单位科研工作者的科研成果和水平,也难以向外界提供针对特定学者论文的搜索支持. 在论文的自动化归档工作中,作者名消歧是一个棘手的问题.一方面,论文作者名在同一机构中可能会存在重名现象;另一方面,国人作者在英文论文中的署名可能存在多种形式.目前,自动化识别论文归属作者的方法仍处于探索阶段[1],很多机构都是采用人工方法进行识别.然而人工方法费时费力,且不能保证准确率. 本文提出了一种基于规则匹配和机器学习的论文作者名自动化消歧方法:首先基于人工构建的人名匹配规则确定候选作者,对于存在多个候选人的情况,基于论文的属性信息(例如合作者、标题、摘要、关键词和出版物名称等)提取特征,然后选取合适的机器学习算法进行消歧.本文选择了北京大学2004到2015年7790条SCI论文数据进行了实验,验证了该方法的有效性. 2 相关工作 相比于传统的人名消歧,论文作者名消歧有其特殊性.一方面,带作者标注的论文数据集较难获取;另一方面,论文信息一般包括作者、标题、摘要、关键词和出版物名称等内容,所包含的信息量较为有限. 论文作者名的自动化消歧可以归为机器学习中的聚类或分类问题,根据所用样本的标注情况可以分为基于监督学习的消歧方法、基于非监督学习的消歧方法和基于半监督学习的消歧方法[2]. (1) 基于监督学习的消歧方法需要利用标注好的训练数据集来学习分类模型,例如朴素贝叶斯(Na?ve Bayes)、支持向量机(Support Vector Machine,SVM)和逻辑回归等模型.学者Treeratpituk,Han采用了这些模型进行论文作者名消歧,取得了较好的消歧效果[3,4],但这类方法需要标注好的大量样本,这在论文作者名消歧领域往往是稀缺的. (2) 基于非监督学习的消歧方法不需要标注,仅凭样本数据的特性对样本聚类,可采用K均值算法(K-means)、基于密度的聚类算法(DBSCAN)和凝聚层次聚类等方法将同属于一个作者的论文聚为一类,但这类方法的准确率往往较低.国内学者如赵铁军提出了多阶段的聚类策略,一定程度上提高了聚类的准确率[5]. (3) 基于半监督学习的消歧方法结合了上述两种方法,国外学者Levin提出了一种将聚类和分类结合起来的消歧方法,初始阶段基于规则聚类,得到部分标记样本后训练分类器,最后通过相似度度量再聚类[6],但该方法在初始阶段还需要手工制定规则,无法应用于大规模的数据集. 本文考虑了高校论文的数据特点,首先利用人工构建的匹配规则对给定的论文作者名进行匹配,根据匹配得到的候选作者的论文数据集分开提取特征并训练分类器,预测给定论文的所属作者,从而改进论文消歧效果. 3 基于规则匹配和机器学习的论文作者名消歧方法 3.1 整体框架 如引言所述,论文作者名存在混淆的原因一方面是作者存在重名现象,另一方面是在英文论文中,单个中文名可能存在多个对应的英文名.高校的人员数量有限,中文重名现象较少,作者名混淆的情况大部分来源于后者.由于可能采用了不同的姓名顺序和缩写规则,一个作者的中文名可能会对应多种形式的英文名,再加上多音字的现象,会出现大量作者名混淆的情况. 针对这一现象,本文根据“中国人名汉语拼音字母拼写规则”和常见的中文名到英文名的转换形式,制定了一个中文名到英文名的转换规则,并且基于该规则对高校职工的所有中文名进行

参考文献

引证文献

问答

我要提问