江油论坛,微软研究院和清华大学联合发布 “敞开学术图谱(OAG)2.0版别”,海参

小编推荐 · 2019-03-29

编者按:打开学术安排(Open Academic Society)是由微软、清华、艾伦人工智能研讨所、亚利桑那大学、华盛顿大学等20个全球安排联合建立的学术安排,旨在推行学术数据的打开同享、加强学术交流与协作。其江油论坛,微软研讨院和清华大学联合发布 “打开学术图谱(OAG)2.0版别”,海参中,衔接了来自微柔和清华大学两个亿级学术图谱的打开学术图谱(Open Academic Graph,OAG)是江油论坛,微软研讨院和清华大学联合发布 “打开学术图谱(OAG)2.0版别”,海参该吴绪仁安排的一个重要项目。近来,微软研讨院和清华大学联合发布了OAG 2.0版别,新版别添加了作者和出书地址相关的数据,并完成了两个数据会集实体的主动匹配链接。

打开学术图谱(Open Academic Graph,OAG)是一个大型的学术常识图谱,衔接了两个亿级学术图谱:微软学术图谱(Microsoft Academic Graph,MAG)和清华大学的AMine江油论坛,微软研讨院和清华大学联合发布 “打开学术图谱(OAG)2.0版别”,海参r学术图谱,致力于供给彻底打开、免费的揭露学术图谱。具体来说,OAG包含了来自MAG的超越1.66亿篇学术论文和来自AMiner的近1.55亿篇论文的元数据信息。经过集成这些数据信息,OAG生成古日本四大怨灵了两个学术图谱之间近6500万对链接(匹配)联络。

2017年8月,微软研讨院和清华大学联合发布了OAG 1.0版别。在曩昔一年多的时间里,OAG 1.0版别招引了约4万次下载。

江油论坛,微软研讨院和清华大学联合发布 “打开学术图谱(OAG)2.0版别”,海参 拆鹿迪小说

OAG 1.0概览

OAG 2.0

在OAG 1.0版别的基础上,近来,微软研讨院和清华大学两边联合莲实发布了OAG 2.0版别。

OAG 2.0包含了约7亿实体数据和20亿实体之间的链接联络,其间包含AMiner的2.8亿实体数据(作者、论文、会议)和微软学术图谱MAG的4亿多实体。新版别怎样啪啪不只添加了如作者、出书地址、论文等更多类型的实体数据以及相应的匹配联络,一同,还完成了两个数据会集实体的主动匹配链接。

OAG 2.0界说的问题如下图所示。OAG现在有约7亿实体数量,不同实体彼此联络构成了一个大规模异构网络。下图的中心部分表明了作者姓名的歧义性。而图的下面则展现了不同类型实体的异构性,因而匹配不同类型的实体需求考虑其不同的特色。

大规模实体匹配的示例

截止2019年1月,OAG 2.0的计算数据如下面三个表格所示。因为微软学术图谱MAG和AMiner两个学术图谱都在不断演化,所以笑傲江湖之林家大少OAG 2.0采用了MAG 江油论坛,微软研讨院和清华大学联合发布 “打开学术图谱(OAG)2.0版别”,海参2018年11月的快照和AMiner 2018年7月或2019年1月的快照。

OAG出书地址数据计算最管用的收惊办法

OAmiya智妍G论文数据计算

OAG作者数据计算

注:关于作者匹配,本次匹配只考虑了论文数不少于5的作者。将论文数量较少的作者扫除后,AMiner中有6,855,193位作者,MAG中有13,173,936位作者。

构建亿级打开学术图谱

构建亿级打开学色吊丝术图谱是一项极具应战的研讨工作。因为学术数据在不同图谱中出现散布异构的特色,同名异义和异名同义问题严峻,因而,完成数据的精准匹配是一个重要应战。

研讨过程中,首要的难点体现在以下三个方面:

为此,微柔和清华大学的学者们测验结合哈希算法、不同神经网络模型和注意力机制等办法,来衔接两个大规模学术图谱上不同类型的实体(出书地址,论文和作者)。

随后,学者们评价了少部分江油论坛,微软研讨院和清华大学联合发布 “打开学术图谱(OAG)2.0版别”,海参匹配联络(大约1,000个出书地址/论文/作者匹配对),其准确率体现优异。

实体匹配准确率

OAG:学术数据的打开同享

打开学术图谱OAG是打开学术安排(Open Academic Society)的一个重要项目。打开学术安排是微软、清华、艾伦人工智能研讨所、亚利桑那大学、华盛顿大学、加州美国说唱麻神洛杉矶大学、澳洲国立大学等20个全球安排一同联合建立的学术安排,旨在推行学术数据的打开同享、加强学术交流与协作。

OAG能够用于多种研讨课题,如:网络数据发掘(论文引证联络网络,作者协作联络网络等),文献内容发掘,同名作者消歧和学术图谱对齐等等。

以集成全球不同学术常识图谱、揭露同享学术图谱数据、供给相关学术查找与发掘效劳为目气候15天标,微柔和清华大学的学者们希文昭谈古论今是谁望OAG能够完成:

集成丰厚的学术常识数据。现在OAG的中心数据来自微软学术图谱MA艾佛钢G和AMiner学术图谱,下一步OAG将集成更多其他学术图谱数据,包含扩大不同类型实体(如作者、论文等)的语义数据。经过数据集成和数据发掘算法,OAG将链接更多实体,及更精准和丰厚的“画像”数据,包含论文的元数据、概念网络、研讨范畴、全文等和作者的基本信息(如:职位、单位、联络信息、国家、性别等)、研讨爱好以及论文列表等。

数据同享。经过同享不同的学术常识图谱,以及它们的链接联络,谋福学术界对常识图谱、学者协作关fanthful江油论坛,微软研讨院和清华大学联合发布 “打开学术图谱(OAG)2.0版别”,海参系、学术主题发掘以及大规模学术图谱衔接等范畴的研讨。一同,也欢迎更多学术社区的奉献来进一步增强OAG。

效劳同享。规划愈加智能的学术图谱衔接体系,并供给相关的效劳(如API),以便利更多人运用效劳以及参加打开学术社区。

参考文献

[1] An Overview of Microsoft Acade香江电子帝国mic Service (MAS) and Applications.

https://www.microsoft.com/en-us/research/publication/an-overview-of-microsoft-academic-service-mas-and-applications-2/

[2] ArnetMiner套流氓: Extraction and Mining of Acade邓紫霄布景mic Social Ne南京大学启明网tworks.

http://keg.cs.tsinghua.edu.cn/jietang/publications/KDD08-Tang-et-al-ArnetMiner.pdf

规划 人工智能 微软
声明:该文观念仅代表作者自己,消除灵岩伟人搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。

文章推荐:

桐柏天气,PTA期货每周行情 郑商所(2015.7.13-7.17),艾米

冰雪奇缘换装,2015年司法考试怎么做到有的放矢?,回到明朝当王爷小说

卡农,活久见!这胖丫头竟成了70000+瘦身者的偶像,喝酒前吃什么不容易醉

乌梅的功效与作用,地球既然是圆的,能不能挖通地球呢?看看科学家的试验!,美国av

挪威的森林,影响战场:M416配什么枪?没有固定的调配,只要适宜的调配!,肯德基

文章归档