我校信息管理學院徐健教授與李岱峰副教授的代表性成果論文“Building a PubMed knowledge graph”于2020年發表于Nature子刊Scientific Data。PubMed是收錄生物醫學領域科研論文最全面的文獻數據庫,蘊含著大量的專業知識。但是從知識挖掘角度來看,該數據庫中所蘊藏的有用概念或者難于抽取出來,或者因為缺少消歧而不夠明確,這種現狀極大阻礙了知識發現任務的開展。為了解決這一問題,研究團隊構建了PubMed知識圖譜 (PubMed Knowledge Graph, PKG)。
該知識圖譜構建主要包括三方面的工作:第一,采用所提出的BioBERT模型從2900萬篇PubMed科技論文摘要中抽取生物醫學實體;第二,采用基于可信多源數據的作者消歧方法對PubMed醫學文獻數據庫中所有作者進行消歧;第三,通過科技論文唯一標識和消歧作者唯一標識,映射和集成了NIH ExPORTER提供的科研基金資助數據、ORCID提供的作者任職歷史和教育背景數據、MapAffil提供的細粒度機構解析數據。通過上述抽取、消歧、集成等大規模知識計算,構建了生物醫學實體、學者、科研論文、機構、基金等要素之間的關聯關系。數據驗證工作表明,實體抽取結果達到國際領先水平,作者消歧效果為目前已知同類數據集最佳水平。PKG為激發廣泛的創新活動提供了重要平臺。它不僅能夠用于測度學術影響力,研究知識使用、傳遞、擴散現象,還能夠基于知識間的關聯構建學者、機構、實體等知識單元的全景畫像,為多種知識發現和知識挖掘任務提供了重要研究平臺。
該論文由來自我校信息管理學院、美國德州大學奧斯汀分校信息學院、美國德州先進計算中心、美國德州大學奧斯汀分校戴爾醫學院、美國伊利諾伊大學信息科學學院、韓國延世大學圖書館與信息科學系、韓國高麗大學計算機科學與工程學院、北京大學信息管理系共8個不同學術機構的15位學者通過合作共同完成,我校信息管理學院在該成果中起到了主導性作用。