网络新媒体技术

2025, 05, v.14 21-28+62

基于多模态信息融合的领域学术服务知识库构建及应用

张运良^1,2

谭晓宇^1,2,3 李琳娜^1,2 高雄^1,2 王力^1,2,4 李子由¹ 甘萍¹ 乔晓东¹

1.中国科学技术信息研究所 2.富媒体数字出版内容组织与知识服务重点实验室 3.北京大学第一医院 4.西北工业大学

基金项目(Foundation): 国家社会科学基金项目“面向科技情报任务的指令知识库构建研究”(编号：23BTQ097)

邮箱(Email): zhangyl@istic.ac.cn;

DOI: 10.20064/j.cnki.2095-347X.2025.05.003

发布时间： 2025-09-15

出版时间： 2025-09-15

移动端阅读

160	0	2048
下载次数	被引频次	阅读次数

引用本文下载本文

PDF

引用导出

GB/T 7714-2015 MLA APA Refworks EndNote NoteExpress NoteFirst

摘要全文参考文献出版信息相关文章

摘要：

针对当前学术知识服务中关键科研要素信息不够全面详尽的问题，提出一个两库三维的知识库框架，并采用机器学习结合大语言模型方法，对学术论文中摘要、对比型表格和对比型图片等多模态数据进行科研要素抽取，进而融合相关结果并附加同义词表和提示模板库建设科研要素知识库。本文以《数据分析与知识发现》期刊2019-2023年部分数据为例，进行示范性知识库建设，并开发可视化问答系统界面，进行实证研究，结果对比证明该知识库框架和构建方法在学术知识服务方面的优势。

关键词： 多模态; 知识库; 科研要素; 知识服务; 学术论文; 图片; 表格; 大语言模型;

Abstract：

To address the issue of insufficient detail about the crucial scientific research elements in academic knowledge services, a knowledge base framework with two bases and three aspects is proposed. We also develop a method combining machine learning with large language models to extract scientific research elements in multimodal academic papers data, such as abstracts, comparative tables, and comparative images, and then integrate them with thesaurus and prompt template library to construct a scientific research elements knowledge base. Using data from the journal Data Analysis and Knowledge Discovery from 2019 to 2023 as an example, the construction of the knowledge base demo and development of a visual question-answering system were conducted as an empirical study, which demonstrates the advantages of this knowledge base framework and construction method in knowledge services.

KeyWords： multimodal; knowledge base; scientific research elements; knowledge services; academic papers; images; tables; large language models;

参考文献

[1] 姚长青，程齐凯，王莉军，等.智能情报技术：内涵、边界与体系[J].情报学报，2025,44(1):1-9.

[2] 李英群，李亚菲，裴雷，等.基于YOLOv5-ECA-BiFPN的学术期刊文献图表识别与提取方法研究[J].数据分析与知识发现，2023,7(11):158-171.

[3] 丁培，叶兰.科技文献中学术图表标注研究进展[J].现代情报，2021,41(4):165-177.

[4] 喻柏炜.基于卷积神经网络YOLOv5模型的图表识别方法[D].南昌：南昌大学，2021.

[5] 郭浩，宁初明，韩寿松，等.基于DBNET与CRNN-CTC的自然环境文字识别系统[J].计算机应用与软件，2023,40(9):132-136.

[6] 董家慧子，谢忠，邱芹军，等.融合容错机制的基于Attention-Mask RCNN地质表格信息抽取方法[J].地质科学，2023,58(3):1147-1163.

[7] 王一帆，张雪芳.基于多模态视频分类任务的模态融合策略研究[J].计算机科学，2024,51(z1):489-493.

[8] 杨颖，钱馨雨，王合宁.结合多粒度视图动态融合的多模态方面级情感分析[J].计算机工程与应用，2024,60(22):172-183.

[9] 张殿元，余传明.基于知识增强与多模态融合的医疗视觉问答模型[J].数据分析与知识发现，2024,8(8):226-239.

[10] 韦向峰，袁毅，张全，等.富媒体环境下语音和文本内容的对齐研究[J].情报工程，2019,5(2):17-27.

[11] Zhao F,Zhang C,Geng B.Deep multimodal data fusion[J].ACM Computing Surveys,2024,56(216):1-36.

[12] 侯永宏，郑皓春，高嘉俊，等.基于CLIP模型和知识数据库的零样本动作识别[J].天津大学学报(自然科学与工程技术版),2025,58(1):91-100.

[13] Xin Y,Du J,Wang Q,et al.Mmap:Multi-modal alignment prompt for cross-domain multi-task learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence.Menlo Park,CA,USA:AAAI Press,2024:16076-16084.

[14] Gao J,Ruan J,Xiang S,et al.LAMM:Label Alignment for Multi-Modal Prompt Learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence.Menlo Park,CA,USA:AAAI Press,2024:1815-1823.

[15] 韦向峰，缪建明，张全，等.英汉双语富媒体知识图谱构建工程研究——以CNS英文期刊为例[J].情报工程，2023,9(5):84-96.

[16] 李欣，李悦，冯野，等.基于多模态数据融合与机器学习的高价值专利早期识别方法[J].情报杂志，2024,43(6):134-144.

[17] 付靖宜，李姗姗，项欣溢，等.新四军苏浙军区多模态红色文献资源知识聚合模式研究[J].档案学研究，2022(4):24-31.

[18] 张智雄，刘欢，于改红.构建基于科技文献知识的人工智能引擎[J].农业图书情报学报，2021,33(1):17-31.

基本信息:

DOI：10.20064/j.cnki.2095-347X.2025.05.003

中图分类号:TP18;TP391.1;G353.1

引用信息:

[1]张运良,谭晓宇,李琳娜,等.基于多模态信息融合的领域学术服务知识库构建及应用[J].网络新媒体技术,2025,14(05):21-28+62.DOI:10.20064/j.cnki.2095-347X.2025.05.003.

基金信息:

国家社会科学基金项目“面向科技情报任务的指令知识库构建研究”(编号：23BTQ097)

发布时间：

2025-09-15

出版时间：

2025-09-15

请选择需要下载的pdf数据

使用微信“扫一扫”功能。
将此内容分享给您的微信好友或者朋友圈

引用

GB/T 7714-2015 格式引文

MLA格式引文

APA格式引文

请选择需要下载的pdf数据

使用微信“扫一扫”功能。将此内容分享给您的微信好友或者朋友圈

引用

使用微信“扫一扫”功能。
将此内容分享给您的微信好友或者朋友圈