江苏省第十七届哲学社会科学优秀成果一等奖,2022, 排名第三
江苏省高校哲学社会科学研究优秀成果三等奖,2021,排名第一
教育部第八届高等学校科学研究优秀成果奖(人文社会科学)二等奖,2020,排名第四
江苏省第十五届哲学社会科学优秀成果一等奖,2018,,排名第四
江苏省第十五届哲学社会科学优秀成果三等奖,2018,排名第二
[1] 2024/0-2028/12 主持国家社会科学基金重点项目“哲学社会科学学术全文本大语言模型构建及检索研“(在研)
[2] 2020/1-2023/12 主持国家自然科学基金面上项目“基于深度学习的学术全文本知识图谱构建及检索研究”主持(结题)
[3] 2019/12-2022/10主持国家社科基金后期资助项目“面向科学研究主题的文本时态特征检索研究”主持(结题)
[4] 2016/1– 2018/12主持国家自然科学基金青年项目“基于时间感知模型的学术主题检索与演化挖掘研究”主持(已完成)(结题等级:优秀)
[5] 2019/7-2022/6主持江苏省自然科学基金 青年项目“基于深度学习的学术全文本时态语义知识标识及检索模型构建研究”主持(结题)
[6] 2016/1 – 2018/12主持江苏省社会科学基金青年项目“时间感知大数据特征下的食品安全突发事件应对策略挖掘研究”主持(结题)
[7] 2013/11-2016/12 参加国家社会科学基金重大项目“面向突发事件应急决策的快速响应情报体系研究”以核心骨干人员参加(结题)
[8] 2011/09 – 2013/09 863计划项目”科技文献服务为主的搜索引擎研制”以核心骨干人员参加(结题)
2024年
沈思, 严大钰, 卞嘉欣, 何宏旭.基于学术知识图谱的增强语义表示与检索[J].湖南大学学报 (自然科学版) (录用).
沈思,朱雨菲.面向学术全文本多维知识元的学术图谱构建研究[J]. 情报学报(录用).
2023年
沈思, 陈猛, 冯暑阳, 许乾坤, 刘江峰, 王飞, 王东波. ChpoBERT:面向中文政策文本的预训练模型[J]. 情报学报, 2023, 42(12): 1487-1497.
Si Shen, Jiangfeng Liu, Litao Lin, Ying Huang, Lin Zhang, Chang Liu, Yutong Feng, Dongbo Wang.SsciBERT: a pre-trained language model for social science texts. Scientometrics 128(2): 1241-1263
Wang D, Liu C, Zhao Z, Shen S, Liu L, Li B, Hu H, Wu M, Lin L, Zhao X, Wang X. GujiBERT and GujiGPT: Construction of Intelligent Information Processing Foundation Language Models for Ancient Texts. arXiv preprint arXiv:2307.05354. 2023.
Si Shen , Dayu Yan, Dongbo Wang.Functional Structure Recognition of Scientific Documents in Information Science[C].Joint Workshop of the 4th Extraction and Evaluation of Knowledge Entities from Scientific Documents and the 3rd AI + Informetrics (EEKE-AII2023)
Hu, H., Yang, A. J., Deng, S., Wang, D., Song, M., Shen, S. (2023). A Generative Drug-Drug Interaction Triplets Extraction Framework Based on Large Language Models. Proceedings of the Association for Information Science and Technology.(Accepted)
2022年
Shen S, Jiang C, Hu H, Ji Y, Wang D. A model for the identification of the functional structures of unstructured abstracts in the social sciences. The Electronic Library. 2022 Nov 29;40(6):680-97.
Li Y, Mao J, Zhang L, Wang D, Shen S, Huang Y. How scientific research incorporates policy: an examination using the case of China’s science and technology evaluation system. Scientometrics. 2022 Sep;127(9):5283-306.
Wang C, Ding J, Yan H, Shen S. A Prototype-Oriented Contrastive Adaption Network for Cross-Domain Facial Expression Recognition. InProceedings of the Asian Conference on Computer Vision 2022 (pp. 4194-4210).
Ji B, Zhang T, Zou Y, Hu B, Shen S. Increasing Visual Awareness in Multimodal Neural Machine Translation from an Information Theoretic Perspective. InProceedings of the 2022 Conference on Empirical Methods in Natural Language Processing 2022 Dec (pp. 6755-6764).
2021年
Jiang C, Wang D, Shen S, Ye W, Liu J. Building the Extraction Model of the Software Entities from Full-Text of Research Articles Based on BERT. InAII@ iConference 2021 (pp. 71-90).
Lin L, Wang D, Shen S. Extraction of Thesis Research Conclusion Sentences in Academic Literature. InEEKE@ JCDL 2021 (pp. 74-76).
Wu P, Li X, Ling C, Ding S, Shen S. Sentiment classification using attention mechanism and bidirectional long short-term memory network. Applied Soft Computing. 2021 Nov 1;112:107792.
沈思, 李沁宇, 叶媛, 孙豪, 叶文豪. 基于 TWE 模型的医学科技报告主题挖掘及演化分析研究. 数据分析与知识发现. 2021,5(3):35-44.
2020年
沈思,左明聪,王东波,纪有书,刘浏,谢靖.基于课表知识抽取的情报学课程设置启示研究. 情报学报,2020(12),1253-1263.(国家自然科学基金委管理科学部A类重点期刊)
叶媛,孙涛,沈思.(2020).基于机器学习的儿童过敏性紫癜肾损害预测研究. 肾脏病与透析肾移植杂志,2020(06),526-530(通讯作者)(CSCD检索期刊)
Zhu Liang, Chuan Jiang, Dongbo Wang and Si Shen,Continuous click behavior in academic search environment,The SIGIR Workshop on Applied Interactive Information Systems,2020(Corresponding author)(中国计算机学会推荐国际学术会议和期刊目录会议)
Shen Si,Liu Xiao,Sun Hao,Wang Dongbo.Biomedical Knowledge Discovery Based on Sentence-BERT.ASIS&T2020. (Corresponding author)(南京理工大学国际会议资助目录会议)
沈思,翁小颖,孙豪,王东波.国家社科基金学科类别自动判定模型构建研究[J].湖南大学学报(自然科学版),2020,47(04):118-124.(EI期刊)
叶文豪,王东波,沈思,苏新宁.基于孪生网络的基金与受资助论文相关性判别模型构建研究[J].情报学报,2020,39(06):609-618.(国家自然科学基金委管理科学部A类重点期刊)
沈思,李沁宇,苏新宁.突发事件应急响应情报体系案例解析——以公共卫生事件为例[J].科技情报研究,2020,2(02):86-93.
沈思,孙豪,王东波.基于深度学习表示的医学主题语义相似度计算及知识发现研究[J].情报理论与实践,2020,43(05):183-190.(CSSCI核心期刊)
Peng Wu, Xiaotong Li, Si Shen, Daqing He,Social media opinion summarization using emotion cognition and convolutional neural networks[J]. International Journal of Information Management, 2020. 51: 101978(SSCI一区Top期刊,Information Science/Library Science 领域影响因子排名第一)
2019之前
Zhu Zihe, Shen Si, Wang Dongbo. Recognizing Sentences Concerning Future Research from the Full Text of JASIST. ASIS&T2019.(Corresponding author)(南京理工大学国际会议资助目录会议)
Jiang Chuan, Shen Si, Wang Dongbo.Retrieval system enhanced by fine‐grained knowledge entities; ASIS&T2019. 2019.(Corresponding author)(南京理工大学国际会议资助目录会议)
Si Shen, Hao Sun, Zihe Zhu, Dongbo Wang.Exploring the Lotka's Phenomenon in Sense Complexity of English Word. 17th International Conference of the International Society for Scientometrics and Informetrics, ISSI2019.(南京理工大学国际会议资助目录会议)
Shen S, Zhu D, Rousseau R, et al. A refined method for computing bibliographic coupling strengths[J].Journal of Informetrics, 2019, 13(2): 605-615.(JCR分区SSCI一区期刊)
沈思, 胡昊天, 叶文豪, 等. 基于全字语义的摘要结构功能自动识别研究[J]. 情报学报, 2019, 38(1): 79-88.(国家自然科学基金委管理科学部A类重点期刊)
Shen S, Rousseau R, Wang D. Do papers with an institutional email address receive more citations than those with a non-institutional one?[J]. Scientometrics, 2018, 115(2): 1039-1050.(JCR分区SSCI一区期刊)
沈思,李成名,吴鹏.基于时态语义的Web信息检索实践进展与研究综述[J],中国图书馆学报,2018,44(4):109~129.(CSSCI核心期刊)
吴鹏, 应杨, 沈思. 基于双向长短期记忆模型的网民负面情感分类研究[J].情报学报,2018,37(8):845-853.(国家自然科学基金委管理科学部A类重点期刊)
沈思, 吴玺煜. 基于多标签分类的学术文献潜在时间意图识别研究[J]. 湖南大学学报:自然科学版, 2017, 44(10):7.
沈思, 朱丹浩. 基于深度学习的中文地名识别研究[J]. 北京理工大学学报, 2017, 37(11):6.
沈思, 徐飞, 吴鹏. 面向科学研究主题的文献隐含时间信息分析与挖掘[J]. 情报学报, 2017, 36(4):12.
计算机科学与技术硕士研究生:大语言模型训练、自然语言处理应用
管理科学与工程博士研究生:智能驱动下的领域知识组织和挖掘
图书情报专硕:大语言模型应用、知识工程
指导方向:
1:大语言模型方向
基于团队所拥有的高性能GPU机群,一方面对大语言模型的内在规律进行探究,比如Scaling Law在推理模型上的适用性等。另一方面基于团队长期以来构建的政策文本数据集、自然科学和人文社会科学学术全文本数据,对垂直领域模型的训练、评测和应用展开深度探究,比如基于DeepSeek-R1各个参数量的模型所展开的模型蒸馏探究。
2:信息检索方向:
把传统机器学习模型、传统深度学习模型、预训练模型和大语言模型深度融入到政策文本、学术全文本等领域数据的信息检索研究洪,是团队长期以来的研究方向。随着大语言模型的迅速发展,如何把大语言模型与信息检索进行深度、全面和多个维度的结合、融合和整合是团队未来长期坚持的研究方向。
团队情况:
本团队具有跨学科、跨学院和跨学校的特点,由计算机科学技术、信息资源管理、语言学和数学的中青年研究者构成。本团队能够给加入的学生和相关研究者提供如下的研究支持:
形成了领域化的经过标注的语料库,为开展信息检索和大语言模型的探究提供数据支持
具有自然语言处理和大语言模型学习和进阶的培养体系,可以迅速掌握大语言模型的相关技术、方法和知识
提供面向大语言模型训练和测试的GPU硬件
全方位支持拟从事大语言模型、自然语言处理和信息检索等技术工作的研究生到公司实习
每年招收相关方向博士1名、硕士2名。
其中博士仅招收硕士学位为理工科的博士报考者,计算机或者信息类相关专业为佳。
欢迎对大语言模型、自然语言处理和信息检索研究感兴趣的学生和研究者加入!