一种利用大语言模型和论文潜台词检验论文质量的思路
前言
想必这张中科院大学2023级新生入学时,标题为「要知道这种情况的存在,但一定不能这样做」的PPT,各位都看过了。这是一些在专业文献写作中,常见的潜台词,比如:
- “人们早已知道” 对应着 “我找不到原始的参考文献了”
- “经同行的进一步研究” 对应着 “其实他们也搞不懂”
可以利用大语言模型和这些列出的负面潜台词,设计一个检验论文质量的思路
基本假设
在论文写作中,大量使用负面潜台词的作者,经验不足,绩效可能性出现高质量论文
1. 利用LLM扩展负面潜台词
- 首先把负面潜台词做分组:证据不足、实验有限、观点争议、……
- 利用LLM,对潜台词做同义近义扩展,形成负面评价因子集
2. 基于相似计算和统计,评估论文在不同负面分组上的评分
- 利用LLM对待评估论文,做清洗,保留负面潜台词,忽略其他内容
- 对负面潜台词的数量做积分统计
3. 选择低质量论文,继续扩展
- 引用低质量论文的论文,记为负面(可以设置权重,降权)
- 与低质量论文结构相似,LLM总结的summary接近的,记为负面(可以设置权重,降权)
结语
哪位有数据的研究者,可以试试这个思路,同理,用LLM来扩展正负面的关键词/关键要素,可以设计评估其他内容质量的模型