8c703e44ly1hhrx4ruvrij20qo0k0q6l.jpg

前言

想必这张中科院大学2023级新生入学时,标题为「要知道这种情况的存在,但一定不能这样做」的PPT,各位都看过了。这是一些在专业文献写作中,常见的潜台词,比如:

  • “人们早已知道” 对应着 “我找不到原始的参考文献了”
  • “经同行的进一步研究” 对应着 “其实他们也搞不懂”

可以利用大语言模型和这些列出的负面潜台词,设计一个检验论文质量的思路

基本假设

在论文写作中,大量使用负面潜台词的作者,经验不足,绩效可能性出现高质量论文

1. 利用LLM扩展负面潜台词

  • 首先把负面潜台词做分组:证据不足、实验有限、观点争议、……
  • 利用LLM,对潜台词做同义近义扩展,形成负面评价因子集

2. 基于相似计算和统计,评估论文在不同负面分组上的评分

  • 利用LLM对待评估论文,做清洗,保留负面潜台词,忽略其他内容
  • 对负面潜台词的数量做积分统计

3. 选择低质量论文,继续扩展

  • 引用低质量论文的论文,记为负面(可以设置权重,降权)
  • 与低质量论文结构相似,LLM总结的summary接近的,记为负面(可以设置权重,降权)

结语

哪位有数据的研究者,可以试试这个思路,同理,用LLM来扩展正负面的关键词/关键要素,可以设计评估其他内容质量的模型


背景&推演:

国产大模型的研发真是卷,大厂、高校、明星企业家、大神开发者纷纷入场,热到刷屏,带来两个副作用:

  • 高性能显卡本来就受限,现在需求旺盛,有价无市
  • AI人才稀缺且贵

在资本大水漫灌之后,大模型会出现少数赢家,这时候,基础设施过度投入,会出现算力和人才的阶段性过剩

呼唤AI界的“药明康德”

药明康德是医药行业的“台积电”,可以理解为开放式的研发服务平台,实现开发团队、实验室、生产线的共享,大中小药企,甚至有研发能力的个人,都可以使用

wuxiapptec-20230330.png
以上图片原图来自 商业模式研究所「药明康德商业模式解析,研发外包服务」

从这个角度看,大模型领域挺适合出现研发平台,实现算力、工具链、人才、数据的共享,提供的服务有:

  • 细分领域数据标注,包括数据合规
  • 大模型选型和训练
  • 大模型垂直领域微调
  • 大模型的代运营,包括网络安全及合规服务

AI界的共享平台需要什么

  • 充足算力、带宽、存储:资本密集型,适合大厂和运营商
  • 工具链:包括研发训练相关和运营相关,适合工程能力强的团队

    • 训练加速:各种分布式框架的应用和调优,软硬家一体加速方案
    • 微调:垂直领域或私有数据训练调优
    • 部署&代运营:还需要推理算力和网络安全能力
  • 人才:可能吃到工程师红利

谁适合做AI界的“药明康德”

  • 中立:初期不能站队,各大厂大概率都会出自己的大模型
  • 技术商人:工程能力强,商业运营能力强
  • 名人:不然拿不到大客户

每年都有很多跑友/骑友,在自己的城市里,跑出各种轨迹,或表达爱你,或激励自己,极具仪式感

不如建议地图APP,做一个刺激日活的运营应用 —— 先画图,后跑步

  • 先手绘一个图形/文字
  • 以用户所在位置,或所在城市地标位置,为地点/中心,在地图上找到一个可用的路径轨迹

    • 可在更大或更小的范围内生成路径
    • 可分享给其他人,可以多端共享
  • 用户跑步/骑行,完成这个轨迹,发图炫耀

对用户来说,是个好玩的工具
对地图APP来说,是个可以用作日常运营的工具


背景

Google 发布了一个从文本生成音乐的AI模型-musicLM,演示和论文如下:

https://google-research.github.io/seanet/musiclm/examples/

可以通过输入具体的文本描述,生成不同风格的高质量音频,也可以通过输入一段哼唱或者口哨,来生成连续性强的长音频。论文中提到了研究过程中的一些挑战:

  • 音频-文本的高质量标注数据稀缺

    • 对音频的文本描述相比对图片的文本描述要更困难
    • 音频是有时间维度结构的,标注更困难
  • 生成连续音频是有难度的

利用了两个已经成型的项目( AudioLMMulan ),以及一系列创新的工作,完成了这个模型。

文本生成音乐模型的迭代思路

浏览完论文,有了一个文本生成音乐模型的迭代思路,大致如下:

1. 先做假设

  • 从音乐实际的使用场景来思考,输入的文本应该是非专业性的词汇(如曲风、乐器等),而是偏向于播放场景和听众的感受
  • 听众对特定场景下应该播放的音频,是有模糊认知的,与听众之前在该场景下听过的音频需要具有相似性
  • 听众已经建立了 音频-感受 的模糊对应关系。模型生成的音频,应保持与听众熟悉的音频有相似性
  • 相似性体现在 音色、乐器、节奏、响度等 可以量化的参数上,或者简单理解成旋律相似性

2. 解决训练集稀缺的问题

基于上面的假设,不影响 musicLM 论文中工程性的部分,而是从听众对音频的感受入手来建立训练集,来源是 网易云音乐(其他音乐APP也可以)的评论

  • 通过分析评论,来建立大量的 文本-音频 标注数据
  • 建立 图像-音频 的翻译,利用数据量更丰富文本生成图像的标准数据来做原始数据集

3. 训练模型

同样用用户实际的评论文本数据来修正模型,甚至可以使用与 文本生成图像 相同的算法模型来处理,降低训练难度,需要做好 图像-音频 的对应标准


命定的NFT:

一个NFT推荐引擎,通过画画和描述(也可以是星座算命等),找到相似的NFT

技术说明:

  • 简笔画:图片相似性技术
  • 描述:AI 生成图片的技术
  • 找相似:图片相似性技术

……

商业价值:

本质上是一个NFT届的蘑菇街,通过有趣的,游戏化的方式,刺激NFT购买,收取交易所分成、NFT项目方竞价等方式盈利

步骤:

  • 持续抓取 NFT/数字藏品 的数据,建立数字艺术品数据库
  • 提取特征,形成特征库
  • 开发前端与用户交互,推荐/筛选 NFT 的功能
  • 开发基于主流公链的收益分成
  • 上线运营

难点:

  • 如何与交易市场分成,这是个运营也是个技术问题
  • 如何保持游戏性的新鲜度,这是个产品问题

数据延伸:

  • NFT 的数据库,可以继续扩展,成为 NFT 交易的数据分析工具,如 NFT 艺术品的流行预测等
  • 图片数据库可以喂给 AI,创作一些有趣的头像
  • 这个数据库本身也可以成为一个数字博物馆,中心化存储,利用CDN加速,收录哪些不同链上的艺术品,记录交易历程