大模型行研:LLM 落地企业内部知识的两种主流方式
LLM 在企业中的应用,需要获取内部知识和资料,有两种主流的应用方式:
- Fine-tuning model 模型微调
- RAG (Retrieval Augmented Generation) 检索增强生成
一、模型微调与 RAG 的区别
特性 | 描述 | 适合领域 |
---|---|---|
RAG (检索增强生成) | RAG是一种结合了检索模型和生成模型的框架,用于知识密集型的自然语言处理任务。它通过检索相关的外部信息来辅助生成过程,从而提高输出的相关性和准确性。RAG就像是一个有超级链接的搜索引擎,当你问它问题时,它会先去查找相关资料,然后结合这些资料给出回答。 | 知识密集型任务、问答系统、内容创作、医疗咨询、法律咨询 |
模型微调 | 微调是一种迁移学习技术,通过对预训练模型在特定任务上的少量数据进行进一步训练,以提高模型在该任务上的性能。微调就像是给一个已经学了很多知识的模型进行专项训练,让它在某个特定领域变得更擅长。 | 特定领域的任务、自然语言处理(NLP)、图像识别、语音识别 |
二、企业内部知识、信息、内容的来源
数据/知识类型 | 描述 | 举例 |
---|---|---|
内部系统和流程 | 企业运营中产生的数据 | ERP系统、CRM系统、HRM系统 |
员工经验和专业知识 | 员工在工作中积累的知识 | 技能、工作方法、行业洞察 |
企业文化和价值观 | 企业的使命、愿景和价值观 | 企业理念、行为准则 |
企业培训和发展 | 系统传递给员工的知识和技能 | 培训课程、发展项目 |
内部文档和报告 | 企业内部生成的文档资料 | 会议记录、项目报告、政策文件 |
客户互动和反馈 | 与客户互动中获取的信息 | 客户服务记录、市场反馈 |
市场研究和竞争分析 | 市场趋势和竞争对手策略 | 行业报告、消费者行为分析 |
外部数据源和合作伙伴 | 来自企业外部的数据和知识 | 政府数据、供应商信息 |
社交媒体和网络内容 | 互联网上的公开内容 | 社交媒体动态、博客文章 |
物联网设备和传感器数据 | 通过设备收集的实时数据 | 传感器数据、监控日志 |
三、是信息与人的连接?还是人与人的连接?
从网络效应来看,连接的节点数越大,价值越高,目前的大模型(LLM或多模态)声量更大的是“连接人与信息”,信息主要说的是非结构化数据,以前很难被检索和理解,可以理解成新世代的 Google和百度(百度曾经的使命是让人们最平等便捷地获取信息,找到所求),未来更有价值的是通过某些信息,建立起人和人之间的关系,也就是新世代的 Facebook和腾讯