AI Infra:memories.ai,为 世界引擎 和 具身智能 准备的视觉长期记忆引擎
memories.ai - Building AI to See and Remember
https://memories.ai/
1. 核心定位与使命
- 愿景:让 AI 拥有“无限期、可检索”的视觉记忆,将视频从一次性输入升级为长期知识资产,推动从“看得见”到“记得住”的跨越
- 使命:构建“大型视觉记忆模型”(LVMM),为多模态大模型和具身智能(机器人、可穿戴设备、世界引擎等)提供持久、高效的视觉记忆基础设施
2. 产品与应用
- API 与部署:提供 Video Chat、Clip Search、Video-to-Text、Video Creator、Video Marketer、AI Hardware 等多种 Agent,支持企业与个人对接自定义场景
企业级场景:
- 实时威胁检测、人员轨迹跟踪与跌倒检测(安全监控)
- 智能剪辑、创意脚本与营销洞察(媒体与营销)
- 运动赛事分析、球员技术统计(体育)
- 定价模式:Free / Plus / Enterprise 多档套餐
3. 技术架构(Large Visual Memory Model)
Memories.ai 的 LVMM 灵感来源于人脑记忆的“提示—检索—筛选—监控—重构”流程,共分五大模块:
- Query Model:将用户问题或场景线索编码为检索请求
- Retrieval Model:在海量索引中进行粗粒度检索,激活相关视频片段
- Full‑Modal Indexing & Selection:对候选片段做多模态打标,并精筛最关联内容
- Reflection Model:校验召回结果的一致性与准确性,冲突时触发重检
- Reconstruction Model:将碎片化记忆整合补全,生成人类式连贯输出
4. 性能与基准
- 在多项视频分类(K400/K600/K700、UCF101、HMDB)、检索(MSRVTT、MSVD、ActivityNet)和问答(MVBench、NextQA、Temp Compass)基准中刷新 SOTA,相比 OpenAI、Google 等模型呈现大幅领先
- 对比显示,Memories.ai 在“无限视频上下文”能力上远超 Gemini 或 ChatGPT,仅受限于计算资源而非模型架构本身
5. 行业落地价值
- 安全监控:从“手动翻录”到“自然语言检索”监控录像,秒级定位“遗落行李”或“嫌疑人物”
- 影视制作:导演与后期团队可跨数十年素材库精准检索镜头,大幅缩短创意迭代周期
- 品牌营销:分析百万级社交短视频趋势,实时洞察热门话题与品牌曝光
- 智能硬件:与可穿戴设备、智能眼镜厂商合作,赋予终端“见即记、问即答”能力,迈向更高级的具身智能生态
6. 团队与发展里程碑
- 创始背景:CEO Shawn Shen 与联合创始人 Ben Zhou 均出身 Meta Reality Labs,曾发表多篇顶会论文
- 融资情况:2025 年 5 月完成 800 万美元种子轮,由 Susa Ventures 等领投。
- 下一步:正筹备将视觉记忆引擎集成至移动端与硬件设备,并拓展更多多模态(声音、文本与视觉)的融合场景
总结:
Memories.ai 正以“短时内容分析”无法满足的“长期记忆”需求为切入点,通过其 Large Visual Memory Model 构建“世界引擎”与“具身智能”所需的视觉记忆基础设施,为 AI 从“看”到“记”再到“悟”提供了完整的产品、技术与商业闭环。