创新芯片行研:二维存算一体器件实现AI训推一体 - TIIO架构
内容来自南京大学2023-03-21:https://scit.nju.edu.cn/47/d7/c10927a608215/page.htm
一、TIIO架构的核心问题是什么?
当前AI技术面临两个根本性瓶颈:
- 能效比低:基于冯·诺依曼架构的GPU在支持像ChatGPT这类高算力模型时,消耗巨大电能(日耗77,160 kWh),远超多数国家的日发电量。
- 硬件限制边缘端AI发展:传统计算架构将数据存储与处理分离,导致大量能耗和延迟集中在数据传输上。更重要的是,目前的硬件难以同时满足“训练”和“推理”两种不同需求。
本质矛盾:推理要求高稳定性、低翻转频率;训练要求高耐久性、快速写入。
——这两个需求在现有存储器中是“鱼和熊掌不可兼得”。
二、这个研究真正解决了什么问题?
该研究通过提出一种名为TIIO (Training-Inference-In-One) 的新架构,解决了AI硬件层面一个长期存在的结构性难题:
- 在单一硬件单元中实现“训练”和“推理”的一体化操作
- 不依赖云端,具备边缘智能能力
- 能在本地完成学习与决策,提升响应速度和数据安全性
- 显著提高能效比
三、用了什么方法?
1. 底层材料创新:二维半导体铁电晶体管
- 利用铁电材料具有能量双阱曲线可调的特点
- 设计“复式结构”,即浮栅两侧分别连接铁电电容和介电电容
- 通过调节两者面积比例(AFE/ADE),控制铁电势阱形状,从而动态调整器件性能
可以尝试这么理解:
它可以通过调节材料内部的“能量双阱曲线”来改变自己的性能,就像一块砖头可以根据需求变成橡皮泥或者大理石:
- 当它变“软”时,适合学习——快速调整权重,适应新数据
- 当它变“硬”时,适合推理——稳定保持结果,不轻易更改
2. 硬件设计策略:从材料到系统逐层优化
- 材料层:选择二维材料(如MoS₂等),具有良好的电学特性与兼容性
- 器件层:构建“浮栅+铁电+介电”复合结构,实现高/低势垒切换
- 电路层:采用2T-1D结构组成crossbar阵列,实现模拟信号下的并行运算
- 系统层:在22nm工艺节点下仿真验证,能效可达1151 TOPS/W(训练)、111.86 TOPS/W(推理)
四、给谁带来了价值?价值在哪里?
1. 终端设备厂商(如手机、自动驾驶公司)
- 提供本地化、低功耗AI推理与训练能力,减少对云端服务器的依赖
- 适用于需要实时响应、隐私敏感或网络受限的应用场景(如无人机、机器人、车载系统)
2. AI算法开发者
- 能够在硬件层面实现迁移学习等复杂算法;
- 提升模型迭代效率,降低部署成本
3. 芯片制造企业
- 器件设计与CMOS工艺兼容,便于异质集成;
- 可拓展为三维集成电路,适应未来摩尔定律逼近极限的趋势。
五、宣传语言背后的实质承诺
宣传词 | 实际含义 |
---|---|
“改变世界” | 在边缘侧实现高效自主学习的AI系统 |
“革命性突破” | 在同一硬件上兼顾训练与推理,打破硬件功能分割 |
“10³ TOPS/W级别能效” | 接近人脑能效,远高于当前GPU,适合低功耗应用场景 |
“通向智慧终端” | 边缘端具备本地学习能力,不再被动依赖云端 |
六、尚未完全兑现的部分
- 实际产品化时间线未明确:虽然论文展示了原型和仿真结果,但离商业化量产仍有距离
- 大规模应用中的稳定性测试未披露:特别是百万级阵列的良率、可靠性、温度漂移等问题尚未解决
- 跨平台兼容性待验证:如何在主流AI框架(如TensorFlow、PyTorch)中部署仍需进一步探索