一、总体思路:国内把“数据与出口”做干净,境外把“本地合规”做扎实

一句话概括中国企业“国内训练、全球部署”的整体策略:

在中国境内把“数据合规、技术出口风险”处理干净,在境外把“本地数据保护与对美制裁/出口管制风险”处理干净,两端通过清晰的法律实体链路 + 数据/技术边界隔离起来。

拆解为三大闭环:

1.1 境内合规闭环

以《网络安全法》《数据安全法》《个人信息保护法》《生成式人工智能服务管理暂行办法》《数据出境安全评估办法》等为基础,做到:

  • 训练数据来源合法
  • 数据分类分级与台账完备
  • 个人信息处理合规
  • 数据出境路径可证明、可复盘

1.2 境外合规闭环

按欧盟GDPR、欧盟AI Act、美国与重点国家隐私/AI监管要求,设计:

  • 本地数据控制者/处理者责任
  • 本地数据驻留与跨境机制
  • 模型在当地部署与本地化微调

1.3 中美对抗与出口管制防火墙

在技术路径、供应链与公司结构上,尽量:

  • 去美国关键依赖(特别是闭源模型与托管训练服务)
  • 降低模型被纳入美国出口管制监管链路的可能性
  • 在合同和组织流程中注入“出口合规”机制

二、中国境内:数据治理、模型训练与出境合规

2.1 法规底座与企业内部建设

2.1.1 核心法规框架

  • 《网络安全法》《数据安全法》《个人信息保护法》:

    • 数据分类分级
    • 关键信息基础设施保护
    • 重要数据出境管制
    • 个人信息处理规则
  • 《生成式人工智能服务管理暂行办法》:

    • 面向公众的生成式AI服务算法备案
    • 安全评估
    • 内容安全与使用记录要求
  • 《数据出境安全评估办法》及配套问答:

    • 数据出境定义
    • 触发安全评估的门槛
    • 标准合同与认证路径等机制

2.1.2 企业内部必须完成的基础动作

  1. 数据分类分级与台账系统

    • 将所有数据按以下类别标注并建目录:

      • 重要数据 / 核心数据
      • 个人信息 / 敏感个人信息
      • 一般业务数据、公开数据
    • 建立:

      • 《数据分类分级规范》
      • 《数据目录与数据流转图》
        这两项是后续安全评估、数据出境、对外解释的关键证据基础。
  2. 训练数据合规治理

    • 自采数据

      • 取得“明确告知+同意”,并在隐私政策/协议中写明“可用于AI模型训练与优化”
      • 符合“最小必要原则”
    • 爬虫/公开数据

      • 评估是否侵犯他人著作权
      • 是否包含个人信息
      • 是否违反网站爬虫限制条款
    • 第三方数据

      • 在合同中约定:

        • 数据来源合法性保证
        • 是否允许训练/再利用
        • 出境限制与再转移条件
        • 侵权/违规责任分配
  3. 生成式AI合规建设

    • 若面向境内公众且具有舆论属性或社会动员能力:

      • 按办法要求做算法备案 + 安全评估
      • 上线内容安全审核、用户实名、使用记录留存机制
    • 若仅为企业内部或To B使用,不向公众开放:

      • 可不适用该办法,但仍须遵守数安法、个保法等基础制度。

2.2 训练阶段与部署阶段的明确区分

高水平做法“训练合规”与“部署合规”拆开设计

  • 训练阶段(中国境内)

    • 核心问题:

      • 训练数据来源是否合法
      • 个人信息能否合法用于训练
      • 是否包含重要数据/核心数据
    • 尽量实现“数据+算力均在境内闭环”,减少原始数据的跨境暴露。
  • 部署阶段(全球)

    • 关键关注:

      • 推理过程是否处理本地用户个人信息
      • 是否触发数据跨境传输
    • 推荐策略:

      • 模型跨境、数据本地:境外只拿模型权重/服务接口,不回传本地用户明文数据到中国,或在明确合规路径下回传。

三、数据出境与模型跨境:如何设计低风险路径

3.1 “数据出境”与“模型出境”的区分与趋势

在《数据出境安全评估办法》框架下:

  • “数据出境”不仅是文件传输出境,也包括数据在境内存储但境外主体有权远程访问/调用的情况。
  • 模型权重目前尚未被明文规定为“数据出境”,但:

    • 自贸区负面清单中已逐步对“模型训练数据出境”进行专门管理
    • 监管趋势是:含敏感信息训练结果可能被视作“重要数据”的衍生物

实务建议

  • 在技术与法律论证层面把训练数据与模型权重“脱钩”

    • 技术上通过匿名化、聚合、隐私增强技术,确保无法从模型反推出特定个体信息
    • 法律上形成书面意见,论证“模型仅为统计结果,不构成个人信息/重要数据”

3.2 何时必须做“数据出境安全评估”

触发安全评估的常见情形包括:

  1. 向境外提供重要数据
  2. 关键信息基础设施运营者或处理100万以上个人信息的数据处理者向境外提供个人信息
  3. 自上一年1月1日起,累计向境外提供:

    • 10万人个人信息,或
    • 1万人敏感个人信息

AI场景下的高风险方式通常是:

  • 把原始训练数据复制到境外训练
  • 允许境外团队/云厂商远程访问境内训练数据
  • 在境外收集用户数据,回传中国做推理/训练

降低评估压力的关键做法

  • 训练全部在中国境内完成,数据不出境
  • 跨境只传输已脱敏的模型权重
  • 境外用户数据本地化存储、本地推理
  • 如必须回传中国:

    • 优先采用匿名化/去标识化+加密
    • 控制数量在免评估门槛以内,或走安全评估/标准合同/认证正式路径

四、境内算力:国产+国外芯片混合架构

4.1 策略前提与动因

在中国境内训练阶段采纳:

  • 国产芯片(如昇腾、寒武纪、自研GPU/TPU等)
  • 受限规格的国外芯片(如H20/H800等在华合规版本)

构建异构混合算力集群

  • GPU + 国产NPU/TPU并行
  • 使用MoE、量化、混合精度等方式降低单颗高端GPU依赖
  • 推理与微调尽量跑在国产芯片上,国外芯片主要用于关键预训练阶段

主要考虑:

  1. 供应链与制裁风险

    • 美国对顶级AI GPU和模型权重实施日趋严格的管制
    • 通过“国产+国外”混合,形成一定自主算力能力,降低被“卡脖子”风险
  2. 成本与效率

    • 国产芯片在能效比与成本方面逐步具备竞争力
    • 通过结构优化,有实践表明可在性能可比前提下显著降低训练成本
  3. 政策与“主权AI”要求

    • 国家强调“算力自主可控”
    • 在数据、算法、算力三要素中,算力国产化是中长期重点

4.2. 治理与合规措施

  • 对所有采用美国芯片/云服务的训练任务

    • 建立出口管制合规台账,记录:

      • 使用目的、数据类型
      • 对模型可能触发美国EAR或AI扩散规则的评估结论
  • 对混合算力集群建立资产与合规台账:

    • 芯片来源、采购合同中与出口管制相关条款
    • 可能涉及美国监管的场景预案

五、境外:全球部署时的法律、数据与算力架构

5.1 全球公司主体与治理结构:三套方案

5.1.1 方案一:标准型(推荐默认起点)

结构概览

  • 中国母公司:

    • 负责模型训练、算法研发、中国业务
  • 境外控股公司(香港/新加坡/爱尔兰):

    • 对外签约与持股平台
  • 区域运营子公司:

    • 美国、欧盟、英国、新加坡(APAC)、日本、澳新、印度/南亚等

优点

  • 结构清晰,符合国际惯例
  • 容易分区域承担监管责任
  • 有利于未来引入投资/上市

缺点

  • 对美国制裁升级、欧盟AI Act等仍需持续迭代

5.1.2 方案二:增强隔离型(双层控股+功能强隔离)

结构

  • 中国运营母公司(仅负责境内与训练)
  • 境外顶层控股(开曼/BVI)
  • 区域控股(如新加坡、爱尔兰)
  • 区域子公司

特点

  • 中国实体不直接面对境外客户,只输出模型+技术支持
  • 境外集团由非中、非美实体主导,与美国合作时由该层出面

优点

  • 最大限度降低被纳入美国长臂管辖链路
  • 更利于境外资本运作

缺点

  • 架构复杂、财税治理要求高

5.1.3 方案三:精细合规模型(区域数据主权+SPV)

在方案一或二基础上,为:

  • 欧盟、英国等高监管地区单独设立SPV,专门负责:

    • 数据保护
    • AI风险管理
    • 与监管机构沟通

优点

  • 显著降低GDPR与AI Act风险
  • 提升当地政府与大客户信任

缺点

  • 增加实体和合规成本

六、全球算力布局:境外以国外芯片为主 + 国产算力出海试点

6.1 境外算力基本结构

  • 核心模型版本管理仍在中国
  • 北美、欧盟、东南亚、中东等数据中心或云平台部署推理/微调节点:

    • 主要使用当地可采购的国外GPU(如H100/H200)
  • 分阶段在友好国家试点:

    • 部署国产GPU/NPU算力集群(“国产算力出海”)

6.2 技术与合规结合点

  • 尽量在境外只运行推理与本地微调,不做基础大模型训练
  • 训练数据不出境;本地业务产生的数据要么就地训练小Adapter,要么经合法路径回传(通常只回传匿名化样本)

七、按国家/地区的具体数据流 + 算力流 + 实体架构

以下部分可直接提供给法务/财务/技术作为国家级蓝图。

7.1 全球总架构总览

  • 中国母公司(China AI Dev Co., Ltd., PRC)

    • 训练中心 + 中国业务
  • 境外控股(Global AI Holdings Ltd., HK/SG/IE)

    • 持股与对外牌照/IP
  • 区域子公司

    • US Inc.、EU Ltd.、UK Ltd.、APAC Pte. Ltd.、Japan KK、AU Pty Ltd、IN Pvt Ltd……

总原则

  • 中国:训练责任 + 中国数据责任
  • 区域子公司:本地用户数据责任 + 当地合规责任
  • 跨境:模型跨境,数据本地;如需数据跨境,走合规路径

7.2 中国训练中心(数据与算力流)

  • 数据来源:国内业务、第三方合规数据集、公开数据
  • 数据治理:分类分级、目录+台账、用途与合规凭证
  • 训练算力:国产+国外芯片混合集群
  • 输出:

    • 多版本基座模型权重(Base Model)
    • 权重出境前做技术+法律评估,证明不含可识别个人信息/重要数据

7.3 美国节点(Global AI US Inc.)

  • 角色:美国用户数据控制者/处理者
  • 数据流

    • 用户→美国前端/SDK→美国API网关→美国推理集群
    • 日志与交互数据加密本地存储,只允许去标识化样本有限回传中国(需双重评估)
  • 算力

    • 推理:美国云GPU集群(H100/H200)
    • 训练:仅微调,基础训练在中国
  • 合规

    • CCPA/CPRA、联邦/州级隐私与AI问责规则
    • 合同中避免美国云/芯片供应商对中国母公司延伸控制

7.4 欧盟节点(Global AI EU Ltd., 爱尔兰SPV)

  • 角色:GDPR与AI Act下的主要数据控制者与AI责任主体
  • 数据流

    • 用户→欧盟前端→EU API网关→EU推理集群(数据在EU境内)
    • 向中国的传输:仅匿名化/统计结果,通过SCC+TIA+加密
  • 算力

    • 推理:EU本地云GPU
    • 本地微调:行业层Adapter,数据不出境
  • 合规重点

    • DPO任命
    • DPIA/AI风控体系
    • 高风险AI系统管理(如金融、医疗、招聘)

7.5 新加坡 / 东南亚节点(Global AI APAC Pte. Ltd.)

  • 角色:东南亚区域运营中心
  • 数据流

    • 东南亚各国用户数据汇聚新加坡节点就地处理
    • 根据各国本地法(印尼、马来等)确定跨境规则
  • 算力

    • 新加坡本地云GPU为主
    • 在友好国家部署国产算力试点集群
  • 合规

    • 新加坡PDPA
    • 区域数据跨境规则

7.6 日本节点(Global AI Japan KK)

  • 角色:APPI框架下的数据控制者
  • 数据流

    • 日本用户→日本前端→本地推理集群
    • 跨境需取得明确同意或合法基础,并进行去标识化
  • 算力

    • 日本云GPU(AWS Tokyo等)
    • 本地日语微调

7.7 澳大利亚/新西兰节点(Global AI AU Pty Ltd)

  • 角色:澳新地区统一运营实体
  • 数据流

    • 本地用户→本地/区域API→澳新推理集群
  • 算力

    • 本地或亚太区域云GPU
  • 合规

    • 澳洲隐私法、各行业规范

7.8 印度 + 南亚节点(Global AI IN Pvt Ltd)

  • 角色:南亚/部分东南亚项目载体
  • 数据流

    • 本地用户→本地/区域API→最近推理节点(印度或新加坡)
    • 遵守印度等国数据本地化及出境许可
  • 算力

    • 印度本地云GPU + 新加坡区域集群

八、合同与内部制度:搭起“防火墙”的关键抓手

8.1 内部规则:数据与技术流动制度化

  • 制定并董事会通过:

    • 《数据出境与技术出口审批流程》
    • 《算力与技术出口风险管理政策》
  • 要求:

    • 任何中国侧数据或模型流向境外必须走内部审批
    • 对涉及美国技术/人员的项目做单独合规审查

8.2 对外合同:DPA + 出口管制条款

  • 与所有数据/云/模型供应商签订:

    • 数据处理协议(DPA)
    • 在协议中明确:

      • 禁止对你的数据进行二次训练
      • 模型与数据的知识产权归属
      • 美方不得以其内部合规为由取得模型控制权
  • 与客户合同中:

    • 说明你的服务不会向制裁名单主体提供
    • 由你承担自主筛查义务,以减少对美方长臂管辖的依赖

九、三方(法务/财务/技术)评审共用检查清单

9.1 法务/合规

  • 每个国家是否有明确的本地数据控制者/处理者实体
  • 数据是否实现本地闭环处理,跨境仅限模型或匿名化数据
  • 是否建立了各地区:

    • 隐私政策(含本地语言版本)
    • DPIA / AI风险评估机制
    • 数据主体权利(访问、更正、删除等)响应流程
  • 是否对使用美国芯片/云服务的项目建立出口管制审查记录

9.2 财务/税务

  • 中国与各区域子公司之间:

    • 技术许可费、服务费、品牌使用费是否有合同支持
    • 转让定价是否符合独立交易原则
  • 是否充分利用:

    • 香港/新加坡/爱尔兰等地税收与R&D优惠
    • 当地政府补贴/算力优惠政策

9.3 技术/架构

  • 是否严格实现“训练在中国,部署在本地”:

    • 网络与权限上隔离训练环境与各地推理环境
  • 模型版本管理:

    • 是否能按国家维度区分(如EU专用版、US专用版)
  • 日志与审计:

    • 是否具备足够溯源能力以应对监管检查
  • 断供与替代路径:

    • 一旦美国GPU或云服务受限,是否有国产算力或非美替代方案

十、总结:给决策层的“极简版口径”

可以用以下四句话向决策层概括这整套方案:

  1. 国内先把“数据合规+AI备案”打牢,保证训练数据合法、可追溯,模型可证明不含可识别个人信息。
  2. 技术架构上做到“训练在中国、部署在全球,模型跨境而非数据跨境”,境外数据尽量本地闭环处理。
  3. 公司架构采用“中国母公司 + 离岸控股 + 区域子公司”模式,必要时叠加顶层控股与欧盟SPV,把监管责任地域化。
  4. 在算力与合同上主动“去美国关键依赖”,并引入出口合规流程,降低美国芯片与法规升级对业务的结构性风险。

标签:ai

你的评论