一、定位

TernFS 是 XTXMarkets 开源设计 的分布式存储引擎,专为 超大规模、极少修改的大数据文件存取场景 而生。

目标用户:机器学习训练、科学计算输出、日志归档等 数据密集型行业。其写入即终局、读多写少的行为模式与当前系统优化方向高度契合。


二、核心架构

TernFS 采用模块化分层设计,关键组件如下:

  • Registry:全局配置中心,负责元信息协调与服务注册
  • Metadata Shards:目录 / 文件结构映射关系的分区管理单元
  • Block Services:实际存储文件块的数据节点,高可靠、强冗余
  • CDC:跨 shard 操作协调器,处理重命名、移动等事务
  • 客户端接口:支持 Linux 内核挂载、FUSE、S3 接口、CLI 工具

辅助功能包括自动清理(GC)、损坏检测(Scrubber)以及跨节点迁移(Migrator)等,具备自我修复能力。


三、关键特性

维度特性说明
写一致性原子性写,无半成功状态
容错机制多副本 + 自动修复
扩展性支持 EB 级存储容量、千万亿级文件数;水平扩展通过增加 shards 和 Block 服务
跨数据中心可复制存储至多个数据中心,实现异地灾备与计算分离
接口多样性内核 module / FUSE / S3 API / CLI / Web UI

四、适合与不适合的场景

4.1 适合场景:

  • 大规模训练样本文本图像数据
  • 日志归档 / 研究模拟结果
  • 不常更新的离线批处理数据湖
  • 高可靠性、低延迟读取的生产环境部署

4.2 不推荐场景:

  • 小文件密集
  • 频繁修改或并发写
  • 对 POSIX 全兼容要求极高
  • 需要原生数据库事务支持

五、与主流系统的比较优势

系统长处问题TernFS 优势
HDFS成熟生态,适合批处理小文件不友好优化大文件、不可变
Ceph通用、弹性强维护成本高针对单一方向深度优化
Lustre并行 IO 快架构沉重,扩展受限模块清晰,更适合异构节点扩展
Alluxio缓存 / 加速层依赖基础存储原生持久化设计,无需额外缓存

六、未来展望

  • 提升小文件性能(聚合机制)
  • 强化跨 region 复制能力
  • 优化 FUSE 性能,使之更接近内核路径
  • 扩展 S3 兼容性标准
  • 构建完整的监控 - 分析 - 自愈闭环体系

七、总结:TernFS ,大数据世界的‘只写档案袋’”

TernFS = 大体积+少更新+需可靠的终极存储选择

适用于所有对数据一致性、持久性、大规模吞吐提出高标准的存储需求。

标签:infra, ai

你的评论