AI Infra:OpenMed,建造医学知识的开源基础模型
一、项目总览:OpenMed & Open Health AI
OpenMed:Hugging Face 平台上的开源医疗 AI 项目,由 Maziyar Panahi 博士领导。
目标:构建协作式社区,发布医学模型与数据集,降低研究门槛,推动医疗 AI 民主化。
开源 + 医疗 + 全球协作 + 降低门槛 = OpenMed 核心价值
二、核心贡献与项目目录
2.1 模型库(部分)
OpenMed 已发布众多医学专用模型,覆盖 NLP、LLM、多模态、影像等多个子领域,部分如下:
模型名称 | 简介 | 类型 |
---|---|---|
openmed/ClinicalBERT-NLI | 用于医学推理任务(NLI)的微调 BERT | NLP |
openmed/meditron-7b | 基于 Llama2 架构的医学大语言模型(MLLM) | LLM |
openmed/mammo-diffusion | 医学影像生成扩散模型,用于乳腺影像 | 影像生成 |
openmed/mimic-cxr-vit | 用于胸片图像分类的 Vision Transformer | 图像分类 |
openmed/MIMIC-RAG | 基于 MIMIC 医疗数据集的 Retrieval-Augmented Generation | RAG |
所有模型均提供 Hugging Face 推理接口(Inference API)、权重下载、训练参数文档与使用示例。
三、理念与文章要点:“Open Health AI”
Maziyar Panahi 在其文章《Open Health AI》中提出:医疗 AI 正处于一个“开放革命的转折点”,其发展应坚持以下三大原则:
3.1 开放科学:知识与资源应向所有人开放
- 医疗数据和模型不应只掌握在少数大公司手中
- 类比自然语言处理的 T5、BERT 的“开源范式”,医学 AI 同样应共享模型、数据与评估基准
3.2 可验证性与透明性:构建信任的基础
- 医疗模型的开发、训练流程、偏差分析和评估应完全公开
- 鼓励全球研究人员复现、验证模型,降低“黑箱”风险
3.3 全球协作:医疗 AI 不只是欧美的事
- 鼓励南半球国家、资源有限地区参与开源医学模型共建
- 发布全球范围适用的多语言、多族群数据驱动模型(例如多语种医学 LLM)
四、开放医学 AI 的技术图谱(OpenMed Ecosystem)
维度 | 内容 |
---|---|
模型类型 | 临床 NLP、医学 LLM、X-Ray 分类、MRI 生成、乳腺癌影像 Diffusion、RAG 等 |
数据支持 | MIMIC、PMC、PubMed、Radiology Datasets(开源) |
工具组件 | Transformers、Datasets、PEFT、Diffusers、RAG pipeline |
应用场景 | 临床问答、文献摘要、诊断建议辅助、影像诊断、生成医学图像 |
生态协作 | 与多家高校/医院/实验室协作,例如 Harvard、Stanford、WHO 数据使用 |
五、关键模型代表:MedITRON
MedITRON 是 OpenMed 最具代表性的多语言医学 LLM 系列,基于 Meta Llama2 架构,针对 PubMed、UMLS、临床指令数据等进行训练
meditron-7b
:公开训练流程,支持推理与微调- 强调可部署、可复现、可适配特定任务(如摘要、问答、诊断推理)
将医学知识从封闭的实验室推向开放的全球协作网络,让 AI 的力量真正服务于每一个需要的人
https://huggingface.co/OpenMed