MedicalWorld Model: Generative Simulation of Tumor Evolution for Treatment Planning

目录

0. 摘要

2. 相关工作

2.1 生成式世界模型

2.2 肿瘤合成

2.3 预后分析与临床决策

3. 医学世界模型

3.1 策略模型(Policy Model)

3.2 动态模型(Dynamics Model)

3.3 逆向动态模型(Inverse Dynamics Model)

4 实验

4.1 生成质量评估

4.2 生存分析(Survival Analysis)

4.3 TACE 方案探索结果

5. 结论


0. 摘要

本文提出医学领域首个世界模型——Medical World Model(MeWM),能够基于临床决策直观预测未来疾病状态。

MeWM 由两大组件组成:

  • (i)充当 策略模型 的视觉-语言模型,
  • (ii)作为 动态(dynamics)模型 的肿瘤生成模型。
  • 策略模型生成行动计划(例如具体治疗方案),而动态模型在既定治疗条件下模拟肿瘤的进展或回缩(regression)。

在此基础上,提出 逆向动态模型,它对模拟得到的治疗后肿瘤进行生存分析,从而评估治疗效果并选择最佳临床行动方案。

结果显示,MeWM 通过合成治疗后肿瘤模拟疾病动态,在放射科医师的图灵测试中取得了业内领先的特异性。同时,其逆向动态模型在个体化治疗方案优化的所有评估指标上均超过医疗专用 GPT。值得注意的是,MeWM 将介入医师在选择最佳 动脉化疗栓塞(Transarterial Chemoembolization, TACE)方案时的 F1 分数提升了 13%,为未来将医学世界模型作为 “第二阅片医师” 融入临床实践铺平了道路。

图 1。医学世界模型的整体框架:

  • 模型将影像观察(imaging observations)与感知模块(perception)整合,形成初始状态;
  • 随后利用疾病进展生成模型(progression generative model),在不同治疗条件下预测疾病的未来状态。
  • 以康复为目标的策略引导治疗决策,从而构建优化临床干预的闭环反馈。  

2. 相关工作

2.1 生成式世界模型

早期世界模型仅处理简单状态转移,近期工作将多模态条件、结构化动作及长时序规划融入视频与机器人任务,但医学图像分析尚无应用 。

2.2 肿瘤合成

扩散模型显著提升肝、肾、胰腺等器官肿瘤合成的真实感;然而现有方法多用于数据增强,而非用于临床决策模拟 。

2.3 预后分析与临床决策

LLM 在诊断与治疗决策上仍弱于临床医师,对治疗后预后预测(Post-treatment prognosis)不足;传统 Cox 或 Radiomics 方法亦无法捕获复杂病灶演变 。

3. 医学世界模型

MeWM 以 “观察-动作-结果” 范式链接三个核心组件,实现端到端的治疗方案规划与效果推断。

图 2。TACE 方案探索流程概览:

  • GPT 系列模型(Policies,策略模型):在观察治疗前 CT 的基础上,结合临床指南与策略构建 TACE 治疗动作组合。
  • 肿瘤生成模型(Dynamics Model,动态模型):针对不同 TACE 介入方案模拟治疗后肿瘤,预测治疗结果。
  • 生存分析模型(Heuristic Function,启发式函数):综合模拟治疗后 CT 与治疗前 CT 评估风险得分,选择最优 TACE 方案。
  • 请注意,图中以红色标出的 3D 肿瘤掩蔽(mask)可通过经过充分训练的分割网络(辅助模型)自动提取。该框架通过在临床策略引导、生成建模和生存分析之间迭代,实现了可视化、可追踪的方案优化闭环。

3.1 策略模型(Policy Model)

策略模型利用大型视觉语言模型(例如 GPT-4o)提取治疗前 CT 的视觉特征,结合临床指南,构建治疗方案。具体过程包括:

  • 设置跨动脉化疗栓塞(TACE)的药物库(如 Raltitrexed, Cisplatin)和栓塞材料库(如Lipiodol, Gelatin Sponge)。

  • 利用策略模型进行初步的治疗建议生成。

  • 借助语言推理模型(如 Deepseek-R1)精炼药物及栓塞材料选择,缩减搜索范围。

3.2 动态模型(Dynamics Model)

动态模型包括以下三个关键模块:

1)放疗报告提取与生成(Radiotherapy Report Extraction and Generation)

  • 通过GPT-4o 和 Deepseek-R1模型,从放疗报告中提取关键治疗信息(如药物名称、剂量、栓塞剂类型)。

  • 根据提取的关键词生成结构化的治疗行动描述。

2)治疗后肿瘤生成(Post-Treatment Tumor Generation)

  • 使用潜扩散模型(Latent Diffusion Models, LDMs),结合治疗行动的文本嵌入,实现治疗后肿瘤影像的生成。

  • 通过 3D VQGAN 自动编码器,将 CT 影像压缩到低维特征空间,并利用扩散过程逐步去除噪声,还原出治疗后的肿瘤状态。

  • 提出 “文本驱动的形态高斯衰减”(Text-driven Morpho-Gaussian Attenuation),模拟 TACE 后肿瘤的形态和强度变化(如脂质沉积、坏死等)。

3)组合对比学习(Combo Contrastive Learning, CCL)

  • 采用对比学习技术,使得相似治疗行动生成的肿瘤更接近,不同治疗行动生成的肿瘤更易区分,从而增强生成结果的真实性和治疗敏感性。

3.3 逆向动态模型(Inverse Dynamics Model)

逆向动态模型用于从治疗行动和模拟的治疗结果推断最佳治疗策略。包含以下子模块:

1)辅助模型(Assistant Model)

  • 使用基于 nnUNet 的肿瘤分割模型精确定位治疗后的肿瘤区域。

  • 适配该模型以分割治疗后 CT 影像中异质高强度区域(脂质沉积、坏死组织)。

2)启发函数(Heuristic Function)

  • 基于 3D 卷积网络(MC3)和交叉注意力 Transformer,整合治疗前后影像特征进行生存风险评估。

  • 利用 Cox 比例风险模型和总体生存期(Overall Survival, OS)回归联合训练,以提高生存分析模型泛化能力。

3)TACE方案探索算法(TACE Protocol Exploration)

  • 使用树状搜索方法,基于策略模型和动态模型模拟大量治疗方案,选择风险最低的治疗行动组合。

  • 每步生成多个治疗后肿瘤模拟,选取最佳生存分析得分的方案进行推进。

  • 通过药物和栓塞材料两个层次的搜索,逐步优化方案,并避免药物组合的毒性积累风险。

4 实验

本文使用两个数据集进行实验:

  • 内部数据集(HCC-TACE In-house Dataset)

    • 包含 338 对治疗前后的 CT 扫描图像,具有肝脏和肿瘤的标注掩膜及详细临床记录(TACE 治疗报告和总生存期(OS))。

    • 训练集与测试集比例为 9:1。

  • 公开数据集(HCC-TACE-Seg Public Dataset)

    • 由德克萨斯大学 MD Anderson 癌症中心收集,包含 78 个确认肝细胞癌(HCC)病例的治疗前后 CT 数据、TACE 治疗行动记录与 OS 数据。

    • 其中 80% 用于微调和验证 MeWM,20% 用于测试模型的方案探索能力。 

4.1 生成质量评估

1)视觉图灵测试(Visual Turing Test)

  • 邀请三名放射科医生(R1-R3),对 240 张 CT 扫描图像(其中 120 张为真实治疗后肿瘤,120 张为合成的治疗后肿瘤)进行真假判断。

  • 测试表明 MeWM 生成的肿瘤图像更难以被识别为合成图像,具有更高的真实性。

  • 放射科医生在识别真实肿瘤的敏感度(Sensitivity)均高于 91%,但识别合成肿瘤的特异性(Specificity)最低可降至70.83%,表明 MeWM 的合成图像极具逼真度。

图 4 展示了测试中的示例,其中对比了真实肿瘤与放射科医生正确或错误分类的合成肿瘤。这表明合成的肿瘤图像与真实治疗后的肿瘤高度相似。  

2)感知评估(Perceptual Evaluation)

  • 使用 FID 与 LPIPS 两个指标进行感知质量评估。

  • MeWM在 FID(0.71)和 LPIPS(0.6120)指标上均达到最佳效果,说明其生成的治疗后肿瘤图像最为逼真。

4.2 生存分析(Survival Analysis)

使用 MeWM 的启发函数模型对治疗后的风险进行回归分析,并与传统 Cox 比例风险模型(Cox Proportional Hazards)进行对比。

结果显示,MeWM的启发函数模型预测的风险评分更接近真实分布(较低MSE:0.2142 vs Cox 的0.3550)。

Kaplan-Meier 生存曲线分析显示,本文的深度模型(C-index=0.752, p=6.74e-5)明显优于基于影像组学特征的 Cox 模型(C-index=0.472, p=0.9255),说明其具备更优的风险分层能力。

4.3 TACE 方案探索结果

1)评估策略(Evaluation Strategy)

采用F1-score、Jaccard指数、Precision与Recall共四个指标评估方案探索的质量。

具体含义为:

  • F1-score:精确度与召回率的协调指标。

  • Jaccard指数:衡量预测方案与真实方案的类别级别的重叠。

  • Precision:推荐的纯度,惩罚错误或冗余的推荐。

  • Recall:覆盖了多少重要治疗措施,反映遗漏关键措施的情况。

2)GPT 模型的不足(Partial Observation Misleads GPTs)

与多模态 GPT 模型(如 GPT-4o、MedGPT 等)相比,单纯依靠治疗前 CT 进行推理会带来较差的方案推荐表现(F1 分数低 10% 以上)。

表明仅凭视觉-语言推理不足以准确预测最优方案,强调了治疗模拟的重要性。

3)MeWM 作为临床决策支持工具(MeWM as a Clinical Decision-support Tool)

MeWM 可显著提升临床医生决策水平,相较于仅依靠治疗前 CT 的决策过程,F1 分数显著提升 13% 以上。

合成的治疗后 CT 模拟结果能提前预测栓塞治疗效果,减少治疗的不确定性和非目标区域的栓塞风险,有助于制定更加个性化的治疗方案。

4)消融实验(Ablation Study)

对 “辅助模型(Assistant Model)” 和 “组合对比学习(Combo Contrastive Learning,CCL)” 两个关键组件进行消融研究。

结果表明,这两个模块对模型性能提升有明显贡献:

  • 去除辅助模型后,F1 分数明显下降。

  • 去除 CCL 后,模型的 F1 分数和其他指标也有所下降。

5. 结论

本文提出的 MeWM 首次将世界模型理念引入医学领域,实现了可视化、可量化、可优化 的肿瘤演化模拟与治疗决策。通过策略-生成-评估闭环,MeWM 在肿瘤合成真实性、生存风险预测及 TACE 个体化方案推荐上均大幅超越现有方法,为未来 “第二阅片医师” 奠定基础 。


论文地址:https://arxiv.org/abs/2506.02327

项目页面:https://yijun-yang.github.io/MeWM

进 Q 学术交流群:922230617 或加 CV_EDPJ 进 W 交流群

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐