2026年MathorCup E题 思路分析

赛题概述

题目:罕见病药品医保谈判定价模型及用药成本优化研究

背景:国家医保谈判通过价格磋商降低药品价格,对罕见病患者尤为重要。题目提供2020-2024年共5年的医保谈判数据,要求建立定价模型并优化用药成本。

数据概况

年份 主要Sheet 数据量 关键字段
2020 降幅拆规格、续约 120+39行 药品名称、规格、谈判前价格、医保支付标准、降幅
2021 医保谈判品种清单、续签品种清单 86+121行 药品名称、规格、谈判前价格中位值、谈判价格、降幅
2022 谈判成功结果、竞价药品 128+19行 类型、药品名称、谈判前后价格、降幅、规格、限制适应症
2023 国谈新增、竞价新增 146+18行 类型、药品名称、谈判前后价格、降幅、适应症、规格
2024 国谈新增、竞价品种、详细信息 101+7+99行 通用名、谈判前后价格、规格、适应症、药品类别、疾病领域、是否独家、药物分类、上市年份、类别(国产/进口)

三个问题的建模思路


问题1:影响因素分析与定价模型

目标:分析药品规格、适应症、药品类别等因素对药物定价的影响程度并排序,建立谈判后价格的定价模型。

1.1 数据预处理
  • 统一格式:将2020-2024年数据整合为统一的DataFrame,字段包括:年份、药品名称、规格、谈判前价格、谈判后价格、降幅、药品类别、适应症等
  • 规格数值化:从规格字符串中提取数值(如"50mg"→50,"5ml"→5),并统一单位
  • 适应症编码:对适应症进行分类编码(肿瘤、心血管、神经、感染、罕见病等)
  • 缺失值处理:对缺失的谈判前价格用同药品其他规格推算,无法推算的删除
1.2 特征工程
特征 类型 说明
谈判前价格 连续 谈判前单位中标价格中位值
规格数值 连续 从规格字符串提取的数值(mg/ml/g等)
药品类别 分类 西药/中成药/生物制品
适应症类别 分类 肿瘤/心血管/神经/感染/罕见病/其他
是否续约 二值 新谈判 vs 续约
谈判年份 有序 2020-2024
1.3 影响因素分析方法
  1. Pearson/Spearman相关性分析:连续变量与谈判后价格的相关系数
  2. 随机森林特征重要性:基于基尼不纯度的特征重要性排序
  3. SHAP值分析:基于XGBoost模型的SHAP值,解释各特征对预测的贡献
1.4 定价模型
  • 模型1:多元线性回归 — 作为基准模型,可解释性强
  • 模型2:随机森林回归 — 捕捉非线性关系
  • 模型3:XGBoost回归 — 集成学习,性能优异
  • 评估指标:R²、MAE、RMSE,5折交叉验证

问题2:纳入罕见病特异性因素的改进模型

目标:在问题1基础上纳入罕见病特异性因素,改进定价模型。

2.1 新增特异性因素
因素 数据来源 量化方式
受众人数(患病率) Orphanet/RDDC数据库 每10万人患病数
是否为癌症类型 适应症分类 0/1二值变量
危害程度 文献/致死率数据 1-5等级评分
是否有替代疗法 药品目录查询 0/1二值变量
研发成本指标 上市年份/是否独家 代理变量
国产vs进口 2024年数据 0/1二值变量
2.2 改进策略
  1. 在问题1的最优模型基础上,加入罕见病特异性特征
  2. 对比改进前后模型的R²、MAE、RMSE
  3. 分析新增特征的SHAP值贡献
  4. 讨论模型合理性:经济学解释(患病率低→研发成本分摊高→价格高)

问题3:单体病人最小用药成本模型

目标:以某种罕见病为案例,考虑替代药物,构建最小用药成本模型。

3.1 案例选择

选择**肺动脉高压(PAH)**作为案例:

  • 数据中有相关药品(贝前列素钠缓释片等)
  • 存在多种替代药物(波生坦、安立生坦、西地那非、他达拉非等)
  • 治疗方案相对标准化
3.2 模型构建

线性规划模型

min ⁡ ∑ i = 1 n c i ⋅ x i ⋅ d i \min \sum_{i=1}^{n} c_i \cdot x_i \cdot d_i mini=1ncixidi

其中:

  • c i c_i ci:第 i i i种药物的单位价格
  • x i x_i xi:第 i i i种药物的每日用量(决策变量)
  • d i d_i di:治疗周期天数

约束条件

  1. 疗效约束: ∑ i = 1 n e i ⋅ x i ≥ E m i n \sum_{i=1}^{n} e_i \cdot x_i \geq E_{min} i=1neixiEmin(总疗效不低于最低要求)
  2. 剂量约束: x i m i n ≤ x i ≤ x i m a x x_i^{min} \leq x_i \leq x_i^{max} ximinxiximax(每种药物剂量在安全范围内)
  3. 药物组合约束:某些药物不能同时使用
  4. 非负约束: x i ≥ 0 x_i \geq 0 xi0
3.3 求解与分析
  • 使用scipy.optimize.linprog或PuLP求解
  • 给出最优药物组合方案
  • 敏感性分析:价格变动对最优方案的影响

论文结构规划

  1. 摘要
  2. 问题重述
  3. 问题分析
  4. 模型假设
  5. 符号说明
  6. 问题1:影响因素分析与定价模型
    • 数据预处理
    • 特征工程
    • 影响因素排序(相关性分析+随机森林+SHAP)
    • 定价模型建立与评估
  7. 问题2:罕见病特异性定价模型
    • 特异性因素构建
    • 模型改进与对比
    • 合理性分析
  8. 问题3:最小用药成本模型
    • 案例介绍
    • 线性规划模型
    • 求解结果与替代方案
    • 敏感性分析
  9. 模型评价与推广
  10. 参考文献
  11. 附录

完整资源链接:
2026年MathorCup杯E题罕见病药品医保谈判定价模型及用药成本优化研究完整可运行代码+完整论文(参考)

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐