医药横纵分析法深度研究
核心方法论:纵轴追时间深度(因果链叙事),横轴追同期广度(证据包对比),交叉出新判断。 适配医药:纵轴 = 全生命周期因果链,横轴 = 多维证据包横向比较。
前置准备
拿到用户输入后确认(优先自行推断,只追问一次):
- 对象类型:drug / target / indication / company / platform
- 对象名称(标准英文名优先,中文也行)
- 研究目的(尽调/立项/竞品差距/注册路径/BD 评估等)
- 地域:默认 Global + US/EU/CN,用户指定除外
- 时间范围:默认从对象起源到当前,用户指定除外
Step 0:数据采集(脚本辅助)
先运行数据采集脚本,拿到结构化数据再做分析,而不是一开始就纯搜索。脚本会自动从 ClinicalTrials.gov、PubMed、openFDA 拉取数据并生成汇总。
python skills/pharma-deep-research/scripts/research_pipeline.py \
--type {drug|target|indication|company|platform} \
--name "对象英文名" \
--out-dir tmp/deep-research-<slug>
脚本输出:
full_report.json— 完整结构化数据(临床试验/文献/监管/竞品)data_summary.md— 数据采集摘要- 单项数据文件(
clinical_trials.json、literature.json、regulatory.json、competitors.json)
脚本给的是原始数据,之后的 Step 1-4 是你的分析工作——从数据中提取洞察、构建叙事、下判断。
Step 1:补充信息收集
脚本采集的是结构化数据,但深度研究还需要:
- 行业分析师报告的观点
- 管理层在财报电话会上的表态
- 监管审评文件中的争议点
- 患者社区的真实反馈
必须联网搜索补充这些非结构化信息。信息可信度分级:
- 一手:监管公告 / 试验注册 / 公司年报 / SEC 文件
- 二手:权威期刊 / 行业媒体原创报道
- 线索:社区讨论、KOL 观点(可引用但不可做结论依据)
搜索策略详见 references/search-strategies.md。
Step 2:纵向分析(全生命周期因果链)
沿时间轴写成因果链叙事——不是年表流水账,每个节点要回答"为什么"。
按对象类型调整重点:
drug
靶点机制发现 → 为什么选这个靶点 → 临床前验证的关键转折 → 临床 I/II/III 期各阶段的设计选择和结果 → 监管审评中的争议和妥协 → 上市后的真实世界表现和适应症扩展 → 竞争反应
target
靶点发现史(谁先发现的、基于什么证据)→ 通路验证(遗传学/功能基因组学证据)→ 成药性评估(可药性口袋、选择性挑战)→ 管线竞争格局(谁在做什么、做到哪了)→ 技术路线分歧(小分子 vs 抗体 vs 其他)
indication
SoC 演进(每个时代的标准治疗是什么、为什么改变)→ 指南变化节点 → 关键证据(哪些试验改变了临床实践)→ 未满足需求(现有治疗哪里不够好)→ 新技术方向
company
战略演进(从哪起步、为什么转向)→ 管线布局逻辑 → BD/融资/并购的时间线和动机 → 关键人物的决策影响 → 竞争位置的历史成因
platform
技术代际(第几代、解决了上一代什么问题)→ 验证里程碑(哪个产品证明了这个平台)→ 工程边界(技术极限在哪)→ 竞品平台对比 → 扩展潜力
每个节点的核心是决策逻辑:为什么做这个选择、为什么不走另一条路、如果选错了后来怎么纠偏。
Step 3:横向分析(竞品证据包对比)
竞品识别方法学
从脚本输出的 competitors.json 获取候选竞品列表,然后按三层筛选:
- 同机制竞品(相同 MoA/靶点)— 直接竞争对手,重点对比疗效和安全性差异
- 同适应症竞品(不同 MoA,相同疾病)— 治疗格局中的替代选择,对比定位差异
- 同阶段竞品(相同开发阶段)— 时间赛跑中的对手,对比开发策略和进度
最终选择 3-5 个代表性竞品进行深入对比,选择标准:
- 机制代表性(覆盖不同 MoA)
- 阶段代表性(已上市 vs 在研)
- 市场重要性(市场份额或预期峰值销售额)
对比维度
| 维度 | 关键指标 | 数据来源 | |------|---------|---------| | 疗效终点 | 主要终点、效应量(HR/ORR/PFS)、亚组 | CT.gov + 文献 | | 安全性 | ≥3 级 AE 发生率、黑框警示、REMS | openFDA + 文献 | | 标签 | 适应症范围、限制条件、一线/二线 | openFDA label | | 给药便利性 | 频次、剂型、是否需要监测 | label + 指南 | | 可及性 | 指南推荐级别、医保/商保准入、定价 | 指南 + 新闻 |
可比性声明(必须)
对比前先声明可比性条件:
- 研究人群是否一致(一线/后线、生物标志物筛选)
- 终点是否可比(不同试验的 ORR 定义是否一致)
- 随访时间是否足够
- 数据成熟度(是否为最终分析 vs 中期分析)
不可比就写明原因,禁止强行排名。跨试验比较(cross-trial comparison)的局限性要明确标注。
Step 4:横纵交汇洞察
这一步不是前文的缩写,是基于纵向因果链 + 横向证据包交叉产生的新判断。
4.1 历史路径如何塑造当下竞争位置
用具体决策节点解释:为什么今天 A 领先 B 落后,哪些历史选择导致了这个格局。
4.2 格局拐点识别
判断当前是否处于格局变化的拐点(如新机制验证、专利悬崖、监管政策变化),以及拐点的驱动力。
4.3 未来三剧本
每个剧本必须包含:具体情境描述 + 触发条件 + 可观察的早期信号 + 时间框架。
| 剧本 | 概率判断 | 触发条件 | 观察信号 | |------|---------|---------|---------| | Base(最可能) | ~60% | ... | 未来 90 天内可观察的 ... | | Bear(最危险) | ~20% | ... | ... | | Bull(最乐观) | ~20% | ... | ... |
Step 5:输出报告
使用 references/report-template.md 模板,全文 8000-20000 字中文报告。
模板包含完整的章节结构(含 BD 交易先例、专利/独占期时间线、估值锚点等投资者视角要素)。
写作风格
- 叙事驱动:用故事线串联数据,不是数据堆砌
- 敢下判断:有明显倾向时直接说"A 优于 B 在于...",不要和稀泥
- 避免 AI 套话:禁用「综上所述」「赋能」「在当今时代」「值得注意的是」「不可否认」
- 搜不到就写搜不到:不确定就写不确定,标注可信度等级
- 数字先行:能用具体数字的地方不用形容词("ORR 45%" 而不是"疗效显著")
数据源速查
| 维度 | 推荐源 | 用途 | |------|--------|------| | 临床试验 | ClinicalTrials.gov API | 试验设计/终点/阶段/状态 | | 监管标签 | openFDA Drug Label | 适应症/黑框警示/给药方案 | | 文献 | PubMed E-utilities | 机制证据/临床结果/综述 | | 安全召回 | openFDA Enforcement | 召回记录/安全警报 | | 竞品机制 | openFDA pharm_class | 同药理分类药物发现 | | 专利/独占 | FDA Orange Book | 专利到期/市场独占期 |
详细搜索策略和查询模板见 references/search-strategies.md。
微信扫一扫