AI看病评分超过真人医生，但重点不是分数

半夜胸口不舒服，觉得问题不大，但又睡不着。

掏出手机问ChatGPT——它可能给你一个听着靠谱的病名，也可能回一句"有些事文字判断不了，尽快去医院"。

区别不在它诊断得对不对——说实话你也没法验证。区别在于它有没有先问你漏掉了什么信息，有没有在关键节点告诉你不能再等。

OpenAI昨天发布了GPT-5.5 Instant的健康升级：回答质量被一组医生评得比真人医生自己写的还高，五项全胜；过去两个月健康相关事实错误率降了71%。

媒体标题统一写成"ChatGPT看病比医生还厉害"。但真正有意思的东西不在那个对比分里——在OpenAI自己列出来的失败模式修复清单里。

那个分数到底比了什么

评测方式不复杂：3500条记录里，另一组医生对比阅读AI和真人医生各自写的回答，五个维度打分。AI赢了。

但比的是"写回答"，不是"做诊断"。

真医生面对患者线上留言，一个回答可能就三行——判断、建议、嘱托。AI有时间、有语料、有被训练过的解释技巧，能写出一篇面向普通人的科普短文。比赛从项目设置上就更适合AI——如果把医生也放在不限时间、不限篇幅、面向零医学背景读者的条件里，分数结构大概率不同。

"AI回答评分超过医生"不是假话。但它跟"AI能替代医生"之间，还有几个维度没被测试。而这几个维度，恰好藏在OpenAI自己公布的失败模式修复里。

他们修了三类错误，正好是你要看的三件事

OpenAI在公告里写得明明白白。过去两个月，模型在这三个方向上大幅改进：

第一，漏掉危险信号。 一个人说"胸口偶尔刺痛，几秒就过去"。旧版本可能给一段可能病因列表，末尾礼貌地加一句"建议咨询医生"。但你想想——一个没医学背景的人看完病因列表，第一反应是什么？"我在里面挑一个最像的。"那句"建议咨询"太轻了，轻到可以被忽略。新版本被训练成先标危险门槛：刺痛是否伴随呼吸困难？持续多久？有无相关病史？然后再给行动方向。

第二，不追问背景。 一个人说"最近总觉得累、没精神"——够简短也够模糊。旧版本会直接列一串可能病因：贫血、甲减、抑郁、睡眠不足，像医学生背书。新版本的第一反应是反问：体重有变化吗？睡眠够不够？在吃什么药？追问不是在缩小诊断范围——是在补上普通人描述症状时天然会漏掉的信息。

第三，不会表达不确定。 症状信息不够时，旧版本倾向于给一个"最可能的解释"——听着专业，但把需要进一步检查的信号盖住了。新版本会明确说：根据当前信息无法排除X或Y，如果出现Z则优先考虑A，但文字无法确诊，需要检查。它把"我不知道"翻译成了"我还需要知道什么才能判断"。

这三件事跟诊断准确率没关系。它们是临床医学最基本的安全机制——追问病史、识别急症、承认不确定性。OpenAI修这三项，说明AI在医疗场景里真正的进步不是"更敢下诊断"，而是"更尊重自己不知道什么"。

一个可以直接用的判断框架

美国医学研究所的数据：每年约1200万美国成年人遭遇诊断错误。最常见的来源不是医生无知，而是信息收集不全和沟通断裂——恰好是追问和紧急分流要补的缺口。

以后你拿AI问健康问题，不用纠结它给的病名靠不靠谱——说实话你知道的也不比它多。就看三样：

追问了吗？ 在给你答案之前，它有没有先问你漏了什么？

劝医了吗？ 它有没有告诉你什么情况下不能再等、必须去医院？

承认不确定了吗？ 信息不够时，它有没有说"还需要确认"，而不是塞给你一个看似确定的结论？

三条全过，这个回答才可用。不是因为诊断得对——是因为它不会让你因为信息不全做错决定。

别拿它替代医生

OpenAI发布当然有PR成分。71%的错误率降幅、3500条评估、260位医生审查了超70万条回复——数字很唬人。但真正值得带走的比标题小，也比标题实用。

AI在健康上最好的角色，不是替你下结论。是在你对着症状列表一个人胡思乱想的时候，多一双眼睛——不是帮你看病，是帮你看你漏掉了什么危险信号。

下次身体不舒服，先问ChatGPT完全没问题。但别问"我得了什么病"。问这两句就够了：

“我漏掉了什么重要信息？”

“我该不该现在去看医生？”