正在刊行长文 · Essay
2026-06-19所有内容
随机比特 · Random Bits

AI看病评分超过真人医生,但重点不是分数

2026-06-19AI Engineering / Systemsrbits.uk

AI看病评分超过真人医生,但重点不是分数

半夜胸口不舒服,觉得问题不大,但又睡不着。

掏出手机问ChatGPT——它可能给你一个听着靠谱的病名,也可能回一句"有些事文字判断不了,尽快去医院"。

区别不在它诊断得对不对——说实话你也没法验证。区别在于它有没有先问你漏掉了什么信息,有没有在关键节点告诉你不能再等。

OpenAI昨天发布了GPT-5.5 Instant的健康升级:回答质量被一组医生评得比真人医生自己写的还高,五项全胜;过去两个月健康相关事实错误率降了71%。

媒体标题统一写成"ChatGPT看病比医生还厉害"。但真正有意思的东西不在那个对比分里——在OpenAI自己列出来的失败模式修复清单里。

那个分数到底比了什么

评测方式不复杂:3500条记录里,另一组医生对比阅读AI和真人医生各自写的回答,五个维度打分。AI赢了。

但比的是"写回答",不是"做诊断"。

真医生面对患者线上留言,一个回答可能就三行——判断、建议、嘱托。AI有时间、有语料、有被训练过的解释技巧,能写出一篇面向普通人的科普短文。比赛从项目设置上就更适合AI——如果把医生也放在不限时间、不限篇幅、面向零医学背景读者的条件里,分数结构大概率不同。

"AI回答评分超过医生"不是假话。但它跟"AI能替代医生"之间,还有几个维度没被测试。而这几个维度,恰好藏在OpenAI自己公布的失败模式修复里。

他们修了三类错误,正好是你要看的三件事

OpenAI在公告里写得明明白白。过去两个月,模型在这三个方向上大幅改进:

第一,漏掉危险信号。 一个人说"胸口偶尔刺痛,几秒就过去"。旧版本可能给一段可能病因列表,末尾礼貌地加一句"建议咨询医生"。但你想想——一个没医学背景的人看完病因列表,第一反应是什么?"我在里面挑一个最像的。"那句"建议咨询"太轻了,轻到可以被忽略。新版本被训练成先标危险门槛:刺痛是否伴随呼吸困难?持续多久?有无相关病史?然后再给行动方向。

第二,不追问背景。 一个人说"最近总觉得累、没精神"——够简短也够模糊。旧版本会直接列一串可能病因:贫血、甲减、抑郁、睡眠不足,像医学生背书。新版本的第一反应是反问:体重有变化吗?睡眠够不够?在吃什么药?追问不是在缩小诊断范围——是在补上普通人描述症状时天然会漏掉的信息。

第三,不会表达不确定。 症状信息不够时,旧版本倾向于给一个"最可能的解释"——听着专业,但把需要进一步检查的信号盖住了。新版本会明确说:根据当前信息无法排除X或Y,如果出现Z则优先考虑A,但文字无法确诊,需要检查。它把"我不知道"翻译成了"我还需要知道什么才能判断"。

这三件事跟诊断准确率没关系。它们是临床医学最基本的安全机制——追问病史、识别急症、承认不确定性。OpenAI修这三项,说明AI在医疗场景里真正的进步不是"更敢下诊断",而是"更尊重自己不知道什么"。

一个可以直接用的判断框架

美国医学研究所的数据:每年约1200万美国成年人遭遇诊断错误。最常见的来源不是医生无知,而是信息收集不全和沟通断裂——恰好是追问和紧急分流要补的缺口。

<!-- diagram:三问判断 -->

以后你拿AI问健康问题,不用纠结它给的病名靠不靠谱——说实话你知道的也不比它多。就看三样:

追问了吗? 在给你答案之前,它有没有先问你漏了什么?

劝医了吗? 它有没有告诉你什么情况下不能再等、必须去医院?

承认不确定了吗? 信息不够时,它有没有说"还需要确认",而不是塞给你一个看似确定的结论?

三条全过,这个回答才可用。不是因为诊断得对——是因为它不会让你因为信息不全做错决定。

别拿它替代医生

OpenAI发布当然有PR成分。71%的错误率降幅、3500条评估、260位医生审查了超70万条回复——数字很唬人。但真正值得带走的比标题小,也比标题实用。

AI在健康上最好的角色,不是替你下结论。是在你对着症状列表一个人胡思乱想的时候,多一双眼睛——不是帮你看病,是帮你看你漏掉了什么危险信号。

下次身体不舒服,先问ChatGPT完全没问题。但别问"我得了什么病"。问这两句就够了:

“我漏掉了什么重要信息?”

“我该不该现在去看医生?”

随机比特公众号二维码
公众号 · 随机比特
从 AI 工具热闹里拆工程真相

写边界、控制面、上下文、成本与安全。