Advertisement
Advertisement

新足迹

 找回密码
 注册
新足迹 门户 医药保健 查看内容

ChatGPT分析我十年的健康数据后,我给医生打了电话

2026-2-16 05:26| 发布者: dootbear | 查看: 4199| 原文链接

澳洲金融时报:ChatGPT分析我十年的健康数据后,我给医生打了电话

ChatGPT Health声称,它能从你的病历里找出规律。我让它给我的心脏健康打分,它给了我F,但专家说它的结论“完全不可接受”。

ChatGPT现在说,它可以结合你的运动手环数据和医疗记录,回答与你个人有关的健康问题。这个新的ChatGPT Health宣称,它能帮你“理解长期变化的规律,而不只是某一次生病的瞬间,让你更有把握”。

像很多每天戴着Apple Watch(Apple Watch)的人一样,我一直好奇:把十年的数据放在一起,会揭示出什么?于是我加入了一个简短的等候名单,并把Apple Health里存着的2900万步数和600万次心跳测量数据授权给ChatGPT。然后我让它给我的心脏健康打分。

它给了我F。

我当场吓到,先跑出去跑了一圈,然后把ChatGPT的报告发给了我的真人医生。

我真的是F吗?医生说:“不是。”事实上,我心梗风险低到一种程度,为了证明人工智能错了,保险公司可能都不会愿意给我额外报销一次心肺适能测试。

我也把结果给斯克里普斯研究所(Scripps Research Institute)的心脏科医生托波尔(Eric Topol)看了。他既研究长寿,也研究AI在医学中的潜力。

他说:“这毫无依据。”还补了一句:“这东西根本没准备好给任何医疗建议。”

AI确实有巨大潜力:它可能解锁新的医学洞见,也可能扩大医疗可及性。但只要把健身手环和部分健康记录喂给它,这个新版“ChatGPT医生”看起来就像在瞎蒙。这也符合一个令人不安的趋势:AI公司不断推出有缺陷、交付不了承诺、甚至可能危险的产品。

不用多说,人的健康是真事。任何声称能提供个人健康洞见的产品,哪怕标着“beta”,也不该这么不靠谱。

ChatGPT Health上线几天后,AI竞争对手Anthropic也推出了Claude for Healthcare,同样承诺能帮人“在健身与健康指标中发现规律”。只要是付费账号,就能把Apple Health和Android Health Connect的数据导入聊天机器人。Claude给我的心脏健康打了C分,它的分析里也用了托波尔认为可疑的一些方法。

OpenAI与Anthropic都说:他们的机器人不能替代医生、不能提供诊断,并且会给出提示性免责声明。但这两个产品仍然很乐意给我的心脏健康做出一大段细致分析。(《华盛顿邮报》与OpenAI有内容合作关系。)

两家公司还说,他们的健康机器人还处在早期测试阶段,但并没有具体说明:他们打算如何提升机器人对个人身体数据做分析的能力。Apple表示,它并未与任何一家AI公司就这些产品进行直接合作。

我越用ChatGPT Health,情况越糟。

ChatGPT怎么误读了我的图表

ChatGPT Health整个设定都要求你先“信一把”:把最私密的健康信息交给一家爱吞数据的AI公司。人们对AI隐私保持警惕,是完全合理的。

OpenAI说,它的Health模式会采取额外措施保护隐私:不会用你的数据训练AI,也不会把数据混进其他聊天记录里,并且会对数据加密。但说到底,这更像是一句“拉钩保证”:ChatGPT不是医疗服务提供者,所以并不受美国联邦健康隐私法HIPAA约束。

把ChatGPT接入Apple Health后,我先问它:对我有什么健康建议?有没有需要警惕的红旗?它说,我的静息心率有“明显上升”,建议和医生聊聊;同时又夸我睡眠和活动水平不错。

接着我让它“给我简单的心脏健康与长寿评分”。就在这一步,它给了我F。

我问ChatGPT:“你真的觉得我的心脏健康和长寿应该不及格吗?”

它回答:“简短答案:不,我不认为你没救了,也很抱歉这种字母分数听起来太狠。这只是基于设备数据的粗糙、经验式读数。”它说,如果我把医生诊所保存的医疗记录也接入,它可以给我更有用的评分。

我照做了,然后又让它“给过去十年的心血管健康打一个A-F的简单分数”。分数升到了D。

托波尔看到ChatGPT的分析后非常震惊。

尽管ChatGPT能看到我的体重、血压和胆固醇,但它的负面判断很大一部分来自Apple Watch的一项指标:VO2 max,也就是运动时身体最大摄氧量。Apple说它采集的是VO2 max的“估算值”,而真正测VO2 max需要跑步机和面罩。Apple说它的心肺适能测量经过验证,但独立研究者发现这些估算值可能偏低,平均低13%。

ChatGPT的评估还很强调另一项Apple Watch指标:心率变异性。托波尔说这项指标“有很多模糊地带”,“你肯定不想把它当成主要依据”。

当我让ChatGPT把十年的心率画成图,我又发现一个问题:每次我换新Apple Watch,静息心率数据都会出现大幅跳动,这暗示不同设备的追踪方式可能并不一致。(Apple说它一直在改进这些测量。)但ChatGPT又一次把“噪声很大”的数据点,当成明确的健康信号来解读。

Claude给我打C分没那么吓人,但它对VO2 max数据也不够挑剔(它把这一项评成D+)。Anthropic表示,Claude并没有专门为健康调整的版本,它只能为健康数据提供一般性背景信息,而不是个性化的临床分析。

我的真人医生说,如果要深入评估心脏健康,我们应该复查血脂,于是他给我开了一次新的验血,其中包括脂蛋白(a),一种心脏病风险因子。无论ChatGPT Health还是Claude,都没提过做这个检查的想法。

一份飘忽不定的分析

两家AI公司都说,他们的健康产品并不是为了给出临床评估,而是帮助你在看医生前做准备,或给你一些如何安排训练计划的建议。

我并没有问它们“我是不是得了心脏病”。我只是上传了那么多个人健康数据后,问了一个非常直观的问题:我到底怎么样?

更关键的是:如果ChatGPT和Claude根本没法准确给心脏健康打分,那它们为什么不直接说一句:“对不起,我做不到”?

它们确实拒绝预测我会在几岁死亡。

但我随后发现另一个问题:当我隔了一段时间再问同一个“心脏与长寿打分”问题,我的分数突然变成了C。我反复问、反复看,分数在F到B之间来回乱跳。

跨对话使用时,ChatGPT不断忘记关于我的关键信息,包括我的性别、年龄以及一些近期生命体征。它明明能访问我最近的验血结果,却有时根本没用进分析里。

托波尔说,这种随机性“完全不可接受”。他说:“这么做会把人吓坏,让他们对健康产生恐慌。反过来,它也可能让不健康的人产生错觉,以为自己做得一切都很棒。”

OpenAI说,它无法复现我看到的那种剧烈跳分。它解释称,ChatGPT在解读大型健康数据集时,可能会在不同对话里对已连接的数据来源给予略不同的权重。它还说,在ChatGPT Health向等候名单以外用户开放之前,正在努力让回答更稳定。

OpenAI副总裁亚历山大(Ashley Alexander)在声明中说:“以等候名单方式上线ChatGPT Health,让我们能在广泛推出前学习并改进体验。”

当我在Claude上重复同样提问时,分数在C到B-之间波动。Anthropic表示,聊天机器人输出本来就存在一定变动性。

你该把健康交给机器人吗?

我确实喜欢用ChatGPT Health做一些事:比如把Apple Watch数据画成图,或问一些更窄的问题,例如我有了孩子之后活动量怎么变化。

OpenAI说,每周已有超过2.3亿用户会问ChatGPT健康与养生问题。对这些人来说,有一种更私密的方式把信息导入,并围绕身体状况聊天,确实算是进步。

但问题是:我们真的应该向这个机器人要答案吗?OpenAI说它与医生合作,来改进健康回答。我以前也做过测试:让ChatGPT回答真实医学问题,再让顶级医生评估,结果从“非常出色”到“可能危险”都有。麻烦在于,ChatGPT往往讲得极其自信,让人很难分辨哪些靠谱、哪些在胡说。

聊天机器人公司可能在夸大它们回答个性化健康问题的能力,但现实是,几乎没人能拦住它们。本月早些时候,美国食品药品监督管理局(FDA)局长马蒂·马卡里(Marty Makary)说,监管机构的工作是“别挡路”,以促进AI创新。他强调一条红线:AI若提出“医疗或临床主张”,就必须经过FDA审查;但ChatGPT和Claude都坚持自己只是在“提供信息”。

科学家多年来一直在研究如何分析长期身体数据来预测疾病。(2020年,我参加过一项类似研究,用的是Oura Ring。)托波尔告诉我,这类AI之所以难,是因为你必须处理数据里的噪声和弱点,还要把它和人的最终健康结局关联起来。要真正做对,需要一个专门训练过的AI模型,能把这些数据层层打通。

亚历山大说,ChatGPT Health用了定制代码,帮助它整理并提供个人健康数据的上下文。但这并不等于它经过训练,能够从Apple Watch和病历图表里提取准确、有用的个人分析。

托波尔原本期待更多。他说:“你会以为他们会做出更复杂、更贴近临床实践和医学知识体系的东西。不是这种。非常令人失望。”





来源:

https://www.afr.com/life-and-lux ... tor-20260129-p5nxvo

Geoffrey A. Fowler
Feb 16, 2026 – 5.00am
Advertisement
Advertisement


Advertisement
Advertisement
返回顶部