ChatGPT分析我十年的健康数据后，我给医生打了电话

2026-2-16 05:26| 发布者: dootbear | 查看: 4595| 原文链接

澳洲金融时报：ChatGPT分析我十年的健康数据后，我给医生打了电话

ChatGPT Health声称，它能从你的病历里找出规律。我让它给我的心脏健康打分，它给了我F，但专家说它的结论“完全不可接受”。

ChatGPT现在说，它可以结合你的运动手环数据和医疗记录，回答与你个人有关的健康问题。这个新的ChatGPT Health宣称，它能帮你“理解长期变化的规律，而不只是某一次生病的瞬间，让你更有把握”。

像很多每天戴着Apple Watch（Apple Watch）的人一样，我一直好奇：把十年的数据放在一起，会揭示出什么？于是我加入了一个简短的等候名单，并把Apple Health里存着的2900万步数和600万次心跳测量数据授权给ChatGPT。然后我让它给我的心脏健康打分。

它给了我F。

我当场吓到，先跑出去跑了一圈，然后把ChatGPT的报告发给了我的真人医生。

我真的是F吗？医生说：“不是。”事实上，我心梗风险低到一种程度，为了证明人工智能错了，保险公司可能都不会愿意给我额外报销一次心肺适能测试。

我也把结果给斯克里普斯研究所（Scripps Research Institute）的心脏科医生托波尔（Eric Topol）看了。他既研究长寿，也研究AI在医学中的潜力。

他说：“这毫无依据。”还补了一句：“这东西根本没准备好给任何医疗建议。”

AI确实有巨大潜力：它可能解锁新的医学洞见，也可能扩大医疗可及性。但只要把健身手环和部分健康记录喂给它，这个新版“ChatGPT医生”看起来就像在瞎蒙。这也符合一个令人不安的趋势：AI公司不断推出有缺陷、交付不了承诺、甚至可能危险的产品。

不用多说，人的健康是真事。任何声称能提供个人健康洞见的产品，哪怕标着“beta”，也不该这么不靠谱。

ChatGPT Health上线几天后，AI竞争对手Anthropic也推出了Claude for Healthcare，同样承诺能帮人“在健身与健康指标中发现规律”。只要是付费账号，就能把Apple Health和Android Health Connect的数据导入聊天机器人。Claude给我的心脏健康打了C分，它的分析里也用了托波尔认为可疑的一些方法。

OpenAI与Anthropic都说：他们的机器人不能替代医生、不能提供诊断，并且会给出提示性免责声明。但这两个产品仍然很乐意给我的心脏健康做出一大段细致分析。（《华盛顿邮报》与OpenAI有内容合作关系。）

两家公司还说，他们的健康机器人还处在早期测试阶段，但并没有具体说明：他们打算如何提升机器人对个人身体数据做分析的能力。Apple表示，它并未与任何一家AI公司就这些产品进行直接合作。

我越用ChatGPT Health，情况越糟。

ChatGPT怎么误读了我的图表

ChatGPT Health整个设定都要求你先“信一把”：把最私密的健康信息交给一家爱吞数据的AI公司。人们对AI隐私保持警惕，是完全合理的。

OpenAI说，它的Health模式会采取额外措施保护隐私：不会用你的数据训练AI，也不会把数据混进其他聊天记录里，并且会对数据加密。但说到底，这更像是一句“拉钩保证”：ChatGPT不是医疗服务提供者，所以并不受美国联邦健康隐私法HIPAA约束。

把ChatGPT接入Apple Health后，我先问它：对我有什么健康建议？有没有需要警惕的红旗？它说，我的静息心率有“明显上升”，建议和医生聊聊；同时又夸我睡眠和活动水平不错。

接着我让它“给我简单的心脏健康与长寿评分”。就在这一步，它给了我F。

我问ChatGPT：“你真的觉得我的心脏健康和长寿应该不及格吗？”

它回答：“简短答案：不，我不认为你没救了，也很抱歉这种字母分数听起来太狠。这只是基于设备数据的粗糙、经验式读数。”它说，如果我把医生诊所保存的医疗记录也接入，它可以给我更有用的评分。

我照做了，然后又让它“给过去十年的心血管健康打一个A-F的简单分数”。分数升到了D。

托波尔看到ChatGPT的分析后非常震惊。

尽管ChatGPT能看到我的体重、血压和胆固醇，但它的负面判断很大一部分来自Apple Watch的一项指标：VO2 max，也就是运动时身体最大摄氧量。Apple说它采集的是VO2 max的“估算值”，而真正测VO2 max需要跑步机和面罩。Apple说它的心肺适能测量经过验证，但独立研究者发现这些估算值可能偏低，平均低13%。

ChatGPT的评估还很强调另一项Apple Watch指标：心率变异性。托波尔说这项指标“有很多模糊地带”，“你肯定不想把它当成主要依据”。

当我让ChatGPT把十年的心率画成图，我又发现一个问题：每次我换新Apple Watch，静息心率数据都会出现大幅跳动，这暗示不同设备的追踪方式可能并不一致。（Apple说它一直在改进这些测量。）但ChatGPT又一次把“噪声很大”的数据点，当成明确的健康信号来解读。

Claude给我打C分没那么吓人，但它对VO2 max数据也不够挑剔（它把这一项评成D+）。Anthropic表示，Claude并没有专门为健康调整的版本，它只能为健康数据提供一般性背景信息，而不是个性化的临床分析。

我的真人医生说，如果要深入评估心脏健康，我们应该复查血脂，于是他给我开了一次新的验血，其中包括脂蛋白(a)，一种心脏病风险因子。无论ChatGPT Health还是Claude，都没提过做这个检查的想法。

一份飘忽不定的分析

两家AI公司都说，他们的健康产品并不是为了给出临床评估，而是帮助你在看医生前做准备，或给你一些如何安排训练计划的建议。

我并没有问它们“我是不是得了心脏病”。我只是上传了那么多个人健康数据后，问了一个非常直观的问题：我到底怎么样？

更关键的是：如果ChatGPT和Claude根本没法准确给心脏健康打分，那它们为什么不直接说一句：“对不起，我做不到”？

它们确实拒绝预测我会在几岁死亡。

但我随后发现另一个问题：当我隔了一段时间再问同一个“心脏与长寿打分”问题，我的分数突然变成了C。我反复问、反复看，分数在F到B之间来回乱跳。

跨对话使用时，ChatGPT不断忘记关于我的关键信息，包括我的性别、年龄以及一些近期生命体征。它明明能访问我最近的验血结果，却有时根本没用进分析里。

托波尔说，这种随机性“完全不可接受”。他说：“这么做会把人吓坏，让他们对健康产生恐慌。反过来，它也可能让不健康的人产生错觉，以为自己做得一切都很棒。”

OpenAI说，它无法复现我看到的那种剧烈跳分。它解释称，ChatGPT在解读大型健康数据集时，可能会在不同对话里对已连接的数据来源给予略不同的权重。它还说，在ChatGPT Health向等候名单以外用户开放之前，正在努力让回答更稳定。

OpenAI副总裁亚历山大（Ashley Alexander）在声明中说：“以等候名单方式上线ChatGPT Health，让我们能在广泛推出前学习并改进体验。”

当我在Claude上重复同样提问时，分数在C到B-之间波动。Anthropic表示，聊天机器人输出本来就存在一定变动性。

你该把健康交给机器人吗？

我确实喜欢用ChatGPT Health做一些事：比如把Apple Watch数据画成图，或问一些更窄的问题，例如我有了孩子之后活动量怎么变化。

OpenAI说，每周已有超过2.3亿用户会问ChatGPT健康与养生问题。对这些人来说，有一种更私密的方式把信息导入，并围绕身体状况聊天，确实算是进步。

但问题是：我们真的应该向这个机器人要答案吗？OpenAI说它与医生合作，来改进健康回答。我以前也做过测试：让ChatGPT回答真实医学问题，再让顶级医生评估，结果从“非常出色”到“可能危险”都有。麻烦在于，ChatGPT往往讲得极其自信，让人很难分辨哪些靠谱、哪些在胡说。

聊天机器人公司可能在夸大它们回答个性化健康问题的能力，但现实是，几乎没人能拦住它们。本月早些时候，美国食品药品监督管理局（FDA）局长马蒂·马卡里（Marty Makary）说，监管机构的工作是“别挡路”，以促进AI创新。他强调一条红线：AI若提出“医疗或临床主张”，就必须经过FDA审查；但ChatGPT和Claude都坚持自己只是在“提供信息”。

科学家多年来一直在研究如何分析长期身体数据来预测疾病。（2020年，我参加过一项类似研究，用的是Oura Ring。）托波尔告诉我，这类AI之所以难，是因为你必须处理数据里的噪声和弱点，还要把它和人的最终健康结局关联起来。要真正做对，需要一个专门训练过的AI模型，能把这些数据层层打通。

亚历山大说，ChatGPT Health用了定制代码，帮助它整理并提供个人健康数据的上下文。但这并不等于它经过训练，能够从Apple Watch和病历图表里提取准确、有用的个人分析。

托波尔原本期待更多。他说：“你会以为他们会做出更复杂、更贴近临床实践和医学知识体系的东西。不是这种。非常令人失望。”

来源：

https://www.afr.com/life-and-lux ... tor-20260129-p5nxvo

Geoffrey A. Fowler
Feb 16, 2026 – 5.00am

		自动登录	找回密码
密码			注册