顶刊Radiology：ChatGPT可以审核影像报告，且能力优于主治医师！

2024-07-01健康

世间最悲催的事件

莫过于美人迟暮、英雄白发。

对于年轻的放射科医生而言，AI智能诊断带来的职业生涯冲击挥之不去。在AI的冲击之下，许多年轻的诊断医生寄希望于另外一条职业发展路径：尽快成为高年资医生，以此降低或者规避被取代的风险。

但，高年资的放射科医生真的可以高枕无忧吗？

2024年4月，放射学届公认的Top期刊Radiology发表了德国科隆大学最新的研究成果：GPT-4在发现放射科报告的错误方面与全部组别医师平均水平相当（高级、中级及初级）；但是从具体数值来看，GPT-4稍低于高年资医生，但高于主治医师和住院医师。

换言之：目前的GPT-4可以在一定程度上协助（取代）高年资医生审阅下级医师报告。

研究设计

将200份包含不同病灶的放射科报告（89份X线、111份CT及MRI）通过随机化软件1:1分为2组（诊断正确组与错误组），每组各100份。需要说明的是：这里的「错误组」是人为制造的，具体来说是将150个错误故意引入本来正确的报告中，且控制每份报告的错误最大数量不超过3个（图1）。

图1.研究设计图

上面提到的150个常见错误归属于以下5类：

①漏词，比如将「no fracture」写成「fracture」；

②多词，比如将「normal」写成「abnormal」；

③拼写错误，比如将「pneumothorax」误写成「pnuemothorax」；

④位置混淆，比如「左右」「前后」「上下」等颠倒；

⑤其它错误，比如「厘米」和「毫米」误用。

该研究中，只有那些被故意放进去的150个错误才被用来作为「金标准」。6名医师中，2名为高年资医师（17年和20年工作经验），2名为中级医师（7年和8年工作经验），2名为初级医师（均为5年工作经验）。随后，研究者统计了GPT-4和不同年资医师之间发现错误的比例、用时及成本。

检出报告错误方面

研究者发现，在发现诊断报告错误方面，GPT-4仅低于表现最好的1名高年资医师，除此之外和其他所有医师均没有差别。具体来说，上述表现最好的高年资医师发现错误的比例为94.7%（发现了150个病灶中的142个），而GPT-4发现了150个错误中的124个，检出率为82.7%（图2，表1）。

图2. GPT-4与不同级别医师检出报告错误能力比较

那么，对于某一份具体的报告，GPT-4发现的典型错误包括哪些呢？下表呈现了代表性的影像所见及印象，同时给出了具体的错误类型（表2）。

表2. GPT-4检出报告错误示例

所用时间

审阅全部200份报告GPT-4用时0.19小时，审阅全部报告最快的医师总用时为1.4小时，最慢的5.74小时。GPT-4审阅单份报告平均用时为3.5±0.5s，速度最快的医师其平均每份报告用时25.1±20.1s，显著慢于GPT-4（图3A-B）

费用

审阅200份放射报告，需要支付给医师的薪水平均为190.17美元（高年资医师平均为231.85美元，中级医师平均为156.89美元，初级医师平均为181.98美元【注：原文数据如此】），而GPT-4的花费为5.78美元。

以审阅单份报告为例，需要支付给医师群体的平均费用为0.96美元（高年资医师平均费用为1.17美元，主治医师平均费用为0.78美元，住院医师平均费用为0.93美元），而GPT-4的花费仅为0.03美元（图3C-D）。

图3.医师及GPT-4审阅报告所需时间及费用

小结

在放射报告错误的检出能力方面，GPT-4取得了和医师不相上下的效能。相比于平均89.3%（高年资医师）、80%（主治医师）和80%（住院医师）的错误检出率，GPT-4取得了82.7%的检出效能，与医师的检出率均未见统计学差异。实际上，GPT-4的检出能力只比1名高年资医师略低（82.7% vs 94.7%，P＝0.006），与其余的5名医师相比，均无差异。但是在审阅单份报告的时间上，GPT-4以单份报告用时3.5±0.5s的速度完胜各级医师；此外审阅200份报告GPT-4仅需5.78美元，而支付给医师的平均薪水则高达190.17美元。

上述数据显示，继书写报告之后，GPT-4凭借其优秀的错误检出能力、极短的耗时及超低的成本在审阅报告方面亦展示出不俗的潜力。医院在做好隐私保护及信息安全的前提下，若采用GPT-4审阅报告，将有助于优化工作流程、缩短工作时间、提升工作效率、降低医院及科室支出。

心声

作为刚刚聘上的高年资医师，小编不由得「两股战战，几欲先走」，心中一万只羊驼在奔腾……

参考文献

Radiology 2024; 311(1):e232714 https://doi.org/10.1148/radiol.232714

·END·

精彩推荐：