世间最悲催的事件
莫过于美人迟暮、英雄白发。
对于年轻的放射科医生而言,AI智能诊断带来的职业生涯冲击挥之不去。在AI的冲击之下,许多年轻的诊断医生寄希望于另外一条职业发展路径:尽快成为高年资医生,以此降低或者规避被取代的风险。
但,高年资的放射科医生真的可以高枕无忧吗?
2024年4月,放射学届公认的Top期刊Radiology发表了德国科隆大学最新的研究成果:GPT-4在发现放射科报告的错误方面与全部组别医师平均水平相当(高级、中级及初级);但是从具体数值来看,GPT-4稍低于高年资医生,但高于主治医师和住院医师。
换言之:目前的GPT-4可以在一定程度上协助(取代)高年资医生审阅下级医师报告。
研究设计
将200份包含不同病灶的放射科报告(89份X线、111份CT及MRI)通过随机化软件1:1分为2组(诊断正确组与错误组),每组各100份。需要说明的是:这里的「错误组」是人为制造的,具体来说是将150个错误故意引入本来正确的报告中,且控制每份报告的错误最大数量不超过3个(图1)。
图1.研究设计图
上面提到的150个常见错误归属于以下5类:
①漏词,比如将「no fracture」写成「fracture」;
②多词,比如将「normal」写成「abnormal」;
③拼写错误,比如将「pneumothorax」误写成「pnuemothorax」;
④位置混淆,比如「左右」「前后」「上下」等颠倒;
⑤其它错误,比如「厘米」和「毫米」误用。
该研究中,只有那些被故意放进去的150个错误才被用来作为「金标准」。6名医师中,2名为高年资医师(17年和20年工作经验),2名为中级医师(7年和8年工作经验),2名为初级医师(均为5年工作经验)。随后,研究者统计了GPT-4和不同年资医师之间发现错误的比例、用时及成本。
检出报告错误方面
研究者发现,在发现诊断报告错误方面,GPT-4仅低于表现最好的1名高年资医师,除此之外和其他所有医师均没有差别。具体来说,上述表现最好的高年资医师发现错误的比例为94.7%(发现了150个病灶中的142个),而GPT-4发现了150个错误中的124个,检出率为82.7%(图2,表1)。
图2. GPT-4与不同级别医师检出报告错误能力比较
那么,对于某一份具体的报告,GPT-4发现的典型错误包括哪些呢?下表呈现了代表性的影像所见及印象,同时给出了具体的错误类型(表2)。
表2. GPT-4检出报告错误示例
所用时间
审阅全部200份报告GPT-4用时0.19小时,审阅全部报告最快的医师总用时为1.4小时,最慢的5.74小时。GPT-4审阅单份报告平均用时为3.5±0.5s,速度最快的医师其平均每份报告用时25.1±20.1s,显著慢于GPT-4(图3A-B)
费用
审阅200份放射报告,需要支付给医师的薪水平均为190.17美元(高年资医师平均为231.85美元,中级医师平均为156.89美元,初级医师平均为181.98美元【注:原文数据如此】),而GPT-4的花费为5.78美元。
以审阅单份报告为例,需要支付给医师群体的平均费用为0.96美元(高年资医师平均费用为1.17美元,主治医师平均费用为0.78美元,住院医师平均费用为0.93美元),而GPT-4的花费仅为0.03美元(图3C-D)。
图3.医师及GPT-4审阅报告所需时间及费用
小结
在放射报告错误的检出能力方面,GPT-4取得了和医师不相上下的效能。相比于平均89.3%(高年资医师)、80%(主治医师)和80%(住院医师)的错误检出率,GPT-4取得了82.7%的检出效能,与医师的检出率均未见统计学差异。实际上,GPT-4的检出能力只比1名高年资医师略低(82.7% vs 94.7%,P=0.006),与其余的5名医师相比,均无差异。但是在审阅单份报告的时间上,GPT-4以单份报告用时3.5±0.5s的速度完胜各级医师;此外审阅200份报告GPT-4仅需5.78美元,而支付给医师的平均薪水则高达190.17美元。
上述数据显示,继书写报告之后,GPT-4凭借其优秀的错误检出能力、极短的耗时及超低的成本在审阅报告方面亦展示出不俗的潜力。医院在做好隐私保护及信息安全的前提下,若采用GPT-4审阅报告,将有助于优化工作流程、缩短工作时间、提升工作效率、降低医院及科室支出。
心声
作为刚刚聘上的高年资医师,小编不由得「两股战战,几欲先走」,心中一万只羊驼在奔腾……
参考文献
Radiology 2024; 311(1):e232714 https://doi.org/10.1148/radiol.232714
·END·
精彩推荐:
更多精彩医学影像内容,尽在鼎湖影像
↓↓ 欢迎进入鼎湖学堂