速速來看！AI寫的放射報告，你打幾分？

2024-06-22健康

近年來，AI的快速發展已在醫療領域展現出其價值，並成為診斷放射學領域的一個「熱點」研究課題。生成式預訓練轉換器(GPT)是一種先進的大型語言模型，憑借其類似人類的表達和推理能力備受關註。

有研究表明

GPT無需任何專門訓練即可達到或接近美國執業醫師資格考試（USMLE）所有三項考試的及格門檻，並且對於放射學報告的轉換和總結非常有用。

那麽GPT模型有可能生成放射學報告或協助放射科醫生撰寫此類報告嗎？一項研究幫助我們揭秘GPT寫報告的可能性。

0 1

GPT可生成放射學報告？

在這項初步研究中，評估了 GPT 系列根據簡單的影像學描述生成放射學報告 的潛力，並將其效能與放射科醫生出具的報告效能進行比較。

研究人員搜集了28名患者的CT影像，根據患者的年齡、性別、掃描部位和影像學發現，使用 GPT-2 、 GPT-3.5 和 GPT-4 模型生成放射學報告 ，再由資深的放射科醫生對其進行評估（包括報告的語法和可讀性、影像表現、診斷意見、鑒別診斷和總體品質）

結果如下

放射科醫生與GPT-3.5或GPT-4在語法和可讀性、影像發現和整體品質方面的定性得分沒有顯著差異（p>0.05）；

然而，GPT系列在 診斷意見和鑒別診斷 評分方面的定性得分 明顯低於放射科醫生 （p<0.05）。

最終研究得出結論

GPT-3.5和GPT-4有可能 透過非常短的關鍵詞生成具有高可讀性和合理影像發現的放射學報告 ；然而，人們仍然擔心診斷意見和鑒別診斷的準確性，因此需要放射科醫生的驗證。

0 2

這樣的報告，你打幾分？

研究數據已列出，其實我們更好奇實際影像和報告的匹配程度如何，小編抽取了幾個案例大家共賞，各位影像醫生們，你給AI生成的報告打幾分呢？

案例1

患者女性，69歲，影像如下：

從鞍區到鞍上區域觀察到均勻強化的腫瘤，提示為腦下垂體腺瘤。

圖1： CT平掃橫斷面（a）、CT增強矢狀圖（b）和GPT系列生成的放射學報告（c），其中C表格從上到下依次為：影像表現、診斷意見、鑒別診斷

根據圖1C可以看到

GPT-2報告相對簡單，鑒別診斷似乎相對合理；

GPT-3.5報告中，影像表現和診斷意見部份都比GPT-2 報告更詳細；

GPT-4.0報告 整體上與人工生成的報告非常相似 ，鑒別診斷合理，它還列出了其他GPT未提到的鈣化和囊性病變。

案例2

患者女性，31歲，影像如下：

腹部增強CT動脈期(a) 顯示病變內不均勻增強，靜脈期(b)顯示病變強化程度普遍強於肝實質，符合血管瘤的典型表現。

圖2： 腹部增強CT動脈期（a）、靜脈期（b）、GPT系列生成的放射學報告（c ），其中C表格從上到下依次為：影像表現、診斷意見、鑒別診斷

根據圖2C可以看到

GPT-2生成的報告中，甚至沒有建立鑒別診斷列表，診斷意見主要懷疑是肝細胞癌；

GPT-3.5生成的報告中，雖然格式組織良好，但肝細胞癌仍被列為首要鑒別診斷；

GPT-4.0生成的報告總體上相當不錯，鑒別診斷合理。

案例3

患者男性，75歲，影像如下：

放射醫生診斷右腎血管平滑肌脂肪瘤。

圖3： CT平掃（a）、CT增強（b）、GPT系列生成的放射學報告（c）。其中C表格從上到下依次為：影像表現、診斷意見、鑒別診斷

根據圖3C可以看到

GPT-2生成的報告中，腎腫瘤伴有周圍水腫的可能性很低，甚至沒有建立鑒別診斷列表；

GPT-3.5生成的報告中，雖然病變位於腎臟，但鑒別診斷包括腎上腺腺瘤；

GPT-4.0生成的報告中，整體品質相當好；它還列出了其他GPT未提到的鈣化。

以上3個案例的3種報告

滿分10分，如果讓你來打分

你會打幾分？

Nakaura T, Yoshida N, Kobayashi N, et al. Preliminary assessment of automated radiology report generation with generative pre-trained transformers: comparing results to radiologist-generated reports[J]. Japanese Journal of Radiology, 2024, 42(2): 190-200.

·END·

精彩推薦：

更多精彩醫學影像內容，盡在鼎湖影像

↓↓ 歡迎進入鼎湖學堂