原創(chuàng)
作者:領(lǐng)醫(yī)知識島 2024年03月13日 17:12 5427 閱讀目前,AI已經(jīng)在包括醫(yī)學(xué)影像分析、藥物檢測、高危患者識別、醫(yī)療記錄編碼等醫(yī)學(xué)場景取得了多方面的發(fā)展。當(dāng)下的AI雖然并不完美,但是它正在以驚人的速度迅速迭代。
昨天領(lǐng)醫(yī)知識島精挑細選了大量的資訊、報告、論文,最終我們還是決定給大家分享一篇關(guān)于GPT-4在醫(yī)療場景應(yīng)用的期刊特別報告——《Benefits, Limits, and Risks of GPT-4 as an AI Chatbot for Medicine》(《GPT-4用作醫(yī)學(xué)AI聊天機器人的優(yōu)勢、局限和風(fēng)險》,“領(lǐng)醫(yī)知識島”公眾號后臺回復(fù)關(guān)鍵詞“Peter”獲取pdf版原文)。
盡管這是一年前發(fā)表在《NEJM醫(yī)療前沿》(與《新英格蘭醫(yī)學(xué)雜志》同屬于NEJM集團)上的一篇文章,但是今天讀來仍然顯得并不過時。文章前兩位作者是微軟研究院的Peter Lee 和 Sebastien Bubeck兩位博士。這兩位大咖近年來在AI領(lǐng)域較為活躍,偶有刷屏級文章問世。
這類“幻覺”在醫(yī)療場景中顯然尤其危險,因此檢查或核實AI輸出的信息就顯得尤為必要。慶幸的是,AI在不斷地迭代,不僅能夠自查自糾,而且“幻覺”也正在被克服。
作者文章中列出的這些示例,都是在2022年12月使用GPT-4的預(yù)發(fā)布版本運行所獲得的結(jié)果。在2023年3月向公眾發(fā)布的版本上運行時,GPT-4已不再表現(xiàn)出之前的“幻覺”。
文章中的三個示例的應(yīng)用場景分別是:撰寫醫(yī)療記錄、解答美國醫(yī)師執(zhí)照考試題目、醫(yī)師向同事尋求建議時可能提出的“非正式醫(yī)療咨詢”問題解答。
在撰寫醫(yī)療記錄的場景中,GPT-4根據(jù)醫(yī)患對話文本撰寫出了醫(yī)療記錄,并且它也可以對人類或其它AI系統(tǒng)撰寫的醫(yī)療記錄進行檢查確認。GPT-4發(fā)現(xiàn)了幾處錯誤,并完成了更正。
在擬定的部署方案中,患者簽署知情同意書之后,GPT-4可聽取診療過程中的醫(yī)患對話獲得醫(yī)療記錄文本。診療完成后,軟件應(yīng)醫(yī)師要求生成醫(yī)療記錄。GPT-4不僅能夠生成多種常用格式的醫(yī)療記錄,還能就診療問題提取預(yù)先核準信息生成符合標準的實驗室檢查單、處方、撰寫就診總結(jié)以及向臨床醫(yī)師和患者提供重要反饋。
在解答美國醫(yī)師執(zhí)照考試題目的場景中,盡管GPT-4只經(jīng)過互聯(lián)網(wǎng)上公開信息的訓(xùn)練,但是答案正確率達到90%以上。GPT-4解釋了答案背后的推理過程、參考了已知醫(yī)學(xué)事實、指出了因果關(guān)系、排除了其它答案,并為其“觀點”提供了令人信服的依據(jù)。
在提出典型的“非正式醫(yī)療咨詢”問題場景下,向GPT-4提供患者初始臨床表現(xiàn)或?qū)嶒炇覚z查結(jié)果后,它通??梢宰龀鲇杏玫幕貞?yīng),也可能幫助醫(yī)務(wù)人員解決關(guān)注的問題。GPT-4可閱讀醫(yī)學(xué)研究資料,并參與相關(guān)討論以及提出可能的后續(xù)研究問題。這使得GPT-4不僅可用于醫(yī)療咨詢、臨床診斷,還可用于醫(yī)學(xué)教育和科研。
當(dāng)然,作者也發(fā)現(xiàn)在上述場景下,雖然GPT-4非常強大,但是談不上完美。它存在重要局限性,甚至存在出錯的情況。
比如在撰寫醫(yī)療記錄場景的示例中,GPT-4寫出患者體質(zhì)指數(shù)(BMI)為14.8,事實上醫(yī)患交流原始文本中并無相關(guān)信息,也就是說它出現(xiàn)了“幻覺”。
好在,在另一個會話中,作者要求GPT-4閱讀文本和醫(yī)療記錄,它發(fā)現(xiàn)了關(guān)于BMI的“幻覺”。在“重讀”后輸出的信息中,它還指出醫(yī)師并未提及營養(yǎng)不良或心臟并發(fā)癥的體征。雖然臨床醫(yī)師觀察到了這些體征,但在與患者的對話中并沒有關(guān)于這些問題的內(nèi)容。這些信息對建立診斷基礎(chǔ)很重要,重讀文本后解決了這一問題。最后,AI系統(tǒng)提出需要更詳細說明安排的血液檢查,以及安排這些檢查的依據(jù)。
文章預(yù)測,醫(yī)療專業(yè)人員和患者將越來越頻繁地使用生成式AI。“也許最重要的一點是,GPT-4本身并不是終點,而是通往新前景和新風(fēng)險的大門。我們推測,GPT-4之后很快將出現(xiàn)更強大、能力更高的AI系統(tǒng),即一系列越來越強大、越來越智能的機器。
”這些機器是工具,就像所有工具一樣,它們可以用來做好事,但也有可能造成傷害。如果小心謹慎使用,這些不斷發(fā)展的工具有可能幫助醫(yī)護人員提供可能的最佳醫(yī)療。“
作者在文章結(jié)尾部分,還提出了一系列的問題,如山谷回聲:
“我們應(yīng)如何評估像GPT-4這類工具的通用智力?用戶可以在多大程度上“信任”GPT-4?讀者是否需要花時間確認其所寫內(nèi)容的真實性?除校對外,還需要做多少事實核查工作?GPT-4可以在多大程度上協(xié)助完成這項任務(wù)?”
諸如此類的問題,無疑將成為醫(yī)學(xué)界和非醫(yī)學(xué)界爭論的話題。(完)
(重要提醒:本文僅作為知識分享、信息交流所用,欲進一步了解詳情可訪問鏈接https://www.nejm.org/doi/10.1056/NEJMsr2214184,或后臺回復(fù)關(guān)鍵詞“Peter”獲取pdf版原文。同時,歡迎正在關(guān)注或進行“醫(yī)療&AI“開發(fā)嘗試的醫(yī)界朋友們添加下方二維碼進入專屬社群,我們可以更高頻、更深度地聊起來。)

評論