大鸡巴用力插麻豆视频,亚洲婷婷久久狠狠影院,国产盗摄视频在线观看

首頁 > 前沿 > 文章詳情

一線｜NEJM刊文還原醫(yī)生與GPT-4對話，暴露醫(yī)療AI的優(yōu)勢、局限和風(fēng)險（文中附實錄）

原創(chuàng)

作者：領(lǐng)醫(yī)知識島 2024年03月13日 17:12 5427 閱讀

作者｜劉武.HAI

來源｜領(lǐng)醫(yī)知識島

AI不是風(fēng)口，而是真實的現(xiàn)在和可能既驚又喜的未來。AI與醫(yī)療等垂直行業(yè)的互相結(jié)合正悄然前行，只是程度深淺、進度快慢的差別而已。

目前，AI已經(jīng)在包括醫(yī)學(xué)影像分析、藥物檢測、高危患者識別、醫(yī)療記錄編碼等醫(yī)學(xué)場景取得了多方面的發(fā)展。當(dāng)下的AI雖然并不完美，但是它正在以驚人的速度迅速迭代。

昨天領(lǐng)醫(yī)知識島精挑細選了大量的資訊、報告、論文，最終我們還是決定給大家分享一篇關(guān)于GPT-4在醫(yī)療場景應(yīng)用的期刊特別報告——《Benefits, Limits, and Risks of GPT-4 as an AI Chatbot for Medicine》（《GPT-4用作醫(yī)學(xué)AI聊天機器人的優(yōu)勢、局限和風(fēng)險》，“領(lǐng)醫(yī)知識島”公眾號后臺回復(fù)關(guān)鍵詞“Peter”獲取pdf版原文）。

盡管這是一年前發(fā)表在《NEJM醫(yī)療前沿》（與《新英格蘭醫(yī)學(xué)雜志》同屬于NEJM集團）上的一篇文章，但是今天讀來仍然顯得并不過時。文章前兩位作者是微軟研究院的Peter Lee 和 Sebastien Bubeck兩位博士。這兩位大咖近年來在AI領(lǐng)域較為活躍，偶有刷屏級文章問世。

-1-

表現(xiàn)堪稱驚艷，“幻覺”正在被克服

AI聊天機器人對于人類的提問，已經(jīng)能做到真正的“秒回”。作者特意列出了一些與GPT-4人機對話的示例。

從這些會話示例可以看出，一般情況下GPT-4能夠根據(jù)互聯(lián)網(wǎng)上有依據(jù)的信息，以及通過邏輯或數(shù)學(xué)計算較為流暢地回答問題，并且還能提供通常有依據(jù)的建議。

然而，當(dāng)人類給出的提問并無單一已知“正確”回應(yīng)時，GPT-4也會產(chǎn)生“幻覺”編造答案。并且，它有時是在分析用戶可能的情感需求之后給出回應(yīng)，主打的就是提供情緒價值。

這類“幻覺”在醫(yī)療場景中顯然尤其危險，因此檢查或核實AI輸出的信息就顯得尤為必要。慶幸的是，AI在不斷地迭代，不僅能夠自查自糾，而且“幻覺”也正在被克服。

作者文章中列出的這些示例，都是在2022年12月使用GPT-4的預(yù)發(fā)布版本運行所獲得的結(jié)果。在2023年3月向公眾發(fā)布的版本上運行時，GPT-4已不再表現(xiàn)出之前的“幻覺”。

目前的AI對提示詞的形式和措辭仍然較為敏感。而“提示工程”（prompt engineering）既是一門藝術(shù)，也是一門科學(xué)。盡管未來的AI系統(tǒng)可能會對提示中使用的精確語言不那么敏感，但是就目前而言仍然需要對“提示詞”進行仔細設(shè)計和測試，才能產(chǎn)生最佳結(jié)果。

有一點值得注意的是，盡管目前市場上的一些AI在醫(yī)學(xué)應(yīng)用中表現(xiàn)出了不同程度的能力，但是包括GPT-4在內(nèi)的這些AI大語言模型并不是為諸如解讀醫(yī)療影像、分析醫(yī)療記錄等特定任務(wù)而開發(fā)，卻具備通用認知能力。

文章稱，AI完全采用互聯(lián)網(wǎng)上的公開數(shù)據(jù)在進行訓(xùn)練，比如公開的醫(yī)學(xué)文字內(nèi)容、研究論文、醫(yī)療系統(tǒng)網(wǎng)站，以及醫(yī)學(xué)信息播客和視頻。訓(xùn)練數(shù)據(jù)中不包含任何專用內(nèi)部數(shù)據(jù)或?qū)Ｓ镁W(wǎng)絡(luò)上的醫(yī)學(xué)信息。（編者注：事實并非完全如此。關(guān)注公眾號在后臺回復(fù)“證據(jù)”可獲得某互聯(lián)網(wǎng)大廠共享電子健康記錄數(shù)據(jù)與外部機構(gòu)合作開發(fā)AI的案例信息。）

目前，各大著名的AI大模型幾乎都在開展醫(yī)學(xué)應(yīng)用方面的研究。微軟和OpenAI就一直在開發(fā)一系列越來越強大的AI系統(tǒng)，包括在醫(yī)療領(lǐng)域和醫(yī)學(xué)應(yīng)用程序中的可能用途，比如AI在醫(yī)學(xué)和醫(yī)療文書工作、數(shù)據(jù)互操作性、診斷、研究和醫(yī)學(xué)教育等方面的應(yīng)用。

-2-

三個醫(yī)療場景的AI應(yīng)用示例驚喜參半

由于醫(yī)學(xué)通常會通過案例來教授，所以作者在文章中也提供了三個基于具體場景的GPT-4潛在醫(yī)學(xué)用途示例，以及通過補充附錄的形式給出了更多示例。

文章中的三個示例的應(yīng)用場景分別是：撰寫醫(yī)療記錄、解答美國醫(yī)師執(zhí)照考試題目、醫(yī)師向同事尋求建議時可能提出的“非正式醫(yī)療咨詢”問題解答。

在撰寫醫(yī)療記錄的場景中，GPT-4根據(jù)醫(yī)患對話文本撰寫出了醫(yī)療記錄，并且它也可以對人類或其它AI系統(tǒng)撰寫的醫(yī)療記錄進行檢查確認。GPT-4發(fā)現(xiàn)了幾處錯誤，并完成了更正。

在擬定的部署方案中，患者簽署知情同意書之后，GPT-4可聽取診療過程中的醫(yī)患對話獲得醫(yī)療記錄文本。診療完成后，軟件應(yīng)醫(yī)師要求生成醫(yī)療記錄。GPT-4不僅能夠生成多種常用格式的醫(yī)療記錄，還能就診療問題提取預(yù)先核準信息生成符合標準的實驗室檢查單、處方、撰寫就診總結(jié)以及向臨床醫(yī)師和患者提供重要反饋。

在解答美國醫(yī)師執(zhí)照考試題目的場景中，盡管GPT-4只經(jīng)過互聯(lián)網(wǎng)上公開信息的訓(xùn)練，但是答案正確率達到90%以上。GPT-4解釋了答案背后的推理過程、參考了已知醫(yī)學(xué)事實、指出了因果關(guān)系、排除了其它答案，并為其“觀點”提供了令人信服的依據(jù)。

在提出典型的“非正式醫(yī)療咨詢”問題場景下，向GPT-4提供患者初始臨床表現(xiàn)或?qū)嶒炇覚z查結(jié)果后，它通?？梢宰龀鲇杏玫幕貞?yīng)，也可能幫助醫(yī)務(wù)人員解決關(guān)注的問題。GPT-4可閱讀醫(yī)學(xué)研究資料，并參與相關(guān)討論以及提出可能的后續(xù)研究問題。這使得GPT-4不僅可用于醫(yī)療咨詢、臨床診斷，還可用于醫(yī)學(xué)教育和科研。

當(dāng)然，作者也發(fā)現(xiàn)在上述場景下，雖然GPT-4非常強大，但是談不上完美。它存在重要局限性，甚至存在出錯的情況。

比如在撰寫醫(yī)療記錄場景的示例中，GPT-4寫出患者體質(zhì)指數(shù)（BMI）為14.8，事實上醫(yī)患交流原始文本中并無相關(guān)信息，也就是說它出現(xiàn)了“幻覺”。

好在，在另一個會話中，作者要求GPT-4閱讀文本和醫(yī)療記錄，它發(fā)現(xiàn)了關(guān)于BMI的“幻覺”。在“重讀”后輸出的信息中，它還指出醫(yī)師并未提及營養(yǎng)不良或心臟并發(fā)癥的體征。雖然臨床醫(yī)師觀察到了這些體征，但在與患者的對話中并沒有關(guān)于這些問題的內(nèi)容。這些信息對建立診斷基礎(chǔ)很重要，重讀文本后解決了這一問題。最后，AI系統(tǒng)提出需要更詳細說明安排的血液檢查，以及安排這些檢查的依據(jù)。

有鑒于此，作者指出在未來部署的GPT-4應(yīng)用中，應(yīng)將處理幻覺、遺漏和錯誤的這一機制和其它機制包含在其中。

-3-

若干問題需要被討論

值得留意的是，作者還提醒這些示例都是在2022年12月使用GPT-4的預(yù)發(fā)布版本運行的，“我們注意到GPT-4很可能處于一種幾乎不斷變化狀態(tài)。我們預(yù)計，仍在開發(fā)中的GPT-4將繼續(xù)演進，其整體性能有可能改進也有可能退化。”

文章預(yù)測，醫(yī)療專業(yè)人員和患者將越來越頻繁地使用生成式AI。“也許最重要的一點是，GPT-4本身并不是終點，而是通往新前景和新風(fēng)險的大門。我們推測，GPT-4之后很快將出現(xiàn)更強大、能力更高的AI系統(tǒng)，即一系列越來越強大、越來越智能的機器。

”這些機器是工具，就像所有工具一樣，它們可以用來做好事，但也有可能造成傷害。如果小心謹慎使用，這些不斷發(fā)展的工具有可能幫助醫(yī)護人員提供可能的最佳醫(yī)療。“

作者在文章結(jié)尾部分，還提出了一系列的問題，如山谷回聲：

“我們應(yīng)如何評估像GPT-4這類工具的通用智力？用戶可以在多大程度上“信任”GPT-4？讀者是否需要花時間確認其所寫內(nèi)容的真實性？除校對外，還需要做多少事實核查工作？GPT-4可以在多大程度上協(xié)助完成這項任務(wù)？”

諸如此類的問題，無疑將成為醫(yī)學(xué)界和非醫(yī)學(xué)界爭論的話題。（完）

（重要提醒：本文僅作為知識分享、信息交流所用，欲進一步了解詳情可訪問鏈接https://www.nejm.org/doi/10.1056/NEJMsr2214184，或后臺回復(fù)關(guān)鍵詞“Peter”獲取pdf版原文。同時，歡迎正在關(guān)注或進行“醫(yī)療&AI“開發(fā)嘗試的醫(yī)界朋友們添加下方二維碼進入專屬社群，我們可以更高頻、更深度地聊起來。）