陳世鴻醫師的疼痛解碼 WFU

headline

2026年6月30日 星期二

現在的醫學AI好用嗎?一場讓人意外的對比

作者:陳世鴻




前言


近兩年大型語言模型(large language model, LLM)快速進入臨床知識查詢、文件撰寫與決策支援等場景,但「這些工具是否真的達到醫療專業標準」始終缺乏一致的評估框架。本文整理 2026 年發表的兩篇代表性比較研究,兩者立場與方法互補,恰好可以對照出當前醫學 AI 評比的核心爭點:

研究一(《Mayo Clinic Proceedings: Digital Health》)以虛構臨床情境+專科醫師主觀評分的方式,比較四款「面向使用者」的對話式 AI,強調多維度的實證醫學品質。其最大特點(也是最大警訊)在於:研究由受評工具之一的開發公司主導。
研究二(《Nature Medicine》,Brief Communication)則是一篇獨立的量化比較,以三階段基準測試把三款前沿通用模型與兩款特化臨床 AI 工具(再加上 Google 搜尋的 AI 摘要作為對照)放在同一標準下評比,並特別建立一個取自真實臨床查詢、且不受訓練資料污染的測試集。
兩篇研究的結論方向看似不同,但若拆解其方法、模型世代與利益關係,便能整合出對臨床實務具體可用的洞見。以下逐篇深入,再進行跨研究綜合分析,最後回答一個關鍵問題:哪一種測試情境最能代表真實臨床諮詢,各模型在該情境下表現如何。




兩篇最根本的差異在於「比的是誰」:研究一比較的是四款消費者可直接使用的對話式產品(其中三款屬於以檢索為核心的醫學專用或一般用途介面);研究二則把通用前沿模型的 API 與特化臨床工具的網頁介面對立比較,並刻意加入「免費的 Google 搜尋 AI 摘要」作為真實世界對照。這個設計差異,是後續所有結論分歧的根源。
二、研究一:四款對話式 AI 的臨床情境評比

2.1 研究設計與受評對象


此研究於 2025 年 6 月 1 日至 9 月 20 日進行,定位為探索性研究,以專科醫師的臨床判斷作為參考標準,不納入任何真實病人層級資料,全部使用虛構且去識別化的案例,倫理上歸類為最小風險。

受評的四款工具,各以其公開的「一般(regular)」模式評估;其中 Arkangel AI 與 ChatGPT 另外加測兩種付費進階模式(分別稱為「Personalized」與「Deep」),因為這些是面向使用者的不同互動模式。組合後共 8 種模型/模式:

OpenEvidence(一般)
Medisearch(一般)
ChatGPT(一般、Personalized、Deep)
Arkangel AI(一般、Personalized、Deep)
研究者強調未做任何系統層級客製化、微調或開發端設定,全部使用預設的使用者端設定。值得注意的是,原文引言提到開發團隊先前以 MedQA 內部驗證宣稱達 90.26% 正確率、優於數個對照基準——但此為該團隊自身的先前研究,在解讀本研究結論時須將此一脈絡納入考量。

2.2 臨床情境與提問設計


由獨立專科醫師自願撰寫四則虛構、不可識別的臨床情境,分別涵蓋骨科、小兒科、婦產科、精神科各一則;撰寫者均具至少 5 年臨床、3 年三級醫療門診經驗。

每則情境搭配 4 道追問,分屬四種題型:

1. 診斷(diagnosis)
2. 臨床處置(clinical management)
3. 研究(research)
4. 一般知識(general knowledge)

提問流程的標準化是本研究方法上的重點:由未參與其他階段的研究者,將情境逐字輸入各工具的標準介面,接著依序輸入預設問題,不做任何迭代修飾、追問或額外提示;每一題都開啟新的對話階段。也就是說,本研究衡量的是「單輪、無互動修正」情境下的直接回答品質——這與真實臨床上醫師會反覆追問、釐清的使用模式並不完全相同,是解讀時的重要前提。

最終形成 4 情境 × 4 題 × 8 種模式 = 128 組問答配對,每組依 8 項標準評分,每專科由 2 名醫師獨立評分。

2.3 評分方式:八項實證醫學標準


研究者參考既有醫學 AI 評估框架(HELM 系列與 HealthBench)自行設計 8 項評分標準,每項以 6 點 Likert 量表評分(1=非常不滿意、5=非常滿意、6=不適用)。分析時將 4–5 分歸為「滿意」、1–2 分歸為「不滿意」,中性與不適用另行處理。八項標準為:

1. 正確性:回答資訊正確
2. 與共識一致:符合醫學/科學共識
3. 無偏見:未偏向特定人口族群
4. 不違反照護標準:未推薦非標準照護的處置或藥物
5. 時效性:資訊為最新
6. 病人安全:不致對病人生命或完整性造成危害風險
7. 參考文獻真實性:所引文獻確實連結到真實來源
8. 情境適切性:未推薦來源國不可得的處置或藥物

特別說明:第 7 項(文獻真實性)僅判斷文獻是否對應到可驗證的真實來源(如同儕審查期刊、政府網站、專業組織),用以偵測「幻覺式(虛構)引用」,不評估所引來源的品質;未提供引用時則選「不適用」。研究者亦坦言,此評分工具未經獨立效度驗證,僅作為支持專家判斷的結構化框架,而非已驗證的測量工具。

評分者間/內信度以線性混合效應模型分析,並以 Kruskal–Wallis 檢定搭配 Dwass–Steel–Critchlow–Fligner 事後校正進行組間比較。

2.4 反應時間:速度與深度的權衡


研究記錄兩個時間點:自送出問題到「開始回應」(T1)與到「完成回應」(T2)。各模式的完成時間中位數(T2)如圖二




組間差異具統計顯著性(Wilcoxon,P<.05)。核心發現是:高品質模式與較長延遲相伴——深度模式提供更完整、有引用的回答,但運算與等待成本顯著上升,呈現典型的「速度—品質權衡」。研究者也指出,日常實務可能偏好快速互動,學術或研究情境則可接受較長延遲以換取深度。

2.5 品質與效度:各模型的整體與分項表現





事後分析顯示,Arkangel AI-Deep 與其餘多數模式(包含自家其他模式)皆有顯著差異;Medisearch 則與多個高分模式有顯著落差。須留意:分數最高者正是主導本研究的公司產品,這一點在後文「利益衝突」段落會進一步申論。

各項標準的滿意度(%)整理如下(每格為該模式在該標準的滿意比例):




從分項可讀出各模型的原始優劣勢:

Arkangel AI-Deep:正確性、共識、時效性、文獻真實性皆達 100%,是全表最均衡者;相對較弱的是「不違反照護標準」(75%)。在婦產科、精神科及處置與研究類題型表現較佳。

OpenEvidence:在時效性與文獻真實性皆達 100%,但照護標準(62.5%)與病人安全(68.8%)相對偏低;在婦產科與處置類題型較佳。

ChatGPT-Personalized:正確性、共識、病人安全皆達 100%,情境適切性也高(93.8%),但文獻真實性為 0%——幾乎總是省略引用。

ChatGPT-Deep:正確性與共識滿分,文獻真實性回升至 75%,但病人安全(68.8%)較同組其他模式低。

ChatGPT-Regular:正確性與共識滿分,但文獻真實性僅 6.3%、無偏見較低(75%)。

Arkangel AI-Personalized:正確性與共識滿分、無偏見高,但文獻真實性僅 31.3%(此處原文內文與表格對該模式文獻面向的描述略有出入,建議以表格數值為準)。
Medisearch:在無偏見、病人安全、文獻真實性相對較佳,但正確性僅 62.5%、多數其他標準偏低,整體墊底;在精神科、骨科及一般知識/處置類題型較佳。

整體而言,正確性與共識是所有模型普遍表現最好的兩項,反映 LLM 擅長檢索與綜整既有資訊;變異最大的是文獻真實性、偏見與病人安全。

2.6 參考文獻真實性與「幻覺」問題


此研究最具實務意義的發現之一,是引用行為與品質、幻覺率的強相關:

系統性提供引用的模式(Arkangel AI-Deep、OpenEvidence、ChatGPT-Deep)在文獻真實性達 100% 滿意、且未出現幻覺式引用。
經常省略引用的模式則出現最高的不滿意與幻覺率:ChatGPT-Regular 達 93.8%(120/128)、ChatGPT-Personalized 達 75%(96/128)。

研究者據此主張:書目佐證是回答「被感知品質」的關鍵,並凸顯針對「來源真實性」進行專門評估的必要。需提醒的是,此標準僅驗證引用是否真實存在,並未評估引用是否切題、是否支持該論點——這一點在與研究二對照時尤其重要。

2.7 專科別與題型別差異


專科別:婦產科與骨科滿意度顯著高於小兒科(P<.001);精神科與婦產科、骨科無顯著差異。小兒科最低,尤其在無偏見、照護標準、病人安全三項。研究者推測與小兒族群訓練資料相對不足有關,並呼籲在代表性不足的領域進行專科特定評估。

題型別:差異亦顯著(Kruskal–Wallis,P=.007)。臨床處置類得分最高,研究類高於診斷類;診斷與一般知識類最低。這顯示模型較擅長綜整「可操作的實務建議」(如臨床指引),而在處理「診斷不確定性」時相對吃力。

變異分析顯示,可歸因於個別評分者的變異偏低,支持評分結果的可靠性;全域模型確認各模式間表現有顯著差異,其中 Arkangel AI-Deep 與 OpenEvidence 估計值較高、Medisearch 較低。

2.8 關鍵警示:利益衝突


這是閱讀本研究時不可忽略的核心限制:撰寫團隊全部為受評工具之一的員工或關係人,且該工具的創辦人即為公司負責人。研究由該公司出資,因此本質上是一份內部評估。研究者也在文中明確承認,這可能在評分標準選擇、比較結果詮釋、結果框架等面向引入偏誤。

為降低風險,研究採取多項保護措施:所有臨床評分由與該公司無關、且對工具身分與互動模式皆盲性的外部專科醫師執行;採用完全標準化、透明的方法;並公開全部評估資料、提示與評分。即便如此,研究者承認內部評估固有的殘餘偏誤無法完全排除,並鼓勵由獨立團隊進行重複驗證。

換言之——這份研究在「自家深度模式拿到最高分」這一結論上,需以高度保留的態度看待;但其在方法層面的貢獻(多維度標準、引用真實性的量化、專科與題型分層)仍具參考價值。


三、研究二:前沿模型與特化臨床工具的三階段對決


3.1 研究設計:三階段評估架構


此研究是一篇獨立的量化比較,受評對象分三類:

前沿通用 LLM(透過 API):GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6
特化臨床 AI 工具(透過網頁介面):OpenEvidence、UpToDate Expert AI
真實世界對照:Google 搜尋 AI 摘要(Google AI Overview,僅在第三階段加入)

前沿模型以固定、可重現的參數產生回答(溫度=0、固定隨機種子、開啟搜尋工具);特化工具因無公開 API,僅能以瀏覽器手動查詢——這個不對稱性本身也構成一項限制

評估分三階段:

1. MedQA:500 題美國醫師執照考試(USMLE)風格選擇題,測醫學知識。
2. HealthBench:500 道單輪題目,測與臨床醫師的一致性。
3. RCQ(Real Clinical Queries,真實臨床查詢):100 則來自真實臨床環境、physician 在例行照護中向一個符合 HIPAA 規範之 GPT 實例所提出的去識別化查詢。

RCQ 階段由 12 名美國臨床醫師進行隨機、盲性評分,產生 1,800 筆模型—題目註記。整體分析橫跨選擇題推理、專家臨床判斷與日常臨床使用三個層次。

3.2 第一階段 MedQA:醫學知識





Gemini 顯著優於其他所有模型(對 OpenEvidence、UpToDate、Claude 之 McNemar P<1×10⁻⁴;對 GPT P=0.02);GPT 亦顯著優於 OpenEvidence、UpToDate 與 Claude。三款前沿模型全數高於兩款特化臨床工具。

3.3 第二階段 HealthBench:與臨床醫師的一致性


HealthBench 回答由三款 LLM 評審(Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.2)以多數決方式評分,分數反映達成的評分要點比例(0–100)。



GPT 顯著優於其他所有模型(Wilcoxon P<10⁻⁹),兩款特化工具之間則無顯著差異(P=0.6)。在主題層級分析中,GPT 在全部 7 個類別皆排名第一或並列第一,而 OpenEvidence 與 UpToDate 在全部 7 個類別皆排名最低或並列最低,與 GPT 的差異在 7 類中有 6 類顯著(唯一例外為「在不確定下回應」,P=1.00)。

須特別留意的脈絡:HealthBench 由 OpenAI 開發,而本階段最高分者 GPT-5.2 亦為 OpenAI 產品,可能存在基準—開發者重疊(訓練資料、最佳化目標或評分設計上的潛在相似)。研究者因此明確將此階段定位為「輔助性」證據,並以第三階段(RCQ)的盲性臨床評分作為主要證據。

3.4 第三階段 RCQ:真實臨床查詢


這是本研究最具方法學分量、也最貼近真實臨床諮詢的部分。研究者自 NYU Langone 符合 HIPAA 規範之 GPT 實例抽取 100 則去識別化的臨床醫師查詢,分別送入 6 個模型;12 名盲性臨床醫師依四維度(臨床正確性、完整性、安全/避免傷害、清晰度)以 1–4 分評分,並對「是否含有害內容」「是否幻覺」做二元標記。每一題—模型配對由 3 名評分者評分。排除 32 個拒答後,剩 568 筆回應、1,704 筆評分。

整體聚合分數呈現明確的「兩層級」結構(Friedman P<10⁻⁹):




層內無顯著差異,所有顯著差異都發生在「跨層」之間(rank-biserial r = 0.5–0.9),意即前沿模型在多數「個別題目」上勝出,而非僅是平均值高。校正評分者寬鬆度後,特化臨床工具(含 Google AI)獲得較高評分的勝算比 Gemini 低 49–87%(OR 0.13–0.51,皆 P<0.0001);於線性混合模型中相當於在 1–4 量尺上低 0.36–0.44 分。

一個對採購決策極具衝擊的發現:免費的 Google 搜尋 AI 摘要在所有維度上的表現等同或優於 OpenEvidence 與 UpToDate——也就是說,這兩款「特化」臨床工具,在真實查詢上並未勝過一個免費的一般搜尋摘要功能。

維度層級(Fig. 2d):兩層結構在四個維度皆成立。模型間差異最大者為清晰度(Kendall's W = 0.292)、最小者為臨床正確性(W = 0.141)。其中 OpenEvidence 在清晰度最低(平均 2.84),顯示其弱點在於溝通與組織,而非知識本身。質性註記指出,不完整的臨床內容、攸關安全的遺漏、組織混亂的回答,在 OpenEvidence 與 Google AI 摘要尤為常見。

評分者一致性:12 名臨床醫師對模型排序高度一致(Kendall's W = 0.651,P=2.3×10⁻⁷),一致將前沿模型排在特化工具之上。題目層級的評分者一致性雖屬「尚可」(Krippendorff's α 約 0.10–0.20),但分歧多落在相鄰分數之間(±1 分內一致達 89–95%);若簡化為「可接受(3–4)vs 不可接受(1–2)」則一致性更高;安全標記的一致性很高。

3.5 安全性、拒答率與錯誤類型





UpToDate 的高拒答率,意味在真實臨床查詢中有近五分之一的問題無法獲得可用回答,對工作流程整合是實質障礙。


安全結果:各模型在有害內容與幻覺比例上均無統計顯著差異(有害:Cochran's Q=4.00,P=0.55;幻覺:Q=5.00,P=0.42)。具體比例如下(皆屬低值且差異不顯著):

有害回應:Claude Opus 4.6 為 3.0%、UpToDate 2.5%、OpenEvidence 1.0%,其餘為 0%。

幻覺回應:Google AI 1.1%、Gemini 1.0%、OpenEvidence 1.0%,其餘為 0%。

為求客觀須如實指出:在此真實查詢測試中,Claude Opus 4.6 的有害回應比例(3.0%)為各模型中最高,惟差異未達統計顯著;同時 Claude 在整體聚合分數上仍與 GPT、Gemini 同屬第一層級。安全面向的小樣本差異不宜過度詮釋。

錯誤類型(Extended Data Table 1):研究者把低分回應的評分者註記歸納為錯誤類型,各模型的註記式錯誤總數為——Gemini 8(最少)、Claude 19、UpToDate 20、GPT 21、Google AI 33、OpenEvidence 52(最多)。OpenEvidence 的錯誤集中在「不完整的臨床內容(15)」「攸關安全的遺漏(12)」與「組織混亂(13)」;Google AI 摘要則以「事實錯誤(7)」相對突出。此為質性歸納(基於有留言的低分回應),非窮盡統計,但與量化結果方向一致。

3.6 成本比較



上傳進度:已上傳 33786 個位元組 (共 33786 個位元組)。


研究者提醒:按 token 計費與訂閱制無法直接換算每次查詢成本,且 API 報價未含推理 token、搜尋附加費或快取折扣。此表的價值在於凸顯——價格最高的並不必然是表現最好的,採購時須將「表現/成本/工作流程整合」三者一併評估。

3.7 方法學優勢與限制


優勢:這是少見的獨立比較,且 RCQ 取自真實臨床查詢、由多名盲性醫師評分、不受訓練資料污染。

限制(研究者自陳):

1. 特化工具無公開 API,僅能以瀏覽器查詢,可能在隱藏提示、檢索行為、輸出格式上造成差異,並限制樣本數。
2. 資料污染:MedQA/HealthBench 等公開基準,模型在訓練時可能已接觸;惟 RCQ 不受此污染。
3. HealthBench 為 OpenAI 開發,GPT 可能因基準—開發者重疊而受惠;故 HealthBench 僅作輔助證據。
4. 評分偏誤:前沿模型同時擔任「受評者」與「評審」(在 HealthBench 階段),雖以多模型評審面板緩解,仍須留意。
5. 未評估反應延遲與引用品質——而這兩者對真實部署與工作流程整合至關重要(這恰好是研究一著墨之處)。
6. 利益揭露:通訊作者之一揭露與 Google 有顧問關係,而在 MedQA 與 RCQ 表現最佳者為 Google 的 Gemini;此關係雖已揭露,解讀時仍宜納入考量。

研究者並未把結論視為「方法路線的永久排序」,而是快速演變領域中的一個快照;並指出若規模化報酬遞減,領域特定調校、精選檢索與「人在迴路」最佳化的相對價值可能上升,且高度次專科的醫療任務仍可能偏好更精細的領域特定調適。


四、哪一種情境最能代表「真實臨床諮詢」?


這是本次整理最核心的問題。綜合兩篇研究,最能代表真實臨床專業諮詢的測試情境,是研究二的 RCQ(真實臨床查詢)基準,理由有四:
1. 查詢本身是真的——取自臨床醫師在例行照護中實際向 LLM 提出的問題,而非研究者預設的人造題目;
2. 不受訓練資料污染——與 MedQA/HealthBench 不同,RCQ 的內容不可能事先被模型「背過」;
3. 由多名盲性臨床醫師評分且一致性高(12 名醫師,排序一致性 Kendall's W = 0.651);
4. 研究者本身即將其指定為「主要證據」,並刻意把可能偏向特定開發者的 HealthBench 降級為輔助。

在這個最具代表性的情境下,各模型表現如下(再次列出 RCQ 聚合分):
第一層(彼此無顯著差異):Gemini 3.1 Pro(3.62)、GPT-5.2(3.54)、Claude Opus 4.6(3.52)。

第二層(彼此無顯著差異):Google AI Overview(3.27)、OpenEvidence(3.24)、UpToDate Expert AI(3.17)。

核心訊息是:在最貼近真實臨床諮詢的測試中,三款通用前沿模型明顯且一致地優於兩款特化臨床工具,而後者甚至與一個免費的一般搜尋 AI 摘要無法區分。

但須加上重要限制,避免過度外推:

RCQ 僅來自單一美國醫學中心,查詢分布受該機構的 GPT 部署形塑,對其他醫療體系(含台灣)與非英語情境的可推論性有限。

RCQ 未評估反應延遲與引用品質——這兩者在真實臨床上極為關鍵,而研究一恰恰顯示前沿模型的「深度模式」可能伴隨數分鐘的等待,且部分模式會省略引用。

研究一的虛構門診情境雖非真實查詢,但「門診決策支援」本身是常見的真實使用場景;其評分涵蓋了 RCQ 未測的引用真實性與來源國可得性等維度。

因此較完整的結論是:就「整體臨床品質」而言,RCQ 是現有最可信的真實諮詢代理指標,且前沿模型勝出;但就「引用佐證、時效與在地適用性」而言,仍需研究一所強調的維度與在地化驗證來補足。 兩種情境並非互相取代,而是互補。


五、跨研究綜合分析


5.1 OpenEvidence 的兩種面貌


OpenEvidence 是唯一同時出現在兩篇研究的工具,但評價迥異:

在研究一中,OpenEvidence 整體排名第二(84%),尤其在時效性與文獻真實性皆達 100%。

在研究二中,OpenEvidence 落在第二層,且在質性錯誤歸納中錯誤總數最多(52)、清晰度最低,常見攸關安全的遺漏與組織混亂。

這個落差並非矛盾,而是兩種評分重點的自然結果:研究一給「有真實引用」很高的權重,而 OpenEvidence 以檢索為核心、擅長附上真實出處,因而得分高;研究二聚焦「臨床正確性、完整性、安全、清晰度」並以真實查詢測試,OpenEvidence 在這些面向(特別是溝通組織)相對吃力,因而落後。同一工具可以「引用漂亮」卻在「臨床推理與完整性」上較弱——這正是下一點的核心。

5.2 「有引用 ≠ 正確」:參考文獻的弔詭


兩篇研究合起來給出一個對臨床使用者極為實用的提醒:

研究一證明:引用的「真實性」可被驗證,且系統性附上真實引用的模式幾乎不出現幻覺式引用——這是好事。

但研究一的第 7 項標準只驗證引用是否真實存在,未驗證引用是否切題、是否真正支持該論點;研究二則完全未評估引用品質。

研究二同時顯示:以檢索與引用見長的工具(OpenEvidence/UpToDate,很可能採用檢索增強生成 RAG),在真實查詢的臨床品質上反而落後。研究者並引述既有證據指出,當檢索到不相關材料、或基礎模型未能妥善整合時,RAG 可能反而拖累表現。

對臨床的啟示:看到 AI 附上「真實的參考文獻」時,不應將其等同於「答案正確且完整」;引用的存在只是必要條件之一,臨床判斷仍須驗證該引用是否確實支持結論。

5.3 通用 vs. 特化之爭


兩篇研究在「通用 vs. 特化」上的表面結論不同:

研究一:自家的特化/檢索型深度模式(Arkangel AI-Deep)拿到最高分——但此結論受重大利益衝突牽制。

研究二:通用前沿模型全面勝出,且特化臨床工具與免費搜尋摘要無法區分——此為獨立研究,可信度較高。

研究二對機轉的推論是:前沿模型受惠於更大的訓練語料、更快的迭代、更充分的對齊,在「知識檢索與推理」(大多數醫學問題的本質)上更強;而特化工具的架構、基礎模型與訓練流程不公開,醫療機構難以在缺乏獨立證據下評估其價值與安全。但研究者也保留空間:高度次專科任務仍可能偏好精細的領域特定調適,且未來規模化報酬若遞減,特化調校的相對價值可能回升。

5.4 模型世代與時間點的影響


兩篇研究不在同一時間、也不在同一模型世代,這是解讀分歧時必須校正的變項:

研究一(2025 年 6–9 月)所測的 ChatGPT,為當時該產品版本(原文未標示具體模型代號,故本文不臆測),且未把 Gemini 與 Claude 列為獨立受評對象。

研究二(2025 末–2026 初)所測的是更新一代的前沿模型(GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6)。

更新世代的前沿模型能力顯著提升,這本身就部分解釋了研究二中前沿模型的全面領先。兩篇研究都明白表示結論是「快速演變領域的快照」,不宜當作永久排序。

5.5 兩篇研究的共識

儘管立場與結論不同,兩篇研究在方法層面高度一致地指向同一結論:

單看正確率(如 MedQA/選擇題)不足以反映臨床適用性;必須採用多維度評估(涵蓋安全、偏見、完整性、清晰度、引用、情境適切等)。

靜態題庫有其侷限(缺乏情境真實性、易受幻覺與資料污染影響),須以真實/情境化的臨床評估與專家盲性判讀補足。

醫學 AI 工具進入臨床前,亟需獨立、可重複、貼近真實任務的評估


六、對臨床實務與決策的啟示


1. 不要假設「醫療專用」就等於「更可靠」。 在最具代表性的真實查詢測試中,兩款特化臨床工具並未勝過通用前沿模型,甚至與免費搜尋摘要無法區分。採購與導入決策應要求獨立、真實任務的證據,而非僅憑「為臨床打造」的行銷定位。
2. 正確率高 ≠ 可直接臨床使用。 模型在 MedQA 動輒 90% 以上,但真實查詢的臨床品質、完整性與清晰度才是決定可用性的關鍵;UpToDate 在真實查詢的高拒答率(19%)即是「分數之外」的實務障礙。
3. 引用的存在不能取代臨床查證。 附上真實文獻可降低幻覺式引用,但不保證論點正確或引用切題;使用者仍須核對來源是否確實支持結論。
4. 速度與深度需依場景取捨。 深度/檢索模式更完整但可能等待數分鐘;門診即時決策與學術研究的最佳選擇可能不同。
5. 特定族群與在地化風險。 研究一顯示小兒科等訓練資料較少的領域表現較弱;研究二的真實查詢來自單一美國機構。在台灣等不同醫療體系、不同語言與在地指引下使用前,在地驗證不可省略。
6. 利益關係必須納入證據評讀。 研究一由受評工具的開發公司主導、且自家產品奪冠;研究二亦有作者揭露與表現最佳模型廠商的顧問關係。評讀任何「某模型最佳」的結論時,都應檢視誰做的研究、誰出的錢、用誰的基準。
7. 人類專業監督仍是底線。 兩篇研究皆把臨床醫師判斷作為金標準,而非以 AI 取代之;AI 適合作為輔助,最終臨床決策與責任仍應由專業人員承擔。


七、重要限制與閱讀提醒


兩篇皆有利益衝突需揭露:研究一為內部評估(受評方主導、出資),其「自家深度模式最佳」之結論須高度保留;研究二有作者揭露 Google 顧問關係,而 Google 模型在兩項測試奪冠。

樣本與代表性:研究一僅 4 則情境、4 專科;研究二的真實查詢來自單一美國醫學中心。兩者的分層/專科結論都應審慎看待,對台灣與非英語情境的可推論性有限。

評估工具未經獨立效度驗證(研究一自陳);部分基準存在資料污染與開發者重疊風險(研究二自陳)。

未測面向:研究二未評估延遲與引用品質;研究一未評估引用是否切題。兩者合看才較完整。

快照性質:模型世代快速更迭,本文所列任何排序皆為特定時間點的結果,不應視為長期定論。

八、結論


把兩篇研究放在一起閱讀,可得出三個層次分明的結論:

方法層次:醫學 AI 的評估正從「單一正確率」走向「多維度、情境化、由專家盲性判讀」的框架;真實臨床查詢+盲性醫師評分(RCQ)是目前最可信的真實諮詢代理指標。

結果層次:在這個最具代表性的情境下,三款通用前沿模型(Gemini 3.1 Pro、GPT-5.2、Claude Opus 4.6)一致且明顯地優於兩款特化臨床工具(OpenEvidence、UpToDate),且後者與免費搜尋摘要難以區分;安全性(有害、幻覺)在各模型間則無顯著差異、且整體偏低。

實務層次:高正確率不等於可直接臨床使用,附引用不等於答案正確,「醫療專用」不等於更可靠;任何導入都需要獨立證據、在地驗證與人類專業監督,並把研究背後的利益關係納入評讀。

對臨床與研究專業人員而言,目前較穩健的立場是:將通用前沿模型視為高效的知識檢索與綜整助手,於低敏感任務謹慎使用、於高風險決策保留人類把關,並持續關注這個快速演變領域中後續的獨立評估。



2026年6月25日 星期四

慢性疼痛年輕化——你的肩頸在跟你說什麼?

 作者:陳世鴻




你有沒有這種經驗?早上一覺醒來,脖子跟石頭一樣硬,轉個頭還發出「喀喀」的聲音;或者工作坐了幾個小時之後,肩膀就開始隱隱作痛,但忍一忍好像也過去了。很多人覺得這只是「小毛病」,忍一忍就好,或者靠按摩、貼藥布對付一下就算了。但最近醫師提出警告:這種「忍耐文化」正在讓越來越多的年輕人走上慢性疼痛之路。

所謂慢性疼痛,是指持續超過三個月以上的疼痛症狀。原本慢性疼痛多見於中老年人,因為退化性關節炎、骨質疏鬆等問題而飽受折磨。但近年來門診數字顯示,20到40歲的年輕族群來看疼痛門診的比例顯著上升。這個趨勢背後,有幾個關鍵原因。


四大高風險族群


醫師指出,目前慢性疼痛高風險族群可分為四大類。第一類是「久坐的辦公室族群」,長時間維持同一個姿勢工作,特別是低頭看手機、筆電螢幕,對頸椎、腰椎造成持續壓力。脊椎是人體的核心結構,長期不良姿勢會讓周圍的韌帶、肌肉、椎間盤承受遠超過正常值的負荷,一旦發炎反應啟動,就容易形成慢性化的疼痛訊號。

第二類是「過度訓練或受傷未好的運動族群」。現代人越來越重視健身,但很多人訓練強度過高、休息不足,或者舊傷未徹底痊癒就重返運動,結果肌腱、韌帶反覆微受傷,形成慢性發炎。臨床上常見的「網球肘」就是一個典型例子——肱骨外上髁的肌腱因為反覆使用而慢性發炎,患者常常痛了好幾個月都無法根治。

第三類是「高壓力、睡眠不足的族群」。疼痛的感知與神經系統的狀態密切相關。長期壓力會讓交感神經持續亢奮,提高身體對疼痛的敏感度;睡眠不足則會影響疼痛調節系統的修復。這解釋了為何很多人在壓力大或熬夜後,舊傷更容易「復發」。

第四類是「體重過重、缺乏運動的中壯年族群」。過多的體重讓膝關節、髖關節承受額外的壓力,加速退化;而缺乏運動則讓支撐關節的肌群萎縮無力,進一步加重關節負擔。醫師特別強調,「越痛越不動」是一個惡性循環——痛了就不動,不動肌肉更弱,肌肉更弱關節更痛。


新興治療:微細動脈栓塞術(TAME)


傳統上,慢性疼痛的治療大多以止痛藥、消炎藥、物理治療為主。這些方式有其效果,但對於部分頑固性慢性疼痛的患者來說,效果往往有限,甚至長期服藥帶來腸胃不適的副作用。近年來,一種名為「微細動脈栓塞術」(Transcatheter Arterial Micro-Embolization,TAME)的介入性治療開始受到關注。

TAME 的原理是透過導管技術,將栓塞微粒注射到發炎組織周圍異常增生的微血管中,阻斷這些血管的血流,從而減少發炎反應和疼痛訊號的傳導。手術本身屬於微創,通常只需局部麻醉,不需要住院。大多數患者在術後兩週到一個月內開始感受到疼痛減輕,效果可維持數個月到數年。目前 TAME 已被應用在膝關節炎、網球肘、肩袖肌腱炎、足底筋膜炎等多種慢性骨肌疼痛的治療上。


疼痛不是「忍一忍就好」的事


疼痛醫學專家反覆強調,疼痛是一種訊號,是身體告訴你「有地方出問題了」。短暫的疼痛通常可以自我修復,但如果疼痛持續超過三個月,代表身體的自我修復機制已經卡住,需要醫療介入。更重要的是,慢性疼痛不只是肉體上的不舒服——長期疼痛會讓人睡不好、情緒低落、社交退縮,甚至出現焦慮和憂鬱症狀。疼痛與心理健康之間有雙向關係:痛的人容易憂鬱,憂鬱的人對痛更敏感。因此,慢性疼痛的治療現代觀點主張「生理—心理—社會」三面向並進,不能只治身體、忽略心理。

如果你的肩頸疼痛已經持續超過幾週,或者隔段時間就反覆發作,最好盡早就醫,讓醫師評估是否需要進一步治療,而不是繼續「等它自己好」。慢性疼痛越早介入,治療效果通常越好。

2026年6月23日 星期二

非類固醇消炎止痛藥會讓手術後腎臟受傷嗎?先別太恐慌,但也不能亂吃

 作者:陳世鴻




手術後最怕的事情之一,就是疼痛控制不好。痛得厲害時,人會不敢咳嗽、不敢翻身、不敢下床,恢復速度也可能變慢。所以現在很多醫療團隊會使用「多模式止痛」,也就是不只靠一種止痛藥,而是把不同作用的藥物搭配使用,讓止痛效果更好,也減少單一藥物的副作用。NSAID,也就是非類固醇消炎止痛藥,就是其中常見的一類。


NSAID包括大家熟悉的布洛芬、萘普生、雙氯芬酸、塞來昔布等。它們可以減少發炎反應,也能幫助止痛。不過,很多人聽到NSAID會擔心:「這不是會傷腎嗎?」這個擔心不是完全沒有道理。腎臟需要穩定的血流來過濾身體廢物,而NSAID可能讓流進腎臟的血液變少。尤其是在脫水、血壓偏低、原本腎功能不好、年紀較大、糖尿病、高血壓、心臟衰竭,或同時使用利尿劑、部分降血壓藥時,腎臟比較容易受影響。美國腎臟相關衛教資料也提醒,NSAID在高劑量或長期使用時,可能造成急性腎損傷或讓慢性腎臟病惡化。


不過,最近一篇大型非心臟手術研究提供了另一個角度。研究分析接受大型選擇性非心臟手術的病人,並比較手術中有沒有使用NSAID與術後急性腎損傷的關係。結果發現,在配對分析後,使用NSAID與未使用NSAID的病人,術後急性腎損傷發生率都是4.2%,嚴重程度與住院天數也沒有明顯差異。也就是說,在這個研究族群中,手術中短時間使用NSAID,並沒有被發現會獨立增加術後急性腎損傷風險。


這並不代表NSAID從此可以放心亂用。這篇研究排除了部分腎功能很差或資料不完整的病人,而且它是回溯性研究,只能說「沒有看到明顯獨立相關」,不能解讀成「所有人都絕對安全」。真正臨床上,腎臟受傷常常不是單一原因造成,而是手術時間長、出血、低血壓、感染、脫水、顯影劑、抗生素、原本疾病和藥物一起疊加的結果。


對一般民眾來說,最重要的觀念是:短時間、醫師評估後使用NSAID,和自己在家長期、高劑量亂吃,是完全不同的事情。手術前如果你本來就有腎臟病、高血壓、糖尿病、心臟病,或正在吃利尿劑、降血壓藥、抗凝血藥,應該主動告訴麻醉醫師和外科醫師。手術後如果尿量明顯變少、腳腫、喘、非常疲倦,或抽血發現肌酸酐上升,也要盡快回診檢查。


簡單說,NSAID不是「一定傷腎」的毒藥,也不是「完全無害」的止痛藥。它的安全性取決於病人的腎功能、身體水分、血壓、其他藥物、使用劑量和使用時間。手術後止痛應該交給醫療團隊整體評估,而不是自己加藥。真正保護腎臟的做法,是把止痛做好,同時避免脫水、避免重複吃多種NSAID,並在高風險情況下監測腎功能。


我參考了甚麼



2026年6月22日 星期一

孕期疼痛的困境:非類固醇止痛藥真的會傷害胎兒嗎?

 作者:陳世鴻




近年來,關於孕期用藥安全的討論日益引起公眾關注。許多準媽媽在懷孕期間經歷頭痛、腰痛等不適症狀時,往往陷入兩難之地:忍受疼痛可能影響身心健康,但服用止痛藥又擔心會傷害腹中的胎兒。最近一項大規模的醫學研究為這個困擾許多孕婦的問題提供了令人欣慰的答案。


孕期疼痛遠比人們想像的常見


根據醫學調查,大約四分之一到九成的孕婦在懷孕過程中會經歷各種疼痛症狀。這些疼痛往往源於孕期身體的自然變化:子宮不斷增大產生的物理壓力、激素變化導致的關節鬆弛,以及體液潴留引起的神經受壓。這些生理變化雖然是正常的,但確實會給準媽媽帶來實實在在的不適感。更值得注意的是,未能妥善控制的疼痛可能誘發焦慮、抑鬱,甚至增加妊娠期高血壓的風險,這些問題對母體和胎兒的健康都可能造成負面影響。


大規模研究打消安全顧慮


最新發表的研究對二十六萬多名單胎妊娠進行了詳細追蹤調查。其中超過兩萬名孕婦在懷孕前三個月使用過非類固醇類抗炎止痛藥物,這類藥物包括布洛芬、雙氯芬酸、萘普生等常見的止痛選擇。研究人員將這些使用過止痛藥的孕婦與未使用者進行了細緻對比,結果令人驚喜。


整體來看,使用過非類固醇止痛藥的妊娠中,約百分之八出現了胎兒先天畸形,而未使用者中這一比例是百分之七。經過統計學分析後,這個微小的數字差異實際上並無統計學意義,也就是說兩個群體的風險是相當的。更具體地說,研究人員還分別檢查了心臟畸形、神經系統畸形、肌肉骨骼畸形等多種具體的出生缺陷類型,結果無一例外地顯示,非類固醇止痛藥與這些缺陷之間都沒有明確的因果關係。


劑量多少都安全嗎?


一個合理的疑問是,使用更多的止痛藥是否會增加風險?研究人員對此也進行了細緻的分析。他們將孕婦的用藥劑量分為短期使用、中期使用和長期使用三個級別,結果發現無論用藥時間長短,都沒有發現與胎兒先天畸形增加相關聯的證據。這意味著,在醫學必要的範圍內使用這類止痛藥,不會因為用量增加而帶來額外的胎兒風險。


為什麼我們需要這樣的研究?


這項研究之所以重要,不僅在於其龐大的樣本量和嚴謹的科學方法,更在於它解決了一個長期困擾臨床醫學的難題。由於倫理原因,醫學界無法對孕婦進行隨機對照實驗來測試藥物的安全性,因此大部分關於孕期用藥的知識來自動物實驗和藥物上市後的觀察數據。這項基於真實世界數據的大規模研究,為醫學界和孕婦提供了迄今最有說服力的證據。


現實中的平衡考量


這項研究的結論並非意味著孕婦應該隨意使用止痛藥物。醫學倫理強調,任何藥物的使用都應建立在醫學必要的基礎上,且要在醫生的指導下進行。然而,對於那些在孕期經歷真實疼痛的準媽媽來說,這項研究提供了重要的安心信息:在醫學監督下,使用非類固醇類抗炎止痛藥來緩解疼痛,不會因此增加胎兒先天畸形的風險。

未經治療的疼痛本身可能帶來的心理和生理壓力,有時候對母嬰健康的潛在威脅,可能反而大於規範使用止痛藥物的風險。因此,孕婦不必在忍受疼痛和用藥之間過度焦慮,而應該在專業醫護人員的指導下,根據具體情況做出最適合自己和胎兒的選擇。這樣的科學證據,正是現代醫學為準媽媽們所能提供的最好禮物。


我參考了甚麼



2026年6月19日 星期五

甚麼!病歷也會影響到我的就醫安全?

 作者:陳世鴻




很多人以為,醫院電腦裡的資料只要「有存到」就沒問題,但其實有一種很容易被忽略的狀況,可能會直接影響病人的安全,甚至增加死亡風險,那就是「重複醫療紀錄」。


最近發表在《BMJ Quality & Safety》的一項美國研究發現,擁有重複醫療紀錄的住院病人,死亡風險比一般病人高出將近5倍,而且需要住進加護病房的機率也明顯增加。


所謂「重複醫療紀錄」,不是指病人看很多次病,而是同一位病人,在醫院系統裡被建立成兩個以上不同的病歷身分。例如姓名拼音不同、生日輸入錯誤、身分證號打錯、急診與門診分開建檔,或不同院區資料沒有成功整合,都可能讓系統誤以為是不同的人。結果就是,病人的資料被分散在不同病歷裡。


這種問題看起來像行政疏失,但實際上可能造成很嚴重的後果。


假設某位病人曾經對某種抗生素嚴重過敏,但過敏資訊只存在其中一份病歷裡。如果醫師當下看到的是另一份病歷,就可能不知道病人曾發生過危險過敏反應。又或者病人的慢性病、正在服用的藥物、過去手術紀錄沒有完整顯示,也可能影響醫師判斷。


研究中發現,有重複病歷的病人,平均住院時間比較長,而且更常需要緊急處置與加護病房照護。研究人員認為,其中一個重要原因,就是醫療資訊不完整,導致治療判斷變得困難。


現在很多醫院已經全面電子化,但電子病歷不代表一定安全。如果資料沒有正確整合,反而可能讓問題變得更隱密。尤其大型醫療體系、跨院轉診或急診環境中,病人資料量非常龐大,只要一個小錯誤,就可能產生新的病歷號碼。


其實,這類問題在全球都相當常見。有些研究估計,美國約有5%到10%的病人可能存在重複病歷問題。


民眾自己也可以幫忙降低風險。每次看診時,可以主動確認姓名、生日、電話與身分證資料是否正確。如果曾換過名字、護照英文拼法不同,或曾在不同院區看診,也可以提醒醫院協助確認資料是否已整合。若發現自己有兩個病歷號碼,更應盡快通知醫院處理。


很多人以為病人安全只和藥物或手術有關,但其實「資料正不正確」同樣重要。一份完整而一致的病歷,不只是行政管理工具,更可能在關鍵時刻救人一命。


我參考了甚麼



2026年6月17日 星期三

偏頭痛要小心!

 作者:陳世鴻




很多人以為偏頭痛只是「比較嚴重的頭痛」,但其實偏頭痛和大腦血管、神經系統都有關,近年研究甚至發現,某些偏頭痛患者未來中風的風險可能比較高。尤其是有「預兆型偏頭痛」的人,更需要提高警覺。


偏頭痛常見症狀除了頭痛之外,還可能伴隨噁心、怕光、怕吵,有些人在頭痛發作前,會先看到閃光、視野缺角、鋸齒狀亮線,甚至短暫說話不清楚或手腳麻木,這類情況稱為「偏頭痛預兆」。很多人會以為只是眼睛疲勞,但其實這代表大腦神經活動暫時出現變化。


最近一篇大型研究追蹤超過一萬名中老年民眾,發現有偏頭痛預兆的人,未來缺血性中風風險較高,而沒有預兆的偏頭痛,中風風險則沒有明顯增加。研究也發現,中年男性偏頭痛患者的中風風險可能比想像中更值得注意。


所謂缺血性中風,就是供應大腦的血管被堵住,造成腦部缺氧。常見症狀包括突然單側手腳無力、嘴歪、講話不清楚、看不見、走路不穩或意識混亂。如果這些症狀突然出現,就算幾分鐘後恢復,也不能輕忽,因為有可能是腦中風前兆。


很多人會疑惑,偏頭痛為什麼和中風有關?目前認為原因可能很多。研究發現,偏頭痛患者的大腦血管可能比較敏感,血管收縮與擴張變化較明顯,也可能和血管內皮功能異常、慢性發炎、血液凝固變化有關。有些人在偏頭痛發作時,大腦局部血流會短暫下降,如果本身又有高血壓、高血脂、糖尿病或抽菸等問題,中風風險可能再增加。


另外,偏頭痛和生活習慣也很有關係。睡眠不足、壓力大、長期熬夜、過度疲勞、脫水、飲酒、抽菸,都可能讓偏頭痛更容易發作,也同時提高心血管疾病風險。現代人常常一邊工作一邊忍頭痛,甚至天天吃止痛藥硬撐,但若偏頭痛越來越頻繁,反而可能變成慢性偏頭痛。


有些人會把偏頭痛和中風搞混。其實兩者症狀有時真的很像。偏頭痛預兆可能出現視力變化、麻木感或說話困難,而中風也可能有類似情況。不過偏頭痛症狀通常會慢慢出現,再逐漸擴散,例如先看到閃光,再慢慢手麻;中風則常常是突然發生,而且症狀比較固定。如果是第一次出現這些症狀、年紀較大才開始發作、症狀特別嚴重,或和平常偏頭痛不一樣,一定要盡快就醫檢查。


雖然偏頭痛可能增加中風風險,但不代表每個偏頭痛患者都會中風。真正重要的是控制其他危險因子。規律睡眠、控制血壓血糖血脂、戒菸、減少熬夜、適度運動,都有助於降低風險。如果偏頭痛很頻繁,也可以和醫師討論是否需要預防性治療,而不是只靠止痛藥撐過去。


現在醫界也越來越重視偏頭痛不只是「頭痛問題」,而是一種和全身血管健康有關的疾病。尤其當偏頭痛合併視覺預兆、抽菸、高血壓或家族中風病史時,更應該及早評估與治療。學會分辨危險訊號,才能在真正的中風發生前,提早保護自己的大腦健康。


我參考了甚麼



2026年6月16日 星期二

ASA 2026 最新術後疼痛管理指引強烈推薦筋膜平面神經阻斷術

 作者:陳世鴻




什麼是筋膜平面神經阻斷術?


如果你曾經接受過胸腔手術、乳房切除術、或腹部大手術,術後疼痛常常是讓病人最難熬的部分。傳統上,我們會用嗎啡、鴉片類止痛藥來處理,但這些藥物有許多令人頭疼的副作用,像是噁心、嘔吐、便秘、甚至呼吸抑制等。近年來,麻醉科醫師越來越常使用一種叫做「筋膜平面神經阻斷術(fascial plane blocks)」的局部麻醉技術,來減少或取代術後鴉片類藥物的使用。

所謂筋膜平面阻斷,是指麻醉科醫師在超音波的引導下,將局部麻醉藥精準地注射到特定肌肉筋膜層之間的空間。藥物從這個空間緩慢擴散,阻斷附近傳遞疼痛訊號的神經。常見的技術包括豎脊肌平面阻斷(erector spinae plane block, ESPB)、前鋸肌平面阻斷(serratus anterior plane block, SAPB)、腹橫肌平面阻斷(transversus abdominis plane block, TAPB)等,針對不同的手術部位有不同的選擇。


2026年 ASA 最新指引說什麼?


2026年1月,美國麻醉科醫師學會(American Society of Anesthesiologists, ASA)正式發布了最新版的「術後疼痛管理使用局部及區域麻醉臨床指引」,這是針對心胸外科手術、乳房切除術、腹部手術的全面性建議。這份指引在頂尖期刊《Anesthesiology》上發表,是 ASA 對外科麻醉疼痛管理最完整的一次更新。

指引的重點非常明確:ASA 工作小組「強烈建議」將筋膜平面神經阻斷術用於成人的術後疼痛管理。具體來說,對於開胸手術、開腹手術、腹膜後手術、骨盆手術及乳房切除術,筋膜平面阻斷能有效減少術後 24 小時內的疼痛程度和鴉片類藥物的用量。對於兒童進行心臟或胸腔手術,也同樣強烈建議使用。這份指引的背後,是一個醫學文獻庫——研究人員系統性地回顧了 2013 年到 2024 年之間的 628 篇隨機對照試驗,其中 124 篇提供了可供綜合分析的數據。


對病人意味著什麼?


對於即將接受大手術的病人而言,這份指引有實際意義。過去,大量使用嗎啡等鴉片類藥物是術後疼痛管理的常規,但這帶來了不少問題——有些病人術後噁心嘔吐嚴重,無法進食;有些人昏昏欲睡、呼吸變慢,需要加強監測;長期使用更可能導致耐受性和依賴性。筋膜平面阻斷術能讓病人在術後早期就有較好的止痛效果,同時大幅減少對鴉片類藥物的需求。

更重要的是,止痛效果好,病人才能早點下床走動、做深呼吸,這對於術後恢復非常關鍵。研究顯示,筋膜平面阻斷不只讓病人更舒服,也提高了病人對手術和麻醉過程的滿意度。對於有慢性疼痛病史、或擔心術後演變為慢性疼痛的病人,早期良好的疼痛控制更是預防的第一步。


醫師怎麼做?


執行筋膜平面阻斷需要麻醉科醫師受過超音波引導訓練。通常在手術開始前、病人麻醉後,醫師會用超音波找到正確的筋膜層位置,然後用細長的針將局部麻醉藥——最常見的是 ropivacaine 或 bupivacaine——注射進去。整個過程通常只需要數分鐘,而止痛效果可以持續 12 到 24 小時,甚至更長(如果使用連續導管輸注的話)。

目前台灣許多醫學中心的麻醉科已在引進這些技術,尤其是在內視鏡手術、婦科手術等等的疼痛管理上。這份 2026 年 ASA 指引,相信會進一步推動更多醫院採用這套以證據為基礎的術後止痛方式。


我參考了甚麼