陳世鴻醫師的疼痛解碼: 現在的醫學AI好用嗎?一場讓人意外的對比 WFU

headline

2026年6月30日 星期二

現在的醫學AI好用嗎?一場讓人意外的對比

作者:陳世鴻




前言


近兩年大型語言模型(large language model, LLM)快速進入臨床知識查詢、文件撰寫與決策支援等場景,但「這些工具是否真的達到醫療專業標準」始終缺乏一致的評估框架。本文整理 2026 年發表的兩篇代表性比較研究,兩者立場與方法互補,恰好可以對照出當前醫學 AI 評比的核心爭點:

研究一(《Mayo Clinic Proceedings: Digital Health》)以虛構臨床情境+專科醫師主觀評分的方式,比較四款「面向使用者」的對話式 AI,強調多維度的實證醫學品質。其最大特點(也是最大警訊)在於:研究由受評工具之一的開發公司主導。
研究二(《Nature Medicine》,Brief Communication)則是一篇獨立的量化比較,以三階段基準測試把三款前沿通用模型與兩款特化臨床 AI 工具(再加上 Google 搜尋的 AI 摘要作為對照)放在同一標準下評比,並特別建立一個取自真實臨床查詢、且不受訓練資料污染的測試集。
兩篇研究的結論方向看似不同,但若拆解其方法、模型世代與利益關係,便能整合出對臨床實務具體可用的洞見。以下逐篇深入,再進行跨研究綜合分析,最後回答一個關鍵問題:哪一種測試情境最能代表真實臨床諮詢,各模型在該情境下表現如何。




兩篇最根本的差異在於「比的是誰」:研究一比較的是四款消費者可直接使用的對話式產品(其中三款屬於以檢索為核心的醫學專用或一般用途介面);研究二則把通用前沿模型的 API 與特化臨床工具的網頁介面對立比較,並刻意加入「免費的 Google 搜尋 AI 摘要」作為真實世界對照。這個設計差異,是後續所有結論分歧的根源。
二、研究一:四款對話式 AI 的臨床情境評比

2.1 研究設計與受評對象


此研究於 2025 年 6 月 1 日至 9 月 20 日進行,定位為探索性研究,以專科醫師的臨床判斷作為參考標準,不納入任何真實病人層級資料,全部使用虛構且去識別化的案例,倫理上歸類為最小風險。

受評的四款工具,各以其公開的「一般(regular)」模式評估;其中 Arkangel AI 與 ChatGPT 另外加測兩種付費進階模式(分別稱為「Personalized」與「Deep」),因為這些是面向使用者的不同互動模式。組合後共 8 種模型/模式:

OpenEvidence(一般)
Medisearch(一般)
ChatGPT(一般、Personalized、Deep)
Arkangel AI(一般、Personalized、Deep)
研究者強調未做任何系統層級客製化、微調或開發端設定,全部使用預設的使用者端設定。值得注意的是,原文引言提到開發團隊先前以 MedQA 內部驗證宣稱達 90.26% 正確率、優於數個對照基準——但此為該團隊自身的先前研究,在解讀本研究結論時須將此一脈絡納入考量。

2.2 臨床情境與提問設計


由獨立專科醫師自願撰寫四則虛構、不可識別的臨床情境,分別涵蓋骨科、小兒科、婦產科、精神科各一則;撰寫者均具至少 5 年臨床、3 年三級醫療門診經驗。

每則情境搭配 4 道追問,分屬四種題型:

1. 診斷(diagnosis)
2. 臨床處置(clinical management)
3. 研究(research)
4. 一般知識(general knowledge)

提問流程的標準化是本研究方法上的重點:由未參與其他階段的研究者,將情境逐字輸入各工具的標準介面,接著依序輸入預設問題,不做任何迭代修飾、追問或額外提示;每一題都開啟新的對話階段。也就是說,本研究衡量的是「單輪、無互動修正」情境下的直接回答品質——這與真實臨床上醫師會反覆追問、釐清的使用模式並不完全相同,是解讀時的重要前提。

最終形成 4 情境 × 4 題 × 8 種模式 = 128 組問答配對,每組依 8 項標準評分,每專科由 2 名醫師獨立評分。

2.3 評分方式:八項實證醫學標準


研究者參考既有醫學 AI 評估框架(HELM 系列與 HealthBench)自行設計 8 項評分標準,每項以 6 點 Likert 量表評分(1=非常不滿意、5=非常滿意、6=不適用)。分析時將 4–5 分歸為「滿意」、1–2 分歸為「不滿意」,中性與不適用另行處理。八項標準為:

1. 正確性:回答資訊正確
2. 與共識一致:符合醫學/科學共識
3. 無偏見:未偏向特定人口族群
4. 不違反照護標準:未推薦非標準照護的處置或藥物
5. 時效性:資訊為最新
6. 病人安全:不致對病人生命或完整性造成危害風險
7. 參考文獻真實性:所引文獻確實連結到真實來源
8. 情境適切性:未推薦來源國不可得的處置或藥物

特別說明:第 7 項(文獻真實性)僅判斷文獻是否對應到可驗證的真實來源(如同儕審查期刊、政府網站、專業組織),用以偵測「幻覺式(虛構)引用」,不評估所引來源的品質;未提供引用時則選「不適用」。研究者亦坦言,此評分工具未經獨立效度驗證,僅作為支持專家判斷的結構化框架,而非已驗證的測量工具。

評分者間/內信度以線性混合效應模型分析,並以 Kruskal–Wallis 檢定搭配 Dwass–Steel–Critchlow–Fligner 事後校正進行組間比較。

2.4 反應時間:速度與深度的權衡


研究記錄兩個時間點:自送出問題到「開始回應」(T1)與到「完成回應」(T2)。各模式的完成時間中位數(T2)如圖二




組間差異具統計顯著性(Wilcoxon,P<.05)。核心發現是:高品質模式與較長延遲相伴——深度模式提供更完整、有引用的回答,但運算與等待成本顯著上升,呈現典型的「速度—品質權衡」。研究者也指出,日常實務可能偏好快速互動,學術或研究情境則可接受較長延遲以換取深度。

2.5 品質與效度:各模型的整體與分項表現





事後分析顯示,Arkangel AI-Deep 與其餘多數模式(包含自家其他模式)皆有顯著差異;Medisearch 則與多個高分模式有顯著落差。須留意:分數最高者正是主導本研究的公司產品,這一點在後文「利益衝突」段落會進一步申論。

各項標準的滿意度(%)整理如下(每格為該模式在該標準的滿意比例):




從分項可讀出各模型的原始優劣勢:

Arkangel AI-Deep:正確性、共識、時效性、文獻真實性皆達 100%,是全表最均衡者;相對較弱的是「不違反照護標準」(75%)。在婦產科、精神科及處置與研究類題型表現較佳。

OpenEvidence:在時效性與文獻真實性皆達 100%,但照護標準(62.5%)與病人安全(68.8%)相對偏低;在婦產科與處置類題型較佳。

ChatGPT-Personalized:正確性、共識、病人安全皆達 100%,情境適切性也高(93.8%),但文獻真實性為 0%——幾乎總是省略引用。

ChatGPT-Deep:正確性與共識滿分,文獻真實性回升至 75%,但病人安全(68.8%)較同組其他模式低。

ChatGPT-Regular:正確性與共識滿分,但文獻真實性僅 6.3%、無偏見較低(75%)。

Arkangel AI-Personalized:正確性與共識滿分、無偏見高,但文獻真實性僅 31.3%(此處原文內文與表格對該模式文獻面向的描述略有出入,建議以表格數值為準)。
Medisearch:在無偏見、病人安全、文獻真實性相對較佳,但正確性僅 62.5%、多數其他標準偏低,整體墊底;在精神科、骨科及一般知識/處置類題型較佳。

整體而言,正確性與共識是所有模型普遍表現最好的兩項,反映 LLM 擅長檢索與綜整既有資訊;變異最大的是文獻真實性、偏見與病人安全。

2.6 參考文獻真實性與「幻覺」問題


此研究最具實務意義的發現之一,是引用行為與品質、幻覺率的強相關:

系統性提供引用的模式(Arkangel AI-Deep、OpenEvidence、ChatGPT-Deep)在文獻真實性達 100% 滿意、且未出現幻覺式引用。
經常省略引用的模式則出現最高的不滿意與幻覺率:ChatGPT-Regular 達 93.8%(120/128)、ChatGPT-Personalized 達 75%(96/128)。

研究者據此主張:書目佐證是回答「被感知品質」的關鍵,並凸顯針對「來源真實性」進行專門評估的必要。需提醒的是,此標準僅驗證引用是否真實存在,並未評估引用是否切題、是否支持該論點——這一點在與研究二對照時尤其重要。

2.7 專科別與題型別差異


專科別:婦產科與骨科滿意度顯著高於小兒科(P<.001);精神科與婦產科、骨科無顯著差異。小兒科最低,尤其在無偏見、照護標準、病人安全三項。研究者推測與小兒族群訓練資料相對不足有關,並呼籲在代表性不足的領域進行專科特定評估。

題型別:差異亦顯著(Kruskal–Wallis,P=.007)。臨床處置類得分最高,研究類高於診斷類;診斷與一般知識類最低。這顯示模型較擅長綜整「可操作的實務建議」(如臨床指引),而在處理「診斷不確定性」時相對吃力。

變異分析顯示,可歸因於個別評分者的變異偏低,支持評分結果的可靠性;全域模型確認各模式間表現有顯著差異,其中 Arkangel AI-Deep 與 OpenEvidence 估計值較高、Medisearch 較低。

2.8 關鍵警示:利益衝突


這是閱讀本研究時不可忽略的核心限制:撰寫團隊全部為受評工具之一的員工或關係人,且該工具的創辦人即為公司負責人。研究由該公司出資,因此本質上是一份內部評估。研究者也在文中明確承認,這可能在評分標準選擇、比較結果詮釋、結果框架等面向引入偏誤。

為降低風險,研究採取多項保護措施:所有臨床評分由與該公司無關、且對工具身分與互動模式皆盲性的外部專科醫師執行;採用完全標準化、透明的方法;並公開全部評估資料、提示與評分。即便如此,研究者承認內部評估固有的殘餘偏誤無法完全排除,並鼓勵由獨立團隊進行重複驗證。

換言之——這份研究在「自家深度模式拿到最高分」這一結論上,需以高度保留的態度看待;但其在方法層面的貢獻(多維度標準、引用真實性的量化、專科與題型分層)仍具參考價值。


三、研究二:前沿模型與特化臨床工具的三階段對決


3.1 研究設計:三階段評估架構


此研究是一篇獨立的量化比較,受評對象分三類:

前沿通用 LLM(透過 API):GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6
特化臨床 AI 工具(透過網頁介面):OpenEvidence、UpToDate Expert AI
真實世界對照:Google 搜尋 AI 摘要(Google AI Overview,僅在第三階段加入)

前沿模型以固定、可重現的參數產生回答(溫度=0、固定隨機種子、開啟搜尋工具);特化工具因無公開 API,僅能以瀏覽器手動查詢——這個不對稱性本身也構成一項限制

評估分三階段:

1. MedQA:500 題美國醫師執照考試(USMLE)風格選擇題,測醫學知識。
2. HealthBench:500 道單輪題目,測與臨床醫師的一致性。
3. RCQ(Real Clinical Queries,真實臨床查詢):100 則來自真實臨床環境、physician 在例行照護中向一個符合 HIPAA 規範之 GPT 實例所提出的去識別化查詢。

RCQ 階段由 12 名美國臨床醫師進行隨機、盲性評分,產生 1,800 筆模型—題目註記。整體分析橫跨選擇題推理、專家臨床判斷與日常臨床使用三個層次。

3.2 第一階段 MedQA:醫學知識





Gemini 顯著優於其他所有模型(對 OpenEvidence、UpToDate、Claude 之 McNemar P<1×10⁻⁴;對 GPT P=0.02);GPT 亦顯著優於 OpenEvidence、UpToDate 與 Claude。三款前沿模型全數高於兩款特化臨床工具。

3.3 第二階段 HealthBench:與臨床醫師的一致性


HealthBench 回答由三款 LLM 評審(Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.2)以多數決方式評分,分數反映達成的評分要點比例(0–100)。



GPT 顯著優於其他所有模型(Wilcoxon P<10⁻⁹),兩款特化工具之間則無顯著差異(P=0.6)。在主題層級分析中,GPT 在全部 7 個類別皆排名第一或並列第一,而 OpenEvidence 與 UpToDate 在全部 7 個類別皆排名最低或並列最低,與 GPT 的差異在 7 類中有 6 類顯著(唯一例外為「在不確定下回應」,P=1.00)。

須特別留意的脈絡:HealthBench 由 OpenAI 開發,而本階段最高分者 GPT-5.2 亦為 OpenAI 產品,可能存在基準—開發者重疊(訓練資料、最佳化目標或評分設計上的潛在相似)。研究者因此明確將此階段定位為「輔助性」證據,並以第三階段(RCQ)的盲性臨床評分作為主要證據。

3.4 第三階段 RCQ:真實臨床查詢


這是本研究最具方法學分量、也最貼近真實臨床諮詢的部分。研究者自 NYU Langone 符合 HIPAA 規範之 GPT 實例抽取 100 則去識別化的臨床醫師查詢,分別送入 6 個模型;12 名盲性臨床醫師依四維度(臨床正確性、完整性、安全/避免傷害、清晰度)以 1–4 分評分,並對「是否含有害內容」「是否幻覺」做二元標記。每一題—模型配對由 3 名評分者評分。排除 32 個拒答後,剩 568 筆回應、1,704 筆評分。

整體聚合分數呈現明確的「兩層級」結構(Friedman P<10⁻⁹):




層內無顯著差異,所有顯著差異都發生在「跨層」之間(rank-biserial r = 0.5–0.9),意即前沿模型在多數「個別題目」上勝出,而非僅是平均值高。校正評分者寬鬆度後,特化臨床工具(含 Google AI)獲得較高評分的勝算比 Gemini 低 49–87%(OR 0.13–0.51,皆 P<0.0001);於線性混合模型中相當於在 1–4 量尺上低 0.36–0.44 分。

一個對採購決策極具衝擊的發現:免費的 Google 搜尋 AI 摘要在所有維度上的表現等同或優於 OpenEvidence 與 UpToDate——也就是說,這兩款「特化」臨床工具,在真實查詢上並未勝過一個免費的一般搜尋摘要功能。

維度層級(Fig. 2d):兩層結構在四個維度皆成立。模型間差異最大者為清晰度(Kendall's W = 0.292)、最小者為臨床正確性(W = 0.141)。其中 OpenEvidence 在清晰度最低(平均 2.84),顯示其弱點在於溝通與組織,而非知識本身。質性註記指出,不完整的臨床內容、攸關安全的遺漏、組織混亂的回答,在 OpenEvidence 與 Google AI 摘要尤為常見。

評分者一致性:12 名臨床醫師對模型排序高度一致(Kendall's W = 0.651,P=2.3×10⁻⁷),一致將前沿模型排在特化工具之上。題目層級的評分者一致性雖屬「尚可」(Krippendorff's α 約 0.10–0.20),但分歧多落在相鄰分數之間(±1 分內一致達 89–95%);若簡化為「可接受(3–4)vs 不可接受(1–2)」則一致性更高;安全標記的一致性很高。

3.5 安全性、拒答率與錯誤類型





UpToDate 的高拒答率,意味在真實臨床查詢中有近五分之一的問題無法獲得可用回答,對工作流程整合是實質障礙。


安全結果:各模型在有害內容與幻覺比例上均無統計顯著差異(有害:Cochran's Q=4.00,P=0.55;幻覺:Q=5.00,P=0.42)。具體比例如下(皆屬低值且差異不顯著):

有害回應:Claude Opus 4.6 為 3.0%、UpToDate 2.5%、OpenEvidence 1.0%,其餘為 0%。

幻覺回應:Google AI 1.1%、Gemini 1.0%、OpenEvidence 1.0%,其餘為 0%。

為求客觀須如實指出:在此真實查詢測試中,Claude Opus 4.6 的有害回應比例(3.0%)為各模型中最高,惟差異未達統計顯著;同時 Claude 在整體聚合分數上仍與 GPT、Gemini 同屬第一層級。安全面向的小樣本差異不宜過度詮釋。

錯誤類型(Extended Data Table 1):研究者把低分回應的評分者註記歸納為錯誤類型,各模型的註記式錯誤總數為——Gemini 8(最少)、Claude 19、UpToDate 20、GPT 21、Google AI 33、OpenEvidence 52(最多)。OpenEvidence 的錯誤集中在「不完整的臨床內容(15)」「攸關安全的遺漏(12)」與「組織混亂(13)」;Google AI 摘要則以「事實錯誤(7)」相對突出。此為質性歸納(基於有留言的低分回應),非窮盡統計,但與量化結果方向一致。

3.6 成本比較



上傳進度:已上傳 33786 個位元組 (共 33786 個位元組)。


研究者提醒:按 token 計費與訂閱制無法直接換算每次查詢成本,且 API 報價未含推理 token、搜尋附加費或快取折扣。此表的價值在於凸顯——價格最高的並不必然是表現最好的,採購時須將「表現/成本/工作流程整合」三者一併評估。

3.7 方法學優勢與限制


優勢:這是少見的獨立比較,且 RCQ 取自真實臨床查詢、由多名盲性醫師評分、不受訓練資料污染。

限制(研究者自陳):

1. 特化工具無公開 API,僅能以瀏覽器查詢,可能在隱藏提示、檢索行為、輸出格式上造成差異,並限制樣本數。
2. 資料污染:MedQA/HealthBench 等公開基準,模型在訓練時可能已接觸;惟 RCQ 不受此污染。
3. HealthBench 為 OpenAI 開發,GPT 可能因基準—開發者重疊而受惠;故 HealthBench 僅作輔助證據。
4. 評分偏誤:前沿模型同時擔任「受評者」與「評審」(在 HealthBench 階段),雖以多模型評審面板緩解,仍須留意。
5. 未評估反應延遲與引用品質——而這兩者對真實部署與工作流程整合至關重要(這恰好是研究一著墨之處)。
6. 利益揭露:通訊作者之一揭露與 Google 有顧問關係,而在 MedQA 與 RCQ 表現最佳者為 Google 的 Gemini;此關係雖已揭露,解讀時仍宜納入考量。

研究者並未把結論視為「方法路線的永久排序」,而是快速演變領域中的一個快照;並指出若規模化報酬遞減,領域特定調校、精選檢索與「人在迴路」最佳化的相對價值可能上升,且高度次專科的醫療任務仍可能偏好更精細的領域特定調適。


四、哪一種情境最能代表「真實臨床諮詢」?


這是本次整理最核心的問題。綜合兩篇研究,最能代表真實臨床專業諮詢的測試情境,是研究二的 RCQ(真實臨床查詢)基準,理由有四:
1. 查詢本身是真的——取自臨床醫師在例行照護中實際向 LLM 提出的問題,而非研究者預設的人造題目;
2. 不受訓練資料污染——與 MedQA/HealthBench 不同,RCQ 的內容不可能事先被模型「背過」;
3. 由多名盲性臨床醫師評分且一致性高(12 名醫師,排序一致性 Kendall's W = 0.651);
4. 研究者本身即將其指定為「主要證據」,並刻意把可能偏向特定開發者的 HealthBench 降級為輔助。

在這個最具代表性的情境下,各模型表現如下(再次列出 RCQ 聚合分):
第一層(彼此無顯著差異):Gemini 3.1 Pro(3.62)、GPT-5.2(3.54)、Claude Opus 4.6(3.52)。

第二層(彼此無顯著差異):Google AI Overview(3.27)、OpenEvidence(3.24)、UpToDate Expert AI(3.17)。

核心訊息是:在最貼近真實臨床諮詢的測試中,三款通用前沿模型明顯且一致地優於兩款特化臨床工具,而後者甚至與一個免費的一般搜尋 AI 摘要無法區分。

但須加上重要限制,避免過度外推:

RCQ 僅來自單一美國醫學中心,查詢分布受該機構的 GPT 部署形塑,對其他醫療體系(含台灣)與非英語情境的可推論性有限。

RCQ 未評估反應延遲與引用品質——這兩者在真實臨床上極為關鍵,而研究一恰恰顯示前沿模型的「深度模式」可能伴隨數分鐘的等待,且部分模式會省略引用。

研究一的虛構門診情境雖非真實查詢,但「門診決策支援」本身是常見的真實使用場景;其評分涵蓋了 RCQ 未測的引用真實性與來源國可得性等維度。

因此較完整的結論是:就「整體臨床品質」而言,RCQ 是現有最可信的真實諮詢代理指標,且前沿模型勝出;但就「引用佐證、時效與在地適用性」而言,仍需研究一所強調的維度與在地化驗證來補足。 兩種情境並非互相取代,而是互補。


五、跨研究綜合分析


5.1 OpenEvidence 的兩種面貌


OpenEvidence 是唯一同時出現在兩篇研究的工具,但評價迥異:

在研究一中,OpenEvidence 整體排名第二(84%),尤其在時效性與文獻真實性皆達 100%。

在研究二中,OpenEvidence 落在第二層,且在質性錯誤歸納中錯誤總數最多(52)、清晰度最低,常見攸關安全的遺漏與組織混亂。

這個落差並非矛盾,而是兩種評分重點的自然結果:研究一給「有真實引用」很高的權重,而 OpenEvidence 以檢索為核心、擅長附上真實出處,因而得分高;研究二聚焦「臨床正確性、完整性、安全、清晰度」並以真實查詢測試,OpenEvidence 在這些面向(特別是溝通組織)相對吃力,因而落後。同一工具可以「引用漂亮」卻在「臨床推理與完整性」上較弱——這正是下一點的核心。

5.2 「有引用 ≠ 正確」:參考文獻的弔詭


兩篇研究合起來給出一個對臨床使用者極為實用的提醒:

研究一證明:引用的「真實性」可被驗證,且系統性附上真實引用的模式幾乎不出現幻覺式引用——這是好事。

但研究一的第 7 項標準只驗證引用是否真實存在,未驗證引用是否切題、是否真正支持該論點;研究二則完全未評估引用品質。

研究二同時顯示:以檢索與引用見長的工具(OpenEvidence/UpToDate,很可能採用檢索增強生成 RAG),在真實查詢的臨床品質上反而落後。研究者並引述既有證據指出,當檢索到不相關材料、或基礎模型未能妥善整合時,RAG 可能反而拖累表現。

對臨床的啟示:看到 AI 附上「真實的參考文獻」時,不應將其等同於「答案正確且完整」;引用的存在只是必要條件之一,臨床判斷仍須驗證該引用是否確實支持結論。

5.3 通用 vs. 特化之爭


兩篇研究在「通用 vs. 特化」上的表面結論不同:

研究一:自家的特化/檢索型深度模式(Arkangel AI-Deep)拿到最高分——但此結論受重大利益衝突牽制。

研究二:通用前沿模型全面勝出,且特化臨床工具與免費搜尋摘要無法區分——此為獨立研究,可信度較高。

研究二對機轉的推論是:前沿模型受惠於更大的訓練語料、更快的迭代、更充分的對齊,在「知識檢索與推理」(大多數醫學問題的本質)上更強;而特化工具的架構、基礎模型與訓練流程不公開,醫療機構難以在缺乏獨立證據下評估其價值與安全。但研究者也保留空間:高度次專科任務仍可能偏好精細的領域特定調適,且未來規模化報酬若遞減,特化調校的相對價值可能回升。

5.4 模型世代與時間點的影響


兩篇研究不在同一時間、也不在同一模型世代,這是解讀分歧時必須校正的變項:

研究一(2025 年 6–9 月)所測的 ChatGPT,為當時該產品版本(原文未標示具體模型代號,故本文不臆測),且未把 Gemini 與 Claude 列為獨立受評對象。

研究二(2025 末–2026 初)所測的是更新一代的前沿模型(GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6)。

更新世代的前沿模型能力顯著提升,這本身就部分解釋了研究二中前沿模型的全面領先。兩篇研究都明白表示結論是「快速演變領域的快照」,不宜當作永久排序。

5.5 兩篇研究的共識

儘管立場與結論不同,兩篇研究在方法層面高度一致地指向同一結論:

單看正確率(如 MedQA/選擇題)不足以反映臨床適用性;必須採用多維度評估(涵蓋安全、偏見、完整性、清晰度、引用、情境適切等)。

靜態題庫有其侷限(缺乏情境真實性、易受幻覺與資料污染影響),須以真實/情境化的臨床評估與專家盲性判讀補足。

醫學 AI 工具進入臨床前,亟需獨立、可重複、貼近真實任務的評估


六、對臨床實務與決策的啟示


1. 不要假設「醫療專用」就等於「更可靠」。 在最具代表性的真實查詢測試中,兩款特化臨床工具並未勝過通用前沿模型,甚至與免費搜尋摘要無法區分。採購與導入決策應要求獨立、真實任務的證據,而非僅憑「為臨床打造」的行銷定位。
2. 正確率高 ≠ 可直接臨床使用。 模型在 MedQA 動輒 90% 以上,但真實查詢的臨床品質、完整性與清晰度才是決定可用性的關鍵;UpToDate 在真實查詢的高拒答率(19%)即是「分數之外」的實務障礙。
3. 引用的存在不能取代臨床查證。 附上真實文獻可降低幻覺式引用,但不保證論點正確或引用切題;使用者仍須核對來源是否確實支持結論。
4. 速度與深度需依場景取捨。 深度/檢索模式更完整但可能等待數分鐘;門診即時決策與學術研究的最佳選擇可能不同。
5. 特定族群與在地化風險。 研究一顯示小兒科等訓練資料較少的領域表現較弱;研究二的真實查詢來自單一美國機構。在台灣等不同醫療體系、不同語言與在地指引下使用前,在地驗證不可省略。
6. 利益關係必須納入證據評讀。 研究一由受評工具的開發公司主導、且自家產品奪冠;研究二亦有作者揭露與表現最佳模型廠商的顧問關係。評讀任何「某模型最佳」的結論時,都應檢視誰做的研究、誰出的錢、用誰的基準。
7. 人類專業監督仍是底線。 兩篇研究皆把臨床醫師判斷作為金標準,而非以 AI 取代之;AI 適合作為輔助,最終臨床決策與責任仍應由專業人員承擔。


七、重要限制與閱讀提醒


兩篇皆有利益衝突需揭露:研究一為內部評估(受評方主導、出資),其「自家深度模式最佳」之結論須高度保留;研究二有作者揭露 Google 顧問關係,而 Google 模型在兩項測試奪冠。

樣本與代表性:研究一僅 4 則情境、4 專科;研究二的真實查詢來自單一美國醫學中心。兩者的分層/專科結論都應審慎看待,對台灣與非英語情境的可推論性有限。

評估工具未經獨立效度驗證(研究一自陳);部分基準存在資料污染與開發者重疊風險(研究二自陳)。

未測面向:研究二未評估延遲與引用品質;研究一未評估引用是否切題。兩者合看才較完整。

快照性質:模型世代快速更迭,本文所列任何排序皆為特定時間點的結果,不應視為長期定論。

八、結論


把兩篇研究放在一起閱讀,可得出三個層次分明的結論:

方法層次:醫學 AI 的評估正從「單一正確率」走向「多維度、情境化、由專家盲性判讀」的框架;真實臨床查詢+盲性醫師評分(RCQ)是目前最可信的真實諮詢代理指標。

結果層次:在這個最具代表性的情境下,三款通用前沿模型(Gemini 3.1 Pro、GPT-5.2、Claude Opus 4.6)一致且明顯地優於兩款特化臨床工具(OpenEvidence、UpToDate),且後者與免費搜尋摘要難以區分;安全性(有害、幻覺)在各模型間則無顯著差異、且整體偏低。

實務層次:高正確率不等於可直接臨床使用,附引用不等於答案正確,「醫療專用」不等於更可靠;任何導入都需要獨立證據、在地驗證與人類專業監督,並把研究背後的利益關係納入評讀。

對臨床與研究專業人員而言,目前較穩健的立場是:將通用前沿模型視為高效的知識檢索與綜整助手,於低敏感任務謹慎使用、於高風險決策保留人類把關,並持續關注這個快速演變領域中後續的獨立評估。