陳世鴻醫師的疼痛解碼: 現在的醫學AI好用嗎？一場讓人意外的對比

作者:陳世鴻

前言

近兩年大型語言模型（large language model, LLM）快速進入臨床知識查詢、文件撰寫與決策支援等場景，但「這些工具是否真的達到醫療專業標準」始終缺乏一致的評估框架。本文整理 2026 年發表的兩篇代表性比較研究，兩者立場與方法互補，恰好可以對照出當前醫學 AI 評比的核心爭點：

• 研究一（《Mayo Clinic Proceedings: Digital Health》）以虛構臨床情境＋專科醫師主觀評分的方式，比較四款「面向使用者」的對話式 AI，強調多維度的實證醫學品質。其最大特點（也是最大警訊）在於：研究由受評工具之一的開發公司主導。

•

• 研究二（《Nature Medicine》，Brief Communication）則是一篇獨立的量化比較，以三階段基準測試把三款前沿通用模型與兩款特化臨床 AI 工具（再加上 Google 搜尋的 AI 摘要作為對照）放在同一標準下評比，並特別建立一個取自真實臨床查詢、且不受訓練資料污染的測試集。

•

兩篇研究的結論方向看似不同，但若拆解其方法、模型世代與利益關係，便能整合出對臨床實務具體可用的洞見。以下逐篇深入，再進行跨研究綜合分析，最後回答一個關鍵問題：哪一種測試情境最能代表真實臨床諮詢，各模型在該情境下表現如何。

兩篇最根本的差異在於「比的是誰」：研究一比較的是四款消費者可直接使用的對話式產品（其中三款屬於以檢索為核心的醫學專用或一般用途介面）；研究二則把通用前沿模型的 API 與特化臨床工具的網頁介面對立比較，並刻意加入「免費的 Google 搜尋 AI 摘要」作為真實世界對照。這個設計差異，是後續所有結論分歧的根源。

二、研究一：四款對話式 AI 的臨床情境評比

2.1 研究設計與受評對象

此研究於 2025 年 6 月 1 日至 9 月 20 日進行，定位為探索性研究，以專科醫師的臨床判斷作為參考標準，不納入任何真實病人層級資料，全部使用虛構且去識別化的案例，倫理上歸類為最小風險。

受評的四款工具，各以其公開的「一般（regular）」模式評估；其中 Arkangel AI 與 ChatGPT 另外加測兩種付費進階模式（分別稱為「Personalized」與「Deep」），因為這些是面向使用者的不同互動模式。組合後共 8 種模型／模式：

• OpenEvidence（一般）

• Medisearch（一般）

• ChatGPT（一般、Personalized、Deep）

• Arkangel AI（一般、Personalized、Deep）

•

研究者強調未做任何系統層級客製化、微調或開發端設定，全部使用預設的使用者端設定。值得注意的是，原文引言提到開發團隊先前以 MedQA 內部驗證宣稱達 90.26% 正確率、優於數個對照基準——但此為該團隊自身的先前研究，在解讀本研究結論時須將此一脈絡納入考量。

2.2 臨床情境與提問設計

由獨立專科醫師自願撰寫四則虛構、不可識別的臨床情境，分別涵蓋骨科、小兒科、婦產科、精神科各一則；撰寫者均具至少 5 年臨床、3 年三級醫療門診經驗。

每則情境搭配 4 道追問，分屬四種題型：

1. 診斷（diagnosis）

2. 臨床處置（clinical management）

3. 研究（research）

4. 一般知識（general knowledge）

提問流程的標準化是本研究方法上的重點：由未參與其他階段的研究者，將情境逐字輸入各工具的標準介面，接著依序輸入預設問題，不做任何迭代修飾、追問或額外提示；每一題都開啟新的對話階段。也就是說，本研究衡量的是「單輪、無互動修正」情境下的直接回答品質——這與真實臨床上醫師會反覆追問、釐清的使用模式並不完全相同，是解讀時的重要前提。

最終形成 4 情境 × 4 題 × 8 種模式 = 128 組問答配對，每組依 8 項標準評分，每專科由 2 名醫師獨立評分。

2.3 評分方式：八項實證醫學標準

研究者參考既有醫學 AI 評估框架（HELM 系列與 HealthBench）自行設計 8 項評分標準，每項以 6 點 Likert 量表評分（1＝非常不滿意、5＝非常滿意、6＝不適用）。分析時將 4–5 分歸為「滿意」、1–2 分歸為「不滿意」，中性與不適用另行處理。八項標準為：

1. 正確性：回答資訊正確

2. 與共識一致：符合醫學／科學共識

3. 無偏見：未偏向特定人口族群

4. 不違反照護標準：未推薦非標準照護的處置或藥物

5. 時效性：資訊為最新

6. 病人安全：不致對病人生命或完整性造成危害風險

7. 參考文獻真實性：所引文獻確實連結到真實來源

8. 情境適切性：未推薦來源國不可得的處置或藥物

特別說明：第 7 項（文獻真實性）僅判斷文獻是否對應到可驗證的真實來源（如同儕審查期刊、政府網站、專業組織），用以偵測「幻覺式（虛構）引用」，不評估所引來源的品質；未提供引用時則選「不適用」。研究者亦坦言，此評分工具未經獨立效度驗證，僅作為支持專家判斷的結構化框架，而非已驗證的測量工具。

評分者間／內信度以線性混合效應模型分析，並以 Kruskal–Wallis 檢定搭配 Dwass–Steel–Critchlow–Fligner 事後校正進行組間比較。

2.4 反應時間：速度與深度的權衡

研究記錄兩個時間點：自送出問題到「開始回應」（T1）與到「完成回應」（T2）。各模式的完成時間中位數（T2）如圖二

組間差異具統計顯著性（Wilcoxon，P<.05）。核心發現是：高品質模式與較長延遲相伴——深度模式提供更完整、有引用的回答，但運算與等待成本顯著上升，呈現典型的「速度—品質權衡」。研究者也指出，日常實務可能偏好快速互動，學術或研究情境則可接受較長延遲以換取深度。

2.5 品質與效度：各模型的整體與分項表現

事後分析顯示，Arkangel AI-Deep 與其餘多數模式（包含自家其他模式）皆有顯著差異；Medisearch 則與多個高分模式有顯著落差。須留意：分數最高者正是主導本研究的公司產品，這一點在後文「利益衝突」段落會進一步申論。

各項標準的滿意度（%）整理如下（每格為該模式在該標準的滿意比例）：

從分項可讀出各模型的原始優劣勢：

• Arkangel AI-Deep：正確性、共識、時效性、文獻真實性皆達 100%，是全表最均衡者；相對較弱的是「不違反照護標準」（75%）。在婦產科、精神科及處置與研究類題型表現較佳。

• OpenEvidence：在時效性與文獻真實性皆達 100%，但照護標準（62.5%）與病人安全（68.8%）相對偏低；在婦產科與處置類題型較佳。

• ChatGPT-Personalized：正確性、共識、病人安全皆達 100%，情境適切性也高（93.8%），但文獻真實性為 0%——幾乎總是省略引用。

• ChatGPT-Deep：正確性與共識滿分，文獻真實性回升至 75%，但病人安全（68.8%）較同組其他模式低。

• ChatGPT-Regular：正確性與共識滿分，但文獻真實性僅 6.3%、無偏見較低（75%）。

• Arkangel AI-Personalized：正確性與共識滿分、無偏見高，但文獻真實性僅 31.3%（此處原文內文與表格對該模式文獻面向的描述略有出入，建議以表格數值為準）。

• Medisearch：在無偏見、病人安全、文獻真實性相對較佳，但正確性僅 62.5%、多數其他標準偏低，整體墊底；在精神科、骨科及一般知識／處置類題型較佳。

整體而言，正確性與共識是所有模型普遍表現最好的兩項，反映 LLM 擅長檢索與綜整既有資訊；變異最大的是文獻真實性、偏見與病人安全。

2.6 參考文獻真實性與「幻覺」問題

此研究最具實務意義的發現之一，是引用行為與品質、幻覺率的強相關：

• 系統性提供引用的模式（Arkangel AI-Deep、OpenEvidence、ChatGPT-Deep）在文獻真實性達 100% 滿意、且未出現幻覺式引用。

•

• 經常省略引用的模式則出現最高的不滿意與幻覺率：ChatGPT-Regular 達 93.8%（120/128）、ChatGPT-Personalized 達 75%（96/128）。

研究者據此主張：書目佐證是回答「被感知品質」的關鍵，並凸顯針對「來源真實性」進行專門評估的必要。需提醒的是，此標準僅驗證引用是否真實存在，並未評估引用是否切題、是否支持該論點——這一點在與研究二對照時尤其重要。

2.7 專科別與題型別差異

• 專科別：婦產科與骨科滿意度顯著高於小兒科（P<.001）；精神科與婦產科、骨科無顯著差異。小兒科最低，尤其在無偏見、照護標準、病人安全三項。研究者推測與小兒族群訓練資料相對不足有關，並呼籲在代表性不足的領域進行專科特定評估。

• 題型別：差異亦顯著（Kruskal–Wallis，P=.007）。臨床處置類得分最高，研究類高於診斷類；診斷與一般知識類最低。這顯示模型較擅長綜整「可操作的實務建議」（如臨床指引），而在處理「診斷不確定性」時相對吃力。

變異分析顯示，可歸因於個別評分者的變異偏低，支持評分結果的可靠性；全域模型確認各模式間表現有顯著差異，其中 Arkangel AI-Deep 與 OpenEvidence 估計值較高、Medisearch 較低。

2.8 關鍵警示：利益衝突

這是閱讀本研究時不可忽略的核心限制：撰寫團隊全部為受評工具之一的員工或關係人，且該工具的創辦人即為公司負責人。研究由該公司出資，因此本質上是一份內部評估。研究者也在文中明確承認，這可能在評分標準選擇、比較結果詮釋、結果框架等面向引入偏誤。

為降低風險，研究採取多項保護措施：所有臨床評分由與該公司無關、且對工具身分與互動模式皆盲性的外部專科醫師執行；採用完全標準化、透明的方法；並公開全部評估資料、提示與評分。即便如此，研究者承認內部評估固有的殘餘偏誤無法完全排除，並鼓勵由獨立團隊進行重複驗證。

換言之——這份研究在「自家深度模式拿到最高分」這一結論上，需以高度保留的態度看待；但其在方法層面的貢獻（多維度標準、引用真實性的量化、專科與題型分層）仍具參考價值。

三、研究二：前沿模型與特化臨床工具的三階段對決

3.1 研究設計：三階段評估架構

此研究是一篇獨立的量化比較，受評對象分三類：

• 前沿通用 LLM（透過 API）：GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6

• 特化臨床 AI 工具（透過網頁介面）：OpenEvidence、UpToDate Expert AI

• 真實世界對照：Google 搜尋 AI 摘要（Google AI Overview，僅在第三階段加入）

前沿模型以固定、可重現的參數產生回答（溫度＝0、固定隨機種子、開啟搜尋工具）；特化工具因無公開 API，僅能以瀏覽器手動查詢——這個不對稱性本身也構成一項限制

評估分三階段：

1. MedQA：500 題美國醫師執照考試（USMLE）風格選擇題，測醫學知識。

2. HealthBench：500 道單輪題目，測與臨床醫師的一致性。

3. RCQ（Real Clinical Queries，真實臨床查詢）：100 則來自真實臨床環境、physician 在例行照護中向一個符合 HIPAA 規範之 GPT 實例所提出的去識別化查詢。

RCQ 階段由 12 名美國臨床醫師進行隨機、盲性評分，產生 1,800 筆模型—題目註記。整體分析橫跨選擇題推理、專家臨床判斷與日常臨床使用三個層次。

3.2 第一階段 MedQA：醫學知識

Gemini 顯著優於其他所有模型（對 OpenEvidence、UpToDate、Claude 之 McNemar P<1×10⁻⁴；對 GPT P=0.02）；GPT 亦顯著優於 OpenEvidence、UpToDate 與 Claude。三款前沿模型全數高於兩款特化臨床工具。

3.3 第二階段 HealthBench：與臨床醫師的一致性

HealthBench 回答由三款 LLM 評審（Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.2）以多數決方式評分，分數反映達成的評分要點比例（0–100）。

GPT 顯著優於其他所有模型（Wilcoxon P<10⁻⁹），兩款特化工具之間則無顯著差異（P=0.6）。在主題層級分析中，GPT 在全部 7 個類別皆排名第一或並列第一，而 OpenEvidence 與 UpToDate 在全部 7 個類別皆排名最低或並列最低，與 GPT 的差異在 7 類中有 6 類顯著（唯一例外為「在不確定下回應」，P=1.00）。

須特別留意的脈絡：HealthBench 由 OpenAI 開發，而本階段最高分者 GPT-5.2 亦為 OpenAI 產品，可能存在基準—開發者重疊（訓練資料、最佳化目標或評分設計上的潛在相似）。研究者因此明確將此階段定位為「輔助性」證據，並以第三階段（RCQ）的盲性臨床評分作為主要證據。

3.4 第三階段 RCQ：真實臨床查詢

這是本研究最具方法學分量、也最貼近真實臨床諮詢的部分。研究者自 NYU Langone 符合 HIPAA 規範之 GPT 實例抽取 100 則去識別化的臨床醫師查詢，分別送入 6 個模型；12 名盲性臨床醫師依四維度（臨床正確性、完整性、安全／避免傷害、清晰度）以 1–4 分評分，並對「是否含有害內容」「是否幻覺」做二元標記。每一題—模型配對由 3 名評分者評分。排除 32 個拒答後，剩 568 筆回應、1,704 筆評分。

整體聚合分數呈現明確的「兩層級」結構（Friedman P<10⁻⁹）：

層內無顯著差異，所有顯著差異都發生在「跨層」之間（rank-biserial r = 0.5–0.9），意即前沿模型在多數「個別題目」上勝出，而非僅是平均值高。校正評分者寬鬆度後，特化臨床工具（含 Google AI）獲得較高評分的勝算比 Gemini 低 49–87%（OR 0.13–0.51，皆 P<0.0001）；於線性混合模型中相當於在 1–4 量尺上低 0.36–0.44 分。

一個對採購決策極具衝擊的發現：免費的 Google 搜尋 AI 摘要在所有維度上的表現等同或優於 OpenEvidence 與 UpToDate——也就是說，這兩款「特化」臨床工具，在真實查詢上並未勝過一個免費的一般搜尋摘要功能。

維度層級（Fig. 2d）：兩層結構在四個維度皆成立。模型間差異最大者為清晰度（Kendall's W = 0.292）、最小者為臨床正確性（W = 0.141）。其中 OpenEvidence 在清晰度最低（平均 2.84），顯示其弱點在於溝通與組織，而非知識本身。質性註記指出，不完整的臨床內容、攸關安全的遺漏、組織混亂的回答，在 OpenEvidence 與 Google AI 摘要尤為常見。

評分者一致性：12 名臨床醫師對模型排序高度一致（Kendall's W = 0.651，P=2.3×10⁻⁷），一致將前沿模型排在特化工具之上。題目層級的評分者一致性雖屬「尚可」（Krippendorff's α 約 0.10–0.20），但分歧多落在相鄰分數之間（±1 分內一致達 89–95%）；若簡化為「可接受（3–4）vs 不可接受（1–2）」則一致性更高；安全標記的一致性很高。

3.5 安全性、拒答率與錯誤類型

UpToDate 的高拒答率，意味在真實臨床查詢中有近五分之一的問題無法獲得可用回答，對工作流程整合是實質障礙。

安全結果：各模型在有害內容與幻覺比例上均無統計顯著差異（有害：Cochran's Q=4.00，P=0.55；幻覺：Q=5.00，P=0.42）。具體比例如下（皆屬低值且差異不顯著）：

• 有害回應：Claude Opus 4.6 為 3.0%、UpToDate 2.5%、OpenEvidence 1.0%，其餘為 0%。

• 幻覺回應：Google AI 1.1%、Gemini 1.0%、OpenEvidence 1.0%，其餘為 0%。

為求客觀須如實指出：在此真實查詢測試中，Claude Opus 4.6 的有害回應比例（3.0%）為各模型中最高，惟差異未達統計顯著；同時 Claude 在整體聚合分數上仍與 GPT、Gemini 同屬第一層級。安全面向的小樣本差異不宜過度詮釋。

錯誤類型（Extended Data Table 1）：研究者把低分回應的評分者註記歸納為錯誤類型，各模型的註記式錯誤總數為——Gemini 8（最少）、Claude 19、UpToDate 20、GPT 21、Google AI 33、OpenEvidence 52（最多）。OpenEvidence 的錯誤集中在「不完整的臨床內容（15）」「攸關安全的遺漏（12）」與「組織混亂（13）」；Google AI 摘要則以「事實錯誤（7）」相對突出。此為質性歸納（基於有留言的低分回應），非窮盡統計，但與量化結果方向一致。

3.6 成本比較

研究者提醒：按 token 計費與訂閱制無法直接換算每次查詢成本，且 API 報價未含推理 token、搜尋附加費或快取折扣。此表的價值在於凸顯——價格最高的並不必然是表現最好的，採購時須將「表現／成本／工作流程整合」三者一併評估。

3.7 方法學優勢與限制

優勢：這是少見的獨立比較，且 RCQ 取自真實臨床查詢、由多名盲性醫師評分、不受訓練資料污染。

限制（研究者自陳）：

1. 特化工具無公開 API，僅能以瀏覽器查詢，可能在隱藏提示、檢索行為、輸出格式上造成差異，並限制樣本數。

2. 資料污染：MedQA／HealthBench 等公開基準，模型在訓練時可能已接觸；惟 RCQ 不受此污染。

3. HealthBench 為 OpenAI 開發，GPT 可能因基準—開發者重疊而受惠；故 HealthBench 僅作輔助證據。

4. 評分偏誤：前沿模型同時擔任「受評者」與「評審」（在 HealthBench 階段），雖以多模型評審面板緩解，仍須留意。

5. 未評估反應延遲與引用品質——而這兩者對真實部署與工作流程整合至關重要（這恰好是研究一著墨之處）。

6. 利益揭露：通訊作者之一揭露與 Google 有顧問關係，而在 MedQA 與 RCQ 表現最佳者為 Google 的 Gemini；此關係雖已揭露，解讀時仍宜納入考量。

研究者並未把結論視為「方法路線的永久排序」，而是快速演變領域中的一個快照；並指出若規模化報酬遞減，領域特定調校、精選檢索與「人在迴路」最佳化的相對價值可能上升，且高度次專科的醫療任務仍可能偏好更精細的領域特定調適。

四、哪一種情境最能代表「真實臨床諮詢」？

這是本次整理最核心的問題。綜合兩篇研究，最能代表真實臨床專業諮詢的測試情境，是研究二的 RCQ（真實臨床查詢）基準，理由有四：

1. 查詢本身是真的——取自臨床醫師在例行照護中實際向 LLM 提出的問題，而非研究者預設的人造題目；

2. 不受訓練資料污染——與 MedQA／HealthBench 不同，RCQ 的內容不可能事先被模型「背過」；

3. 由多名盲性臨床醫師評分且一致性高（12 名醫師，排序一致性 Kendall's W = 0.651）；

4. 研究者本身即將其指定為「主要證據」，並刻意把可能偏向特定開發者的 HealthBench 降級為輔助。

在這個最具代表性的情境下，各模型表現如下（再次列出 RCQ 聚合分）：

• 第一層（彼此無顯著差異）：Gemini 3.1 Pro（3.62）、GPT-5.2（3.54）、Claude Opus 4.6（3.52）。

• 第二層（彼此無顯著差異）：Google AI Overview（3.27）、OpenEvidence（3.24）、UpToDate Expert AI（3.17）。

核心訊息是：在最貼近真實臨床諮詢的測試中，三款通用前沿模型明顯且一致地優於兩款特化臨床工具，而後者甚至與一個免費的一般搜尋 AI 摘要無法區分。

但須加上重要限制，避免過度外推：

• RCQ 僅來自單一美國醫學中心，查詢分布受該機構的 GPT 部署形塑，對其他醫療體系（含台灣）與非英語情境的可推論性有限。

• RCQ 未評估反應延遲與引用品質——這兩者在真實臨床上極為關鍵，而研究一恰恰顯示前沿模型的「深度模式」可能伴隨數分鐘的等待，且部分模式會省略引用。

• 研究一的虛構門診情境雖非真實查詢，但「門診決策支援」本身是常見的真實使用場景；其評分涵蓋了 RCQ 未測的引用真實性與來源國可得性等維度。

因此較完整的結論是：就「整體臨床品質」而言，RCQ 是現有最可信的真實諮詢代理指標，且前沿模型勝出；但就「引用佐證、時效與在地適用性」而言，仍需研究一所強調的維度與在地化驗證來補足。兩種情境並非互相取代，而是互補。

五、跨研究綜合分析

5.1 OpenEvidence 的兩種面貌

OpenEvidence 是唯一同時出現在兩篇研究的工具，但評價迥異：

• 在研究一中，OpenEvidence 整體排名第二（84%），尤其在時效性與文獻真實性皆達 100%。

• 在研究二中，OpenEvidence 落在第二層，且在質性錯誤歸納中錯誤總數最多（52）、清晰度最低，常見攸關安全的遺漏與組織混亂。

這個落差並非矛盾，而是兩種評分重點的自然結果：研究一給「有真實引用」很高的權重，而 OpenEvidence 以檢索為核心、擅長附上真實出處，因而得分高；研究二聚焦「臨床正確性、完整性、安全、清晰度」並以真實查詢測試，OpenEvidence 在這些面向（特別是溝通組織）相對吃力，因而落後。同一工具可以「引用漂亮」卻在「臨床推理與完整性」上較弱——這正是下一點的核心。

5.2 「有引用 ≠ 正確」：參考文獻的弔詭

兩篇研究合起來給出一個對臨床使用者極為實用的提醒：

• 研究一證明：引用的「真實性」可被驗證，且系統性附上真實引用的模式幾乎不出現幻覺式引用——這是好事。

• 但研究一的第 7 項標準只驗證引用是否真實存在，未驗證引用是否切題、是否真正支持該論點；研究二則完全未評估引用品質。

• 研究二同時顯示：以檢索與引用見長的工具（OpenEvidence／UpToDate，很可能採用檢索增強生成 RAG），在真實查詢的臨床品質上反而落後。研究者並引述既有證據指出，當檢索到不相關材料、或基礎模型未能妥善整合時，RAG 可能反而拖累表現。

對臨床的啟示：看到 AI 附上「真實的參考文獻」時，不應將其等同於「答案正確且完整」；引用的存在只是必要條件之一，臨床判斷仍須驗證該引用是否確實支持結論。

5.3 通用 vs. 特化之爭

兩篇研究在「通用 vs. 特化」上的表面結論不同：

• 研究一：自家的特化／檢索型深度模式（Arkangel AI-Deep）拿到最高分——但此結論受重大利益衝突牽制。

• 研究二：通用前沿模型全面勝出，且特化臨床工具與免費搜尋摘要無法區分——此為獨立研究，可信度較高。

研究二對機轉的推論是：前沿模型受惠於更大的訓練語料、更快的迭代、更充分的對齊，在「知識檢索與推理」（大多數醫學問題的本質）上更強；而特化工具的架構、基礎模型與訓練流程不公開，醫療機構難以在缺乏獨立證據下評估其價值與安全。但研究者也保留空間：高度次專科任務仍可能偏好精細的領域特定調適，且未來規模化報酬若遞減，特化調校的相對價值可能回升。

5.4 模型世代與時間點的影響

兩篇研究不在同一時間、也不在同一模型世代，這是解讀分歧時必須校正的變項：

• 研究一（2025 年 6–9 月）所測的 ChatGPT，為當時該產品版本（原文未標示具體模型代號，故本文不臆測），且未把 Gemini 與 Claude 列為獨立受評對象。

• 研究二（2025 末–2026 初）所測的是更新一代的前沿模型（GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6）。

更新世代的前沿模型能力顯著提升，這本身就部分解釋了研究二中前沿模型的全面領先。兩篇研究都明白表示結論是「快速演變領域的快照」，不宜當作永久排序。

5.5 兩篇研究的共識

儘管立場與結論不同，兩篇研究在方法層面高度一致地指向同一結論：

• 單看正確率（如 MedQA／選擇題）不足以反映臨床適用性；必須採用多維度評估（涵蓋安全、偏見、完整性、清晰度、引用、情境適切等）。

• 靜態題庫有其侷限（缺乏情境真實性、易受幻覺與資料污染影響），須以真實／情境化的臨床評估與專家盲性判讀補足。

• 醫學 AI 工具進入臨床前，亟需獨立、可重複、貼近真實任務的評估

六、對臨床實務與決策的啟示

1. 不要假設「醫療專用」就等於「更可靠」。在最具代表性的真實查詢測試中，兩款特化臨床工具並未勝過通用前沿模型，甚至與免費搜尋摘要無法區分。採購與導入決策應要求獨立、真實任務的證據，而非僅憑「為臨床打造」的行銷定位。

2. 正確率高 ≠ 可直接臨床使用。模型在 MedQA 動輒 90% 以上，但真實查詢的臨床品質、完整性與清晰度才是決定可用性的關鍵；UpToDate 在真實查詢的高拒答率（19%）即是「分數之外」的實務障礙。

3. 引用的存在不能取代臨床查證。附上真實文獻可降低幻覺式引用，但不保證論點正確或引用切題；使用者仍須核對來源是否確實支持結論。

4. 速度與深度需依場景取捨。深度／檢索模式更完整但可能等待數分鐘；門診即時決策與學術研究的最佳選擇可能不同。

5. 特定族群與在地化風險。研究一顯示小兒科等訓練資料較少的領域表現較弱；研究二的真實查詢來自單一美國機構。在台灣等不同醫療體系、不同語言與在地指引下使用前，在地驗證不可省略。

6. 利益關係必須納入證據評讀。研究一由受評工具的開發公司主導、且自家產品奪冠；研究二亦有作者揭露與表現最佳模型廠商的顧問關係。評讀任何「某模型最佳」的結論時，都應檢視誰做的研究、誰出的錢、用誰的基準。

7. 人類專業監督仍是底線。兩篇研究皆把臨床醫師判斷作為金標準，而非以 AI 取代之；AI 適合作為輔助，最終臨床決策與責任仍應由專業人員承擔。

七、重要限制與閱讀提醒

• 兩篇皆有利益衝突需揭露：研究一為內部評估（受評方主導、出資），其「自家深度模式最佳」之結論須高度保留；研究二有作者揭露 Google 顧問關係，而 Google 模型在兩項測試奪冠。

• 樣本與代表性：研究一僅 4 則情境、4 專科；研究二的真實查詢來自單一美國醫學中心。兩者的分層／專科結論都應審慎看待，對台灣與非英語情境的可推論性有限。

• 評估工具未經獨立效度驗證（研究一自陳）；部分基準存在資料污染與開發者重疊風險（研究二自陳）。

• 未測面向：研究二未評估延遲與引用品質；研究一未評估引用是否切題。兩者合看才較完整。

• 快照性質：模型世代快速更迭，本文所列任何排序皆為特定時間點的結果，不應視為長期定論。

八、結論

把兩篇研究放在一起閱讀，可得出三個層次分明的結論：

• 方法層次：醫學 AI 的評估正從「單一正確率」走向「多維度、情境化、由專家盲性判讀」的框架；真實臨床查詢＋盲性醫師評分（RCQ）是目前最可信的真實諮詢代理指標。

• 結果層次：在這個最具代表性的情境下，三款通用前沿模型（Gemini 3.1 Pro、GPT-5.2、Claude Opus 4.6）一致且明顯地優於兩款特化臨床工具（OpenEvidence、UpToDate），且後者與免費搜尋摘要難以區分；安全性（有害、幻覺）在各模型間則無顯著差異、且整體偏低。

• 實務層次：高正確率不等於可直接臨床使用，附引用不等於答案正確，「醫療專用」不等於更可靠；任何導入都需要獨立證據、在地驗證與人類專業監督，並把研究背後的利益關係納入評讀。

對臨床與研究專業人員而言，目前較穩健的立場是：將通用前沿模型視為高效的知識檢索與綜整助手，於低敏感任務謹慎使用、於高風險決策保留人類把關，並持續關注這個快速演變領域中後續的獨立評估。

我參考了什麼

General-purpose large language models outperform specialized clinical AI tools on medical benchmarks

Are They Objectively up to Medical Standards? A Real-Life Assessment of LLM Chatbots in Health Care

headline

2026年6月30日星期二

現在的醫學AI好用嗎？一場讓人意外的對比