githubEdit

comment-nodes選擇大型語言模型(LLM)

大型語言模型(Large Language Model,LLM)是 AI 助理的核心運算引擎,決定了它理解問題的深度、生成回應的品質,以及處理複雜任務的能力。不同模型在速度、推理能力與成本之間各有取捨,選擇適合的模型,是讓 AI 助理真正發揮效益的關鍵第一步。

常用模型比較

模型名稱
速度
品質
適用情境說明

Claude 4.6 Opus

中等

最佳

Anthropic 旗艦。具備思考模式,適合深度文件分析、複雜代理任務與長時間工作流程。

Claude 4.6 Sonnet

中等偏快

優異

效能接近 Opus 4.6 的高性價比選擇,適合大多數日常開發與對話場景。

Claude 4.5 Haiku

最快

良好

平台預設模型。最輕量高效的 Claude 選擇,適合高頻輕量任務與成本敏感型部署。

GPT 5.2

中等

最佳

OpenAI 旗艦,強化推理與多模態理解,適合高難度知識密集任務。

GPT-5

優異

整合自動推理路由,適合一般開發與多元應用場景。

o3

最佳

深度邏輯推理專用,適合複雜數學、科學推理與多步驟分析。

o4-mini (high)

優異

高性價比推理模型,適合需要推理能力又重視速度的場景。

Gemini 3 (Preview)

中等

最佳

Google 最新世代旗艦,適合高複雜度推理與程式設計。

Gemini 2.5 Flash

良好

高效率日常模型,速度與推理能力平衡,適合即時問答與高頻互動。

DeepSeek V3.2 Exp

良好

中文理解與數學推理能力強,成本極具競爭力。

一、Claude 系列(Anthropic)

Claude 系列由 Anthropic 開發,以高度的指令遵循能力、低幻覺率與安全性著稱,是 Xtan 平台的預設推薦系列。目前分為三個規格層級:Haiku(輕量)、Sonnet(均衡)與 Opus(旗艦)。平台透過 AWS Bedrock 串接,所有 Claude 模型上下文視窗均為 200K tokens。

  • Claude 4.6 Opus:Anthropic 的頂級旗艦模型,具備自適應推理(Adaptive Thinking)能力,可根據任務複雜度動態決定推理深度,在長上下文資訊檢索、大型代碼庫分析與複雜代理任務上表現頂尖。支援多模態輸入與思考模式。

  • Claude 4.6 Sonnet:效能接近 Opus 等級的均衡選擇,在程式開發、指令遵循與電腦操控任務上有顯著提升,幻覺率低,適合大多數日常應用場景。支援多模態輸入與思考模式。

  • Claude 4.5 Opus:前一代旗艦模型,在創意寫作與複雜推理任務上仍有優異表現,適合對特定風格或創作質感有需求的場景。支援多模態輸入與思考模式。

  • Claude 4.5 Sonnet:前一代均衡模型,適合一般對話與日常開發任務,是兼顧效能與成本的穩定選擇。支援多模態輸入與思考模式。

  • Claude 4.5 Haiku:平台預設模型。支援多模態輸入,是高頻輕量任務與成本敏感型部署的最佳選擇,適合客服問答、簡單摘要與即時互動等日常場景。

  • Claude 4 Sonnet:第四代 Sonnet 模型,支援多模態輸入,適合需要穩定性與相容性的整合場景。

模型總覽與比較

模型名稱
上下文視窗
多模態
思考模式
適用場景

Claude 4.6 Opus

200K

支援

支援

複雜分析、代理任務、長文件

Claude 4.6 Sonnet

200K

支援

支援

日常開發、一般對話

Claude 4.5 Opus

200K

支援

支援

創意寫作、複雜推理

Claude 4.5 Sonnet

200K

支援

支援

一般對話、日常開發

Claude 4.5 Haiku

200K

支援

不支援

高頻輕量任務(平台預設)

Claude 4 Sonnet

200K

支援

不支援

穩定整合場景


二、OpenAI 系列

OpenAI 提供從快速日常到深度推理的完整模型層級,平台整合了 GPT-5 系列、GPT-4.1 系列、o 系列推理模型,以及開源規格的 GPT-oss 系列,可依任務需求彈性選用。

  • GPT 5.2:OpenAI 旗艦模型,在推理、知識問答與多模態理解上表現全面,支援 400K token 上下文,適合需要高準確度的複雜知識工作。

  • GPT-5.1:GPT-5 系列的穩定版本,支援多模態輸入與 400K token 上下文,適合需要穩定高品質輸出的應用場景。

  • GPT-5:整合自動推理路由,支援多模態輸入與 400K token 上下文,適合一般開發與多元應用場景。

  • GPT-5 mini:輕量版 GPT-5,支援多模態輸入與 400K token 上下文,在速度與成本上更具優勢,適合日常問答與中等複雜度任務。

  • GPT-5 nano:最輕量的 GPT-5 系列,支援多模態輸入與 400K token 上下文,極低延遲設計,適合高吞吐量與即時回應場景。

  • GPT-4.1(OpenAI):在程式編寫與精確指令遵循上專項優化,支援多模態輸入與 1M token 超長上下文,適合大型代碼庫分析與長文件處理任務。

  • GPT-4.1(Azure):與 GPT-4.1 OpenAI 版能力相同,透過 Microsoft Azure 雲端服務提供,支援 1M token 上下文,適合有 Azure 基礎設施整合需求的企業場景。

  • GPT-4.1 mini(OpenAI):GPT-4.1 的輕量版本,支援 1M token 上下文,兼顧能力與速度,適合中高頻率的程式輔助場景。

  • GPT-4.1 mini(Azure):與 GPT-4.1 mini OpenAI 版能力相同,透過 Microsoft Azure 提供,支援多模態輸入與 1M token 上下文,適合 Azure 環境下的輕量整合場景。

  • GPT-4.1 nano(OpenAI):最輕量的 GPT-4.1 系列,支援多模態輸入與 1M token 上下文,適合成本敏感的高頻任務。

  • o3:深度邏輯推理專用模型,支援多模態輸入與 200K token 上下文,適合複雜數學、科學推理與需要精確多步驟分析的高難度任務。

  • o4-mini(high / medium):高性價比推理模型,支援多模態輸入與 200K token 上下文。high 模式提供更深的思考深度,medium 模式在速度與推理品質間取得平衡,適合根據任務難度靈活選擇的場景。

  • o3-mini(high / medium / low):輕量版推理模型,支援 200K token 上下文,三種思考深度設定對應不同的回答精細度與速度需求。

  • GPT-oss 120B(OpenAI Compatible):開源規格的大型模型,支援 131K token 上下文,適合需要大規模語言能力且偏好開放相容介面的場景。

  • GPT-OSS-120B H200(vLLM):同為 120B 規模,透過 vLLM 框架與 H200 硬體加速部署,支援 131K token 上下文,適合對推論速度有較高要求的自建部署場景。

  • GPT-oss 20B(OpenAI Compatible):輕量版開源規格模型,支援 128K token 上下文,適合成本敏感或資源受限的應用情境。

模型總覽與比較

模型名稱
上下文視窗
多模態
適用場景說明

GPT 5.2

400K

支援

高難度知識任務、複雜推理

GPT-5.1

400K

支援

高品質穩定輸出

GPT-5

400K

支援

一般開發、多元應用

GPT-5 mini

400K

支援

日常問答、中等複雜度任務

GPT-5 nano

400K

支援

高吞吐量、即時回應

GPT-4.1(OpenAI)

1M

支援

大型代碼庫、長文件分析

GPT-4.1(Azure)

1M

支援

Azure 環境整合場景

GPT-4.1 mini(OpenAI)

1M

支援

程式輔助、中高頻任務

GPT-4.1 mini(Azure)

1M

支援

Azure 輕量整合場景

GPT-4.1 nano(OpenAI)

1M

支援

成本敏感的高頻任務

o3

200K

支援

複雜數學、科學推理、多步驟分析

o4-mini (high/medium)

200K

支援

高性價比推理、程式任務

o3-mini (high/medium/low)

200K

不支援

彈性推理深度調配

GPT-oss 120B

131K

不支援

大規模開源相容場景

GPT-OSS-120B H200

131K

不支援

高速自建部署場景

GPT-oss 20B

128K

不支援

成本敏感輕量場景


三、Gemini 系列(Google DeepMind)

平台透過 Google Vertex AI 整合 Gemini 模型,涵蓋最新的 Gemini 3 Preview 旗艦與穩定可用的 Gemini 2.5 系列,所有 Gemini 模型均支援 1M token 上下文。

  • Gemini 3(Preview):Google 最新世代旗艦模型,在推理能力、多模態理解與代理任務上有全面升級,適合需要頂尖效能的複雜推理與程式設計場景。

  • Gemini 2.5 Pro:Gemini 2.5 系列的旗艦,支援多模態輸入,在程式設計、資料分析與長上下文理解上表現優異,是高準確度任務的穩定選擇。

  • Gemini 2.5 Flash:高效率日常模型,支援多模態輸入,在速度與推理能力之間取得最佳平衡,適合即時問答、日常助理型應用與高頻互動場景。

  • Gemini 2.5 Flash Lite:成本最低、速度最快的 2.5 系列模型,支援多模態輸入,適合翻譯、分類等高吞吐量、低延遲任務。

模型總覽與比較

模型名稱
上下文視窗
多模態
適用場景

Gemini 3 (Preview)

1M

不支援(截圖未標示)

複雜推理、程式設計、代理任務

Gemini 2.5 Pro

1M

支援

高準確度推理、資料分析、長文件

Gemini 2.5 Flash

1M

支援

即時問答、日常助理、高頻互動

Gemini 2.5 Flash Lite

1M

支援

翻譯、分類、高吞吐量低延遲場景


四、DeepSeek 系列

DeepSeek 是中國深度求索公司推出的開源大型語言模型系列,以極具競爭力的成本提供接近頂級閉源模型的推理能力,在中文理解與數學推理場景上尤為突出。

  • DeepSeek V3.2 Exp:DeepSeek 目前最新的實驗版模型,支援混合推理與工具呼叫整合,適合企業級問答、代理任務與中文密集型應用場景,透過 OpenAI Compatible 介面串接。

  • DeepSeek R1(AWS Bedrock):強調深層邏輯推理的企業級部署版本,透過 AWS Bedrock 提供穩定雲端服務,支援 128K token 上下文,適合需要高可靠性與安全合規的推理任務。

  • DeepSeek R1 Distill Llama 70B:R1 的精簡蒸餾版本,支援 128K token 上下文,在資源受限環境下仍能提供高品質推理輸出,適合成本敏感型部署與開發者測試情境,透過 OpenAI Compatible 介面串接。

模型總覽與比較

模型名稱
上下文視窗
適用場景

DeepSeek V3.2 Exp

未顯示

企業級問答、代理任務、中文與數學場景

DeepSeek R1 (AWS Bedrock)

128K

企業級高可靠推理、安全合規場景

DeepSeek R1 Distill Llama 70B

128K

成本敏感部署、開發者測試


五、Meta LLaMA 系列

Meta 的 LLaMA 系列為目前最具代表性的開源大型語言模型,採用開放權重發布,支援本地部署與自主託管,適合對資料隱私有高度要求的企業場景。

  • Meta Llama 3.3 70B:Meta 主力開源模型,透過 AWS Bedrock 串接,支援 128K token 上下文,適合多語言客服與知識問答場景。

  • Meta Llama 3.2 90B:支援多模態輸入,透過 AWS Bedrock 串接,支援 128K token 上下文,適合需要同時理解圖像與文字的應用場景。

  • Meta Llama 3.1 405B:LLaMA 系列中規模最大的模型,透過 OpenAI Compatible 介面串接,支援 128K token 上下文,具備極高的推理深度,適合需要大規模語言模型能力的研究與企業應用。

  • Llama3 Taiwan 70B(Leda AI):針對繁體中文對話場景進行優化的本地化模型,透過 OpenAI Compatible 介面串接,支援 128K token 上下文,適合台灣在地應用與本地化部署需求。

模型總覽與比較

模型名稱
上下文視窗
多模態
適用場景

Meta Llama 3.3 70B

128K

不支援

多語言對話、知識問答

Meta Llama 3.2 90B

128K

支援

圖文多模態理解

Meta Llama 3.1 405B

128K

不支援

大規模推理、研究與企業應用

Llama3 Taiwan 70B (Leda AI)

128K

不支援

繁體中文場景、本地化應用


六、Qwen 系列(阿里巴巴)

Qwen 系列由阿里巴巴推出,在多語言理解、長上下文處理與代理任務上有優異表現,提供從輕量到旗艦的完整選擇。

  • Qwen3.5 27B(PRO 6000):平台自建 vLLM 部署版本,支援多模態輸入與 300K token 超長上下文,是平台 Qwen 系列中上下文視窗最大的選項,適合長文件分析與複雜推理任務。

  • Qwen3 235B A22B:採用混合專家(MoE)架構的大規模模型,透過 OpenAI Compatible 介面串接,支援 128K token 上下文,適合需要極高推理深度與準確性的複雜任務。

  • Qwen3 32B:均衡規模的旗艦模型,透過 OpenAI Compatible 介面串接,支援 128K token 上下文,在推理、程式生成與多語言理解上表現全面,適合大多數企業級應用場景。

  • Qwen3 32B(Groq):與 Qwen3 32B 能力相同,透過 Groq LPU 加速推論,支援 131K token 上下文,提供更高的回應速度,適合對延遲敏感的高頻場景。

  • Qwen3 8B:輕量高效的小型模型,透過 OpenAI Compatible 介面串接,支援 128K token 上下文,適合成本敏感型的日常任務與快速原型開發。

  • Qwen2.5 VL 72B Instruct:視覺語言(Vision-Language)專用模型,支援多模態輸入與 131K token 上下文,適合需要同時分析圖像與文字的多模態應用場景。

模型總覽與比較

模型名稱
上下文視窗
多模態
適用場景

Qwen3.5 27B (PRO 6000)

300K

支援

超長文件分析、複雜推理

Qwen3 235B A22B

128K

不支援

極高難度推理、企業級應用

Qwen3 32B

128K

不支援

一般企業應用、程式生成

Qwen3 32B (Groq)

131K

不支援

低延遲高頻場景

Qwen3 8B

128K

不支援

成本敏感型日常任務

Qwen2.5 VL 72B Instruct

131K

支援

圖文多模態理解


七、其他模型

  • grok-4.1 fast:xAI 推出,支援多模態輸入與 2M token 超長上下文,在需要極大上下文範圍的長文件分析場景中表現突出,透過 OpenAI Compatible 介面串接。

  • grok-4:xAI 推出,支援 131K token 上下文,適合需要強力推理的一般任務,透過 OpenAI Compatible 介面串接。

  • Mistral Large(24.07):Mistral AI 推出的高效能大型模型,透過 AWS Bedrock 串接,支援 128K token 上下文,強調靈活部署性,適合需要自主管控推論環境的企業場景。

  • Kimi K2(Groq):月之暗面推出的開源混合專家模型,透過 Groq LPU 加速推論,支援 131K token 上下文,在工具呼叫與代理任務上有優異表現,透過 OpenAI Compatible 介面串接。

  • Gemma3 27B:Google 推出的高效開源模型,支援多模態輸入,透過 OpenAI Compatible 介面串接,兼具強大語言理解能力與靈活部署性,適合低成本整合與研究用途。

  • Gemma3 TAIDE 12B Chat(Leda AI):基於 Gemma3 架構、針對繁體中文與台灣在地語境優化的對話模型,透過 Ollama 部署,支援 128K token 上下文,適合台灣本地化應用場景。

  • Gemma-3-TAIDE-12b-Chat(國網中心):由國家高速網路與計算中心部署,透過 OpenAI Compatible 介面串接,支援 8K token 上下文,適合政府機關與公共服務的繁體中文對話應用。

Last updated