大型語言模型（LLM）

常用模型比較

模型名稱

速度

品質

描述

Claude 3.7 Sonnet

較慢

良好

預設模型。擅長遵循角色指令與邏輯推理，極少產生幻覺。適用於大部分場景。

Claude 3.5 Sonnet

性能強但略低於 3.7，已超越 GPT-3.5 / Gemini Flash

o3-mini-high

最慢

最好

o3系列模型擅長深層邏輯推理與執行高複雜度任務。用於解決其他模型無法回答的高難度問題，或需要深入推理與分析的情境。high/medium/low代表思考深度，會影響回答精細度及速度。

GPT-4o

中等

良好

品質與速度平衡之選。在生成結構化資料（如 JSON）方面表現出色，邏輯能力略遜 Claude 3.7 Sonnet。

GPT-4o mini

快

中等

能力及速度皆稍遜於 Gemini 2.5 Flash 的低延遲模型。

Gemini 2.5 Flash

快

中等

能力最強的低延遲模型，日常任務的首選。

Gemini 2.5 Pro

慢

最好

綜合能力最強的模型，能力略優於 Claude 3.7 Sonnet，適用於大部分場景。

GPT-4.1

中等

良好

GPT-4o的升級版，能力上全方位提升，但速度略有下降。

GPT-4.1-mini

快

中等

GPT-4o-mini的升級版，能力上全方位提升。

o4-mini

最慢

最好

o4系列模型擅長深層邏輯推理與執行高複雜度任務。用於解決其他模型無法回答的高難度問題，或需要深入推理與分析的情境。

一、Claude 系列（Anthropic）

Claude 3.7 Sonnet：Anthropic 最新的「混合推理」模型，強調在數學、法律、金融等領域的深度推理能力，並推出了 Claude Code 工具，支援代理式編碼協作。
Claude 3.5 Sonnet：前一代模型，推理能力略遜於 3.7，適合一般應用場景。

模型總覽與比較

能力項目

🏆 Claude 3.7 Sonnet

Claude 3.5 Sonnet

推理能力

更強，特別在數學、邏輯、法律推理上表現佳

良好，略遜於 3.7，但仍穩定

編碼能力

整合了 Claude Code 模組，擅長大型程式結構生成與除錯

具備基礎編碼能力，但不具 Claude Code 整合

文本摘要與理解

更精確，能自動歸納語義與細節差異

準確率高但精細度略低

學術與技術領域表現

擅長專業寫作與技術討論，媲美 GPT-4o

能勝任一般學術應用，但少許誤差

引導式問答

表現穩定、具邏輯性

可用但偶有指令誤解

二、OpenAI 系列（GPT-4o / o 系列）

GPT-4o / o3 / o4-mini：o3 是 OpenAI 最先進的推理模型，支援圖像推理、網頁瀏覽、Python 執行等功能；o4-mini 則為輕量化版本，具速度效益。
GPT-4.1 / mini / nano：GPT-4.1 系列在編碼能力上有所提升，mini 與 nano 版本提供不同的效能選擇，適合根據需求進行部署。

模型總覽與比較

模型名稱

推論速度

適用場景說明

🏆 GPT-4o

快速

高階聊天機器人、多模態任務、創意寫作、語音助手

🏆 GPT-4o mini

非常快

助理型應用、教育、快速回答與文字視覺結合任務

GPT-4o mini 2024-07-18

非常快

更新版，強化視覺理解，適合行動裝置或即時反應場景

GPT-4o mini (Azure)

非常快

雲端服務整合與 API 部署應用

GPT-4o (Azure)

快速

與 GPT-4o 同，但適用於企業部署與自定義應用

🏆 GPT-4.1

中等

進階文字理解、邏輯推理、知識推廣

🏆 GPT-4.1-mini

快速

文本摘要、文書處理、自動生成內容

GPT-4.1-nano

超快

嵌入式系統、行動裝置、即時應答任務

🏆 o4-mini

超快

IoT、智慧眼鏡、語音+視覺快速判讀應用

🏆 o3-mini-high

快速

較複雜推理、語言模型實驗、學生/開發者測試

o3-mini-medium

快速

輕量應用與教育領域使用

o3-mini-low

超快

極低延遲要求，如回應聊天、推播推薦等

o1-mini-2024-09-12

超快

API 負載大場景、常駐後台應用

模型選擇建議

高效能多模態應用：選擇 GPT-4o 或 GPT-4.1，具備強大的推理能力和多模態支援。
對延遲敏感的應用：選擇 GPT-4.1-nano，適合需要快速回應的場景。

三、Gemini 系列（Google DeepMind）

Gemini 2.5 Flash / Pro：2.5 Flash 注重推理速度，Pro 版本則提供更高的推理能力與多模態支援，適合需要高效能的應用場景。
Gemini 2.0 Pro(exp) / Flash：2.0 系列為前一代模型，Pro(exp) 為實驗性版本，Flash 版本則強調快速回應能力。

模型總覽與比較

模型名稱

推論速度

適用場景

🏆 Gemini 2.5 Pro

中等偏快

高度準確，適合程式設計、文件理解、數據分析等

🏆 Gemini 2.5 Flash

非常快速

快速回應任務、日常助理型應用

Gemini 2.0 Pro (exp)

中等

研發測試用、部分進階任務

Gemini 2.0 Flash

快速

文本處理、基本 QA、摘要、搜尋建議等

四、DeepSeek 系列（深度求索）

DeepSeek V3：採用 MoE 架構，專注於數學、編碼與中文任務，性能媲美 GPT-4o。
DeepSeek R1 / R1 Distill Llama 70B：R1 為 671B 參數的 MoE 模型，強調推理能力；R1 Distill 為精簡版本，適合資源有限的應用場景。

模型總覽與比較

模型名稱

推論速度

適用場景

DeepSeek R1 (AWS Bedrock)

快速

高階推理任務、企業級應用、API 整合、大型專案支援

DeepSeek V3

非常快

數學推理、程式生成、中文理解與生成、教育平台、AI 教師、研究用途

DeepSeek R1 Distill Llama 70B

快速

成本敏感部署、邊緣設備運行、開發者測試、小型伺服器運行、高效率應用開發

五、Meta LLaMA 系列

LLaMA 3.3 70B / 3.2 90B：Meta 的大型語言模型，支援多語言與多模態輸入，3.3 70B Instruct 版本特別針對對話應用進行優化。
LLaMA3-TAIDE-LX-70B-Chat（國網中心）：由國家網路中心部署，針對中文對話進行優化，適合本地化應用。

模型總覽與比較

模型名稱

推論速度

備註

Meta LLaMA 3.3 70B

非常快速

在 Groq LPU™ 上測試，為目前已知最快的推論速度之一

Meta LLaMA 3.3 70B Instruct

中等偏快

在 Oracle AI Cluster 上單一併發情況下測試，表現穩定

Meta LLaMA 3.2 90B

中等

模型規模較大，推論速度略慢於 70B 版本

Llama3-TAIDE-LX-70B-Chat

尚無公開的推論速度數據

TAIDE-LX-70B-Chat

尚無公開的推論速度數據

六、其他模型

Mistral Large (24.07)：最新版本的大型語言模型，強調推理能力與多模態支援，適合需要高效能的應用場景。
Gemma3 27B (M2 Ultra)：是 Google 推出的高效開源大型語言模型，兼具強大語言理解能力與靈活部署性，適用於多元 AI 應用場景。

Previous權限功能說明 NextRAG 知識庫檢索系統

Last updated 2 months ago