大型語言模型(LLM)
常用模型比較
Claude 3.7 Sonnet
較慢
良好
預設模型。擅長遵循角色指令與邏輯推理,極少產生幻覺。適用於大部分場景。
Claude 3.5 Sonnet
性能強但略低於 3.7,已超越 GPT-3.5 / Gemini Flash
o3-mini-high
最慢
最好
o3系列模型擅長深層邏輯推理與執行高複雜度任務。用於解決其他模型無法回答的高難度問題,或需要深入推理與分析的情境。high/medium/low代表思考深度,會影響回答精細度及速度。
GPT-4o
中等
良好
品質與速度平衡之選。在生成結構化資料(如 JSON)方面表現出色,邏輯能力略遜 Claude 3.7 Sonnet。
GPT-4o mini
快
中等
能力及速度皆稍遜於 Gemini 2.5 Flash 的低延遲模型。
Gemini 2.5 Flash
快
中等
能力最強的低延遲模型,日常任務的首選。
Gemini 2.5 Pro
慢
最好
綜合能力最強的模型,能力略優於 Claude 3.7 Sonnet,適用於大部分場景。
GPT-4.1
中等
良好
GPT-4o的升級版,能力上全方位提升,但速度略有下降。
GPT-4.1-mini
快
中等
GPT-4o-mini的升級版,能力上全方位提升。
o4-mini
最慢
最好
o4系列模型擅長深層邏輯推理與執行高複雜度任務。用於解決其他模型無法回答的高難度問題,或需要深入推理與分析的情境。
一、Claude 系列(Anthropic)
Claude 3.7 Sonnet:Anthropic 最新的「混合推理」模型,強調在數學、法律、金融等領域的深度推理能力,並推出了 Claude Code 工具,支援代理式編碼協作。
Claude 3.5 Sonnet:前一代模型,推理能力略遜於 3.7,適合一般應用場景。
模型總覽與比較
推理能力
更強,特別在數學、邏輯、法律推理上表現佳
良好,略遜於 3.7,但仍穩定
編碼能力
整合了 Claude Code 模組,擅長大型程式結構生成與除錯
具備基礎編碼能力,但不具 Claude Code 整合
文本摘要與理解
更精確,能自動歸納語義與細節差異
準確率高但精細度略低
學術與技術領域表現
擅長專業寫作與技術討論,媲美 GPT-4o
能勝任一般學術應用,但少許誤差
引導式問答
表現穩定、具邏輯性
可用但偶有指令誤解
二、OpenAI 系列(GPT-4o / o 系列)
GPT-4o / o3 / o4-mini:o3 是 OpenAI 最先進的推理模型,支援圖像推理、網頁瀏覽、Python 執行等功能;o4-mini 則為輕量化版本,具速度效益。
GPT-4.1 / mini / nano:GPT-4.1 系列在編碼能力上有所提升,mini 與 nano 版本提供不同的效能選擇,適合根據需求進行部署。
模型總覽與比較
🏆 GPT-4o
快速
高階聊天機器人、多模態任務、創意寫作、語音助手
🏆 GPT-4o mini
非常快
助理型應用、教育、快速回答與文字視覺結合任務
GPT-4o mini 2024-07-18
非常快
更新版,強化視覺理解,適合行動裝置或即時反應場景
GPT-4o mini (Azure)
非常快
雲端服務整合與 API 部署應用
GPT-4o (Azure)
快速
與 GPT-4o 同,但適用於企業部署與自定義應用
🏆 GPT-4.1
中等
進階文字理解、邏輯推理、知識推廣
🏆 GPT-4.1-mini
快速
文本摘要、文書處理、自動生成內容
GPT-4.1-nano
超快
嵌入式系統、行動裝置、即時應答任務
🏆 o4-mini
超快
IoT、智慧眼鏡、語音+視覺快速判讀應用
🏆 o3-mini-high
快速
較複雜推理、語言模型實驗、學生/開發者測試
o3-mini-medium
快速
輕量應用與教育領域使用
o3-mini-low
超快
極低延遲要求,如回應聊天、推播推薦等
o1-mini-2024-09-12
超快
API 負載大場景、常駐後台應用
三、Gemini 系列(Google DeepMind)
Gemini 2.5 Flash / Pro:2.5 Flash 注重推理速度,Pro 版本則提供更高的推理能力與多模態支援,適合需要高效能的應用場景。
Gemini 2.0 Pro(exp) / Flash:2.0 系列為前一代模型,Pro(exp) 為實驗性版本,Flash 版本則強調快速回應能力。
模型總覽與比較
🏆 Gemini 2.5 Pro
中等偏快
高度準確,適合程式設計、文件理解、數據分析等
🏆 Gemini 2.5 Flash
非常快速
快速回應任務、日常助理型應用
Gemini 2.0 Pro (exp)
中等
研發測試用、部分進階任務
Gemini 2.0 Flash
快速
文本處理、基本 QA、摘要、搜尋建議等
四、DeepSeek 系列(深度求索)
DeepSeek V3:採用 MoE 架構,專注於數學、編碼與中文任務,性能媲美 GPT-4o。
DeepSeek R1 / R1 Distill Llama 70B:R1 為 671B 參數的 MoE 模型,強調推理能力;R1 Distill 為精簡版本,適合資源有限的應用場景。
模型總覽與比較
DeepSeek R1 (AWS Bedrock)
快速
高階推理任務、企業級應用、API 整合、大型專案支援
DeepSeek V3
非常快
數學推理、程式生成、中文理解與生成、教育平台、AI 教師、研究用途
DeepSeek R1 Distill Llama 70B
快速
成本敏感部署、邊緣設備運行、開發者測試、小型伺服器運行、高效率應用開發
五、Meta LLaMA 系列
LLaMA 3.3 70B / 3.2 90B:Meta 的大型語言模型,支援多語言與多模態輸入,3.3 70B Instruct 版本特別針對對話應用進行優化。
LLaMA3-TAIDE-LX-70B-Chat(國網中心):由國家網路中心部署,針對中文對話進行優化,適合本地化應用。
模型總覽與比較
Meta LLaMA 3.3 70B
非常快速
在 Groq LPU™ 上測試,為目前已知最快的推論速度之一
Meta LLaMA 3.3 70B Instruct
中等偏快
在 Oracle AI Cluster 上單一併發情況下測試,表現穩定
Meta LLaMA 3.2 90B
中等
模型規模較大,推論速度略慢於 70B 版本
Llama3-TAIDE-LX-70B-Chat
尚無公開的推論速度數據
TAIDE-LX-70B-Chat
尚無公開的推論速度數據
六、其他模型
Mistral Large (24.07):最新版本的大型語言模型,強調推理能力與多模態支援,適合需要高效能的應用場景。
Gemma3 27B (M2 Ultra):是 Google 推出的高效開源大型語言模型,兼具強大語言理解能力與靈活部署性,適用於多元 AI 應用場景。
Last updated