回覆評估與監測結果

誠實性評分（Faithfulness）：評估 AI 回答是否根據提取的上下文內容，避免捏造或杜撰答案。
回答相關性評分（Answer Relevance）：確認回答是否與用戶問題相關，並能有效解決用戶的需求或疑問。
上下文精確度評分（Context Precision）：檢查回答中引用的資料是否符合問題需求，並評估 AI 檢索到的內容中，有多少是真正對回答問題有幫助的資訊。

當發現回答品質不佳時，可以從以下幾個角度去釐清原因：

知識庫完整性是否足夠？ 如果知識庫本身沒有包含解答所需的資訊，那即使系統檢索能力再強，也可能無法給出正確回答。可以從查詢關鍵字、領域涵蓋度等方面確認知識庫是否需要補充。
RAG 模型檢索是否精準？ 檢查系統是否能抓到正確的段落來回答問題。你可以觀察是否有命中「看似關聯但實際無幫助」的內容。這可能與檢索器的設定（如：向量相似度閾值、段落長度、分詞策略）有關。
LLM 是否依據檢索資料回答？ 有時即使檢索資料是對的，模型也可能沒有根據它來回答，而是自己「聯想」。這種情況下，可以透過加強提示詞（prompt engineering）或是限制回答範圍來減少「發揮過度」。
使用者輸入是否清楚？ 有些錯誤不是系統造成的，而是來自使用者問題本身不清楚、過於籠統、或語意模糊。例如：「請給我說明一下這是什麼」這類問題缺乏上下文，會導致系統無法正確理解。這時可考慮引導使用者輸入更多背景或上下文。
錯誤案例分析 遇到錯誤時，記得保留下列資料以利除錯：
- 該次的使用者輸入
- 檢索到的資料段落
- 模型實際輸出的回答
- 評估結果與主觀錯誤點註解

Last updated 2 months ago