回覆評估與監測結果
評估指標
誠實性評分(Faithfulness):評估 AI 回答是否根據提取的上下文內容,避免捏造或杜撰答案。
回答相關性評分(Answer Relevance):確認回答是否與用戶問題相關,並能有效解決用戶的需求或疑問。
上下文精確度評分(Context Precision):檢查回答中引用的資料是否符合問題需求,並評估 AI 檢索到的內容中,有多少是真正對回答問題有幫助的資訊。
當發現回答品質不佳時,可以從以下幾個角度去釐清原因:
知識庫完整性是否足夠? 如果知識庫本身沒有包含解答所需的資訊,那即使系統檢索能力再強,也可能無法給出正確回答。可以從查詢關鍵字、領域涵蓋度等方面確認知識庫是否需要補充。
RAG 模型檢索是否精準? 檢查系統是否能抓到正確的段落來回答問題。你可以觀察是否有命中「看似關聯但實際無幫助」的內容。這可能與檢索器的設定(如:向量相似度閾值、段落長度、分詞策略)有關。
LLM 是否依據檢索資料回答? 有時即使檢索資料是對的,模型也可能沒有根據它來回答,而是自己「聯想」。這種情況下,可以透過加強提示詞(prompt engineering)或是限制回答範圍來減少「發揮過度」。
使用者輸入是否清楚? 有些錯誤不是系統造成的,而是來自使用者問題本身不清楚、過於籠統、或語意模糊。例如:「請給我說明一下這是什麼」這類問題缺乏上下文,會導致系統無法正確理解。這時可考慮引導使用者輸入更多背景或上下文。
錯誤案例分析 遇到錯誤時,記得保留下列資料以利除錯:
該次的使用者輸入
檢索到的資料段落
模型實際輸出的回答
評估結果與主觀錯誤點註解
Last updated