GeniAltX Documents
GeniAltX Documents
GeniAltX Documents
  • GeniAltX AI 助理平台 使用者手冊
  • 申請與登入
    • 如何申請帳號
    • 如何登入平台
  • AI 助理
    • AI 助理的功能
    • 如何建立 AI 助理
  • 如何建立知識庫
  • 如何建立 FAQ 常見問題
  • 如何使用爬蟲(爬取資料)功能
  • 回覆品質控管
  • 使用分析
  • 無幻覺的生成式 AI 回覆機制
  • 所有對話
    • 所有對話的功能
    • 串接對話平台:網站
    • 串接對話平台:LINE
  • 串接對話平台:FB Messenger
  • 內部問答
    • 內部問答的功能
  • 對話平台
    • 對話平台的功能
    • 設定對話平台
  • 組織權限
    • 組織權限的功能
    • 組織權限設定
    • 權限功能說明
  • 技術人員
    • 大型語言模型(LLM)
    • RAG 知識庫檢索系統
    • 角色指令
    • 資料庫 URL 類型介紹
    • 知識庫
    • FAQ 常見問題管理
    • 爬蟲(Beta)
    • 回覆評估與監測結果
    • 回覆精準度調教
    • 使用分析
Powered by GitBook
On this page
Edit on GitHub
  1. 技術人員

回覆評估與監測結果

評估指標

  1. 誠實性評分(Faithfulness):評估 AI 回答是否根據提取的上下文內容,避免捏造或杜撰答案。

  2. 回答相關性評分(Answer Relevance):確認回答是否與用戶問題相關,並能有效解決用戶的需求或疑問。

  3. 上下文精確度評分(Context Precision):檢查回答中引用的資料是否符合問題需求,並評估 AI 檢索到的內容中,有多少是真正對回答問題有幫助的資訊。

當發現回答品質不佳時,可以從以下幾個角度去釐清原因:

  1. 知識庫完整性是否足夠? 如果知識庫本身沒有包含解答所需的資訊,那即使系統檢索能力再強,也可能無法給出正確回答。可以從查詢關鍵字、領域涵蓋度等方面確認知識庫是否需要補充。

  2. RAG 模型檢索是否精準? 檢查系統是否能抓到正確的段落來回答問題。你可以觀察是否有命中「看似關聯但實際無幫助」的內容。這可能與檢索器的設定(如:向量相似度閾值、段落長度、分詞策略)有關。

  3. LLM 是否依據檢索資料回答? 有時即使檢索資料是對的,模型也可能沒有根據它來回答,而是自己「聯想」。這種情況下,可以透過加強提示詞(prompt engineering)或是限制回答範圍來減少「發揮過度」。

  4. 使用者輸入是否清楚? 有些錯誤不是系統造成的,而是來自使用者問題本身不清楚、過於籠統、或語意模糊。例如:「請給我說明一下這是什麼」這類問題缺乏上下文,會導致系統無法正確理解。這時可考慮引導使用者輸入更多背景或上下文。

  5. 錯誤案例分析 遇到錯誤時,記得保留下列資料以利除錯:

    • 該次的使用者輸入

    • 檢索到的資料段落

    • 模型實際輸出的回答

    • 評估結果與主觀錯誤點註解


Previous爬蟲(Beta)Next回覆精準度調教

Last updated 1 month ago