• 15:30 - 16:00

LLM O11y:從 Observability 到 Decision System

在導入 LLM 與 Agent 開發流程時,團隊常面臨規格難以驗證、品質無法量化、以及回歸測試成本高等痛點。本分享將介紹如何在 AI Agent Coding 流程中結合 Langfuse 與 LLM-as-a-judge,將自然語言規格轉化為可執行的 evaluation,建立自動化的驗證與 feedback loop。你將學到如何使用 llm ai gateway、langfuse tracing、實作 evaluation & judge 流程、抽取 dataset,打造第一個可觀測、可量化的 AI 開發工作流,讓 Agent 系統開發更穩定、更可預測。

1. 用 impression 做 model/framework 選擇決策。使用新 model framework 可能增加 latency 與降低可用度

2. 從 observability 開始: bifrost + langfuse

3. observability 還不夠:Observability != Decision System

4. LLM-as-a-judge 的價值與限制

5. 從 observability 到 closed-loop feedback system

6. evaluation / dataset / regression / decision gate

7. 把 LLM framework 選擇,從 gambling 變成可驗證決策

Che Chia Chang

Che Chia Chang

MaiCoin SRE

Che-Chia Chang 是一名專注於後端開發、開發維運、容器化應用及 Kubernetes 開發與管理的技術專家,同時也是 Microsoft 最有價值專業人士(MVP)。


活躍於台灣技術社群,經常在 CNTUG、DevOps Taipei、GDG Taipei、Golang Taipei Meetup 等社群分享 DevOps、SRE、Kubernetes 及雲端運算相關技術。致力於推動開發與維運的最佳實踐,並熱衷於研究與

應用最新的雲端與 AI 技術。


個人部落格:https://chechia.net

  • ROOM
  • Track D
  • LEVEL
  • 中階
  • TAGS
  • AI Agent
  •  AI Coding