LLM O11y：從 Observability 到 Decision System

15:30 - 16:00

LLM O11y：從 Observability 到 Decision System

在導入 LLM 與 Agent 開發流程時，團隊常面臨規格難以驗證、品質無法量化、以及回歸測試成本高等痛點。本分享將介紹如何在 AI Agent Coding 流程中結合 Langfuse 與 LLM-as-a-judge，將自然語言規格轉化為可執行的 evaluation，建立自動化的驗證與 feedback loop。你將學到如何使用 llm ai gateway、langfuse tracing、實作 evaluation & judge 流程、抽取 dataset，打造第一個可觀測、可量化的 AI 開發工作流，讓 Agent 系統開發更穩定、更可預測。

1. 用 impression 做 model/framework 選擇決策。使用新 model framework 可能增加 latency 與降低可用度

2. 從 observability 開始: bifrost + langfuse

3. observability 還不夠：Observability != Decision System

4. LLM-as-a-judge 的價值與限制

5. 從 observability 到 closed-loop feedback system

6. evaluation / dataset / regression / decision gate

7. 把 LLM framework 選擇，從 gambling 變成可驗證決策

Che Chia Chang

MaiCoin SRE

Che-Chia Chang 是一名專注於後端開發、開發維運、容器化應用及 Kubernetes 開發與管理的技術專家，同時也是 Microsoft 最有價值專業人士（MVP）。

活躍於台灣技術社群，經常在 CNTUG、DevOps Taipei、GDG Taipei、Golang Taipei Meetup 等社群分享 DevOps、SRE、Kubernetes 及雲端運算相關技術。致力於推動開發與維運的最佳實踐，並熱衷於研究與

應用最新的雲端與 AI 技術。

個人部落格：https://chechia.net

ROOM
Track D
LEVEL
中階
TAGS
AI Agent
AI Coding