LLM O11y：從 Observability 到 Decision System

13:30 - 15:00

LLM O11y：從 Observability 到 Decision System

在導入 LLM 與 Agent 開發流程時，團隊常面臨規格難以驗證、品質無法量化、以及回歸測試成本高等痛點。本分享將介紹如何在 AI Agent Coding 流程中結合 Langfuse 與 LLM-as-a-judge，將自然語言規格轉化為可執行的 evaluation，建立自動化的驗證與 feedback loop。你將學到如何使用 llm ai gateway、langfuse tracing、實作 evaluation & judge 流程、抽取 dataset，打造第一個可觀測、可量化的 AI 開發工作流，讓 Agent 系統開發更穩定、更可預測。

1. Docker Compose 在 localhost 啟動 Bifrost 與 Langfuse

2. 串接 LLM AI Gateway 與 Langfuse tracing

3. 建立 evaluation 與 LLM-as-a-judge

4. 從實務觀測資料抽取 dataset

5. 串成可重現的開發 workflow

課程目標

這是一場 hands-on workshop，目標是把 LLM 應用從「可觀測」推進到「可評估、可決策」。你會在自己的電腦上直接跑完整流程，從 tracing 到 evaluation，再到 workflow 落地。

課程綱要

1. 本地可執行的 observability stack: Docker Compose 在 localhost 啟動 Bifrost 與 Langfuse

2. 串接 LLM AI Gateway 與 Langfuse tracing

3. 建立 evaluation 與 LLM-as-a-judge

4. 從實務觀測資料抽取 dataset

5. 串成可重現的開發 workflow

學員自備裝置

- 自備筆電（must bring your own PC）

- 可連外網路（stable network required）

- 可使用 Docker / Docker Compose

學員基礎能力需求

- 可使用 Docker / Docker Compose

- 有使用過 local llm cli (ex. codex cli, opencode)

Che Chia Chang

MaiCoin SRE

Che-Chia Chang 是一名專注於後端開發、開發維運、容器化應用及 Kubernetes 開發與管理的技術專家，同時也是 Microsoft 最有價值專業人士（MVP）。

活躍於台灣技術社群，經常在 CNTUG、DevOps Taipei、GDG Taipei、Golang Taipei Meetup 等社群分享 DevOps、SRE、Kubernetes 及雲端運算相關技術。致力於推動開發與維運的最佳實踐，並熱衷於研究與

應用最新的雲端與 AI 技術。

個人部落格：https://chechia.net

ROOM
西南準備室 7F