在導入 LLM 與 Agent 開發流程時,團隊常面臨規格難以驗證、品質無法量化、以及回歸測試成本高等痛點。本分享將介紹如何在 AI Agent Coding 流程中結合 Langfuse 與 LLM-as-a-judge,將自然語言規格轉化為可執行的 evaluation,建立自動化的驗證與 feedback loop。你將學到如何使用 llm ai gateway、langfuse tracing、實作 evaluation & judge 流程、抽取 dataset,打造第一個可觀測、可量化的 AI 開發工作流,讓 Agent 系統開發更穩定、更可預測。
1. Docker Compose 在 localhost 啟動 Bifrost 與 Langfuse
2. 串接 LLM AI Gateway 與 Langfuse tracing
3. 建立 evaluation 與 LLM-as-a-judge
4. 從實務觀測資料抽取 dataset
5. 串成可重現的開發 workflow
這是一場 hands-on workshop,目標是把 LLM 應用從「可觀測」推進到「可評估、可決策」。你會在自己的電腦上直接跑完整流程,從 tracing 到 evaluation,再到 workflow 落地。
1. 本地可執行的 observability stack: Docker Compose 在 localhost 啟動 Bifrost 與 Langfuse
2. 串接 LLM AI Gateway 與 Langfuse tracing
3. 建立 evaluation 與 LLM-as-a-judge
4. 從實務觀測資料抽取 dataset
5. 串成可重現的開發 workflow
- 自備筆電(must bring your own PC)
- 可連外網路(stable network required)
- 可使用 Docker / Docker Compose
- 可使用 Docker / Docker Compose
- 有使用過 local llm cli (ex. codex cli, opencode)

Che-Chia Chang 是一名專注於後端開發、開發維運、容器化應用及 Kubernetes 開發與管理的技術專家,同時也是 Microsoft 最有價值專業人士(MVP)。
活躍於台灣技術社群,經常在 CNTUG、DevOps Taipei、GDG Taipei、Golang Taipei Meetup 等社群分享 DevOps、SRE、Kubernetes 及雲端運算相關技術。致力於推動開發與維運的最佳實踐,並熱衷於研究與
應用最新的雲端與 AI 技術。
個人部落格:https://chechia.net