02-347-7730  |  Saeree ERP - ระบบ ERP ครบวงจรสำหรับธุรกิจไทย ติดต่อเรา

Claude คิด + Local AI ทำ — Planner-Executor Pattern

Claude + Local AI — Planner-Executor Pattern สำหรับองค์กรไทย
  • 24
  • พฤษภาคม

คำถามที่ทีม IT ในองค์กรไทยถามบ่อยขึ้นเรื่อยๆ คือ "ใช้ Claude ก็แพง ใช้ Local AI ก็ไม่เก่งพอ — มีทางที่ใช้ทั้งสองคู่กันได้ไหม?" คำตอบคือมี และเรียกว่า Planner-Executor Pattern หรือบางที่เรียก orchestrator-worker — ให้ Claude (cloud, ฉลาดมาก แต่ค่า token แพง) ทำหน้าที่คิด/วางแผน/แตกขั้นตอน แล้วส่งให้ Local AI (เช่น Qwen, DeepSeek, Llama รันบน server ในออฟฟิศ) เป็นคน implement บทความนี้จะอธิบายว่า pattern นี้ทำงานยังไง ดียังไง hardware ต้องใช้แค่ไหน และ trade-off ที่ต้องเข้าใจก่อนตัดสินใจ deploy

สรุปเร็ว — Planner-Executor คืออะไร / ไม่ใช่อะไร

✓ คือ: design pattern ที่แยกหน้าที่ "คิด" (Claude cloud) ออกจาก "ทำ" (Local AI) — Claude เขียน plan ละเอียดแล้ว Local AI รัน implement พร้อม tool use

✗ ไม่ใช่: ไม่ใช่ fine-tune Claude บน server เอง, ไม่ใช่การแทน Claude ด้วย Local AI ทั้งหมด, ไม่ใช่ทุก Local AI จะใช้ได้ — ต้องเลือกรุ่นที่ instruction-following + tool-use แข็งพอ

Pattern ทำงานยังไง — กลไกจริง 4 ขั้น

หัวใจของ pattern นี้คือการ แบ่งงาน 2 บทบาท: Claude เป็น "วิศวกรอาวุโส" ที่อ่าน requirement, ออกแบบ, เขียน step-by-step plan ส่วน Local AI เป็น "วิศวกรปฏิบัติการ" ที่ทำตาม plan แบบไม่ต้องคิดเอง ลำดับงานจะเป็น:

ขั้นที่ ใครทำ งานที่ทำ ผลลัพธ์
1. Intake Claude รับโจทย์จากผู้ใช้ ถาม clarifying question ถ้าจำเป็น requirement ที่ชัดเจน
2. Plan Claude แตกเป็น sub-task ระบุไฟล์ที่ต้องแก้, ลำดับ, edge case structured plan (JSON / markdown)
3. Execute Local AI อ่านไฟล์ แก้โค้ด รัน test ตาม plan ผ่าน tool use ของตัวเอง code diff + log การรัน
4. Verify Claude review diff + log ว่าตรง plan ไหม สั่ง retry ถ้าผิด approve หรือ ส่งกลับ executor

จะเห็นว่าขั้น 1, 2, 4 ใช้ Claude — แต่ token น้อยกว่าขั้น 3 มาก เพราะการคิดแผน + review ใช้ตัวอักษรน้อยกว่าการ implement จริงหลายเท่า ขั้น 3 ที่กิน token มากที่สุดถูกย้ายไป Local AI ทำให้ค่า cloud API ลดลงอย่างมีนัยสำคัญ

ตัวอย่างเล่าเรื่อง

สมมติงาน "refactor function checkInventory ให้รองรับ multi-warehouse" — Claude อ่านโค้ดที่เกี่ยวข้อง (สมมุติ 8 ไฟล์) ออกแบบ plan ว่าต้องแก้อะไรในแต่ละไฟล์ตามลำดับใด แล้วส่ง plan ขนาด ~2,000 token ให้ Local AI ทำตาม Local AI รันแก้ไขจริง อ่าน/เขียนไฟล์ (อาจกินเป็นแสน token) แล้วส่ง diff กลับ Claude review ครั้งสุดท้าย Claude อ่าน diff (~5,000 token) อนุมัติหรือสั่งแก้ ผลคือ Claude ใช้ token รวม ~10,000 แทนที่จะ ~150,000 ถ้าทำเองหมด

ทำไมต้องแยก — เปรียบเทียบ 3 ทางเลือก

องค์กรที่อยากใช้ AI ทำงานจริงมี 3 ทางหลัก: ใช้ cloud อย่างเดียว, ใช้ local อย่างเดียว, หรือ hybrid แบบ planner-executor — ทั้งสามมีจุดเด่นและจุดอ่อนต่างกัน

มิติ Cloud-only (Claude เท่านั้น) Local-only (Qwen/DeepSeek เท่านั้น) Hybrid (Planner-Executor)
คุณภาพ plan สูงสุด กลาง — รุ่นเล็กพลาด edge case สูงสุด (Claude วาง)
ค่าใช้จ่าย token สูง เกือบศูนย์ (ค่าไฟ + hardware) ต่ำกว่า cloud-only มาก (เฉพาะ plan + verify)
โค้ดออกนอกองค์กร? ออก — ทุก request ไม่ออกเลย เฉพาะ plan + diff สั้นๆ ไม่ใช่โค้ดเต็ม
Latency ดี (Anthropic infra) เร็วเฉพาะ inference สั้น, ช้าเมื่อ context ยาว รวม latency = cloud + local (ช้ากว่าทั้งสอง)
Hardware ต้องใช้ ไม่ต้อง GPU แรง (≥24GB VRAM) GPU แรง
Setup ซับซ้อนแค่ไหน ง่ายมาก (API key) กลาง (Ollama / vLLM) ซับซ้อนสุด — orchestrator + 2 backend

เห็นชัดว่า hybrid ไม่ใช่ทางที่ง่ายที่สุด — มันคือทางที่ลดต้นทุน + ลดข้อมูลออกได้ แต่แลกกับ complexity ในการ setup องค์กรที่ data sensitivity ต่ำหรือยังไม่ได้ deploy AI ในวงกว้าง การใช้ cloud-only อาจคุ้มกว่า แต่ถ้าใช้ AI ทำงานทุกวันในทีม dev 10+ คน และโค้ดเป็นทรัพย์สินสำคัญ pattern นี้คือทางที่หลายองค์กร enterprise เริ่มไปทาง

Hardware ที่ต้องใช้จริง — แยกตาม model size

ปัจจัยที่ทำให้ pattern นี้ "เล่นได้จริง" คือ Local AI ต้องเก่งพอ โดยเฉพาะเรื่อง instruction following และ tool use ไม่งั้นต่อให้ Claude เขียน plan ละเอียดแค่ไหน executor ก็พังกลางคัน รุ่นที่ใช้งานได้จริงในงาน coding/agent ปี 2569 (May 2026) มีดังนี้:

Model Params VRAM ที่ต้องใช้ (4-bit quant) เหมาะกับงาน
Qwen2.5-Coder-7B 7B ~6GB งานเล็ก เช่น autocomplete — instruction following ไม่แข็งพอเป็น executor
Qwen2.5-Coder-14B 14B ~10GB งาน single-file refactor — ขีดล่างที่เล่น executor ได้
Qwen2.5-Coder-32B 32B ~22GB งานหลายไฟล์ + tool use — sweet spot ของ pattern นี้
DeepSeek-V3 671B (MoE, active 37B) ~380GB (FP8) งาน enterprise — ต้อง multi-GPU cluster
Llama 3.3 70B 70B ~42GB general-purpose executor — instruction following ดีมาก

การเลือก hardware จะกำหนดว่าจะใช้ model ไหนได้ — ไม่ใช่กลับกัน เพราะ GPU เป็นต้นทุนหลัก ตัวอย่าง hardware ที่จับคู่ในไทย:

Hardware VRAM รัน model ได้ เหมาะกับ
RTX 4090 24GB Qwen2.5-Coder-32B (ตึงๆ) ทีม dev 1-3 คน
RTX 5090 32GB Qwen2.5-Coder-32B (สบาย) / Llama 70B (quant หนัก) ทีม dev 3-5 คน
A6000 48GB Llama 70B (4-bit) ได้สบาย ทีม 5-10 คน, on-prem inference server
Mac Studio M3 Ultra 256GB ~192GB unified DeepSeek-V3 (4-bit) ได้ ทีม R&D, low concurrency
H100 / B200 cluster 80-192GB ×N DeepSeek-V3 FP8, multi-tenant องค์กรขนาดใหญ่ shared infra

หลายองค์กรไทยที่เริ่มทดลอง pattern นี้เลือก RTX 5090 หรือ A6000 ก่อน เพราะคุ้มและรองรับ Qwen2.5-Coder-32B ซึ่งเป็น executor ที่ "ใช้งานได้จริง" ในงาน coding ทั่วไป รายละเอียดเรื่องการ deploy model บน server เองดูเพิ่มได้ที่ Ollama Self-Host — ความปลอดภัยที่ต้องระวัง และ DeepSeek Self-Host — แนวทาง deploy บน hardware องค์กร

เครื่องมือที่ใช้ implement pattern นี้ได้จริง

ตอนนี้ (พ.ค. 2569) มี framework หลายตัวที่รองรับ planner-executor architecture ออกมา — ไม่ต้องเขียน orchestrator เอง:

เครื่องมือ บทบาท เหมาะกับ
Claude Agent SDK framework สำหรับสร้าง agent ที่ใช้ Claude เป็น planner + เรียก sub-agent ที่ใช้ model อื่นได้ ทีม dev ที่อยากคุม flow เอง
Ollama รัน Local AI model + เปิด OpenAI-compatible API ให้ orchestrator เรียก ทุก setup ที่ใช้ Local AI
vLLM serving framework สำหรับ Local AI ที่ throughput สูงกว่า Ollama มาก production multi-user
MCP (Model Context Protocol) protocol มาตรฐานที่ Claude และ Local AI ใช้คุยกับ tool / data source เดียวกัน setup ที่อยาก plug-and-play ทุกชั้น
LangGraph graph-based orchestrator ที่ระบุ flow planner → executor → verifier ได้ชัด ทีมที่ workflow ซับซ้อน, ต้องการ resumable run

การ start จริงในองค์กรไทย แนะนำ pattern: Claude Agent SDK (planner) → เรียก Ollama ที่ host Qwen2.5-Coder-32B บน RTX 5090 (executor) — ทุก tool call ที่ executor ต้องการ ใช้ MCP server เดียวกับที่ planner ใช้ — เพื่อให้ทั้งสองชั้นเห็น context เหมือนกัน ดูเพิ่มเรื่อง Ollama ในบทความ Ollama คืออะไร — Local AI ที่รันบนเครื่องคุณเอง

⚠️ Trade-off + ความเสี่ยงที่ต้องรู้ก่อน deploy

Pattern นี้ไม่ใช่ silver bullet — มันแก้ปัญหาเรื่องต้นทุน + privacy แต่สร้างปัญหาใหม่ 4 อย่างที่หลายทีมเจอตอนใช้จริง

1. Plan-Execute mismatch

Claude เขียน plan สมบูรณ์แบบ แต่ Local AI อ่านแล้วเข้าใจไม่ครบ ทำตามไปครึ่งทาง แล้วเดาเอง — สาเหตุหลักคือ executor model ไม่แข็งพอ ทางแก้: ต้อง verify ทุก batch และ retry ถ้า diff ไม่ตรง plan

2. Round-trip latency สูง

งานที่เร็วๆ ใน cloud-only ใช้ 10 วินาที พอเป็น hybrid อาจกลายเป็น 30-60 วินาที เพราะรอ network 2 ทาง + Local AI inference — ไม่เหมาะกับงานที่ต้องการ real-time response แต่เหมาะมากกับ batch job หรือ background task

3. Context drift ระหว่าง 2 model

Claude มี context window ใหญ่ (200K-1M) แต่ Local AI ส่วนใหญ่มี ~32K-128K ถ้า plan ยาว + ต้องอ่านโค้ดประกอบ Local AI อาจ truncate context สำคัญทิ้ง — เหมือนปัญหาที่บทความ Claude Dreaming — เมื่อ AI เริ่มฝัน อธิบายไว้เรื่อง memory consolidation

4. Debugging ยากขึ้น 2 เท่า

ถ้าผลลัพธ์ผิด ต้องไล่ดูว่า plan ผิด (Claude) หรือ execution ผิด (Local) — log ต้องครบทั้งสองชั้น และต้องมี mechanism replay ได้ ไม่งั้นโยนความผิดให้กันไปมาแบบหา root cause ไม่ได้

ความเสี่ยง วิธี mitigate ใครต้องทำ
Plan-Execute mismatch Claude verify step สุดท้ายเสมอ, set retry budget Dev / Orchestrator
Round-trip latency ใช้กับ batch / background ไม่ใช่ real-time UX Architect
Context drift บีบ plan ให้สั้น, แบ่ง sub-task ขนาดเล็ก, summarize file Planner (Claude)
Debugging ซับซ้อน centralized logging, replay infra, observability เต็มชั้น DevOps

Use case ในองค์กรไทย — เริ่มจากไหนดี

ทีมที่ไม่เคยทำ AI agent มาก่อน ไม่ควรเริ่มจาก pattern นี้ในงาน production ทันที — ควรเริ่มจาก task ที่ impact ต่ำ + verify ได้ง่าย ก่อน 3 use case ที่เหมาะเริ่มต้น:

A. Code review / refactor (low-risk)

Claude อ่าน PR + เขียน comment ว่าควรแก้อะไร → Local AI ลงมือแก้เป็น draft commit → คนรีวิวก่อน merge ความผิดพลาดถ้ามีก็แค่ draft commit ไม่ deploy

B. Data migration scripts

Claude วิเคราะห์ schema เก่า/ใหม่ เขียน plan การ migrate → Local AI generate SQL/Python script ตาม plan → รัน dry-run ใน staging — เป็นงาน batch ไม่กลัว latency

C. Documentation generation

Claude วาง outline เอกสาร (จากการอ่าน codebase) → Local AI เขียน detail แต่ละ section → Claude review ภาพรวม — งานนี้แทบไม่มี downside แม้ผลลัพธ์ไม่ perfect

หลังจาก 3 use case แรกได้ผลแล้ว ค่อยขยับไปงานที่ risk สูงขึ้น เช่น generate test cases, refactor module, หรือ implement feature เล็กๆ ตาม spec แนวคิดเรื่อง AI ทำงานเป็นทีมที่มีบทบาทต่างกันนี้ใกล้เคียงกับที่บทความ AI Agent Team — เมื่อ AI ทำงานเป็นทีม เคยอธิบายไว้ในระดับ multi-agent

ที่ Saeree ERP มอง Pattern นี้ยังไง

Saeree ERP กำลังพัฒนา AI Assistant สำหรับงาน ERP โดยตรง — และในการพัฒนา/บำรุงรักษาตัวระบบเอง ทีมเราใช้ pattern hybrid ที่ใกล้เคียงกับที่บทความนี้อธิบาย เพราะลูกค้าจำนวนมากเป็นองค์กรที่ โค้ดและ schema ฐานข้อมูลออกนอกองค์กรไม่ได้ (หน่วยงานราชการ, รัฐวิสาหกิจ, ผู้ผลิตที่มี IP สำคัญ) การให้ Claude วางแผนแล้ว Local AI implement ภายใต้ผู้ดูแลในออฟฟิศ จึงเป็นทางที่ เคารพ data residency โดยไม่เสียคุณภาพการคิด

สำหรับลูกค้าที่ deploy Saeree ERP แบบ on-premise เราเห็น pattern นี้เป็น roadmap สำหรับการเปิด AI feature ในระบบจริงในระยะถัดไป — เพราะมันแก้ปัญหา "อยากใช้ AI แต่ข้อมูลออกนอกองค์กรไม่ได้" โดยตรง

สรุป — Hybrid ดีอย่างไร (และไม่ดีอย่างไร)

ข้อดี ข้อเสีย / ความเสี่ยง
ลดค่า cloud API ลงได้มาก (เฉพาะ plan + verify ส่งขึ้น cloud) ต้องลงทุน hardware + setup orchestrator
โค้ด/ข้อมูลส่วนใหญ่อยู่ในองค์กร — data residency ตามนโยบาย Local AI ต้องเก่งพอ — รุ่นต่ำกว่า 14B มักไม่พอ
ใช้จุดแข็งของแต่ละ model ตรงตามที่มันถนัด Latency รวมสูงขึ้น 2-3 เท่าเทียบ cloud-only
Scale ได้ตามจำนวน executor ไม่ผูกกับ quota ของ vendor Debug ยากขึ้น — ต้องไล่ทั้ง planner + executor
เปลี่ยน executor model ได้ในอนาคต โดยไม่กระทบ planner ต้องมี SRE/DevOps ที่ดูแล GPU server เป็น

"การใช้ AI ที่ฉลาดที่สุดในที่ที่ต้องคิด และใช้ AI ที่ถูกที่สุดในที่ที่ต้องทำ คือ pattern ที่จะกำหนดเศรษฐศาสตร์ของ AI ในองค์กร 2-3 ปีข้างหน้า"

คำถามที่เหลือไว้ให้คิด

ทุก request ที่ทีมคุณส่งไป cloud AI วันนี้ — มีกี่ % ที่จริงๆ แล้วเป็นงาน "ทำตามขั้นตอน" ที่ไม่ต้องใช้สมองระดับ Claude? และถ้าคุณย้ายแค่ส่วนนั้นไป Local AI จะประหยัดค่า token ได้กี่ % ในแต่ละเดือน? ตัวเลขนี้คือสิ่งที่ควรประเมินก่อนตัดสินใจลงทุน hardware

หากองค์กรของคุณกำลังประเมินสถาปัตยกรรม AI สำหรับใช้กับระบบหลักภายใน — ทั้ง ERP, HR หรืองาน internal automation — นัดหมายปรึกษาทีม Saeree ERP เพื่อช่วยออกแบบ deployment ที่เหมาะกับ data policy และ scale ขององค์กรคุณ

แหล่งอ้างอิง

สนใจระบบ ERP สำหรับองค์กรของคุณ?

ปรึกษาผู้เชี่ยวชาญจาก Grand Linux Solution

ขอข้อมูลเพิ่มเติม

โทร 02-347-7730 | sale@grandlinux.com

Saeree ERP Author

เกี่ยวกับผู้เขียน

ไพฑูรย์ บุตรี

ผู้เชี่ยวชาญด้านระบบเน็ตเวิร์คและระบบความปลอดภัยเซิร์ฟเวอร์ บริษัท แกรนด์ลีนุกซ์ โซลูชั่น จำกัด