- 31
- มีนาคม
DeepSeek Series EP.2
DeepSeek V3 มี 671 พันล้าน Parameters แต่ Train ด้วยงบเพียง $5.6 ล้าน — ตัวเลขที่ฟังดูเป็นไปไม่ได้ ในขณะที่ GPT-4 ของ OpenAI ใช้งบกว่า $100 ล้านในการ Train โมเดลที่มีขนาดใกล้เคียงกัน DeepSeek ทำได้อย่างไร? คำตอบอยู่ที่สถาปัตยกรรมหนึ่งที่เรียกว่า Mixture of Experts (MoE) — เทคนิคที่เปลี่ยนเกมของวงการ AI ทั้งหมด บทความนี้เป็น EP.2 ของ DeepSeek Series ที่จะเจาะลึกว่า MoE คืออะไร ทำงานอย่างไร และทำไมมันถึงทำให้ DeepSeek ถูกกว่า GPT ถึง 10 เท่า
สรุปสั้น — Mixture of Experts (MoE) คืออะไร?
- MoE = สถาปัตยกรรมที่แบ่งโมเดลเป็น "ผู้เชี่ยวชาญ" (Experts) หลายคน แต่ใช้แค่บางคนต่อ query
- DeepSeek V3: มี 671B params ทั้งหมด แต่ active แค่ 32B ต่อ token (4.8%)
- ลดค่าใช้จ่าย Compute 10-50 เท่า เทียบกับ Dense model ขนาดเดียวกัน
- เป็นเทคนิคเดียวกับที่ Google ใช้ใน Gemini (Switch Transformer) และ Mistral ใช้ใน Mixtral
MoE คืออะไร? — อธิบายแบบเข้าใจง่าย
Mixture of Experts (MoE) คือสถาปัตยกรรมของ Neural Network ที่ไม่ได้ใช้ทุกส่วนของโมเดลในการประมวลผลทุก Input แต่จะมี Router (ตัวจัดสรร) คอยเลือกว่า Input แต่ละตัวควรส่งไปให้ "ผู้เชี่ยวชาญ" คนไหนประมวลผล แนวคิดนี้ถูกเสนอครั้งแรกตั้งแต่ปี 1991 โดย Michael I. Jordan และ Robert A. Jacobs แต่เพิ่งถูกนำมาใช้จริงในวงกว้างในช่วง 2-3 ปีที่ผ่านมา
ลองนึกภาพ โรงพยาบาลขนาดใหญ่ ที่มีหมอเฉพาะทาง 256 คน — หมอหัวใจ หมอกระดูก หมอตา หมอผิวหนัง ฯลฯ เมื่อคนไข้มาถึง พยาบาลคัดกรอง (Router) จะประเมินอาการและส่งต่อไปให้หมอเฉพาะทางที่เกี่ยวข้องเพียง 8 คน ไม่ใช่ให้หมอทุกคนมาดูทุกเคส
| หัวข้อ | Dense Model (โมเดลทั่วไป) | MoE Model (เช่น DeepSeek V3) |
|---|---|---|
| เปรียบเทียบ | หมอทุกคนดูทุกเคส | Router เลือกหมอที่เหมาะสม |
| การใช้ทรัพยากร | ใช้ทุก Parameter ทุก token | ใช้แค่ Expert ที่เลือก |
| ความเร็ว | ช้า (ต้องคำนวณทุก param) | เร็ว (คำนวณแค่ส่วนที่เลือก) |
| ค่าใช้จ่าย | สูง | ต่ำ (ลด 10-50 เท่า) |
| ความรู้รวม | จำกัดตาม param ทั้งหมด | มากกว่า (มี param มากแต่ใช้ทีละน้อย) |
กลไกการทำงานของ MoE สรุปได้ดังนี้: Input (Token) ถูกส่งเข้า Router Network ซึ่งจะคำนวณ "คะแนนความเหมาะสม" ของแต่ละ Expert แล้วเลือก Expert ที่ได้คะแนนสูงสุด (เช่น 8 จาก 256 คน) จากนั้นนำผลลัพธ์จากแต่ละ Expert มา รวมกันแบบถ่วงน้ำหนัก (Weighted Sum) เพื่อสร้าง Output สุดท้าย
สถาปัตยกรรม MoE ของ DeepSeek V3 — เจาะลึกตัวเลข
DeepSeek V3 ไม่ได้ใช้ MoE แบบธรรมดา แต่ใช้สถาปัตยกรรมที่พัฒนาขึ้นเองเรียกว่า DeepSeekMoE ซึ่งมีนวัตกรรมหลายจุดที่ทำให้ได้ประสิทธิภาพสูงกว่า MoE ทั่วไป มาดูตัวเลขสำคัญ:
| รายการ | ค่า | หมายเหตุ |
|---|---|---|
| Total Parameters | 671 พันล้าน (671B) | ขนาดรวมทั้งโมเดล |
| Active Parameters ต่อ token | 32 พันล้าน (32B) | เพียง 4.8% ของทั้งหมด |
| จำนวน Experts | 256 Routed + 1 Shared | Shared Expert ทำงานทุก token |
| Experts ที่ถูกเลือกต่อ token | 8 Experts | จาก 256 Routed Experts |
| Architecture | DeepSeekMoE | Auxiliary-loss-free load balancing |
| Training Cost | $5.576 ล้าน | 2,788K H800 GPU hours |
| Training Tokens | 14.8 ล้านล้าน (14.8T) | ข้อมูลมหาศาลแต่ประมวลผลถูก |
ตัวเลขสำคัญที่สุดคือ 4.8% — หมายความว่าแต่ละ token ที่ผ่านเข้าโมเดล จะใช้ Parameters เพียง 32B จาก 671B ทั้งหมด เหมือนกับว่าคุณมีทีมงาน 257 คน (256 Routed + 1 Shared) แต่แต่ละงานใช้เพียง 9 คน (8 Routed + 1 Shared) ส่วน Shared Expert คือผู้เชี่ยวชาญที่ทำงานทุกครั้ง ไม่ว่า Input จะเป็นอะไร — เปรียบเสมือน "หมออายุรกรรมทั่วไป" ที่ต้องดูทุกเคสก่อนส่งต่อ
ทำไม MoE ถึงถูกกว่า Dense Model 10 เท่า?
หัวใจของคำตอบอยู่ที่ Compute ต่อ token — ใน Dense model ทุก token ต้องผ่านทุก Parameter แต่ใน MoE ใช้แค่บางส่วน มาดูตารางเปรียบเทียบ:
| หัวข้อ | Dense Model (เช่น GPT-4) | MoE Model (เช่น DeepSeek V3) |
|---|---|---|
| Total Parameters | ~1.8T (สมมุติ) | 671B |
| Active Params ต่อ token | ทุก param = ~1.8T | 32B (4.8%) |
| Compute ต่อ token | สูงมาก | ต่ำ ~20x น้อยกว่า |
| Training Cost | $100M+ | $5.6M |
| Inference Cost (API) | $15 / 1M tokens | $0.27 / 1M tokens |
| ข้อดี | Consistent performance ทุก query | ถูกกว่า 10-50 เท่า ทั้ง train + inference |
| ข้อเสีย | แพงมาก ทั้ง train + inference | ต้อง RAM เยอะ (เก็บ 671B ทั้งหมดในหน่วยความจำ) |
ตัวเลข $0.27 vs $15 ต่อ 1 ล้าน tokens คือความต่างถึง 55 เท่า ซึ่งเป็นเหตุผลที่ DeepSeek เข้าถึงได้ง่ายสำหรับองค์กรขนาดเล็กและขนาดกลาง ลองคิดดูว่าหากองค์กรของคุณใช้ AI ประมวลผลเอกสาร 100,000 หน้าต่อเดือน ค่าใช้จ่ายจะต่างกันหลายแสนบาท อย่างไรก็ตาม ข้อเสียสำคัญของ MoE คือ ความต้องการ RAM — แม้จะประมวลผลเร็วและถูก แต่ต้องโหลดโมเดลทั้ง 671B เข้าหน่วยความจำ ทำให้ต้องใช้ GPU ที่มี VRAM สูง หรือ Server หลายตัว
เทคนิคพิเศษของ DeepSeek — ไม่ใช่ MoE ธรรมดา
DeepSeek ไม่ได้แค่ใช้ MoE แบบมาตรฐาน แต่พัฒนาเทคนิคเสริมหลายตัวที่ทำให้โมเดลมีประสิทธิภาพสูงขึ้นอีก นี่คือนวัตกรรมสำคัญ 4 ตัวที่ทำให้ DeepSeek V3 โดดเด่น:
1. Multi-head Latent Attention (MLA)
ปัญหาใหญ่ของ Transformer model คือ KV Cache — ข้อมูลที่ต้องเก็บไว้ในหน่วยความจำระหว่าง Inference เพื่อจำ Context ก่อนหน้า ยิ่งโมเดลใหญ่ KV Cache ยิ่งกินหน่วยความจำมหาศาล โมเดลขนาด 671B อาจต้อง KV Cache ถึง ~200GB ทำให้ต้องใช้ GPU หลายตัว
DeepSeek แก้ปัญหานี้ด้วย Multi-head Latent Attention (MLA) — เทคนิคที่บีบอัด KV Cache ด้วย Low-rank Compression ทำให้ลดขนาด KV Cache จาก ~200GB เหลือเพียง ~20GB (ลดลง 10 เท่า) ผลลัพธ์คือ Inference ถูกลงและสามารถ serve ผู้ใช้พร้อมกันได้มากขึ้น โดยไม่เสียคุณภาพของคำตอบ
2. Auxiliary-loss-free Load Balancing
ปัญหาคลาสสิกของ MoE คือ Load Imbalance — บาง Expert ถูกเลือกบ่อยเกินไป (Popular Expert) ในขณะที่บาง Expert ไม่ถูกเลือกเลย (Dead Expert) ทำให้ทรัพยากรสูญเปล่าและคุณภาพโมเดลลดลง
วิธีแก้เดิมคือเพิ่ม Auxiliary Loss Term เข้าไปใน Loss Function เพื่อบังคับให้ Router กระจาย Token ไปทุก Expert อย่างเท่าเทียม แต่วิธีนี้มักส่งผลเสียต่อ Main Task Performance เพราะ Loss 2 ตัวขัดแย้งกัน DeepSeek แก้ปัญหานี้ด้วยเทคนิค Auxiliary-loss-free Load Balancing — ใช้ Bias Term ใน Router แทนการเพิ่ม Loss Term ทำให้กระจายงานได้เท่าเทียมโดยไม่กระทบคุณภาพโมเดล เป็นนวัตกรรมที่เรียบง่ายแต่ได้ผลดีมาก
3. FP8 Mixed Precision Training
โดยปกติ AI model ใช้ FP16 หรือ BF16 (16-bit floating point) ในการ Train ซึ่งใช้หน่วยความจำและ Compute มาก DeepSeek เป็นหนึ่งในบริษัทแรกๆ ที่ Train โมเดลขนาดใหญ่ด้วย FP8 (8-bit floating point) สำเร็จ — ลด Memory ลงครึ่งหนึ่งและเพิ่มความเร็ว Training ขึ้นอย่างมาก ทั้งนี้ไม่ใช่ FP8 ล้วน แต่เป็น Mixed Precision ที่ใช้ FP8 ในส่วนที่ทนทานต่อ Precision Loss (เช่น Forward/Backward Pass) และยังคงใช้ FP32 ในส่วนสำคัญ (เช่น Loss Accumulation)
4. Multi-Token Prediction (MTP)
โมเดลภาษาทั่วไปทำนาย 1 token ต่อ 1 step — ถ้าจะสร้าง 100 tokens ต้องรัน 100 steps DeepSeek V3 ใช้เทคนิค Multi-Token Prediction (MTP) ที่ทำนายหลาย token พร้อมกันใน 1 step ทำให้ Inference เร็วขึ้น 1.8 เท่า ตัวอย่างเช่น แทนที่จะทำนาย "ฉัน" → "รัก" → "ประเทศ" → "ไทย" ทีละคำ MTP จะทำนาย "ฉัน รัก ประเทศ ไทย" พร้อมกัน (ในกรณีที่ Model มั่นใจสูง) ช่วยลดเวลา Inference ลงอย่างมาก
สรุป 4 เทคนิคที่ทำให้ DeepSeek V3 พิเศษ:
| เทคนิค | ผลลัพธ์ | ลดอะไร |
|---|---|---|
| MLA | KV Cache ลด 10 เท่า | ค่า Memory ตอน Inference |
| Load Balancing | ไม่มี Dead Experts | ทรัพยากรสูญเปล่า |
| FP8 Training | Memory ลดครึ่ง, เร็วขึ้น | ค่า Training |
| MTP | Inference เร็ว 1.8x | เวลารอคำตอบ |
MoE ในวงการ AI — ใครใช้บ้าง?
DeepSeek ไม่ใช่บริษัทเดียวที่ใช้ MoE — จริงๆ แล้ว MoE กลายเป็นเทรนด์หลักของ Large Language Model ในปี 2568-2569 เพราะทุกบริษัทต้องการลดต้นทุนและเพิ่มประสิทธิภาพ มาดูว่าใครใช้ MoE บ้าง:
| โมเดล | บริษัท | สถาปัตยกรรม | Experts | สถานะ |
|---|---|---|---|---|
| DeepSeek V3 | DeepSeek | DeepSeekMoE | 256 + 1 Shared | Open-source (MIT) |
| Mixtral 8x22B | Mistral | MoE | 8 Experts | Open-source |
| Gemini 1.5 / 2 | MoE (Switch) | ไม่เปิดเผย | Closed-source | |
| GPT-4 (rumored) | OpenAI | MoE (rumored) | ~16 (ไม่ยืนยัน) | Closed-source |
| Grok-1 | xAI | MoE | 8 Experts | Open-source |
จะเห็นว่า DeepSeek V3 มีจำนวน Experts มากที่สุด (256+1) เมื่อเทียบกับ Mixtral (8) หรือ Grok-1 (8) ยิ่ง Experts มากเท่าไหร่ โมเดลก็ยิ่ง "เชี่ยวชาญ" ในหลากหลายด้านมากขึ้น แต่ก็ต้องแลกกับ Routing ที่ซับซ้อนขึ้นด้วย การที่ DeepSeek ใช้ 256 Experts แล้วยัง balance ได้ดี ถือเป็นความสำเร็จทางวิศวกรรมที่น่าชื่นชม เทคนิค MoE ยังเป็นพื้นฐานของการพัฒนา Agentic AI ที่ต้องการประมวลผลเร็วและถูกในระดับ Production
Router ทำงานอย่างไร? — หัวใจของ MoE ที่คนมักมองข้าม
หลายคนเข้าใจว่า MoE คือ "แบ่ง Expert แล้วเลือก" แต่ความจริงแล้ว Router Network คือส่วนที่ยากที่สุดในการออกแบบ และเป็นตัวชี้ขาดว่าโมเดลจะดีหรือไม่ดี Router ของ DeepSeek V3 ทำงานดังนี้:
ขั้นตอนที่ 1: คำนวณ Affinity Score — เมื่อ Token เข้ามา Router จะคำนวณ "คะแนนความเหมาะสม" ระหว่าง Token นั้นกับ Expert แต่ละตัว โดยใช้ Linear Projection ตามด้วย Softmax ให้ได้ Probability Distribution ว่า Token นี้ควรไปหา Expert ไหน
ขั้นตอนที่ 2: Top-K Selection — จาก Probability Distribution ข้างต้น Router เลือก Top-8 Experts ที่มีคะแนนสูงสุด จากทั้งหมด 256 ตัว ค่า K=8 ที่ DeepSeek เลือกเป็น Sweet Spot ระหว่างคุณภาพและประสิทธิภาพ — ถ้า K น้อยเกินจะเสียคุณภาพ ถ้า K มากเกินจะเสียความเร็ว
ขั้นตอนที่ 3: Weighted Combination — ผลลัพธ์จาก 8 Experts ถูกนำมารวมกันแบบถ่วงน้ำหนัก (Weighted Sum) ตาม Probability ที่ Router คำนวณไว้ Expert ที่ได้คะแนนสูงกว่าจะมีน้ำหนักมากกว่า ทำให้ Output สุดท้ายเป็น "ความเห็นรวม" จากผู้เชี่ยวชาญที่เกี่ยวข้องที่สุด
ขั้นตอนที่ 4: Shared Expert — นอกจาก 8 Routed Experts แล้ว ยังมี 1 Shared Expert ที่ทำงานทุก Token ไม่ว่าจะเป็นเรื่องอะไร ทำหน้าที่เหมือน "ความรู้พื้นฐาน" ที่โมเดลควรรู้ทุกกรณี เช่น ไวยากรณ์ภาษา ตรรกศาสตร์พื้นฐาน หรือ Common Sense
เปรียบเทียบให้เห็นภาพ:
ลองนึกถึง Call Center ขององค์กรขนาดใหญ่ ที่มีทีมงานผู้เชี่ยวชาญ 256 คน แต่ละคนเก่งเรื่องต่างกัน เช่น ทีมบัญชี ทีมพัสดุ ทีม IT เมื่อโทรศัพท์เข้ามา ระบบ IVR (Router) จะถามคำถาม 1-2 ข้อ แล้วส่งสายไปให้ทีมที่เกี่ยวข้อง 2-3 คนรับฟังพร้อมกัน โดยมีหัวหน้า (Shared Expert) ฟังทุกสายเสมอ — MoE ทำงานแบบเดียวกันแต่ในระดับ Neural Network ที่ประมวลผล Token หลายพันล้านตัวต่อวัน
ข้อจำกัดของ MoE — ไม่ใช่ Silver Bullet
แม้ MoE จะทำให้ AI ถูกลงมหาศาล แต่ก็มีข้อจำกัดที่ต้องเข้าใจ:
| ข้อจำกัด | รายละเอียด | ผลกระทบ |
|---|---|---|
| Memory Footprint สูง | ต้องโหลดโมเดลทั้งหมดลง RAM แม้ใช้แค่บางส่วน — DeepSeek V3 ต้อง VRAM ~350GB+ | ต้อง Server หลายตัว หรือ GPU ราคาแพง ถ้าจะ Self-host |
| Routing Overhead | Router ต้องคำนวณคะแนนกับทุก Expert ก่อนเลือก Top-K ยิ่ง Expert มากยิ่งคำนวณนาน | เพิ่ม Latency เล็กน้อย โดยเฉพาะโมเดลที่มี 256+ Experts |
| Expert Collapse | ถ้า Router ไม่ดี Expert บางตัวจะไม่ถูกใช้เลย (Dead Expert) เสียทรัพยากรไปเปล่าๆ | DeepSeek แก้ด้วย Auxiliary-loss-free Load Balancing แต่บริษัทอื่นอาจยังมีปัญหานี้ |
| Inconsistency | Token ที่คล้ายกันอาจถูกส่งไป Expert ต่างกัน ทำให้คำตอบไม่ consistent 100% | อาจสังเกตเห็นในงานที่ต้องการ deterministic output เช่น ตัวเลขทางบัญชี |
| Communication Overhead | เมื่อรันบนหลาย GPU ต้องส่ง Token ข้ามเครื่อง ยิ่ง Expert กระจายยิ่งส่งข้อมูลเยอะ | ต้อง High-bandwidth Interconnect (NVLink/InfiniBand) ระหว่าง GPU |
ข้อจำกัดเหล่านี้ไม่ได้หมายความว่า MoE ไม่ดี — แต่หมายความว่าไม่ใช่ทุกองค์กรที่ควร Self-host MoE model ขนาดใหญ่ สำหรับหลายองค์กร การใช้ผ่าน API อาจเหมาะสมกว่าเพราะ ปัญหา Infrastructure ตกอยู่กับผู้ให้บริการ ไม่ใช่คุณ อ่านรายละเอียดเพิ่มเติมได้ใน EP.4: รัน DeepSeek ในองค์กรเอง
อนาคตของ MoE — กำลังจะเปลี่ยนแปลงอีกครั้ง
MoE ไม่ใช่จุดจบ แต่เป็นจุดเริ่มต้น เทรนด์ที่กำลังมาในปี 2569-2570 ที่จะทำให้ MoE ดียิ่งขึ้น:
- Expert Pruning: ตัด Expert ที่ไม่ค่อยถูกใช้ออกไป ทำให้โมเดลเล็กลงโดยไม่เสียคุณภาพ — อาจลด Memory ได้อีก 30-50%
- Dynamic Expert Loading: โหลด Expert เข้า VRAM เฉพาะตอนที่ต้องใช้ ไม่ต้องโหลดทั้งหมดพร้อมกัน — ลด Memory Footprint ลงมาก
- Hierarchical MoE: มี Expert หลายชั้น เช่น Expert ระดับหมวดก่อน แล้วค่อยเลือก Expert ระดับย่อย — เพิ่มความแม่นยำของ Routing
- MoE + Speculative Decoding: ใช้โมเดลเล็ก (Draft Model) ทำนายคร่าวๆ ก่อน แล้วให้โมเดลใหญ่ยืนยัน — อาจเร็วขึ้น 3-5 เท่า
สำหรับองค์กรไทยที่กำลังวางแผนใช้ AI ในระยะยาว เทรนด์เหล่านี้หมายความว่า AI จะถูกลงและเร็วขึ้นอีก ในอีก 1-2 ปี การเริ่มเรียนรู้และทดลองใช้ AI ตั้งแต่วันนี้จะทำให้องค์กรพร้อมรับประโยชน์เมื่อเทคโนโลยีสุกงอม
MoE กับองค์กรไทย — เกี่ยวอะไรกับเรา?
หลายคนอาจสงสัยว่า สถาปัตยกรรม AI ระดับนี้เกี่ยวอะไรกับองค์กรในประเทศไทย? คำตอบคือ เกี่ยวข้องโดยตรง ในหลายมิติ:
AI ราคาถูกลง = องค์กรเล็กเข้าถึง AI ได้
ก่อนหน้า MoE การใช้ AI ระดับสูงมีค่าใช้จ่ายหลายแสนบาทต่อเดือน ทำให้เฉพาะบริษัทใหญ่เท่านั้นที่เข้าถึงได้ แต่ด้วย MoE ที่ทำให้ราคาลดลง 10-50 เท่า SME ไทยที่มีงบ IT จำกัด ก็สามารถใช้ AI ระดับ GPT ได้แล้ว ไม่ว่าจะเป็นการวิเคราะห์ข้อมูลขาย สร้างรายงาน หรือตอบคำถามลูกค้าอัตโนมัติ ตัวอย่างเช่น โรงงานผลิตขนาดกลางที่ต้องการวิเคราะห์ข้อมูลคุณภาพสินค้า (QC) — เดิมค่า AI อาจสูงถึง 50,000 บาท/เดือน แต่ด้วย MoE อาจลงมาเหลือ 2,000-5,000 บาท/เดือน ซึ่งคุ้มค่าลงทุนอย่างชัดเจน
Self-host MoE ต้องระวัง — RAM เยอะแม้ Compute น้อย
สำหรับองค์กรที่ต้องการ รัน DeepSeek ในองค์กรเอง ต้องเข้าใจว่า MoE มีข้อจำกัดเฉพาะตัวคือ ต้องโหลด โมเดลทั้งหมดลง RAM แม้จะใช้แค่บางส่วนต่อ token เช่น DeepSeek V3 ต้องมี GPU VRAM รวม มากกว่า 350GB ซึ่งต้องใช้ Server ระดับ 4-8 GPU A100/H100 ขึ้นไป ราคาหลายล้านบาท ถ้าไม่มีงบขนาดนั้น อาจเลือกใช้โมเดลย่อย เช่น DeepSeek-R1-Distill-Qwen-32B ที่มีขนาดเล็กกว่าแต่ยังให้คุณภาพที่ดี หรือใช้ผ่าน API แทน
AI + ERP = คุ้มค่ามากขึ้น
สำหรับองค์กรที่ใช้ระบบ ERP — การที่ AI ราคาถูกลงหมายความว่า การเชื่อม AI กับ ERP เพื่อ วิเคราะห์ข้อมูลเชิงลึก สร้างรายงานอัตโนมัติ หรือพยากรณ์ยอดขาย กลายเป็นสิ่งที่ คุ้มค่าลงทุน มากขึ้น ค่า API ที่เคยเป็นอุปสรรค ตอนนี้ต่ำพอที่จะใช้ในงาน Production ประจำวันได้ ตัวอย่างการเชื่อม AI กับ ERP ที่ MoE ทำให้เป็นไปได้:
- สรุปรายงาน P&L อัตโนมัติ — ส่งข้อมูลจาก ERP ไป AI สรุปเป็นภาษาไทยให้ผู้บริหาร
- ตรวจจับความผิดปกติ — AI วิเคราะห์ transaction ใน ERP เพื่อหาความผิดปกติ (fraud detection)
- Chatbot ภายใน — พนักงานถามวิธีใช้ ERP ได้ทันที ไม่ต้องเปิดคู่มือ
- SQL Assistant — แปลงคำถามภาษาไทยเป็น SQL query ดึงข้อมูลจาก ERP ได้เลย
ใครที่สนใจ DeepSeek คืออะไร? สามารถอ่าน EP.1 ได้เลย หรือถ้าอยากรู้เรื่องความเสี่ยง อ่านต่อที่ EP.3: ความเสี่ยง AI จากจีน หรือถ้าอยากทดสอบ AI กับงาน ERP จริงๆ อ่าน EP.5: ใช้ DeepSeek ช่วยงาน ERP ได้จริงไหม?
DeepSeek Series — อ่านต่อ
DeepSeek Series — 5 ตอนรู้ลึก AI จากจีน:
- EP.1: DeepSeek คืออะไร? — AI จีนที่เขย่าวงการโลก
- EP.2: Mixture of Experts (MoE) — เทคนิคที่ทำให้ถูก 10 เท่า (บทความนี้)
- EP.3: ความเสี่ยง AI จากจีน — สิ่งที่องค์กรไทยต้องรู้
- EP.4: รัน DeepSeek ในองค์กรเอง — คุ้มไหม?
- EP.5: ใช้ DeepSeek ช่วยงาน ERP ได้จริงไหม?
MoE พิสูจน์แล้วว่า AI ที่ดีไม่จำเป็นต้องใช้ทรัพยากรมหาศาล — ยุคที่ "ถูกกว่า" หมายความว่า "เข้าถึงได้มากกว่า" เริ่มต้นแล้ว
- ทีมงาน Saeree ERP
