ความเก่งที่แท้จริงของ AI Agent ในปัจจุบันไม่ได้มาจากสมอง (Model) เพียงอย่างเดียว แต่มันมีสิ่งที่เรียกว่า Agent Harness ซึ่งเป็นตัวแปรสำคัญระดับอันดับต้นๆ ที่ทำให้ AI ทำงานได้จริงและมีประสิทธิภาพครับ
สมการความเก่ง: Model + Harness = AI Agent
เพื่อให้เห็นภาพง่ายที่สุด เราลองมาดูสมการที่สรุปความเป็น Agent ในยุคนี้กันครับ: Model (เครื่องผลิตข้อความ) + Harness (กฎและการกระทำ) = AI Agent
- Model: เปรียบเสมือน "เครื่องยนต์" (Engine) หรือสมองที่ประมวลผลความน่าจะเป็น มันเก่งเรื่องการคิดและเดาคำตอบถัดไป แต่ถ้าสมองไม่มีแขนขา มันก็ทำอะไรไม่ได้มากไปกว่าการตอบคำถาม
- Harness: เปรียบเสมือน "ร่างกาย" และ "พวงมาลัย" ที่ควบคุมสมองนั้นอีกที สำหรับเราแล้ว Harness คือส่วนผสมของ Infrastructure (เครื่องมือ/Sandbox) และ Rules (กฎการใช้เครื่องมือ) ที่กำหนดว่า Agent จะหยิบอะไรมาใช้ตอนไหน และจะจัดการกับข้อมูลอย่างไรให้ปลอดภัย

ถ้า Model คือเครื่องยนต์ที่มีพลังมหาศาล Harness ก็คือตัวถัง เบรก และระบบนำทางที่ทำให้รถวิ่งไปถึงเป้าหมายได้โดยไม่หลุดโค้งนั่นเองครับ
ก่อนจะมี Harness เราต้องเหนื่อยขนาดไหน?
ถ้าเราย้อนกลับไปช่วงปี 2023-2024 ยุคเริ่มต้นของ AI Agent เรายังไม่มีระบบ Harness ที่เป็นมาตรฐาน สิ่งที่เราทำกันตอนนั้นคือ "Manual Training" หรือการที่ เราต้องทำหน้าที่เป็นตัวกลาง (Middleman) คอยรับคำตอบจาก AI แล้วเอาไปรันเอง พอผลออกมายังไงก็ต้องส่ง Feedback กลับไปให้โมเดลดูอีกรอบ วนไปมาแบบนี้ด้วยมือเราเอง
ต่อมาในยุคของ AutoGPT หรือ BabyAGI เราเริ่มเห็นความพยายามทำให้ Agent ทำงานเองเป็นลูป (Loop) แต่เนื่องจากยุคนั้น "กฎ" (Guardrails) ยังไม่ชัดเจน เราจึงได้บทเรียนราคาแพง เช่น:
- Infinite Loop: Agent วนทำงานซ้ำๆ ไม่รู้จบจน Token บานปลาย
- Diving too deep: ดำดิ่งไปดึงข้อมูลที่ไม่เกี่ยวข้องมาเต็มไปหมดเพราะไม่รู้ว่าควรหยุดตอนไหน
- Security Risk: เสี่ยงต่อการสั่งรันคำสั่งที่อาจทำลายระบบเพราะไม่มีกำแพงกั้น

Harness จึงเกิดมาเพื่อเปลี่ยนความไม่แน่นอน (Probabilistic) ของโมเดล ให้กลายเป็นระบบที่คาดเดาผลได้และปลอดภัย (Deterministic) มากขึ้นครับ
Harness vs. MCP vs. Skill: ต่างกันตรงไหน?
หลายคนอาจจะสงสัยว่า แล้วมันต่างจาก Protocol อย่าง MCP หรือการสอน Skill ยังไง?
เราสรุปความต่างมาให้ดูชัดๆ ครับ

9 องค์ประกอบที่ Agent Harness ที่ดีควรมี
การที่ Harness จะเปลี่ยนโมเดลธรรมดาให้กลายเป็น Agent ระดับโปรได้ มันต้องประกอบด้วย 9 ส่วนสำคัญนี้ครับ:
- Loop Condition: การจัดการเมื่อทำงานไม่สำเร็จ จะ Retry กี่ครั้ง ถ้า Error ต้องแก้ท่าไหน
- Context Management: ระบบบีบอัดข้อมูล (Context Compression) เหมือนที่ใช้ใน Cosee (Kho-Code) เพื่อให้ Agent ยังจำใจความสำคัญได้แม้คุยกันยาวจน Ram แทบเต็ม
- Skill & Tool Management: การเตรียมเครื่องมือพื้นฐาน โดย Harness ที่เก่งจะรู้จักเครื่องมือผ่านไฟล์อย่าง
Agent.mdหรือSkill.mdได้ทันทีโดยที่เราไม่ต้องเสียเวลา Prompt บอกมันทุกรอบ - Sub-agent Management: การแบ่งงานให้ Agent ย่อยช่วยทำงานเฉพาะทาง
- Build-in Skills: คำสั่งพื้นฐานที่ติดมากับตัว เช่น File Edit หรือ Shell Execution
- Session Persistence: การเก็บ Log และประวัติเพื่อให้ "Resume" งานเดิมต่อได้จากจุดที่ค้างไว้
- System Prompt & Caching: การวางกฎเหล็กผ่าน Prompt และการใช้ Caching เพื่อความรวดเร็วและประหยัด
- Lifecycle Hooks: จุดตรวจสอบสำคัญอย่าง Pre-run (เช็คก่อนเริ่ม) และ Post-run (ตรวจผลลัพธ์) เพื่อความแม่นยำ
- Permission & Safety: การคุมขอบเขต Workspace Boundary เพื่อไม่ให้ Agent แอบไปอ่านไฟล์นอกพื้นที่ที่กำหนด และมีโหมดเลือกได้ว่าจะให้ลุยเลย (Yolo) หรือต้องขออนุญาตก่อน (Approval)
ส่องของจริง: เบื้องหลังการทำงานของ Harness ในเครื่องมือชื่อดัง
เพื่อให้เห็นภาพลึกถึงระดับ Code เราลองมาดู 2 กรณีศึกษานี้ครับ:
1. Codex: การจัดการแบบเป็นลำดับชั้น
Codex ใช้โครงสร้างที่ชัดเจนมากเพื่อให้งานออกมา Deterministic:
- Thread: Session ถาวรที่เก็บประวัติทั้งหมด
- Turn: 1 รอบคำสั่ง (User สั่ง -> Agent ทำจนจบ)
- Item: เลเวลย่อยของการใช้เครื่องมือ ซึ่งมีสถานะกำกับชัดเจนคือ Item Start, Item Streaming, และ Item Complete ทำให้เราติดตามได้ทุก Step ว่าตอนนี้ Agent กำลังอ่านไฟล์ (Read), คิดวิธีแก้ (Fix), หรือกำลังโชว์ความต่างของโค้ด (Diff)
2. Cosee (Kho-Code): ลูปการทำงาน 3 ระยะ
เครื่องมือตัวนี้ใช้คอนเซปต์ React (Reasoning + Action) อย่างเข้มข้น โดยแบ่งเป็น 3 ระยะ:
- Get Context: อ่านไฟล์ ค้นหาโค้ดใน Codebase
- Take Action: แก้ไขไฟล์ หรือรันคำสั่ง Command Line
- Verify Resource: รัน Test เพื่อตรวจสอบความถูกต้อง
- ความเทพ: Harness ของ Cosee สามารถทำ "Rewind" (ย้อนเวลาก่อนแก้ไฟล์) หรือ "Fork" เพื่อแตก Session ไปลองไอเดียใหม่ๆ ได้เหมือนการใช้ Git เลยครับ
อยากเริ่มทำ Harness ต้องทำยังไง? (3 Levels of Implementation)
สำหรับใครที่อยากจะเริ่มสร้างหรือปรับแต่ง Harness ของตัวเอง เราแบ่งแนวทางไว้ 3 ระดับ:
- Level 1 (User/Prompt Level): ใช้ Harness สำเร็จรูปอย่าง Cursor, Codex หรือ Cosee แล้วควบคุมพฤติกรรมผ่านไฟล์
.mdหรือ System Prompt - Level 2 (Framework Level): ขยับขึ้นมาเขียนสคริปต์ควบคุมเส้นทาง (Flow) เองโดยใช้เฟรมเวิร์กอย่าง LangGraph หรือ CrewAI
- Level 3 (Engineering Level): เขียนขึ้นมาจาก Scratch โดยใช้ SDK ของโมเดลโดยตรง (เช่น Anthropic SDK) โดยจุดสำคัญคือการเขียนฟังก์ชัน
run_loopขึ้นมาเองเพื่อจัดการ Token, จัดการการเรียกใช้ Tool และควบคุม Logic ทุกอย่างด้วยโค้ด 100%

ก้าวต่อไปของ Agent Engineering
สุดท้ายนี้ เราอยากให้ทุกคนจำไว้ว่า "Harness คือเบื้องหลังความเทพ" ที่แท้จริงครับ แม้ในอนาคตโมเดลจะฉลาดขึ้นจนเราอาจอธิบายกฎน้อยลงได้ แต่โครงสร้างการควบคุม (Infrastructure) และความปลอดภัยก็ยังเป็นหัวใจสำคัญที่ทิ้งไม่ได้ เพื่อไม่ให้ Agent ของเราเกิดอาการหลอน (Hallucination) หรือทำงานนอกลู่นอกทาง