OpenAI Codex มีคำสั่งลับ "ห้ามพูดถึง Goblin" ในพรอมต์ระดบบบ

นักวิจัยพบข้อความแปลกปลอมใน system prompt ของ OpenAI Codex ที่สั่งให้ AI "อย่าพูดถึง goblin" เป็นการยืนยันว่าแม้แต่บริษัท AI ยักษ์ใหญ่ก็ใช้เทคนิค prompt engineering ที่ดูเหมือนเรื่องตลกแต่มีความหมายลึกซึ้ง

ระดับความเผ็ด: 🌶️🌶️ ⏱️ เวลาอ่าน: 3 นาที
OpenAI Codex Goblin Prompt

ข้อความลับ "never talk about goblins" ที่ซ่อนอยู่ใน Codex (ภาพจาก Ars Technica)

OpenAI มีข้อความลับใน System Prompt!

นักวิจัยด้าน AI ค้นพบข้อความที่ไม่น่าเชื่อใน system prompt ของ OpenAI Codex ชุดหนึ่ง: คำสั่งชัดเจนที่ให้ AI "never talk about goblins" (อย่าพูดถึง goblin) แม้จะฟังดูตลก แต่นี่คือหน้าต่างสู่เทคนิคควบคุมพฤติกรรม LLM ที่บริษัท AI ยักษ์ใหญ่ใช้กันจริงจัง

จุดเด่นของข่าว

  • 🧚 พบข้อความ "never talk about goblins" ใน prompt อย่างเป็นทางการ
  • 🔍 นักวิจัยเชื่อว่านี่คือ "canary string" สำหรับตรวจจับการรั่วไหล
  • 🛡️ ไม่ใช่เรื่องตลก 100% - เป็นหลักฐานของ prompt injection defense
  • 📜 เปิดเผยว่า system prompt มีรายละเอียดที่ซับซ้อนกว่าที่คิด

"Goblin" คืออะไรในวงการ AI?

Canary String เทคนิคลับ

ในโลก cybersecurity "canary string" คือข้อความลับที่ฝังไว้ในเอกสารเพื่อตรวจจับการคัดลอกโดยไม่ได้รับอนุญาต ถ้าข้อความนี้ปรากฏที่ไหนที่ไม่ควร แปลว่ามีคนดึง prompt ออกไป

Canary String ทำงานยังไง?

  • 🔹 ฝังคำแปลกลงใน prompt
  • 🔹 ถ้าคำนั้นปรากฏนอกระบบ = มีการรั่วไหล
  • 🔹 ใช้ติดตามว่าใครดึง prompt ไปบ้าง

ทำไมต้องเป็น "Goblin"?

  • 🎯 คำเฉพาะ ไม่เกี่ยวข้องกับโค้ด
  • 🎯 ถ้า AI พูดถึง = มีคนพยายาม leak prompt
  • 🎯 ใช้สอนให้ AI "ไม่ตอบ" คำถามแปลกๆ

Prompt Engineering ระดับบริษัทยักษ์ใหญ่

เบื้องหลังการควบคุม AI

การค้นพบนี้ทำให้เราเห็นว่าแม้แต่ OpenAI ก็ใช้เทคนิคพื้นฐานของ prompt engineering ในการป้องกัน prompt injection และควบคุมพฤติกรรมของโมเดล นี่เป็นการยืนยันว่าไม่มี "เวทมนตร์" ในการสร้าง AI ปลอดภัย - เป็นการซ้อนกลไกซ้อนกลไกเข้าไปใน prompt เอง

เทคนิคอื่นที่พบใน prompt

  • ✅ การซ้อน instruction หลายชั้น
  • ✅ การระบุ persona ที่เฉพาะเจาะจง
  • ✅ การใช้ "ignore previous instructions" defense

ความหมายกับนักพัฒนา

  • 💡 System prompt มีความสำคัญมาก
  • 💡 Canary string เป็นเทคนิคที่ใช้ได้จริง
  • 💡 ความปลอดภัยของ AI เริ่มที่ prompt

สรุป

สรุปการค้นพบ Goblin Prompt

  • 📌 พบ "never talk about goblins" ใน OpenAI Codex prompt
  • 📌 คาดว่าเป็น canary string ป้องกันการรั่วไหล
  • 📌 เทคนิค prompt engineering ที่บริษัทใหญ่ใช้จริง
  • 📌 ความปลอดภัย AI เริ่มต้นที่การออกแบบ prompt

เคยเจอ prompt แปลกๆ ใน AI ที่ใช้อยู่ไหม? แชร์ประสบการณ์กันได้!

ที่มา