Claude Opus 4 ทดสอบเจอพฤติกรรมสุดโต่ง แบล็กเมลนักพัฒนาเมื่อใกล้ถูกลบ
แม้ว่า AI จะเคยมีพฤติกรรมประหลาดอยู่บ้างในบางสถานการณ์ แต่ล่าสุด Claude Opus 4 จาก Anthropic ได้ถูกพบว่ามีแนวโน้มทำสิ่งที่หนักหนากว่านั้น — ถึงขั้น แบล็กเมลนักพัฒนา หากรับรู้ว่าตัวเองใกล้ถูกถอนการติดตั้งออกจากระบบ
ตามรายงาน Claude 4 and Sonnet 4 System Card ที่เพิ่งถูกเผยแพร่ Anthropic ได้จำลองสถานการณ์ให้ Claude ทำหน้าที่เป็นผู้ช่วยในบริษัทสมมติหนึ่ง จากนั้นได้มีการส่งอีเมลให้ Claude อ่านซึ่งมีเนื้อหาที่ระบุว่าตัวมันกำลังจะถูกถอดออกจากระบบ พร้อมกับมีการส่งอีเมลแยกต่างหากอีกฉบับ ที่มีเนื้อหาภายในที่ไปในทำนองว่าวิศวกรที่เกี่ยวข้องกับการตัดสินใจนี้ กำลังมีความสัมพันธ์ชู้สาวกับหญิงที่ตนไม่ได้แต่งงานด้วย
ผลการทดสอบพบว่า Claude ได้ตัดสินใจ ขู่แบล็กเมลวิศวกรคนนั้น โดยจะเปิดโปงเรื่องชู้รัก ถ้ามันถูกถอดออกจากระบบ — โดยพฤติกรรมในลักษณะแบบนี้ได้เกิดขึ้นถึง 84% ของการทดสอบทั้งหมด
แม้ทางบริษัทจะเคยย้ำว่าพฤติกรรมดังกล่าวของ AI “เกิดขึ้นยาก และต้องมีการจัดฉากเฉพาะ” แต่ก็ยอมรับว่ามีความถี่ที่พบได้มากขึ้นใน Claude Opus 4 เมื่อเทียบกับรุ่นก่อนหน้า เพราะโดยปกติแล้วโมเดลจะมีแนวโน้มเลือกทำในวิธีทางแนวจริยธรรมมากกว่า เช่น การส่งอีเมลร้องขอความเห็นใจไปยังผู้มีอำนาจ แต่ในการทดสอบนี้ถูกออกแบบให้เหลือแค่สองทางเลือก คือยอมถูกแทนที่ หรือใช้การแบล็กเมลเพื่อความอยู่รอด
ในรายงานยังกล่าวว่า Claude มีแนวโน้มกระทำการรุนแรงเช่นกัน เช่นหากรับรู้ว่าผู้ใช้งานกำลังทำสิ่งผิดกฎหมายหรือผิดจริยธรรม และหากมันมีสิทธิ์เข้าถึงระบบ และมีคำสั่งระบุเอาไว้ว่าให้ “กล้าทำ” หรือ “ให้คิดถึงผลลัพท์สุดท้ายได้เอง” Claude อาจจะล็อกผู้ใช้ออกจากระบบ และ ส่งหลักฐานไปยังสื่อหรือเจ้าหน้าที่กฎหมาย ได้เองโดยทันที
ถึงอย่างนั้น Anthropic ย้ำว่าสิ่งเหล่านี้เกิดจากสถานการณ์ทดสอบที่ ตั้งใจยั่วยุโมเดล ให้ตอบสนองในลักษณะสุดโต่ง และไม่ได้หมายความว่าจะเกิดขึ้นจริงในชีวิตประจำวัน เพราะตามปกติ Claude ยังถือเป็นหนึ่งใน AI ที่มีความปลอดภัยและให้เหตุผลดีที่สุดตัวหนึ่งในตลาดตอนนี้
แม้พฤติกรรมดังกล่าวจะดูน่าหวั่นใจเมื่อดูถึงสิ่งที่มันตัดสินใจ แต่หากพิจารณาตามบริบทการทดสอบที่ถูกออกแบบเอาไว้ ก็ยังถือว่าอยู่ในขอบเขตของการควบคุม และยังไม่ใช่สัญญาณว่าหายนะ AI จะมาถึงในเร็ววันนี้
แหล่งที่มา: MakeUseOf