Google เปิดผลทดสอบ AI Chatbot พบตัวแม่นยำที่สุดยังถูกต้องแค่ 69%

Google เปิดเผยผลการประเมินความแม่นยำของ AI Chatbot ผ่าน FACTS Benchmark Suite พบว่าโมเดลที่ดีที่สุดยังให้คำตอบถูกต้องไม่ถึง 70% สะท้อนความเสี่ยงของการใช้งาน AI เป็นแหล่งข้อมูลโดยไม่ตรวจสอบ

Google เผยแพร่รายงานการประเมินความแม่นยำของ AI Chatbot อย่างตรงไปตรงมา ผ่านชุดทดสอบใหม่ที่ชื่อว่า FACTS Benchmark Suite โดยผลลัพธ์ชี้ชัดว่า แม้แต่โมเดล AI ชั้นนำในปัจจุบัน ก็ยังไม่สามารถให้ข้อมูลที่ถูกต้องได้อย่างน่าเชื่อถือในทุกสถานการณ์

จากผลการทดสอบ โมเดลที่ทำคะแนนสูงสุดคือ Gemini 3 Pro ของ Google ซึ่งมีความแม่นยำด้านข้อเท็จจริงอยู่ที่ 69% หมายความว่าโดยเฉลี่ยแล้ว AI ยังตอบผิดประมาณ 1 ใน 3 คำถาม ขณะที่โมเดลอื่นจากค่ายใหญ่ก็ทำคะแนนได้ต่ำกว่า ไม่ว่าจะเป็น OpenAI, Anthropic หรือ xAI

Google ระบุว่า ปัญหาหลักของการประเมิน AI ในอดีต คือการโฟกัสว่า “ทำงานได้หรือไม่” มากกว่าการตรวจสอบว่า “ข้อมูลที่ตอบนั้นถูกต้องหรือไม่” ซึ่งเป็นช่องโหว่สำคัญ โดยเฉพาะในอุตสาหกรรมที่อ่อนไหวอย่าง การแพทย์ การเงิน และกฎหมาย เพราะคำตอบที่ดูมั่นใจแต่ผิดพลาด อาจสร้างความเสียหายได้จริง

FACTS Benchmark Suite ถูกออกแบบมาเพื่อทดสอบความถูกต้องในบริบทการใช้งานจริง แบ่งออกเป็น 4 ด้านหลัก ได้แก่

Parametric Knowledge ความรู้เชิงข้อเท็จจริงจากข้อมูลที่เรียนรู้มา
Search Accuracy ความสามารถในการค้นและอ้างอิงข้อมูลจากเว็บ
Grounding การยึดข้อมูลจากเอกสารต้นทางโดยไม่แต่งเติม
Multimodal Understanding การอ่านและตีความกราฟ ตาราง และภาพ

เกาะประเด็น: Google App อัปเดตใหญ่! AI Mode เข้าถึงประวัติง่ายขึ้นเยอะ – ดีกับเรายังไง?

ผลที่น่ากังวลคือ การทดสอบแบบ Multimodal เป็นจุดอ่อนของ AI แทบทุกค่าย โดยความแม่นยำส่วนใหญ่อยู่ต่ำกว่า 50% ซึ่งหมายความว่า AI อาจ “อ่านกราฟผิด” หรือ “ดึงตัวเลขจากเอกสารผิด” ได้โดยที่ผู้ใช้ไม่ทันสังเกต

บทสรุปจาก Google ไม่ได้บอกว่า AI Chatbot ใช้งานไม่ได้ แต่ย้ำชัดว่า การเชื่อ AI แบบไม่ตรวจสอบยังมีความเสี่ยงสูง และในระยะนี้ AI ยังต้องพึ่งพาโครงสร้างการตรวจสอบ การกำกับดูแล และมนุษย์ควบคุม ก่อนจะสามารถใช้เป็นแหล่งความจริงได้อย่างแท้จริง

ที่มา digitaltrends

Cookie	Duration	Description
AWSALBCORS	7 days	Amazon Web Services ใข้คุกกี้นี้เพื่อเป็นการใช้งานฟังก์ชั่น load balancing หรือการกระจายโหลดเซิร์ฟเวอร์
cf_use_ob	past	Cloudflare ใช้คุกกี้นี้เพื่อการเพิ่มประสิทธิภาพความรวดเร็วในการโหลดหน้าเว็บไซต์ เพื่อประสบการณ์การใช้งานของผู้เข้าชม
cookielawinfo-checkbox-analytics	11 months	คุกกี้นี้จัดเก็บความยินยอมของผู้ใช้งานให้กับคุกกี้ในหมวดประเภท "ข้อมูลสถิติ"
cookielawinfo-checkbox-functional	11 months	คุกกี้นี้จัดเก็บความยินยอมของผู้ใช้งานให้กับคุกกี้ในหมวดประเภท "ฟังก์ชั่นการทำงาน"
cookielawinfo-checkbox-necessary	11 months	คุกกี้นี้จัดเก็บความยินยอมของผู้ใช้งานให้กับคุกกี้ในหมวดประเภท "จำเป็น"
cookielawinfo-checkbox-others	11 months	คุกกี้นี้จัดเก็บความยินยอมของผู้ใช้งานให้กับคุกกี้ในหมวดประเภท "อื่นๆ"
cookielawinfo-checkbox-performance	11 months	คุกกี้นี้จัดเก็บความยินยอมของผู้ใช้งานให้กับคุกกี้ในหมวดประเภท "ประสิทธิภาพ"
JSESSIONID	session	คุกกี้ JSESSIONID ถูกใช้โดย New Relic เพื่อเป็นการเก็บไอดีจำเพราะในการเข้าใช้งานของผู้ใช้งานเพื่อให้ New Relic สามารถติดตามและตรวจนับเซ็ตชั่นการเข้าใช้งานเว็บไซต์ได้
viewed_cookie_policy	11 months	คุกกี้นี้ใช้เพื่อเป็นการเก็บความยินยอมในการอนุญาตให้จัดเก็บและใช้งานคุกกี้ของผู้ใช้งาน โดยไม่มีการจัดเก็บข้อมูลส่วนตัวใดๆ ของผู้ใช้งานแม้แต่น้อย

Cookie	Duration	Description
_ga_CE4TLMWX4S	2 years	คุกกี้ถูกติดตั้งโดย Google Analytics เพื่อเป็นการเก็บข้อมูลจำนวนผู้เข้าชมเว็บไซต์
_gid	1 day	ติดตั้งโดย Google Analytics โดย คุกกี้ _gid นี้ใช้สำหรับการเก็บข้อมูลการใช้งานเว็บไซต์ของผู้เข้าชม ในขณะเดียวกันก็ยังใช้ในการจัดทำสถิติสำหรับการวิเคราะห์ข้อมูลประสิทธิภาพของเว็บไซต์ด้วย โดยข้อมูลที่เก็บนั้นยกตัวอย่างเช่นจำนวนผู้เข้าชม แหล่งที่มา และหน้าที่ผู้เข้าชมเปิดอ่านโดยไม่เปิดเผยตัวตนของผู้เข้าชม

Cookie	Duration	Description
IDE	1 year 24 days	คุกกี้จาก Google DoubleClick IDE นี้ติดตั้งโดย Google เพื่อเก็บข้อมูลการใช้งานของผู้เข้าชมเว็บไซต์เพื่อกำหนดมาตรฐานในการเลือกโฆษณาที่ตรงความต้องการของผู้ใช้งานมาแสดงบนหน้าเว็บไซต์
test_cookie	15 minutes	คุกกี้นี้ถูกติดตั้งโดย Doubleclick.net (Google) เพื่อเป็นการตรวจสอบว่าบราวเซอร์ที่ผู้เข้าชมเว็บไซต์ใช้งานอยู่รองรับคุกกี้หรือไม่
VISITOR_INFO1_LIVE	5 months 27 days	คุกกี้นี้ถูกใช้งานโดย Youtube เพื่อตรวจสอบแบนด์วิดธ์ที่ผู้ใช้งานใช้ในการเปิดดูวิดีโอ เพื่อเป็นการระบุเวอร์ชั่นของตัวเล่นวิดีโอว่าเป็นเวอร์ชั่นใหม่หรือเก่า
YSC	session	คุกกี้ YSC ถูกติดตั้งและใช้งานโดย Youtube โดยใช้เพื่อเป็นการดึงเอาข้อมูลวิดีโอจากเว็บไซต์ Youtube ขึ้นมาแสดงในหน้าที่ดึงเอาวิดีโอนั้นๆ มาแสดง
yt-remote-connected-devices	never	Youtube ติดตั้งคุกกี้นี้เพื่อเป็นการเก็บข้อมูลการตั้งค่าการเล่นวิดีโอของ Youtube บนเว็บไซต์นี้เพื่อใช้ในการมอบประสบการณ์ที่ดีที่สุดให้กับผู้เข้าชมเว็บไซต์
yt-remote-device-id	never	Youtube ติดตั้งคุกกี้นี้เพื่อเป็นการเก็บข้อมูลการตั้งค่าการเล่นวิดีโอของ Youtube บนเว็บไซต์นี้เพื่อใช้ในการมอบประสบการณ์ที่ดีที่สุดให้กับผู้เข้าชมเว็บไซต์
yt.innertube::nextId	never	คุกกี้จาก Youtube ประเภทนี้ใช้สำหรับการสร้างเลขไอดีจำเพาะเพื่อเก็บข้อมูลของวิดีโอที่ผู้เข้าชมเพิ่งรับชมไปในเว็บไซต์นี้
yt.innertube::requests	never	คุกกี้จาก Youtube ประเภทนี้ใช้สำหรับการสร้างเลขไอดีจำเพาะเพื่อเก็บข้อมูลของวิดีโอที่ผู้เข้าชมเพิ่งรับชมไปในเว็บไซต์นี้

Google เปิดทางให้สร้างแอป จากคำสั่งเสียงหรือข้อความได้ด้วย AI

Google App อัปเดตใหญ่! AI Mode เข้าถึงประวัติง่ายขึ้นเยอะ – ดีกับเรายังไง?

Google Maps เปิดตัวฟีเจอร์ “ถามแผนที่” ใช้ AI Gemini ช่วยหา-ตอบคำถาม เหมือนคนในพื้นที่

เจมินี่สั่งข้าวกลางวันให้ได้แล้ว! AI บุกหนักคุมแอปมือถือเองได้ใน Galaxy S26 นี่มันยุคไหนกันเนี่ย!?

Google จับมือ Samsung เปิดตัว Sokatoa เครื่องมือใหม่ช่วยนักพัฒนาเกม Android แก้ปัญหากระตุก

AMD, Broadcom, Meta, Microsoft, NVIDIA และ OpenAI ก่อตั้งกลุ่มพันธมิตร Optical Scale-up เพื่อสร้างข้อกำหนดแบบเปิดสำหรับโครงสร้างพื้นฐานด้าน AI

รีวิว realme 16 Pro+ และ realme 16 Pro จัดเต็มกล้อง 200MP LumaColor กับแบต Titan 7000mAh

Reviews : Marathon(Steam) ติดง่าย! สนุก ธีมจัด เนื้อเรื่องดี เรียกว่าครบรส!

Review : God of War Sons of Sparta เกมภาคแยกของ God Of War ที่ดีกว่าที่หลายคนคิด!

รีวิว vivo V70 กล้อง ZEISS เสกช็อตลูกรักพระเจ้า บางเบา อึดทน และลื่นไหลกว่าเดิม

รีวิว Xiaomi Pad 8 แท็บเล็ตจอ 3.2K 144Hz ชิป Snapdragon 8s Gen 4 แรงครบทั้งบันเทิงและงาน (คลิป)

INFOSEC จับมือ Pentera ชู AI-Driven Security Validation ยกระดับความมั่นคงปลอดภัยไซเบอร์ในประเทศไทย

Sonic Racing: CrossWorlds เตรียมเพิ่ม Mega Man DLC 25 มีนาคมนี้

The Triple-i Initiative 2026 จัด 9 เมษายน โชว์เกมอินดี้ใหม่ต่อเนื่อง 45 นาที

รีวิว realme 16 Pro+ และ realme 16 Pro จัดเต็มกล้อง 200MP LumaColor กับแบต Titan 7000mAh

รีวิว Samsung Galaxy Buds Core หูฟัง ANC ตัวประหยัด เสียงชัด แบตอึด รองรับ Galaxy AI

OPPO Find N6 พรีวิวสัมผัสแรก จอพับบางเบา รอยพับแทบมองไม่เห็น พร้อม AI Pen

Nvidia เปิดตัว DLSS 5 เพิ่มกราฟิกสมจริงด้วย AI ( แต่หลายคนไม่ชอบ )

Google Maps เปิดตัวฟีเจอร์ “ถามแผนที่” ใช้ AI Gemini ช่วยหา-ตอบคำถาม เหมือนคนในพื้นที่

อย่าเชื่อมากนัก!! เปิดเผยผลทดสอบ AI Chatbot ตัวที่แม่นยำที่สุดยังถูกแค่ 69%

Related Posts