Xiaomi เปิดตัว MiMo-V2.5-TTS และ MiMo-V2.5-ASR ชุดโมเดลเสียงแบบครบวงจรที่รวมทั้งการ “พูด” และ “ฟัง” ของ AI ไว้ในระบบเดียว รองรับการใช้งานยุค AI ผู้ช่วยอัจฉริยะที่ต้องโต้ตอบได้สมจริง เข้าใจหลายภาษา หลายสำเนียง และทำงานในสภาพแวดล้อมจริงได้ดีขึ้น
การอัปเดตนี้ต่อยอดจาก MiMo-V2-TTS ที่เปิดตัวในเดือนมีนาคม โดยขยายจากระบบสังเคราะห์เสียง ไปสู่ voice pipeline แบบเต็มรูปแบบ ซึ่ง Xiaomi เรียกว่า “full-link voice model” เพื่อทำหน้าที่เป็นผู้ช่วยอัจฉริยะ ซึ่งจะรับคำสั่งเรา สนทนากับเรา ตอบสนองและทำงานให้ผู้ใช้ได้มากขึ้น
ฝั่งสร้างเสียง “พูด” (Text-to-Speech) Xiaomi เปิดตัว 3 โมเดลหลัก ได้แก่
- โมเดลพื้นฐาน MiMo-V2.5-TTS รองรับการปรับความเร็ว น้ำเสียง อารมณ์ และสไตล์การพูดละเอียดขึ้น
- ขณะที่ MiMo-V2.5-TTS-VoiceDesign สามารถสร้างโทนเสียงใหม่จากประโยคตัวอย่างสั้นๆ
- ส่วน MiMo-V2.5-TTS-VoiceClone เน้นโคลนเสียงต้นฉบับจากตัวอย่างเพียงไม่กี่ชุด พร้อมรักษาเอกลักษณ์เสียงแม้เปลี่ยนสไตล์การพูด
ด้านระบบ “ฟัง” หรือ Automatic Speech Recognition (ASR) Xiaomi เปิดซอร์ส MiMo-V2.5-ASR พร้อมน้ำหนักโมเดลและโค้ดให้ใช้งานได้โดยตรง รองรับการใช้งานจริงในสภาพแวดล้อมซับซ้อน เช่น เสียงรบกวนสูง การประชุมหลายคนพูดพร้อมกัน หรือการรับเสียงระยะไกล
หนึ่งในจุดเด่นคือการสั่งงานด้วยภาษาธรรมชาติ ผู้ใช้ไม่จำเป็นต้องตั้งค่าพารามิเตอร์ซับซ้อน แต่สามารถบอก AI ได้ตรงๆ เช่นให้พูดแบบจริงจัง อ่อนโยน หรือเหมือนนักพากย์ นอกจากนี้ยังรองรับการเขียนสคริปต์หลายชั้นสำหรับงานซับซ้อนอย่างตัวละครเกมหรือออดิโอดรามา โดยปรับบุคลิก ฉาก และบทสนทนาแยกกันได้โดยคงความต่อเนื่องของเสียง
Xiaomi ยังเพิ่มระบบ inline audio tags สำหรับฝังคำสั่งควบคุมอารมณ์หรือวิธีเปล่งเสียงไว้ในข้อความเดียว รองรับทั้งภาษาจีนและอังกฤษ ช่วยให้การพากย์หรือสร้างบทสนทนาสมจริงขึ้น
ในโมเดลยังรองรับหลายสำเนียงของภาษาจีนที่ต่างกันด้วย เช่น Wu, Cantonese, Minnan และ Sichuanese รวมถึงรองรับบทสนทนาสลับจีน-อังกฤษ (Code-Switching) ได้โดยไม่ต้องระบุภาษาไว้ล่วงหน้า อีกทั้งยังถอดเสียงเนื้อเพลงได้แม้มีดนตรีประกอบ
อีกจุดที่น่าสนใจคือระบบแยกผู้พูดในบทสนทนาซ้อนทับ และการใส่เครื่องหมายวรรคตอนอัตโนมัติตามเสียงและบริบท ทำให้ข้อความที่ถอดออกมาแทบพร้อมใช้งานทันที ลดงาน post-processing ลงได้มาก
Xiaomi ระบุว่าโมเดลทำผลลัพธ์ระดับ state-of-the-art หรือใกล้เคียงแนวหน้าของวงการในหลาย benchmark โดยเฉพาะด้านการรู้จำสองภาษา สำเนียง และสถานการณ์สลับภาษา
ภาพรวมการเปิดตัวครั้งนี้ทำให้รู้ว่า Xiaomi ไม่ได้มอง AI แค่ฟีเจอร์บนสมาร์ตโฟน แต่กำลังวางรากฐานด้าน voice infrastructure สำหรับทำหน้าที่เป็น AI Agent ในอนาคต ไม่ว่าจะใช้กับผู้ช่วยอัจฉริยะ อุปกรณ์ IoT หุ่นยนต์ คอนเทนต์เสียง หรือแอปพลิเคชันสนทนาแบบใหม่ ซึ่งจะต่อยอดถูกใช้ได้อีกมากมายในอนาคต








