Xiaomi ประกาศเปิดซอร์ส OmniVoice โมเดล Text-to-Speech (TTS) รุ่นใหม่จากทีม AI Lab ที่รองรับการสร้างเสียงพูดและโคลนเสียงในหลายร้อยภาษา พร้อมชูจุดเด่นด้านความเร็ว ความแม่นยำ และการรองรับภาษาที่มีข้อมูลฝึกสอนน้อย
บริษัทระบุว่า OmniVoice สามารถแข่งขันกับระบบเชิงพาณิชย์หลายรายได้ โดยเฉพาะงานด้านเสียงหลายภาษา และบางกรณีทำผลงานได้ดีกว่าในด้านความชัดเจนของเสียงและความใกล้เคียงเสียงมนุษย์
OmniVoice เป็นโมเดล AI สำหรับแปลงข้อความเป็นเสียงพูด หรือ Text-to-Speech (TTS) ที่ Xiaomi พัฒนาขึ้นโดยเน้น “Multilingual Speech Synthesis” หรือการสร้างเสียงพูดได้หลายภาษาในระบบเดียว จุดเด่นสำคัญคือรองรับภาษาที่มีข้อมูลออนไลน์น้อย (Low-resource languages) ซึ่งปกติเป็นปัญหาของระบบ AI เสียงพูดในปัจจุบัน
Xiaomi ระบุว่า OmniVoice สามารถสร้างเสียงพูดได้ “แทบทุกภาษา” แม้จะมีข้อมูลฝึกสอนต่ำกว่า 10 ชั่วโมงก็ตาม โดยบริษัทอ้างว่าเป็นโมเดลโคลนเสียง TTS ตัวแรกของอุตสาหกรรมที่รองรับหลายร้อยภาษาในระดับเดียวกัน
ในการทดสอบหลายภาษา OmniVoice สามารถทำคะแนนด้านความเหมือนเสียงต้นฉบับและความชัดเจนของคำพูดเหนือกว่าระบบเชิงพาณิชย์หลายรายใน 24 ภาษา แม้จะใช้ชุดข้อมูล Open-source เท่านั้น และในการทดสอบกว่า 102 ภาษา บริษัทอ้างว่าความชัดเจนของเสียงอยู่ในระดับใกล้เคียงเสียงมนุษย์จริง หรือบางกรณีดีกว่าเสียงจริงด้วยซ้ำ
อีกจุดที่ Xiaomi พยายามผลักดันคือการลดความซับซ้อนของสถาปัตยกรรม AI โดย OmniVoice ใช้ Transformer แบบสองทิศทาง (Bidirectional Transformer) เพียงชุดเดียวในการแปลงข้อความเป็นเสียงพูดโดยตรง ต่างจากโมเดล TTS รุ่นใหม่หลายระบบที่ต้องแยกโมดูลหลายชั้น ทั้งระบบวิเคราะห์ข้อความ ระบบ token prediction และ hybrid architecture
แนวทางนี้ช่วยให้ระบบทำงานได้เร็วขึ้น โดย Xiaomi ระบุว่าสามารถเทรนข้อมูลเสียงระดับ 100,000 ชั่วโมงได้ภายใน 1 วัน และระหว่างใช้งานจริงสามารถสร้างเสียงได้เร็วกว่าเวลาจริงสูงสุดถึง 40 เท่าผ่าน PyTorch ซึ่งอาจช่วยให้การนำไปใช้งานในบริการผู้บริโภคหรืออุปกรณ์ทั่วไปทำได้ง่ายขึ้น
บริษัทอธิบายว่าเบื้องหลังประสิทธิภาพของ OmniVoice มาจาก 2 ส่วนหลัก ได้แก่
• เทคนิค “full codebook random masking strategy” ที่ช่วยเพิ่มประสิทธิภาพการเรียนรู้ของโมเดล
• การนำ Large Language Model (LLM) มาใช้ในขั้น pre-training ของระบบ TTS แบบ non-autoregressive เป็นครั้งแรก เพื่อช่วยเรื่องการออกเสียงและความเข้าใจภาษา
ด้านฟีเจอร์ใช้งานจริง OmniVoice รองรับการสร้างเสียงใหม่ผ่านข้อความอธิบาย เช่น อายุ เพศ น้ำเสียง สำเนียง หรือสไตล์การพูด โดยไม่จำเป็นต้องมีไฟล์เสียงต้นฉบับเสมอไป ระบบยังสามารถสร้างเสียงกระซิบ เสียงหัวเราะ หรือเสียงถอนหายใจ เพื่อให้เสียง AI ฟังดูเป็นธรรมชาติมากขึ้น
อีกฟีเจอร์ที่น่าสนใจคือการลบเสียงรบกวนจากไฟล์อ้างอิงอัตโนมัติ ทำให้การโคลนเสียงจากคลิปที่อัดในสภาพแวดล้อมไม่สมบูรณ์ยังได้คุณภาพที่ดีขึ้น ซึ่งมีประโยชน์กับงานครีเอเตอร์ งานพากย์เสียง และบริการ AI Assistant
นอกจากนี้ OmniVoice ยังรองรับการแก้การออกเสียงด้วยตนเอง โดยเฉพาะคำเฉพาะภาษาอังกฤษหรืออักษรจีนที่มีหลายการออกเสียง ช่วยเพิ่มความแม่นยำในการใช้งานจริงมากขึ้น
การที่ Xiaomi เปิดซอร์ส OmniVoice อาจเป็นอีกสัญญาณว่าการแข่งขันด้าน AI เสียงกำลังขยายจากบริษัทซอฟต์แวร์ไปสู่ผู้ผลิตฮาร์ดแวร์รายใหญ่ โดยเฉพาะในตลาดผู้ช่วย AI, สมาร์ตโฟน และอุปกรณ์ IoT ที่เริ่มใช้เสียง AI เป็นส่วนสำคัญของประสบการณ์ใช้งาน








