Xiaomi ปล่อยซอร์ส OmniVoice AI โคลนเสียง รองรับหลายร้อยภาษา

Xiaomi ประกาศเปิดซอร์ส OmniVoice โมเดล Text-to-Speech (TTS) รุ่นใหม่จากทีม AI Lab ที่รองรับการสร้างเสียงพูดและโคลนเสียงในหลายร้อยภาษา พร้อมชูจุดเด่นด้านความเร็ว ความแม่นยำ และการรองรับภาษาที่มีข้อมูลฝึกสอนน้อย

บริษัทระบุว่า OmniVoice สามารถแข่งขันกับระบบเชิงพาณิชย์หลายรายได้ โดยเฉพาะงานด้านเสียงหลายภาษา และบางกรณีทำผลงานได้ดีกว่าในด้านความชัดเจนของเสียงและความใกล้เคียงเสียงมนุษย์

OmniVoice เป็นโมเดล AI สำหรับแปลงข้อความเป็นเสียงพูด หรือ Text-to-Speech (TTS) ที่ Xiaomi พัฒนาขึ้นโดยเน้น “Multilingual Speech Synthesis” หรือการสร้างเสียงพูดได้หลายภาษาในระบบเดียว จุดเด่นสำคัญคือรองรับภาษาที่มีข้อมูลออนไลน์น้อย (Low-resource languages) ซึ่งปกติเป็นปัญหาของระบบ AI เสียงพูดในปัจจุบัน

Xiaomi ระบุว่า OmniVoice สามารถสร้างเสียงพูดได้ “แทบทุกภาษา” แม้จะมีข้อมูลฝึกสอนต่ำกว่า 10 ชั่วโมงก็ตาม โดยบริษัทอ้างว่าเป็นโมเดลโคลนเสียง TTS ตัวแรกของอุตสาหกรรมที่รองรับหลายร้อยภาษาในระดับเดียวกัน

ในการทดสอบหลายภาษา OmniVoice สามารถทำคะแนนด้านความเหมือนเสียงต้นฉบับและความชัดเจนของคำพูดเหนือกว่าระบบเชิงพาณิชย์หลายรายใน 24 ภาษา แม้จะใช้ชุดข้อมูล Open-source เท่านั้น และในการทดสอบกว่า 102 ภาษา บริษัทอ้างว่าความชัดเจนของเสียงอยู่ในระดับใกล้เคียงเสียงมนุษย์จริง หรือบางกรณีดีกว่าเสียงจริงด้วยซ้ำ

อีกจุดที่ Xiaomi พยายามผลักดันคือการลดความซับซ้อนของสถาปัตยกรรม AI โดย OmniVoice ใช้ Transformer แบบสองทิศทาง (Bidirectional Transformer) เพียงชุดเดียวในการแปลงข้อความเป็นเสียงพูดโดยตรง ต่างจากโมเดล TTS รุ่นใหม่หลายระบบที่ต้องแยกโมดูลหลายชั้น ทั้งระบบวิเคราะห์ข้อความ ระบบ token prediction และ hybrid architecture

เกาะประเด็น: AI โต แรมแพงขึ้นเพราะอะไร? เจาะสาเหตุที่ RAM ราคาพุ่ง อาจไม่ใช่อย่างที่คุณรู้

แนวทางนี้ช่วยให้ระบบทำงานได้เร็วขึ้น โดย Xiaomi ระบุว่าสามารถเทรนข้อมูลเสียงระดับ 100,000 ชั่วโมงได้ภายใน 1 วัน และระหว่างใช้งานจริงสามารถสร้างเสียงได้เร็วกว่าเวลาจริงสูงสุดถึง 40 เท่าผ่าน PyTorch ซึ่งอาจช่วยให้การนำไปใช้งานในบริการผู้บริโภคหรืออุปกรณ์ทั่วไปทำได้ง่ายขึ้น

บริษัทอธิบายว่าเบื้องหลังประสิทธิภาพของ OmniVoice มาจาก 2 ส่วนหลัก ได้แก่

• เทคนิค “full codebook random masking strategy” ที่ช่วยเพิ่มประสิทธิภาพการเรียนรู้ของโมเดล
• การนำ Large Language Model (LLM) มาใช้ในขั้น pre-training ของระบบ TTS แบบ non-autoregressive เป็นครั้งแรก เพื่อช่วยเรื่องการออกเสียงและความเข้าใจภาษา

ด้านฟีเจอร์ใช้งานจริง OmniVoice รองรับการสร้างเสียงใหม่ผ่านข้อความอธิบาย เช่น อายุ เพศ น้ำเสียง สำเนียง หรือสไตล์การพูด โดยไม่จำเป็นต้องมีไฟล์เสียงต้นฉบับเสมอไป ระบบยังสามารถสร้างเสียงกระซิบ เสียงหัวเราะ หรือเสียงถอนหายใจ เพื่อให้เสียง AI ฟังดูเป็นธรรมชาติมากขึ้น

อีกฟีเจอร์ที่น่าสนใจคือการลบเสียงรบกวนจากไฟล์อ้างอิงอัตโนมัติ ทำให้การโคลนเสียงจากคลิปที่อัดในสภาพแวดล้อมไม่สมบูรณ์ยังได้คุณภาพที่ดีขึ้น ซึ่งมีประโยชน์กับงานครีเอเตอร์ งานพากย์เสียง และบริการ AI Assistant

นอกจากนี้ OmniVoice ยังรองรับการแก้การออกเสียงด้วยตนเอง โดยเฉพาะคำเฉพาะภาษาอังกฤษหรืออักษรจีนที่มีหลายการออกเสียง ช่วยเพิ่มความแม่นยำในการใช้งานจริงมากขึ้น

การที่ Xiaomi เปิดซอร์ส OmniVoice อาจเป็นอีกสัญญาณว่าการแข่งขันด้าน AI เสียงกำลังขยายจากบริษัทซอฟต์แวร์ไปสู่ผู้ผลิตฮาร์ดแวร์รายใหญ่ โดยเฉพาะในตลาดผู้ช่วย AI, สมาร์ตโฟน และอุปกรณ์ IoT ที่เริ่มใช้เสียง AI เป็นส่วนสำคัญของประสบการณ์ใช้งาน

ที่มา

Cookie	Duration	Description
AWSALBCORS	7 days	Amazon Web Services ใข้คุกกี้นี้เพื่อเป็นการใช้งานฟังก์ชั่น load balancing หรือการกระจายโหลดเซิร์ฟเวอร์
cf_use_ob	past	Cloudflare ใช้คุกกี้นี้เพื่อการเพิ่มประสิทธิภาพความรวดเร็วในการโหลดหน้าเว็บไซต์ เพื่อประสบการณ์การใช้งานของผู้เข้าชม
cookielawinfo-checkbox-analytics	11 months	คุกกี้นี้จัดเก็บความยินยอมของผู้ใช้งานให้กับคุกกี้ในหมวดประเภท "ข้อมูลสถิติ"
cookielawinfo-checkbox-functional	11 months	คุกกี้นี้จัดเก็บความยินยอมของผู้ใช้งานให้กับคุกกี้ในหมวดประเภท "ฟังก์ชั่นการทำงาน"
cookielawinfo-checkbox-necessary	11 months	คุกกี้นี้จัดเก็บความยินยอมของผู้ใช้งานให้กับคุกกี้ในหมวดประเภท "จำเป็น"
cookielawinfo-checkbox-others	11 months	คุกกี้นี้จัดเก็บความยินยอมของผู้ใช้งานให้กับคุกกี้ในหมวดประเภท "อื่นๆ"
cookielawinfo-checkbox-performance	11 months	คุกกี้นี้จัดเก็บความยินยอมของผู้ใช้งานให้กับคุกกี้ในหมวดประเภท "ประสิทธิภาพ"
JSESSIONID	session	คุกกี้ JSESSIONID ถูกใช้โดย New Relic เพื่อเป็นการเก็บไอดีจำเพราะในการเข้าใช้งานของผู้ใช้งานเพื่อให้ New Relic สามารถติดตามและตรวจนับเซ็ตชั่นการเข้าใช้งานเว็บไซต์ได้
viewed_cookie_policy	11 months	คุกกี้นี้ใช้เพื่อเป็นการเก็บความยินยอมในการอนุญาตให้จัดเก็บและใช้งานคุกกี้ของผู้ใช้งาน โดยไม่มีการจัดเก็บข้อมูลส่วนตัวใดๆ ของผู้ใช้งานแม้แต่น้อย

Cookie	Duration	Description
_ga_CE4TLMWX4S	2 years	คุกกี้ถูกติดตั้งโดย Google Analytics เพื่อเป็นการเก็บข้อมูลจำนวนผู้เข้าชมเว็บไซต์
_gid	1 day	ติดตั้งโดย Google Analytics โดย คุกกี้ _gid นี้ใช้สำหรับการเก็บข้อมูลการใช้งานเว็บไซต์ของผู้เข้าชม ในขณะเดียวกันก็ยังใช้ในการจัดทำสถิติสำหรับการวิเคราะห์ข้อมูลประสิทธิภาพของเว็บไซต์ด้วย โดยข้อมูลที่เก็บนั้นยกตัวอย่างเช่นจำนวนผู้เข้าชม แหล่งที่มา และหน้าที่ผู้เข้าชมเปิดอ่านโดยไม่เปิดเผยตัวตนของผู้เข้าชม

Cookie	Duration	Description
IDE	1 year 24 days	คุกกี้จาก Google DoubleClick IDE นี้ติดตั้งโดย Google เพื่อเก็บข้อมูลการใช้งานของผู้เข้าชมเว็บไซต์เพื่อกำหนดมาตรฐานในการเลือกโฆษณาที่ตรงความต้องการของผู้ใช้งานมาแสดงบนหน้าเว็บไซต์
test_cookie	15 minutes	คุกกี้นี้ถูกติดตั้งโดย Doubleclick.net (Google) เพื่อเป็นการตรวจสอบว่าบราวเซอร์ที่ผู้เข้าชมเว็บไซต์ใช้งานอยู่รองรับคุกกี้หรือไม่
VISITOR_INFO1_LIVE	5 months 27 days	คุกกี้นี้ถูกใช้งานโดย Youtube เพื่อตรวจสอบแบนด์วิดธ์ที่ผู้ใช้งานใช้ในการเปิดดูวิดีโอ เพื่อเป็นการระบุเวอร์ชั่นของตัวเล่นวิดีโอว่าเป็นเวอร์ชั่นใหม่หรือเก่า
YSC	session	คุกกี้ YSC ถูกติดตั้งและใช้งานโดย Youtube โดยใช้เพื่อเป็นการดึงเอาข้อมูลวิดีโอจากเว็บไซต์ Youtube ขึ้นมาแสดงในหน้าที่ดึงเอาวิดีโอนั้นๆ มาแสดง
yt-remote-connected-devices	never	Youtube ติดตั้งคุกกี้นี้เพื่อเป็นการเก็บข้อมูลการตั้งค่าการเล่นวิดีโอของ Youtube บนเว็บไซต์นี้เพื่อใช้ในการมอบประสบการณ์ที่ดีที่สุดให้กับผู้เข้าชมเว็บไซต์
yt-remote-device-id	never	Youtube ติดตั้งคุกกี้นี้เพื่อเป็นการเก็บข้อมูลการตั้งค่าการเล่นวิดีโอของ Youtube บนเว็บไซต์นี้เพื่อใช้ในการมอบประสบการณ์ที่ดีที่สุดให้กับผู้เข้าชมเว็บไซต์
yt.innertube::nextId	never	คุกกี้จาก Youtube ประเภทนี้ใช้สำหรับการสร้างเลขไอดีจำเพาะเพื่อเก็บข้อมูลของวิดีโอที่ผู้เข้าชมเพิ่งรับชมไปในเว็บไซต์นี้
yt.innertube::requests	never	คุกกี้จาก Youtube ประเภทนี้ใช้สำหรับการสร้างเลขไอดีจำเพาะเพื่อเก็บข้อมูลของวิดีโอที่ผู้เข้าชมเพิ่งรับชมไปในเว็บไซต์นี้

บริษัทอธิบายว่าเบื้องหลังประสิทธิภาพของ OmniVoice มาจาก 2 ส่วนหลัก ได้แก่

AI โต แรมแพงขึ้นเพราะอะไร? เจาะสาเหตุที่ RAM ราคาพุ่ง อาจไม่ใช่อย่างที่คุณรู้

CMF แบรนด์ย่อยราคาประหยัดของ Nothing ยืนยันไม่เปิดตัวสมาร์ตโฟนรุ่นใหม่ปี 2026 เหตุราคา RAM พุ่ง

Redmi Turbo 5 เปิดตัวในอินเดีย พร้อมแบต 7,540mAh และ Dimensity 8500-Ultra

ซีอีโอ Nothing เปิดเผย RAM และ ROM กลายเป็นต้นทุนที่แพงที่สุดของสมาร์ตโฟนไปแล้ว

Xiaomi เปิดตัวแขนกลชาร์จรถไฟฟ้าอัตโนมัติ เตรียมวางขายปลายปี 2026

Honor Magic9 อาจรองรับปากกา AI ครั้งแรกในสมาร์ตโฟนเรือธงทรงปกติ

รีวิว OPPO Reno16 5G และ Reno16 F 5G อัปเกรดกล้อง 50MP รอบตัว พร้อม OPPO Bubble ตัวช่วยเซลฟี่สุดเทรนดี้

รีวิว ACEFAST Z9 สเตชั่นชาร์จไร้สาย + USB 6-in-1 80W ตัวจบสำหรับโต๊ะทำงานและสายเดินทาง

รีวิว ACEFAST Z1 อะแดปเตอร์ Universal 75W ตัวเดียวจบสายเที่ยว เสียบได้รอบโลก พร้อมพอร์ตชาร์จในตัว 5 อุปกรณ์พร้อมกัน

รีวิว vivo X300 FE เทคเดียวก็เอาอยู่ มือถือเรือธงไซซ์กะทัดรัด พร้อมกล้องเทเลที่เก็บได้ไกลเกินตัว

รีวิว Lenovo Idea Tab Pro Gen 2 แท็บเล็ต Android ครบเครื่องที่สุดในงบ 20,000 บาท

Google เพิ่มโหมดเกมใหม่ให้ Android 17 เปลี่ยนมือถือจอพับให้เหมือน Nintendo DS

Valve ลบข้อความเคลม Steam Machine เล่นเกม 4K 60 FPS ออกจากหน้าสเปกทางการ

Kingdom Come: Deliverance 2 ยอดขายทะลุ 6 ล้านชุด พร้อมเดินหน้าพัฒนาเกมภาคใหม่

Onimusha: Way of the Sword ปล่อยเกมเพลย์ใหม่ ยืนยันกำหนดวางจำหน่าย 25 กันยายนนี้

RedMagic Gaming Tablet 5 Pro เผยสเปกเพิ่ม แบต 8,300mAh ชาร์จ 80W พร้อมพอร์ต USB-C คู่

รีวิว Samsung Galaxy Buds Core หูฟัง ANC ตัวประหยัด เสียงชัด แบตอึด รองรับ Galaxy AI

Redmi Turbo 5 เปิดตัวในอินเดีย พร้อมแบต 7,540mAh และ Dimensity 8500-Ultra

Alldocube เปิดตัว Ultra Pad แท็บเล็ตจอใหญ่ 13 นิ้ว 144Hz สเปกแรงครบเครื่อง พร้อมลุยทุกไลฟ์สไตล์ เริ่มต้น 13,990 บาท

สัมผัสแรก Samsung Galaxy A27 5G มือถือ Snapdragon สายคุ้ม ลื่นแรงในงบหมื่น

Xiaomi ปล่อยซอร์ส AI โคลนเสียง OmniVoice รองรับหลายร้อยภาษาทั่วโลก

บริษัทอธิบายว่าเบื้องหลังประสิทธิภาพของ OmniVoice มาจาก 2 ส่วนหลัก ได้แก่

Related Posts