Villa Capital

اطلاقات النماذج الصوتية من ميسترال ومن جوجل، خطط آبل لسيري، اكتشاف جديد من جوجل

أطلقت ميسترال وجوجل نماذج صوتية جديدة لتعزيز التفاعل الصوتي بالذكاء الاصطناعي، فيما تستعد آبل لفتح Siri أمام مساعدين خارجيين، وكشفت جوجل عن تقنية TurboQuant لتقليل استهلاك الذاكرة وتسريع أداء النماذج.

ميسترال Mistral AI تطلق النموذج الصوتي Voxtral

أطلقت شركة Mistral AI نموذجًا جديدًا مفتوح المصدر لتحويل النص إلى صوت باسم Voxtral TTS، في خطوة توسّع حضورها في سوق وكلاء الصوت وتضعها بمواجهة مباشرة مع شركات مثل OpenAI و ElevenLabs.

النموذج يدعم 9 لغات، من بينها العربية، ويستهدف استخدامات مثل خدمة العملاء، المبيعات، والمساعدات الصوتية. الفكرة الأساسية: نموذج خفيف وقابل للنشر على أجهزة edge مثل الهواتف والساعات، بتكلفة أقل بكثير من المنافسين مع أداء متقدم.

تقنيًا، Voxtral قادر على استنساخ صوت مخصص من عينة أقل من 5 ثوانٍ، مع الحفاظ على تفاصيل دقيقة مثل النبرة، اللهجة، وحتى صعوبات أو عيوب النطق الطبيعية ، وهذا مهم لجعل الصوت يبدو بشريًا وليس آليًا. كما يمكنه التنقل بين اللغات دون فقدان هوية الصوت، ما يفتح الباب لاستخدامات مثل الدبلجة والترجمة الفورية.

من ناحية الأداء، زمن بدء الصوت (TTFA) يبلغ ~90 مللي ثانية، مع سرعة توليد تصل إلى 6x (أي إنتاج 10 ثوانٍ صوت خلال ~1.6 ثانية).

الخطوة تعكس استراتيجية Mistral لبناء منصة صوتية متكاملة متعددة الوسائط، مع رهان واضح على التخصيص وأن يكون مفتوح المصدر كميزة تنافسية.

المصدر: MistralAI

وجل تطلق النموذج الصوتي Gemini 3.1 Flash Live

أعلنت Google عن إطلاق نموذج صوتي جديد باسم Gemini 3.1 Flash Live، مصمم للمحادثات الفورية، في خطوة واضحة لتحسين تجربة التفاعل الصوتي مع الذكاء الاصطناعي.

النموذج الجديد يركز على تقليل زمن الاستجابة وتحسين نبرة الصوت لتكون أقرب للطبيعية، وهي نقطة ضعف تاريخية في أنظمة الصوت التوليدي. الفكرة ببساطة: محادثة أسرع، أكثر سلاسة، وأقرب للإحساس البشري.

على مستوى الأداء، حقق النموذج نتائج قوية في اختبارات مثل ComplexFuncBench Audio و Big Bench Audio، ما يعكس تحسنًا في تنفيذ المهام المعقدة وفهم الأسئلة الصوتية. كما أظهر قدرة أفضل على التعامل مع التردد والانقطاعات بين الجمل في الحديث، رغم أن نتائجه لا تزال أقل من بعض النماذج غير المخصصة للمحادثة.

تقنيًا، أضافت جوجل علامة SynthID لتمييز الصوت المولد دون التأثير على جودته، في محاولة لمواجهة مخاطر التزييف.

النموذج متاح الآن للمطورين عبر Gemini API و AI Studio، وسيظهر تدريجيًا في منتجات مثل Gemini Live و Search Live، ما يعني أن تجربة المساعدات الصوتية على وشك أن تصبح أكثر واقعية من أي وقت مضى.

المصدر: Google

آبل لديها المزيد من الخطط لـ Siri

تعمل Apple على خطوة كبيرة لإعادة تموضعها في سباق الذكاء الاصطناعي، عبر فتح Siri للربط مع مساعدين خارجيين ضمن تحديث iOS 27. عوضا عن الاعتماد على شريك واحد مثل OpenAI، سيصبح بإمكان المستخدم اختيار النموذج الذي يريده مباشرة من داخل Siri.

النظام الجديد، الذي يُعرف داخليًا باسم (Extensions)، يسمح لتطبيقات الذكاء الاصطناعي من App Store بالاندماج مع Siri. هذا يعني القدرة على استخدام Gemini أو Claude بنفس السلاسة، دون التحويل اليدوي كما هو اليوم.

التحرك يعكس محاولة واضحة من Apple لتعويض تأخرها في سباق الذكاء الاصطناعي وتحويل الايفون إلى منصة مفتوحة للنماذج بدل بناء كل شيء داخليًا وفي الوقت نفسه امكانية الحصول على نسبة من الاشتراكات في هذه الخدمات عبر متجرها.

التغيير أيضًا يلغي فكرة “الشريك الحصري”، ويجعل إضافة خدمات جديدة أسرع بدون مفاوضات طويلة. المرجح أن يتم الإعلان رسميًا في مؤتمر WWDC، مع إمكانية التحكم الكامل بالمساعدات المفعلة من داخل الإعدادات.

المصدر: Bloomberg

جوجل تكشف عن اختراق تقني جديد

كشفت جوجل للأبحاث عن تقنية TurboQuant، وهي خوارزمية ضغط جديدة بدون تدريب تستهدف واحدة من أكبر مشاكل النماذج اللغوية وهي استهلاك الذاكرة العالي.

الفكرة بشكل عام أن أثناء عمل النماذج، يتم تخزين بيانات مؤقتة (KV cache) لتسريع الإجابات، لكن مع كِبر حجم السياق، هذه البيانات تستهلك ذاكرة ضخمة. TurboQuant يقلّص هذا الحجم بشكل كبير بدون التأثير على دقة النموذج.

التقنية تضغط البيانات إلى 3–4 بت فقط بدل 32 بت، ومع ذلك تحافظ على نفس الأداء مما يحسن السرعة حتى 8 أضعاف ويقلل استهلاك الذاكرة بحوالي 6 أضعاف.

وتعتمد الخوارزمية على مرحلتين : الأولى تعيد تمثيل البيانات بطريقة أكثر كفاءة، والثانية تصحح الأخطاء الناتجة عن الضغط بشكل ذكي، بحيث لا تتأثر جودة النتائج.

في الاختبارات، حققت TurboQuant أداءً مماثلاً أو أفضل من الطرق الحالية في مهام مثل البحث داخل النصوص الكبيرة وتوليد الأكواد.

الأهم أنها لا تحتاج تدريب إضافي، ما يجعلها قابلة للاستخدام مباشرة في الأنظمة الحالية، خاصة مع النماذج الكبيرة التي تعاني من قيود الذاكرة.

المصدر: Google + bloomberg

مصطلح الأسبوع:

Digital Twin

التوأم الرقمي

نموذج رقمي يحاكي كيانًا حقيقيًا باستخدام بيانات حية لتحليل الأداء والتنبؤ واتخاذ القرارات التشغيلية

‍