علي بابا تطلق أدوات ذكاء اصطناعي لتوليد الأصوات واستنساخها

أعلنت شركة علي بابا كلاود عن طرح نموذجين جديدين من سلسلة Qwen3 للذكاء الاصطناعي، يركزان على تقنيات توليد الأصوات واستنساخها عبر أوامر نصية، في خطوة تهدف إلى تعزيز تطبيقات الصوت الاحترافية وصناعة المحتوى.

النموذج الأول يحمل اسم Qwen3-TTS-VD-Flash، ويتيح إنشاء أصوات اعتمادًا على أوصاف دقيقة تشمل المشاعر، ونبرة الصوت، وسرعة الإلقاء.

كما يمكن للمستخدم تحديد خصائص إضافية مثل العمر ونوع الصوت والأسلوب، ما يمنحه تحكمًا واسعًا في المخرجات الصوتية.

وتؤكد الشركة أن النموذج يتفوق في الأداء على واجهة OpenAI الخاصة بنموذج GPT-4o mini-tts، بحسب تقرير نشره موقع “scmp” واطلعت عليه “العربية Business”.

أما النموذج الثاني، Qwen3-TTS-VC-Flash، فيختص باستنساخ الأصوات، إذ يمكنه نسخ صوت شخص من مقطع لا يتجاوز ثلاث ثوانٍ، مع إعادة إنتاجه بعشر لغات مختلفة.

وتقول “علي بابا” إن النموذج يحقق معدل أخطاء أقل مقارنةً بمنافسين بارزين مثل “ElevenLabs” و”MiniMax”.

وتتميز النماذج الجديدة بقدرتها على التعامل مع نصوص معقدة، وتقليد أصوات الحيوانات، واستخراج الأصوات من التسجيلات.

وتتوفر الأدوات عبر واجهة برمجة التطبيقات الخاصة بـ “علي بابا كلاود”، مع إتاحة نسخ تجريبية على منصة Hugging Face.

يأتي هذا الإطلاق في وقت تشهد فيه سوق تقنيات الصوت بالذكاء الاصطناعي منافسة متصاعدة، مدفوعة بالطلب من قطاعات مثل الإعلانات، والألعاب، وصناعة الفيديو.

وتفتح النماذج الجديدة المجال أمام استخدامات واسعة تشمل إنتاج الإعلانات الصوتية، والدبلجة متعددة اللغات، وصناعة الشخصيات الصوتية في الألعاب، إضافةً إلى دعم التعليم الإلكتروني وخدمات مراكز الاتصال، مع تقليل الوقت والتكلفة، مقارنةً بالأساليب التقليدية.