طورت Microsoft نظام ذكاء اصطناعي جديد يسمى VALL-E يمكنه إنشاء نسخة طبق الأصل من صوت أي شخص مع عينة صوتية مدتها 3 ثوانٍ فقط.
يمكن أن يولد أيضًا نغمات مختلفة لجعل المحاكاة أكثر واقعية. تم إنشاء النظام لإنشاء صوت عالي الجودة من النص ، ويمكن استخدامه أيضًا مع أنظمة الذكاء الاصطناعي الأخرى مثل GPT3 لإنشاء محتوى صوتي جديد.
تم تدريبه باستخدام مكتبة Meta الصوتية "LibriLight" ، التي تحتوي على 60.000 ساعة من الكلام باللغة الإنجليزية من أكثر من 7000 شخص مختلف ، معظمهم من الكتب الصوتية LibriVox المجال العام.
يجري اختبار هذا النظام حاليًا ويتم اتخاذ تدابير صارمة نظرًا لوجود مخاوف من إساءة استخدامه ، على غرار الطريقة التي أدت بها تقنية deepfake إلى عمليات الاحتيال وغيرها من المشكلات.
التسميات
أخبار تقنية