يخلق الذكاء الاصطناعي في Refusion الموسيقى من النص باستخدام تخطيط الصدى البصري

تكبير / صورة مولدة بالذكاء الاصطناعي للنوتات الموسيقية المنبعثة من شاشة الكمبيوتر.

آرس تكنيكا

يوم الخميس ، تم الكشف عن زوج من الفنانين التكنولوجيين كسر، نموذج ذكاء اصطناعي يقوم بإنشاء الموسيقى من النص عن طريق إنشاء تمثيل مرئي للصوت وتحويله إلى صوت. يستخدم نسخة دقيقة الانتشار المستمر 1.5 يستخدم نموذج مجموعة الصور المشهد الانتشار الكامن معالجة الصوت بطريقة مبتكرة.

تم إنشاؤه كمشروع هواية بواسطة Seth Forskren و Hack Martiros ، يعمل Refusion عن طريق إنشاء مخططات صوتية تخزن الصوت في صورة ثنائية الأبعاد. في مخطط الموجات فوق الصوتية ، يمثل المحور X الوقت (الترتيب الذي يتم تشغيل الترددات من اليسار إلى اليمين) ، ويمثل المحور Y تردد الأصوات. وفي الوقت نفسه ، يمثل لون كل بكسل في الصورة سعة الصوت في تلك النقطة الزمنية.

نظرًا لأن مخطط الموجات فوق الصوتية هو نوع من الصور ، يمكن أن يعالجها الانتشار القياسي. قام Forskren و Martiros بتدريب نموذج انتشار ثابت مخصص مع أمثلة صوتية مرتبطة بأوصاف الأصوات أو الأنواع الموسيقية التي تمثلها. من خلال هذه المعرفة ، يمكن لـ Refusion إنشاء موسيقى جديدة على الفور بناءً على مطالبات نصية تصف نوع الموسيقى أو الصوت الذي تريد سماعه ، مثل “موسيقى الجاز” أو “موسيقى الروك” أو الكتابة على لوحة المفاتيح.

بعد إنشاء صورة الموجات فوق الصوتية ، يتم تطبيق الانكسار Torchadoo لتحويل الموجات فوق الصوتية إلى صوت ، قم بتشغيله مرة أخرى إلى الصوت.

يمثل مخطط الموجات الصوتية الوقت والتردد والسعة في صورة ثنائية الأبعاد.
تكبير / يمثل مخطط الموجات الصوتية الوقت والتردد والسعة في صورة ثنائية الأبعاد.

“هذا هو نموذج الانتشار المستقر v1.5 ، الذي تم ضبطه بدقة على صور مخططات الطيف الملحقة بالنص ، دون أي تغييرات ،” كتب منشئو Refusion فيه. صفحة الوصف. “يمكنه إنشاء اختلافات لا نهائية للموجه عن طريق تغيير البذور. تعمل نفس واجهات مستخدم الويب والتقنيات مثل img2img و inpainting والمطالبات السلبية والاستيفاء خارج الصندوق.”

READ  قوس مسابقة NCAA 2022: تنبؤات المحاكاة الصاعدة المفاجئة ، اختيارات جنون مارس ، أفضل الأشخاص الذين ينامون

يمكن لزوار موقع Riffusion جرب نموذج الذكاء الاصطناعي بفضل تطبيق الويب التفاعلي الذي ينشئ مخططات صوتية مُقحمة (مُدمجة معًا لتشغيل سلس) في الوقت الفعلي مع عرض مخطط الطيف باستمرار على الجانب الأيسر من الصفحة.

لقطة شاشة لموقع Refusion ، والتي تتيح لك الكتابة والاستماع إلى الموجات الصوتية الناتجة.
تكبير / لقطة شاشة لموقع Refusion ، والتي تتيح لك الكتابة والاستماع إلى الموجات الصوتية الناتجة.

يمكنه أيضًا الجمع بين الأنماط. على سبيل المثال ، تؤدي كتابة “رقص الجاز الاستوائي السلس” إلى تجميع عناصر من أنواع مختلفة للحصول على نتيجة جديدة تشجع على التجريب عن طريق مزج الأنماط.

بالطبع ، Riffusion ليس أول مولد موسيقى يعمل بالذكاء الاصطناعي. في وقت سابق من هذا العام، امتثال نشرت انتشر الرقص، نموذج موسيقى توليدي مدعوم بالذكاء الاصطناعي. أوبن أيه آي صندوق الموسيقى، الذي تم الإعلان عنه في عام 2020 ، ينشئ أيضًا موسيقى جديدة باستخدام الشبكات العصبية. ومثل هذه المواقع سوندرا اصنع موسيقى بدون توقف أثناء التنقل.

بالمقارنة مع جهود موسيقى AI الأكثر انسيابية ، يبدو Refusion أشبه بمشروع ترفيهي. تتراوح الموسيقى التي تنتجها من مثيرة للاهتمام إلى غير مفهومة ، لكنها تطبيق رائع لتقنية الانتشار الكامن التي تعالج الصوت في الفضاء المرئي.

نموذج فحص الاسترداد والرمز متاح على جيثب.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *