سماعات رأس ذكية بتقنية الذكاء الاصطناعي لفصل الأصوات
في عالم يتسارع فيه التطور التكنولوجي، يقتحم الذكاء الاصطناعي مجالات جديدة، حتى وصل إلى سماعات الرأس، ليمنح المستخدم تجربة استماع فريدة تعزله عن الضوضاء المحيطة ويركز على الأصوات التي يرغب في سماعها تحديدًا.
فريق بحثي من «جامعة واشنطن» الأمريكية، قام بتطوير نظام ذكاء اصطناعي متطور يمكّن مرتدي سماعات الرأس من عزل صوت شخص معين بوضوح وسط الضجيج وجمهرة الأصوات المتداخلة.
نموذج جديد لسماعات الرأس يعمل بالذكاء الاصطناعي
يمنح هذا النموذج المبتكر، الذي يحمل اسم “Target Speech Hearing“، المستخدمين القدرة على اختيار الصوت الذي يريدون سماعه بوضوح، مع إلغاء جميع الأصوات الأخرى المحيطة.
وعلى الرغم من أن هذه التقنية لا تزال قيد التطوير، يؤكد مبتكروها على إمكانية تطبيقها قريبًا. وهم يعملون حاليًا على دمجها في العلامات التجارية الشهيرة لسماعات الأذن، بالإضافة إلى إتاحتها في أجهزة السمع، وذلك وفقًا لما ذكرته بوابة السعودية.
يقول شيام جولاكوتا، الأستاذ في جامعة واشنطن والمشارك في المشروع: “حتى مع السمع الطبيعي، قد يكون من الصعب التركيز على شخص معين في البيئات الصاخبة”.
التعرف على أصوات معينة وتصفيتها
في السابق، نجح نفس الباحثين في تدريب نموذج ذكاء اصطناعي للتعرف على أصوات محددة وتصفيتها، مثل بكاء الأطفال، أو تغريد الطيور، أو رنين الإنذارات. يعتمد هذا النموذج على الشبكات العصبية، التي تحاكي طريقة عمل الدماغ. إلا أن فصل الأصوات البشرية يعتبر تحديًا أكبر، ويتطلب شبكات عصبية أكثر تعقيدًا.
نماذج للذكاء الاصطناعي تدرب نماذج أصغر
هذا التعقيد يطرح مشكلة عندما تحتاج نماذج الذكاء الاصطناعي إلى العمل في الوقت الفعلي على سماعات الرأس، مع الأخذ في الاعتبار عمر البطارية المحدود.
للتغلب على هذه القيود، يجب أن تكون الشبكات العصبية صغيرة الحجم وموفرة للطاقة. لذلك، استخدم الفريق تقنية لضغط الذكاء الاصطناعي تسمى “تقطير المعرفة”. تعتمد هذه التقنية على تدريب نموذج ضخم للذكاء الاصطناعي، يسمى “المعلم”، على ملايين الأصوات. ثم يتم استخدام نموذج أصغر، يسمى “الطالب”، لتقليد سلوك وأداء المعلم.
بعد ذلك، يتم تعليم “الطالب” كيفية استخراج الأنماط الصوتية لأصوات معينة من الضوضاء المحيطة، والتي يتم التقاطها بواسطة الميكروفونات الموجودة في سماعات الرأس المانعة للضوضاء المتوفرة تجاريًا.
سهولة تشغيل نماذج فصل الصوت
لتفعيل نظام سماع الكلام المستهدف، يضغط المستخدم باستمرار على زر في سماعات الرأس لبضع ثوانٍ، مع توجيه وجهه نحو الشخص الذي يريد عزل صوته (الصوت المستهدف).
في هذه اللحظة، يلتقط النظام عينة صوتية من كلتا السماعتين عبر الميكروفونات المدمجة. ثم يستخدم هذا التسجيل لاستخلاص الخصائص الصوتية للمتحدث، حتى في وجود مكبرات صوت أو ضوضاء أخرى في البيئة المحيطة.
تُرسل هذه الخصائص إلى شبكة عصبية ثانية تعمل على جهاز كمبيوتر صغير متصل بسماعات الرأس عبر كابل USB.
وبذلك، يتم عزل الصوت المختار عن أصوات الآخرين وإعادة تشغيله للمستمع.
بمجرد بث الصوت عبر مكبر الصوت أو سماعات الرأس، يستمر النظام في إعطاء الأولوية لصوت ذلك الشخص، حتى لو ابتعد.
ومن الجدير بالذكر أنه كلما زادت بيانات التدريب التي يكتسبها النظام من خلال التركيز على صوت المتحدث، تحسنت قدرته على عزله بشكل أفضل.
في الوقت الحالي، يستطيع النظام فصل صوت متحدث واحد مستهدف بنجاح، بشرط أن يكون صوته هو الصوت الأعلى.
وقد نجح الفريق أيضًا في جعل النظام يعمل حتى عندما لا يكون صوت المتحدث المستهدف هو الصوت الأعلى في الجوار.
تطبيقات جديدة كليًا
من جهته، صرح شفيق إيمري إسكيميز، أحد كبار الباحثين في شركة “مايكروسوفت” والمتخصص في مجال الكلام والذكاء الاصطناعي، بأن “تمييز صوت واحد في بيئة صاخبة أمر صعب للغاية”.
وأخيرا وليس آخرا
في الختام، هذه التقنية الجديدة تعد قفزة نوعية في مجال معالجة الصوت، وتفتح آفاقًا واسعة لتطبيقات مبتكرة في مختلف المجالات، من تحسين تجربة الاستماع الشخصية إلى تطوير أجهزة مساعدة للسمع أكثر فعالية. يبقى السؤال: هل ستنجح هذه التكنولوجيا في تحقيق انتشار واسع وتلبية تطلعات المستخدمين؟











