انتقدت صحيفة "نيويورك تايمز" التقنيات الصوتية التي تستخدمها تطبيقات الذكاء الاصطناعي، موضحة أن مطوري الذكاء الاصطناعي يحاولون تقليد أفلام هوليود التي كانت تتخيل منذ عقود بأن أصوات الآلات يجب أن تكون لنساء لطيفة، وبناء على ذلك تم تصنيع الأصوات بناء على خيالات سينمائية قديمة حول الكيفية التي يجب أن تتحدث بها الآلات.
وذكرت الصحيفة أنه في الشهر الماضي، كشفت شركة "أوبن إيه آي" OpenAI عن ترقيات لبرنامج الدردشة الآلي الخاص بها الذي يعمل بالذكاء الاصطناعي.
وقالت الشركة إن "شات جي بي تي" ChatGPT كان يتعلم كيفية الاستماع والرؤية والتحدث بصوت طبيعي، صوت يشبه إلى حد كبير نظام التشغيل "سامنثا" الذي جسدت الممثلة الأميركية، سكارليت جوهانسون، صوتها في فيلم "هي""Her" عام 2013.
وأوضحت أن صوت "شات جي بي تي"، المسمى "سكاي" Sky، كان يتمتع أيضا بصوت أجش وتأثير مهدئ ومثير في الوقت نفسه، وكانت لطيفة ومنطوية على نفسها، إذ بدت وكأنها لعبة لأي شيء.
وأشارت إلى أنه بعد ظهور "سكاي" لأول مرة، أعربت جوهانسون عن استيائها من الصوت "المشابه بشكل مخيف لصوتها"، وقالت إنها رفضت سابقا طلب "أوبن إيه آي" بأن تقوم بصوت الروبوت.
وردت الشركة بأن سكاي قامت بأداء صوتها "ممثلة محترفة مختلفة"، لكنها وافقت على إيقاف صوتها مؤقتا احتراما لجوهانسون. لكن بدأ مستخدمو Bereft OpenAI بتقديم عريضة لإعادتها.
ووفقا للصحيفة، يحب منشئو الذكاء الاصطناعي تسليط الضوء على القدرات الطبيعية المتزايدة لأدواتهم، لكن أصواتهم الاصطناعية مبنية على طبقات من الحيلة والإسقاط. تمثل "سكاي" أحدث طموحات "أوبن إيه آي"، لكنها تعتمد على فكرة قديمة وهي أن روبوت الذكاء الاصطناعي هو امرأة متعاطفة ومذعنة.
وكانت سامانثا خليطا من الأم، والسكرتيرة، والصديقة، وكانت بمثابة كائن مريح متعدد الأغراض يتحدث مباشرة في آذان مستخدميها. وحتى مع تقدم تكنولوجيا الذكاء الاصطناعي، تتم إعادة تشفير هذه الصور النمطية مرارا وتكرارًا.
وأشارت الصحيفة إلى أن أصوات النساء غالباً ما غذت التقنيات المتخيلة قبل أن يتم دمجها في تقنيات حقيقية. وبمجرد أن بدأت شركات التكنولوجيا في تسويق المساعدين الافتراضيين، مثل سيري من شركة أبل، وأليكسا من أمازون، وكورتانا من مايكروسوفت، أصبحت أصواتها مؤنثة أيضًا.
وأوضحت أن هؤلاء المساعدين الصوتيين من الموجة الأولى، الذين كانوا يتوسطون علاقاتنا مع التكنولوجيا لأكثر من عقد من الزمن، لديهم نبرة صوتية نسائية، ويتم تمييز أصواتهم البشرية من خلال رتوش ميكانيكية، إذ أنه غالبًا ما يتحدثون بإيقاع محسوب ذي نغمة واحدة.
لكن الصحيفة أوضحت أن حقيقة أنها تبدو وكأنها روبوتية تزيد من جاذبيتها، فهي تبدو قابلة للبرمجة والتلاعب بها وخاضعة لمطالبنا، كما أنها لا تجعل البشر يشعرون كما لو أنهم أكثر ذكاء منها.
وذكرت أنه تم تصميم برنامج تحويل الصوت إلى كلام لجعل الوسائط المرئية في متناول المستخدمين ذوي الإعاقات المعينة.
ووفقا للصحيفة، منذ أن طرحت "تيك توك" ميزة تحويل النص إلى كلام في عام 2020، طورت مجموعة من الأصوات المحاكية للاختيار من بينها، وهي تقدم الآن أكثر من 50 صوتا، بما في ذلك أصوات تسمى "هيرو" و"ستوري تيلير" و"بيستي"، لكن النظام الأساسي أصبح محددا بخيار واحد وهو "جيسي"، وهو صوت المرأة المفعم بالحيوية مع مسحة آلية غامضة قليلا.
وأشارت الصحيفة إلى أن هذا الصوت الاصطناعي استمر في الهيمنة، حتى مع تقدم التكنولوجيا التي تقف وراءه.