التقنيات الصوتية التي تستخدمها تطبيقات الذكاء الاصطناعي تعتمد على استخدام أصوات نسائية. (أرشيفية-تعبيرية)
التقنيات الصوتية التي تستخدمها تطبيقات الذكاء الاصطناعي تعتمد على استخدام أصوات نسائية. (أرشيفية-تعبيرية)

انتقدت صحيفة "نيويورك تايمز" التقنيات الصوتية التي تستخدمها تطبيقات الذكاء الاصطناعي، موضحة أن مطوري الذكاء الاصطناعي يحاولون تقليد أفلام هوليود التي كانت تتخيل منذ عقود بأن أصوات الآلات يجب أن تكون لنساء لطيفة، وبناء على ذلك تم تصنيع الأصوات بناء على خيالات سينمائية قديمة حول الكيفية التي يجب أن تتحدث بها الآلات.

وذكرت الصحيفة أنه في الشهر الماضي، كشفت شركة "أوبن إيه آي" OpenAI عن ترقيات لبرنامج الدردشة الآلي الخاص بها الذي يعمل بالذكاء الاصطناعي.

وقالت الشركة إن "شات جي بي تي" ChatGPT  كان يتعلم كيفية الاستماع والرؤية والتحدث بصوت طبيعي، صوت يشبه إلى حد كبير نظام التشغيل "سامنثا" الذي جسدت الممثلة الأميركية، سكارليت جوهانسون، صوتها في فيلم "هي""Her"  عام 2013.

وأوضحت أن صوت  "شات جي بي تي"، المسمى "سكاي"  Sky، كان يتمتع أيضا بصوت أجش وتأثير مهدئ ومثير في الوقت نفسه، وكانت لطيفة ومنطوية على نفسها، إذ بدت وكأنها لعبة لأي شيء.

وأشارت إلى أنه بعد ظهور "سكاي" لأول مرة، أعربت جوهانسون عن استيائها من الصوت "المشابه بشكل مخيف لصوتها"، وقالت إنها رفضت سابقا طلب "أوبن إيه آي"  بأن تقوم بصوت الروبوت.

وردت الشركة بأن سكاي قامت بأداء صوتها "ممثلة محترفة مختلفة"، لكنها وافقت على إيقاف صوتها مؤقتا احتراما لجوهانسون. لكن بدأ مستخدمو Bereft OpenAI بتقديم عريضة لإعادتها.

ووفقا للصحيفة، يحب منشئو الذكاء الاصطناعي تسليط الضوء على القدرات الطبيعية المتزايدة لأدواتهم، لكن أصواتهم الاصطناعية مبنية على طبقات من الحيلة والإسقاط. تمثل "سكاي" أحدث طموحات "أوبن إيه آي"، لكنها تعتمد على فكرة قديمة وهي أن روبوت الذكاء الاصطناعي هو امرأة متعاطفة ومذعنة.

وكانت سامانثا خليطا من الأم، والسكرتيرة، والصديقة، وكانت بمثابة كائن مريح متعدد الأغراض يتحدث مباشرة في آذان مستخدميها. وحتى مع تقدم تكنولوجيا الذكاء الاصطناعي، تتم إعادة تشفير هذه الصور النمطية مرارا وتكرارًا.

وأشارت الصحيفة إلى أن أصوات النساء غالباً ما غذت التقنيات المتخيلة قبل أن يتم دمجها في تقنيات حقيقية. وبمجرد أن بدأت شركات التكنولوجيا في تسويق المساعدين الافتراضيين، مثل سيري من شركة أبل، وأليكسا من أمازون، وكورتانا من مايكروسوفت، أصبحت أصواتها مؤنثة أيضًا.

وأوضحت أن هؤلاء المساعدين الصوتيين من الموجة الأولى، الذين كانوا يتوسطون علاقاتنا مع التكنولوجيا لأكثر من عقد من الزمن، لديهم نبرة صوتية نسائية، ويتم تمييز أصواتهم البشرية من خلال رتوش ميكانيكية، إذ أنه غالبًا ما يتحدثون بإيقاع محسوب ذي نغمة واحدة.

لكن الصحيفة أوضحت أن حقيقة أنها تبدو وكأنها روبوتية تزيد من جاذبيتها، فهي تبدو قابلة للبرمجة والتلاعب بها وخاضعة لمطالبنا، كما أنها لا تجعل البشر يشعرون كما لو أنهم أكثر ذكاء منها.

وذكرت أنه تم تصميم برنامج تحويل الصوت إلى كلام لجعل الوسائط المرئية في متناول المستخدمين ذوي الإعاقات المعينة.

ووفقا للصحيفة، منذ أن طرحت "تيك توك" ميزة تحويل النص إلى كلام في عام 2020، طورت مجموعة من الأصوات المحاكية للاختيار من بينها، وهي تقدم الآن أكثر من 50 صوتا، بما في ذلك أصوات تسمى "هيرو" و"ستوري تيلير" و"بيستي"، لكن النظام الأساسي أصبح محددا بخيار واحد وهو "جيسي"، وهو صوت المرأة المفعم بالحيوية مع مسحة آلية غامضة قليلا.

وأشارت الصحيفة إلى أن هذا الصوت الاصطناعي استمر في الهيمنة، حتى مع تقدم التكنولوجيا التي تقف وراءه.

هذه التوصية جاءت بعدما أجرت اللجنة تدقيقاً في حالتي تزييف عميق لامرأتين مشهورتين في الهند والولايات المتحدة.
هذه التوصية جاءت بعدما أجرت اللجنة تدقيقاً في حالتي تزييف عميق لامرأتين مشهورتين في الهند والولايات المتحدة.

طلبت لجنة الإشراف في شركة "ميتا"، الخميس، من الشركة الكبرى المتخصصة في وسائل التواصل الاجتماعي، تكييف قواعدها المتعلقة بـ"التزييف العميق"، ما يُعرف بـ"ديب فايك"، الإباحي مع عصر الذكاء الاصطناعي التوليدي لا مع مرحلة "فوتوشوب".

ورفعت اللجنة المؤلفة من شخصيات وخبراء مستقلين وتعتبر بمثابة "المحكمة العليا" للإشراف على المحتوى في فيسبوك وإنستغرام، هذه التوصية بعدما أجرت تدقيقاً في حالتي تزييف عميق لامرأتين مشهورتين في الهند والولايات المتحدة.

وفي إحدى الحالتين، بقيت الصورة التي تم التلاعب بها ونشرها عبر إنستغرام في شبكة الإنترنت رغم تقديم شكوى بشأنها. أما في الحالة الأخرى، فلم تسمح المنصة بنشر الصورة. ورُفعت النتيجتان إلى اللجنة.

وقررت اللجنة أن حالتي التزييف العميق انتهكتا قاعدة تعتمدها "ميتا" راهناً ضد ممارسة تسمى "فوتوشوب يضفي طابعاً جنسياً وينطوي على إساءة"، وأن "ميتا" عليها أن تسهل فهم هذه القاعدة.

وتتضمن هذه الفئة التي حددتها "ميتا" الصور التي يتم التلاعب بها وإضفاء طابع جنسي عليها بطريقة قد تثير استياء الأشخاص الذين يظهرون في الصور.

وطُرح برنامج تعديل الصور "فوتوشوب" للمرة الاولى في الأسواق سنة 1990، وتم استخدامه على نطاق واسع لدرجة أنه أصبح مرجعاً شائعاً لتعديل الصور.

وذكرت لجنة الإشراف أن الإشارة إلى "فوتوشوب" في قاعدة تتمحور على "التزييف العميق" الإباحي "محدودة جداً"، في وقت يمكن لتقنيات مثل الذكاء الاصطناعي التوليدي ابتكار صور أو مقاطع فيديو استناداً إلى طلب بلغة يومية بسيطة.

واقترحت على "ميتا" الإشارة إلى أن أي محتوى ينطوي على طابع جنسي ولا يحظى بموافقة الطرف المعني تم ابتكاره أو التلاعب به بواسطة الذكاء الاصطناعي، محظور.

وعندما أُنشئت اللجنة سنة 2020، وافقت "ميتا" على الالتزام بقراراتها المتعلقة بمحتوى محدد، لكن الشركة الأميركية تستطيع أن تعتمد كما تشاء توصيات اللجنة المتعلقة بقواعدها.