-
العنوان الفرعي: %20 فقط من محتوى السير الذاتية على ويكيبيديا يتحدث عن النساء. يمكن لعلمنا المفتوح والمتجدد أن يستكمل الجهود المبذولة لضمان المزيد من التمثيل على الإنترنت.
-
بقلم: أنجيلا فان
سيارة نيوز (الذكاء الاصطناعي.. وسيرة ذاتية أكثر شمولاً على ويكيبيديا) – يعد موقع ويكيبيديا، والذي يُصنف على أنه واحد من أكثر 10 المواقع الالكترونية زيارةً في العالم، هو الوجهة الأولى للعديد من الأشخاص الذين يبحثون عن معلومات عن الشخصيات التاريخية وصنَّاع التغيير. لكن لا يتم تمثيل الجميع بشكل متساوٍ على ويكيبيديا. وفقًا لمؤسسة ويكيميديا، فإن حوالي 20٪ فقط من السير الذاتية على نسخة الموقع باللغة الإنجليزية تتحدث عن النساء، ونعتقد أن النسبة أقل بالنسبة للنساء المتضمنة في المجموعات متعددة الجوانب، مثل النساء في مجال العلوم، والنساء في أفريقيا، والنساء في آسيا.
بالنسبة إلى مشروع الدكتوراه الخاص بي كطالبة في مجال علوم الكمبيوتر في جامعة لورين، إنريا، في فرنسا، عملتُ مع “كلير جاردان”، لتطوير طريقة جديدة لمعالجة عدم التكافؤ هذا باستخدام الذكاء الاصطناعي. أنشأنا نظامًا للذكاء الاصطناعي يمكنه البحث وكتابة المسودات الأولية لمدخلات السيرة الذاتية بنفس أسلوب ويكيبيديا. لا يزال هناك الكثير من العمل الذي يتعين علينا القيام به، لكننا نأمل أن يساعد هذا النظام الجديد يومًا ما محرري ويكيبيديا على إنشاء الآلاف من مدخلات السيرة الذاتية الدقيقة والمقنعة بشأن الأشخاص المهمين غير الموجودين حاليًا على الموقع.
بالنسبة لي، كانت المشكلة شخصية وتستند إلى نقص التمثيل الذي رأيته يظهر في المكتبات عندما كنت في المدرسة الابتدائية. عندما كنتُ في الصف الثالث، تم تكليفي بكتابة مقال عن شخصية تاريخية، وكان الشرط الوحيد أن يتواجد كتاب عن هذه الشخصية في المكتبة. أردتُ أن أكتب عن “إليانور روزفلت” لكن كان علي أن أكتفي بالكتابة عن “تيدي روزفلت”. ماذا لو أردت الكتابة عن شخص يشبهني – هل كان هذا متاحاً؟ إذا فكرنا في نفس المهمة اليوم، فإن الطلاب سيلجؤون إلى الإنترنت بلا شك، وعلى الأرجح ويكيبيديا. إذ إن ويكيبيديا تحتوي على ملايين المقالات المكتوبة باللغة الإنجليزية، بما في ذلك مقالة رائعة عن “إليانور روزفلت”. نحن نعلم أنه لا يزال هناك الكثير من النساء اللواتي لم تصل قصصهن وإنجازاتهن إلى أجيال المستقبل.
في حين أنه من المرجح أن تكتب النساء سيرًا ذاتية عن نساء أخريات، وجد تقرير رؤى المجتمع من ويكيميديا لعام 2021، الذي يغطي العام السابق، أن 15 بالمائة فقط من المحررين لدى ويكيبيديا من النساء. ويؤدي هذا إلى تجاهل النساء وتهميشهن، على الرغم من التأثير الهائل الذي كان لهن عبر التاريخ في مجالات العلوم، وريادة الأعمال، والسياسة وكل مجال آخر في المجتمع. فازت الفيزيائية الكندية “دونا ستريكلاند” بجائزة نوبل في الفيزياء عام 2018، ومع ذلك، فإن أي شخص يبحث عن معلومات عنها على ويكيبيديا لم يكن ليتمكن من العثور عليها، حتى تم نشر أخيرًا سيرة ذاتية في ويكيبيديا عن عملها العظيم، بعد أيام من فوزها بأكبر جائزة في مجال دراستها. عبرّت دراسات مختلفة، بما في ذلك دراسات من مؤسسة ويكيميديا نفسها، عن عدم التكافؤ بين الجنسين على المنصة. حتى مع نقص التمثيل، لا تزال السير الذاتية عن النساء يتم ترشيحها للحذف بشكل غير متناسب. وجدت إحدى الدراسات أنه في عام 2017، نسبة 41%من السير الذاتية المرشحة للحذف كانت عن النساء.
نعتقد أن العلم المفتوح والمتجدد يمكن أن يوفر نقطة انطلاق لمعالجة هذه المشكلة. نوفر اليوم نموذج ذكاء اصطناعي مفتوح المصدر وشاملاً يقوم تلقائيًا بإنشاء مقالات سيرة ذاتية عالية الجودة عن شخصيات عامة مهمة في العالم.
يبحث نموذجنا على المواقع الإلكترونية للحصول على معلومات ذات صلة ويقوم بإعداد المدخل بنفس أسلوب ويكيبيديا عن هذا الشخص، مستكملاً باستشهاد المصادر. إلى جانب إصدار النموذج، نطرح مجموعة بيانات جديدة تم إنشاؤها لتقييم أداء النموذج في 1527 سيرة ذاتية لنساء من الفئات المهمشة. يمكن استخدام مجموعة البيانات هذه لتدريب النماذج وتقييم الأداء وتحسين مستوى النموذج. نعتقد أنه يمكن استخدام هذه المدخلات التي تم إنشاؤها بواسطة الذكاء الاصطناعي كنقطة انطلاق للأشخاص الذين يكتبون محتوى على ويكيبيديا، وجهات تدقيق الحقائق، لنشر المزيد من السير الذاتية للفئات المهمّشة على الموقع.
لا يزال هناك الكثير مما يمكننا القيام به للمساعدة على توفير تمثيل ع للأشخاص البارزين من جميع الخلفيات إلى ويكيبيديا على نطاق واسع. بشكل أساسي، سيتعين على أنظمة الذكاء الاصطناعي، مثل النظام الذي أنشأناه، مواجهة تحديات مجتمعية وتقنية على نطاق واسع من أجل معالجة المشكلة بشكل كامل. يبدأ هذا بمحتوى مواقع الإنترنت المستخدمة لإنشاء مدخلات ويكيبيديا، والتي قد تكون معيبة أو تعبر عن تحيزات ثقافية. من الجانب التقني، قد يكون نظام إنشاء النص عرضة “للهذيان” بمحتوى غير واقعي. حتى أفضل النماذج اللغوية اليوم تجد صعوبة في إنشاء نص مترابط في العديد من الفقرات. نأمل في تحسين ذلك عبر إحراز تقدم في البنية العصبية التي تدعم مثل هذه النماذج، وعبر الإنجازات الملموسة في التطوير المسؤول للذكاء الاصطناعي.
في النهاية، نأمل أن يكون هذا النهج قادرًا على مساعدة غير الخبراء على إنشاء مقالات دقيقة لإضافتها إلى مجموعة المعلومات على الإنترنت، مع الحد الأدنى فقط من التعديل المطلوب.
كيف يمكن للذكاء الاصطناعي استكمال الجهود الحالية لمعالجة التحيز
في حين أن نموذجنا ليس حلاً سحريًا، إلا أنه يعد خطوة مهمة لدعم واستكمال الجهود الحالية الأخرى التي تعمل على معالجة تمثيل الجنسين على ويكيبيديا. عمل المحرران المتطوعان “جيسيكا ويد“ و“بيني ريتشاردز“ بشكل مستقل لكتابة ونشر آلاف السير الذاتية على ويكيبيديا عن النساء اللواتي يستحققن التميز. هناك جهود جماعية كبيرة أخرى، وهي مشروع ويكيبيديا “Women in Red“، الذي يضم المحررين لإنشاء سير ذاتية جديدة وتوسيع نطاق السير الذاتية الموجودة عن النساء البارزات في الماضي والحاضر.
قررنا اتباع نهج مكمل، حيث إن إجراء الأبحاث وإنشاء ببليوغرافيا والكتابة أمر مكثف، ومع ذلك توجد مجموعة من المعلومات المتوفرة على الإنترنت والتي يمكن استخدامها لمشاركة قصص النساء اللواتي تم نسيان إنجازاتهن، وأصواتهن، وموروثاتهن، أو تم تهميشهن.
على سبيل المثال، استخدمنا النموذج لإنشاء سيرة ذاتية قصيرة عن “ليبي هايمان”، وهي رائدة في مجال دراسة علم الحيوان اللافقاري. يتم سحب النص الموجود باللون الأخضر من المقالة المرجعية التي بدأنا بها، والنص الموجود باللون الأرجواني من دليل الإنترنت، والنص الموجود باللون البرتقالي يشير إلى الهذيان؛ مما يعني أن النموذج يضم معلومات لا يمكن التحقق منها.
استرجع النموذج المعلومات الخاصة بالسيرة الذاتية ذات الصلة عن “هايمان”، بما في ذلك تركيزها على اللافقاريات، والمنشورات الهامة، وتأثير عملها، والتي يمكن استخدامها بعد ذلك كنقطة انطلاق للمحررين من أجل تدقيق الحقائق (مجال لا يزال يمثل بعض أوجه القصور بالنسبة للنموذج) والتوسع في حياتها وإنجازاتها.
استخدام نموذج التدريب المسبق والاسترجاع لإنشاء السير الذاتية على ويكيبيديا
نبدأ عملية إنشاء سيرة ذاتية باستخدام بنية إنشاء الاسترجاع المعزز استنادًا إلى التدريب المسبق على نطاق واسع، والذي يعلِّم النموذج كيفية تحديد المعلومات ذات الصلة فقط، مثل مكان الميلاد أو المكان الذي التحق فيه الشخص بالمدرسة، بينما ينشئ السيرة الذاتية.
يسترد النموذج أولاً المعلومات ذات الصلة من الإنترنت لعرض الموضوع. وبعد ذلك، ينشئ نموذج الإنشاء النص، في حين أن الخطوة الثالثة تتمثل في نموذج الاقتباس، ويعمل على إنشاء الببليوغرافيا وربطها مرة أخرى بالمصادر التي تم استخدامها. تتكرر العملية بعد ذلك، حيث يتنبأ كل قسم بالقسم التالي، حيث تتضمن جميع العناصر التي تشكل سيرة ذاتية قوية لويكيبيديا، بما في ذلك المرحلة المبكرة الخاصة بالموضوع والتعليم والحياة المهنية.
نقوم بإنشاء قسم تلو الآخر، باستخدام آلية التخزين المؤقت المشابهة لتقنية Transformer-XL للإشارة إلى الأقسام المكتوبة سابقًا، وتحقيق سياق أكبر على مستوى المستند. يعد التخزين المؤقت مهمًا لأنه يسمح للنموذج بتتبع ما تم إنشاؤه سابقًا بشكل أفضل.
تُظهر التقييمات التلقائية والبشرية أن النموذج قادر على العثور على المعلومات ذات الصلة واستخدامها لإنشاء السير الذاتية، ولكن لا يزال هناك عمل يتعين علينا القيام به. وجدت هذه التقييمات أن 68% من النص الذي تم إنشاؤه في السير الذاتية التي أنشأناها لم يتم العثور عليه في النص المرجعي. ويعني هذا عدة أمور، ومنها الإشارة إلى أن النموذج يقوم بعمل جيد في العثور على المعلومات ذات الصلة وتجميعها إلا أنه لا يعمل كبرنامج تلقائي للسرقة الأدبية. ومع ذلك، هذا غير واضح أيضًا؛ لأنه من الصعب معرفة أي المعلومات دقيقة وأيها ليست دقيقة. طلبنا من المقيّمين تحديد إذا ما كانت الجمل الكاملة دقيقة أم لا، ووجدنا العديد من الحالات التي كان يمكن التحقق فيها من الجمل بشكل جزئي فقط. تتشابه هذه التحديات مع تحديات إنشاء النص على نطاق واسع، على الرغم من تفاقمها في حالة الفئات المهمشة، حيث يوجد القليل جدًا من البيانات عنها. نأمل أن يسمح إصدار مجموعة البيانات هذه للباحثين الآخرين بدراسة هذه المشكلة.
كانت هناك العديد من العقبات الأخرى التي واجهناها أثناء بحثنا. أولاً، كان من الصعب للغاية التغلب على نقص بيانات التدريب، أو مقالات السيرة الذاتية الموجودة بالفعل عن النساء. المقالات الموجودة عن النساء، لا سيما عن الفئات المهمشة، أقصر بكثير من المقالة العادية عن الرجال، وأقل تفصيلاً، وتستخدم لغة مختلفة على سبيل المثال، “عالمة من الإناث female scientist” بدلاً من كلمة “عالمة scientist” فقط. تسبب هذا التحيز في بيانات التدريب في استيعاب النماذج لهذا التحيز. فضلاً عن ذلك، يجب كتابة مقالات ويكيبيديا بناءً على أدلة واقعية، وغالبًا ما يتم الحصول عليها من الإنترنت. ومع ذلك، فإن التحيز على ويكيبيديا يمتد ليشمل التحيز على الإنترنت: هناك عدد قليل جدًا من المواقع المستندة إلى الإنترنت التي يمكن استخدامها كدليل.
في حين أنه لا يمكن حل المشكلات المتأصّلة بسرعة، فإن هذا النوع من المشكلات بالتحديد يمكن فيها استخدام التكنولوجيا بهدف المساعدة على إحداث تغيير إيجابي.
ما هي الخطوة التالية؟ تسليط الضوء على المزيد من الأشخاص المهمّشين على ويكيبيديا
نحن متحمسون لمشاركة هذا العمل مع المجتمع للمساعدة على تعزيز المناقشات وإجراء التجارب وتعزيز التقدم بهدف المساعدة على إنشاء توفُّر أكثر إنصافًا للمحتوى على ويكيبيديا.
يعالج نموذجنا جزءًا واحدًا فقط من مشكلة متعددة الأوجه، لذلك هناك مجالات إضافية يجب استكشاف تقنيات جديدة فيها. عندما يكتب أحد المحررين لدى ويكيبيديا أو نموذج الذكاء الاصطناعي الخاص بنا سيرة ذاتية، يتم سحب المعلومات من مصادر مختلفة على الإنترنت والاستشهاد بها. ومع ذلك، وبالرغم من كل المعارف الغنية التي وفرها الإنترنت، فإن بعض المصادر بها تحيز يجب مراعاته. على سبيل المثال، عندما يتم تمثيل النساء، فمن المرجح أن تتضمن سيرهن الذاتية تفاصيل إضافية عن حياتهن الشخصية. وجدت دراسة أجريت عام 2015 أن كلمة “مطلقة” تظهر في السير الذاتية للنساء بمعدل أربع مرات أكثر من ظهورها في السير الذاتية للرجال. قد يكون هذا لعدة أسباب، بما في ذلك الصحف الشعبية التي تميل إلى متابعة حياة النساء البارزات عن كثب أكثر من حياة الرجال. نتيجةً لذلك، يُرجح ذكر التفاصيل الشخصية في المقالات عن النساء، مما يؤدي إلى تشتيت الانتباه عن الإنجازات التي يجب أن تكون في دائرة الضوء ويتم الاحتفاء بها.
أظهرت التكنولوجيا بالفعل إمكانيات واعدة بشأن المساعدة على معالجة النماذج المتعددة لعدم التكافؤ، وهو دليل على أن هناك المزيد الذي يمكن للمجتمع القيام به بهدف المساعدة على إحداث فرق. على سبيل المثال، أوضح الرئيس التنفيذي السابق للموقع كيف اكتشفت خوارزمية خطأً مهمًا على الموقع: بينما يتم التحقق من المقالات الصحية في ويكيبيديا بواسطة المحررين المتخصصين في مجال الطب، لسنوات، تم تصنيف بعض المقالات عن القضايا الصحية الحرجة للمرأة، مثل الرضاعة الطبيعية، بأنها “قليلة الأهمية.”
هناك المزيد من العمل الذي يتعين القيام به للفئات المهمشة ومتعددة الجوانب الأخرى في جميع أنحاء العالم وعلى مستوى اللغات. تركز مجموعة التقييم والبيانات الخاصة بنا على النساء، مما يستبعد العديد من المجموعات الأخرى، بما في ذلك الأشخاص غير مصنفي الجنس. تميل المقالات عن المتحولين جنسيًا وغير مصنفي الجنس إلى أن تكون أطول، ولكن الكثير من المساحة الإضافية مخصصة لحياتهم الشخصية بدلاً من التوسع في إنجازات الشخص، وهذا وفقًا لدراسة أجريت عام 2021 تناولت التحيزات الاجتماعية في مقالات ويكيبيديا. من المهم إدراك أن التحيز موجود بأشكال مختلفة، لا سيما في مصادر المعلومات الافتراضية على الإنترنت.
نحن متحمسون لمشاركة هذا كمجال بحث مهم مع مجتمع الأجيال على نطاق واسع. نأمل أن يتم استخدام تقنياتنا في النهاية كنقطة انطلاق للكُتاب البشريين لدى ويكيبيديا، وأن تؤدي في النهاية إلى توفُّر المعلومات بقدر أكبر من الإنصاف على الإنترنت التي يمكن الوصول إليها من قبل الطلاب الذين يكتبون السير الذاتية، وغير ذلك.