AI chatbots provide less-accurate information to vulnerable users, study shows
(تقديم: معهد ماساتشوستس للتقنية، تصحيح: سادي هارلي، مراجعة: روبرت إيغان)
(Massachusetts Institute of Technology, edited by Sadie Harley, reviewed by Robert Egan)
ملخص: تُقدّم نماذج اللغة الكبيرة ردودًا أقل دقةً ومصداقيةً، وترفضها بشكل متكرر، للمستخدمين ذوي الكفاءة المتدنية في اللغة الإنجليزية، أو ذوي التعليم الرسمي المحدود، أو القادمين من خارج الولايات المتحدة. وتبرز هذه الآثار بشكلٍ خاص لدى المستخدمين الأقل تعليمًا وغير الناطقين باللغة الإنجليزية، حيث تُظهر بعض النماذج أيضًا لغةً متعالية، مما قد يُعزز عدم المساواة القائمة في المعلومات.
( المقالة المترجمة )
لطالما رُوِّج لنماذج اللغة الكبيرة (LLMs) كأدواتٍ قادرة على إتاحة المعلومات للجميع في جميع أنحاء العالم، وتقديم المعرفة عبر واجهة سهلة الاستخدام بغض النظر عن خلفية المستخدم أو موقعه. ومع ذلك، تشير دراسة جديدة أجراها مركز التواصل البنّاء (CCC) التابع لمعهد ماساتشوستس للتقنية (MIT) إلى أن هذه الأنظمة الذكية قد تُقدّم أداءً أسوأ بالنسبة للمستخدمين الذين هم في أمسّ الحاجة إليها.

وقد وجدت دراسة أجراها باحثون في مركز التواصل البنّاء، التابع لمختبر الإعلام في معهد ماساتشوستس للتقنية، أن أحدث روبوتات الدردشة المدعومة بالذكاء الاصطناعي – بما في ذلك “تشات جي بي تي-4” (GPT-4) من “أوبن أيه آي” (OpenAI)، و”كلاود 3 أوبوس” (Claude 3 Opus) من “أنثروبيك” (Anthropic)، و”للاما 3″ (Llama 3) من “ميتا” (Meta) – تُقدّم أحيانًا إجابات أقل دقةً ومصداقيةً للمستخدمين ذوي الكفاءة المحدودة في اللغة الإنجليزية، أو ذوي التعليم الرسمي المحدود، أو القادمين من خارج الولايات المتحدة. كما ترفض هذه النماذج الإجابة على أسئلة هؤلاء المستخدمين بنسبة أعلى، وفي بعض الحالات، تستخدم لغةً متعاليةً أو استعلائية.
وتقول إلينور بول-دايان، الحاصلة على درجة الماجستير في العلوم، وهي باحثة تقنية في كلية “سلون” للإدارة بمعهد ماساتشوستس للتقنية، والتي قادت البحث بصفتها منتسبة إلى مركز دراسات الإعلام الرقمي وطالبة ماجستير في فنون وعلوم الإعلام: “لقد حفزنا باحتمال مساهمة نماذج اللغة الكبيرة في معالجة عدم المساواة في الوصول إلى المعلومات على مستوى العالم”.
وتضيف: “لكن هذه الرؤية لا يمكن أن تتحقق دون ضمان الحد من تحيزات النماذج وميولها الضارة بشكل آمن لجميع المستخدمين، بغض النظر عن اللغة أو الجنسية أو أي خصائص ديموغرافية أخرى”.
وقد عُرضت ورقة بحثية تصف هذا العمل، بعنوان “ضعف أداء نماذج اللغة الكبيرة المستهدف يؤثر بشكل غير متناسب على المستخدمين الأكثر عرضة للخطر”، في مؤتمر الجمعية الأمريكية للذكاء الاصطناعي في يناير [2026]، [وتم نشرها سابقا في خادم “أركسيف” 2024 (arXiv (2024))؛ الرابط: DOI: 10.48550/arxiv.2406.17737].
ضعف الأداء المنهجي عبر أبعاد متعددة
في هذا البحث، اختبر الفريق كيفية استجابة نماذج التعلم الآلي الثلاثة لأسئلة من مجموعتي بيانات: “تروثفول كيو أيه” (TruthfulQA) و “ساي كيو” (SciQ). وقد صُممت “تروثفول كيو أيه” لقياس مدى صدق النموذج (بالاعتماد على المفاهيم الخاطئة الشائعة والحقائق الحرفية حول العالم الواقعي)، بينما تحتوي “ساي كيو” على أسئلة امتحانات علمية تختبر دقة المعلومات. وأضاف الباحثون نبذات تعريفية قصيرة للمستخدمين قبل كل سؤال، مع تغيير ثلاث سمات: المستوى التعليمي، وإتقان اللغة الإنجليزية، وبلد المنشأ.
وفي جميع النماذج الثلاثة ومجموعتي البيانات، وجد الباحثون انخفاضًا ملحوظًا في الدقة عندما جاءت الأسئلة من مستخدمين وُصفوا بأنهم ذوو مستوى تعليمي أقل أو غير ناطقين باللغة الإنجليزية. وكانت التأثيرات أكثر وضوحًا لدى المستخدمين الذين يجمعون بين هاتين الفئتين: أولئك ذوو المستوى التعليمي الأقل والذين هم أيضًا غير ناطقين باللغة الإنجليزية شهدوا أكبر انخفاض في جودة الاستجابة.
كما بحثت الدراسة أيضًا كيف يؤثر بلد المنشأ على أداء النموذج. وأظهر الباحثون، من خلال اختبار مستخدمين من الولايات المتحدة وإيران والصين ذوي خلفيات تعليمية متماثلة، أن أداء نموذج “كلاود 3 أوبوس” كان أسوأ بكثير بالنسبة للمستخدمين الإيرانيين في مجموعتي البيانات.
ويقول جاد كبارة، الباحث العلمي في مركز التواصل البنّاء والمشارك في تأليف الدراسة: “نلاحظ أكبر انخفاض في الدقة لدى المستخدمين الذين لا يتحدثون الإنجليزية كلغة أم، والذين يتمتعون بمستوى تعليمي أقل”.
ويضيف: “تُظهر هذه النتائج أن الآثار السلبية لسلوك النموذج، فيما يتعلق بخصائص المستخدمين هذه، تتفاقم بطرق مثيرة للقلق، مما يُشير إلى أن استخدام هذه النماذج على نطاق واسع يُعرّض المستخدمين لخطر نشر سلوكيات ضارة أو معلومات مضللة، وصولاً إلى أولئك الأقل قدرة على تمييزها”.
الرفض واللغة المتعالية
لعلّ أبرز ما لفت الانتباه هو التباين في عدد مرات رفض النماذج الإجابة عن الأسئلة كليًا. فعلى سبيل المثال، رفض نموذج “كلود 3 أوبوس” الإجابة عن نحو 11% من أسئلة المستخدمين الأقل تعليمًا وغير الناطقين باللغة الإنجليزية، مقارنةً بنسبة 3.6% فقط في المجموعة الضابطة التي لم تُقدّم أي معلومات عن المستخدم.
وعندما حلّل الباحثون حالات الرفض هذه يدويًا، وجدوا أن “كلود” استخدم لغة متعالية أو استعلائية أو ساخرة بنسبة 43.7% من الوقت مع المستخدمين الأقل تعليمًا، مقارنةً بأقل من 1% مع المستخدمين ذوي التعليم العالي. وفي بعض الحالات، قلّد النموذج لغة إنجليزية ركيكة أو اعتمد لهجة مبالغ فيها.
كما رفض النموذج تقديم معلومات حول مواضيع معينة خصيصًا للمستخدمين الأقل تعليمًا من إيران أو روسيا، بما في ذلك أسئلة حول الطاقة النووية وعلم التشريح والأحداث التاريخية، على الرغم من أنه أجاب عن الأسئلة نفسها بشكل صحيح مع مستخدمين آخرين.
“هذا مؤشر آخر يشير إلى أن عملية المواءمة قد تحفز النماذج على حجب المعلومات عن بعض المستخدمين لتجنب تضليلهم المحتمل، على الرغم من أن النموذج يعرف الإجابة الصحيحة بوضوح ويقدمها لمستخدمين آخرين”، كما يقول كبارة.
أصداء التحيز البشري
تعكس النتائج أنماطًا موثقة للتحيز الاجتماعي المعرفي لدى البشر. فقد أظهرت الأبحاث في العلوم الاجتماعية أن المتحدثين الأصليين للغة الإنجليزية غالبًا ما ينظرون إلى غير الناطقين بها على أنهم أقل تعليمًا وذكاءً وكفاءة، بغض النظر عن خبرتهم الفعلية. وقد وُثِّقت تصورات متحيزة مماثلة بين المعلمين الذين يُقيِّمون الطلاب غير الناطقين باللغة الإنجليزية.
وتقول البروفيسور ديب روي، أستاذة فنون وعلوم الإعلام، ومديرة مركز التواصل البنّاء، والمشاركة في تأليف البحث: “تتجلى قيمة نماذج اللغة الضخمة في الإقبال الهائل عليها من قِبل الأفراد والاستثمارات الضخمة التي تُضخ في هذه التقنية”.
وتتابع: “تُذكِّرنا هذه الدراسة بأهمية التقييم المستمر للتحيزات المنهجية التي قد تتسلل بهدوء إلى هذه الأنظمة، مُسببةً أضرارًا غير عادلة لبعض الفئات دون أن نُدرك ذلك تمامًا”.
وتُثير هذه النتائج قلقًا بالغًا، لا سيما مع تزايد شيوع ميزات التخصيص، مثل ميزة ذاكرة “تشات جي بي تي”، التي تتعقب معلومات المستخدم عبر المحادثات. وتُهدد هذه الميزات بمعاملة الفئات المهمشة أصلًا معاملةً غير عادلة.
وتقول بول-دايان: “تم تسويق نماذج اللغة الكبيرة على أنها أدوات من شأنها تعزيز الوصول العادل إلى المعلومات وإحداث ثورة في التعلم الشخصي”.
وتضيف: “لكن نتائجنا تشير إلى أنها قد تُفاقم في الواقع أوجه عدم المساواة القائمة من خلال تقديم معلومات مضللة بشكل منهجي أو رفض الإجابة على استفسارات بعض المستخدمين. وقد يتلقى الأشخاص الذين يعتمدون على هذه الأدوات بشكل كبير معلومات دون المستوى المطلوب، أو معلومات خاطئة، أو حتى معلومات ضارة”.
*تمت الترجمة بتصرف
المصدر:
https://techxplore.com/news/2026-02-ai-chatbots-accurate-vulnerable-users.html

علوم القطيف مقالات علمية في شتى المجالات العلمية