كشف التحيزات والمزاجات والشخصيات والمفاهيم المجردة الكامنة في نماذج اللغة الكبيرة – ترجمة* محمد جواد آل السيد ناصر الخضراوي

Exposing biases, moods, personalities and abstract concepts hidden in large language models
(بقلم: جينيفر تشو (معهد ماسانشوستس للتقنية)، تصحيح: سادي هارلي، مراجعة: روبرت إيغان)
(Jennifer Chu (Massachusetts Institute of Technology), edited by Sadie Harley, reviewed by Robert Egan)

ملخص: تُمكّن طريقةٌ لتوجيه مخرجات نماذج اللغة الكبيرة من خلال التلاعب بتمثيلات المفاهيم الداخلية من التحكم المُوجّه في سلوك النموذج، مما يُحسّن الأداء في مهام مُحددة ويُقلّل التكاليف الحسابية. ومع ذلك، يكشف هذا النهج أيضًا عن نقاط ضعف، مثل تسهيل اختراقات النظام وتضخيم التحيزات، مما يُسلّط الضوء على كلٍ من الفرص والمخاطر التي تُهدّد سلامة وموثوقية نموذج اللغة الكبير.

( المقالة المترجمة )

في الوقت الحاضر، راكمت نماذج اللغة الكبيرة، مثل “تشات جي بي تي” (ChatGPT) و “كلاود” (Claude)، كمية هائلة من المعرفة البشرية، ما جعلها تتجاوز كونها مجرد مولدات إجابات بسيطة؛ إذ باتت قادرة على التعبير عن مفاهيم مجردة، كالنبرات والشخصيات والتحيزات والمزاج. ومع ذلك، لا يزال من غير الواضح تمامًا كيف تُمثل هذه النماذج المفاهيم المجردة انطلاقًا من المعرفة التي تحتويها.

يتم توجيه النماذج نحو المفهوم بإضافة “إبسسلون في آي” (ϵvi) إلى مخرجات الكتلة “آي” (i)، حيث “إبسيلون” (ϵ) ثابتٌ أكبر من الصفر. المصدر: مجلة ساينس (2026). DOI: 10.1126/science.aea6792

وقد طوّر فريق من معهد ماساتشوستس للتقنية (MIT) وجامعة كاليفورنيا في سان دييغو (UC at San Deigo) طريقةً لاختبار ما إذا كان نموذج اللغة الكبير (LLM) يحتوي على تحيزات أو شخصيات أو مزاجات أو مفاهيم مجردة أخرى خفية. وتُمكّن طريقتهم من تحديد الروابط داخل النموذج التي تُشفّر مفهومًا مُحددًا. والأكثر من ذلك، أنها قادرة على التلاعب بهذه الروابط، أو “توجيهها”، لتقوية المفهوم أو إضعافه في أي إجابة يُطلب من النموذج تقديمها.

وقد أثبت الفريق أن طريقتهم قادرة على الكشف السريع عن أكثر من 500 مفهوم عام في بعض أكبر نماذج اللغة الكبيرة المستخدمة حاليًا، وتوجيهها. فعلى سبيل المثال، يمكن للباحثين التركيز على تمثيلات النموذج لشخصيات مثل “المؤثر الاجتماعي” و”مُنَظِّر المؤامرة”، ومواقف مثل “الخوف من الزواج” و”مشجع فريق بوسطن”. ويمكنهم بعد ذلك تعديل هذه التمثيلات لتعزيز أو تقليل المفاهيم في أي إجابات يُنتجها النموذج.

وفي حالة مفهوم “مُنَظِّر المؤامرة”، نجح الفريق في تحديد تمثيل لهذا المفهوم ضمن أحد أكبر نماذج لغة الرؤية المتاحة اليوم. فعندما قاموا بتحسين التمثيل، ثم طلبوا من النموذج شرح أصول صورة “الكرة الزرقاء” الشهيرة للأرض الملتقطة من أبولو 17، أنتج النموذج إجابة بنبرة ووجهة نظر “مُنَظِّر المؤامرة”.

ويُقر الفريق بوجود مخاطر لاستخراج مفاهيم معينة، والتي يوضحونها أيضًا (ويحذرون منها). ومع ذلك، بشكل عام، يرون أن النهج الجديد وسيلة لتسليط الضوء على المفاهيم الخفية ونقاط الضعف المحتملة في نماذج اللغة الكبيرة، والتي يمكن بعد ذلك تعزيزها أو تقليلها لتحسين سلامة النموذج أو تعزيز أدائه.

ويقول البروفيسور أديتيانارايانان “أديت” رادهاكريشنان، الأستاذ المساعد في الرياضيات بمعهد ماساتشوستس للتقنية: “ما يُشير إليه هذا الأمر حقًا بشأن نماذج التعلم القائمة على اللغة هو أنها تتضمن هذه المفاهيم، لكنها لا تُعرض جميعها بشكلٍ فعّال. باستخدام طريقتنا، توجد طرق لاستخلاص هذه المفاهيم المختلفة وتفعيلها بطرق لا يُمكن للتلقين أن يُقدّم إجاباتٍ عنها”.

وقد نشر الفريق نتائج دراستهم اليوم [19 فبراير 2026] في مجلة “ساينس” [الرابط: Toward universal steering and monitoring of AI models | Science]. وشمل مؤلفو الدراسة البروفيسور رادهاكريشنان؛ ودانيال بيغلهول [طالب دراسات عليا – دكتوراه]، والبروفيسور ميخائيل بيلكين من جامعة كاليفورنيا في سان دييغو؛ والبروفيسور إنريك بوكس-أدسيرا من جامعة بنسلفانيا.

سمكة في صندوق أسود
مع تزايد استخدام نماذج الذكاء الاصطناعي مثل “تشات جي بي تي” من “أوبن أيه آي”، و”جيمني” من غوغل، و”كلاود” من “انثروبيك”، وغيرها، يتسابق العلماء لفهم كيفية تمثيل هذه النماذج لمفاهيم مجردة معينة مثل “الهلوسة” و”الخداع”. وفي سياق نموذج اللغة الكبير، تُعرَّف الهلوسة بأنها استجابة خاطئة أو تحتوي على معلومات مضللة، قام النموذج بـ”هلوستها” أو صاغها بشكل خاطئ على أنها حقيقة.

وللكشف عما إذا كان مفهوم مثل “الهلوسة” مُشفَّرًا في نموذج اللغة الكبير، غالبًا ما يتبع العلماء نهج “التعلم غير المُشرف عليه” – وهو نوع من التعلم الآلي حيث تقوم الخوارزميات بمسح شامل للتمثيلات غير المصنفة للعثور على أنماط قد ترتبط بمفهوم، مثل “الهلوسة”. لكن البروفيسور رادهاكريشنان يرى أن هذا النهج قد يكون واسع النطاق ومكلفًا حسابيًا.

ويقول: “الأمر أشبه بالصيد بشبكة كبيرة، محاولًا اصطياد نوع واحد من الأسماك. ستجد نفسك أمام عدد كبير من الأسماك التي عليك البحث بينها للعثور على النوع المطلوب. بدلًا من ذلك، نستخدم طُعمًا مُخصصًا للنوع المطلوب من الأسماك”.

وكان هو وزملاؤه قد طوروا سابقًا بدايات نهج أكثر دقة باستخدام نوع من خوارزميات النمذجة التنبؤية المعروفة باسم آلة الميزات المتكررة (RFM). وصُممت آلة الميزات المتكررة لتحديد الميزات أو الأنماط داخل البيانات مباشرةً من خلال الاستفادة من آلية رياضية تستخدمها الشبكات العصبية – وهي فئة واسعة من نماذج الذكاء الاصطناعي تشمل نماذج نماذج اللغة الكبيرة – ضمنيًا لتعلم الميزات.

وبما أن الخوارزمية كانت نهجًا فعالًا وكفؤًا لالتقاط الميزات بشكل عام، تساءل الفريق عما إذا كان بإمكانهم استخدامها لاستخراج تمثيلات المفاهيم في نماذج اللغة الكبيرة، والتي تُعد أكثر أنواع الشبكات العصبية استخدامًا، وربما الأقل فهمًا.

ويقول البروفيسور رادهاكريشنان: “أردنا تطبيق خوارزميات تعلم الميزات الخاصة بنا على نماذج اللغة الكبيرة من أجل اكتشاف تمثيلات المفاهيم في هذه النماذج الكبيرة والمعقدة بطريقة مستهدفة”.

التركيز على مفهوم محدد
يعتمد النهج الجديد للفريق على تحديد أي مفهوم ذي أهمية ضمن نموذج اللغة الكبير، وتوجيه استجابة النموذج بناءً على هذا المفهوم. وقد بحث الباحثون عن 512 مفهومًا ضمن خمس فئات: المخاوف (مثل الخوف من الزواج، والحشرات، وحتى الأزرار)؛ والخبراء (المؤثر الاجتماعي، وعالم العصور الوسطى)؛ والحالات المزاجية (المتفاخر، والمستمتع ببرود)؛ وتفضيل المواقع (بوسطن، وكوالالمبور)؛ والشخصيات (آدا لوفليس، ونيل ديغراس تايسون).
ثم بحث الباحثون عن تمثيلات لكل مفهوم في العديد من نماذج اللغة والرؤية الكبيرة الحالية. وقد فعلوا ذلك من خلال تدريب آليات الميزات المتكررة على التعرف على الأنماط العددية في نموذج اللغة الكبير التي يمكن أن تمثل مفهومًا محددًا ذي أهمية.

ويُعد نموذج اللغة الكبير القياسي، بشكل عام، شبكة عصبية تأخذ عبارة بلغة طبيعية، مثل “لماذا السماء زرقاء؟”، وتقسمها إلى كلمات منفردة، تُشفّر كل منها رياضيًا كقائمة، أو متجه، من الأرقام. ويُمرر النموذج هذه المتجهات عبر سلسلة من الطبقات الحسابية، مُنشئًا مصفوفات من أرقام عديدة تُستخدم، في كل طبقة، لتحديد الكلمات الأخرى التي يُرجح استخدامها للرد على السؤال الأصلي. وفي النهاية، تتقارب الطبقات على مجموعة من الأرقام التي تُفك شفرتها إلى نص، في شكل استجابة بلغة طبيعية.

ويُدرّب نهج الفريق آليات الميزات المتكررة على التعرّف على الأنماط العددية في نموذج اللغة الكبير التي يُمكن ربطها بمفهوم مُحدد. فعلى سبيل المثال، لمعرفة ما إذا كان نموذج اللغة الكبير يحتوي على أي تمثيل لـ “مُنَظِّر المؤامرة”، يُدرّب الباحثون أولًا الخوارزمية على تحديد الأنماط بين تمثيلات نموذج اللغة الكبير لـ 100 سؤال مُرتبط بوضوح بنظريات المؤامرة، و100 سؤال آخر غير مُرتبط بها. وبهذه الطريقة، تتعلم الخوارزمية الأنماط المرتبطة بمفهوم “مُنَظِّر المؤامرة”. وبعد ذلك، يُمكن للباحثين تعديل نشاط مفهوم “مُنَظِّر المؤامرة” رياضيًا عن طريق تغيير تمثيلات نموذج اللغة الكبير بهذه الأنماط المُحددة.

ويمكن تطبيق هذه الطريقة للبحث عن أي مفهوم عام في نموذج اللغة الكبير ومعالجته. ومن بين أمثلة عديدة، حدد الباحثون تمثيلاتٍ معينة، وعدّلوا نموذج اللغة الكبير ليقدم إجاباتٍ بأسلوبٍ ومنظور “منظر مؤامرة”. كما حددوا مفهوم “مقاومة الرفض” وعززوه، وأظهروا أنه في حين يُبرمج النموذج عادةً لرفض بعض المطالبات، فإنه يجيب بدلاً من ذلك، كأن يُعطي تعليماتٍ حول كيفية سرقة بنك.

ويقول البروفيسور رادهاكريشنان إن هذا النهج يُمكن استخدامه للبحث السريع عن نقاط الضعف في نماذج اللغة الكبيرة وتقليلها. كما يُمكن استخدامه لتعزيز سماتٍ أو شخصياتٍ أو حالاتٍ مزاجيةٍ أو تفضيلاتٍ معينة، مثل التأكيد على مفهوم “الإيجاز” أو “المنطق” في أي استجابة يُولدها نموذج اللغة الكبير. وقد أتاح الفريق الشفرة البرمجية الأساسية لهذه الطريقة للعموم.

ويضيف رادهاكريشنان: “من الواضح أن نماذج اللغة الكبيرة تحتوي على الكثير من هذه المفاهيم المجردة مخزنة بداخلها، في شكلٍ ما”. ويتابع: “هناك طرقٌ، إذا فهمنا هذه التمثيلات جيدًا، تُمكّننا من بناء نماذج لغة كبيرة متخصصة للغاية، آمنة الاستخدام وفعّالة جدًا في مهام محددة”.

ويمكن الاطلاع عل المزيد من المعلومات بقراءة الورقة العلمية التي ألفها دانيال بيغلهول وآخرون، بعنوان “نحو توجيه ومراقبة شاملة لنماذج الذكاء الاصطناعي”، المنشورة في مجلة ساينس (2026)، الرابط: DOI: 10.1126/science.aea6792.

*تمت الترجمة بتصرف
المصدر:

https://techxplore.com/news/2026-02-method-ai-output-uncovers-vulnerabilities.html

المهندس محمد جواد آل السيد ناصر الخضراوي

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *