؟A Chatbot Has Passed a Critical Test For Human-Like Intelligence. Now What
(بقلم: زينا أسعد[1]، مجلة “ذي كونفرسيشن” – Zena Assaad)
انتشرت العديد من العناوين الرئيسية خلال الأسبوع الماضي [الاسبوع الثاني من شهر ابريل 2025] حول روبوت محادثة يعمل بالذكاء الاصطناعي يجتاز رسميًا اختبار تورينغ.
وتستند هذه التقارير الإخبارية إلى دراسة حديثة أجراها باحثان في جامعة كاليفورنيا في سان دييغو، حيث خضعت أربعة نماذج لغوية كبيرة (LLMs) لاختبار تورينغ. وأحد هذه النماذج – وهو نموذج “جي بي تي – 4.5” (GPT-4.5) من شركة “أوبن ايه آي” (OpenAI) – اعتُبر غير قابل للتمييز عن الإنسان في أكثر من 70% من الحالات.
وقد اشتهر اختبار تورينغ بأنه المؤشر النهائي لذكاء الآلة. ومع ذلك، هناك خلاف حول صحة هذا الاختبار. في الواقع، له تاريخ مثير للجدل، مما يثير التساؤل حول مدى فعاليته في قياس ذكاء الآلة.
إذن، ما الذي يعنيه هذا بالنسبة لأهمية هذه الدراسة الجديدة؟

ماذا توصلت إليه الدراسة؟
نُشرت الدراسة الأولية التي أجراها عالما الإدراك كاميرون جونز وبنجامين بيرغن في مارس [2025]، ولكنها لم تخضع بعد لمراجعة الأقران. وقد اختبرت الدراسة أربعة نماذج لغوية كبيرة: “إليزا” (ELIZA)، و”جي بي تي – 4 أو” (GPT-4o)، و”إل إل ايه إم أيه – 3.1-405 بي” (LLaMa-3.1-405B)، و”جي بي تي – 4.5″ (GPT-4.5).
وتألفت الاختبارات من مشاركين أكملوا ثماني جولات من المحادثات، حيث لعبوا دور محقق، يتبادل رسائل نصية مع شاهدين في آن واحد. وكان أحد الشاهدين إنسانًا والآخر نموذج لغوي كبير. وقد تم اختيار حوالي 284 مشاركًا عشوائيًا ليكونوا إما المحقق أو الشاهد.
وقد طلب من المشاركين التفاعل مع كلا الشاهدين في آن واحد عبر شاشة منقسمة لمدة خمس دقائق، مع واجهة اختبار تُحاكي واجهة رسائل تقليدية. وبعد هذا التفاعل، حدد المشاركون أي شاهد كان إنسانًا، وأيهما كان روبوت دردشة يعمل بالذكاء الاصطناعي.
واعتبر المشاركون أن “جي بي تي – 4.5″ هو الإنسان بنسبة 73%، و”إل إل ايه إم أيه – 3.1-405 بي” هو الإنسان بنسبة 56%. أما النموذجان الآخران (“إليزا” و”جي بي تي – 4 أو”) فقد خدعا المشاركين بنسبة 23% و21% فقط على التوالي.
ما هو اختبار تورينغ تحديدًا؟
قدّم عالم الرياضيات وعالم الحاسوب الإنجليزي آلان تورينغ النسخة الأولى من اختبار تورينغ في ورقة بحثية نُشرت عام ١٩٤٨ بعنوان “الآلات الذكية”. وقد اقتُرح الاختبار في البداية كتجربة تتضمن ثلاثة أشخاص يلعبون الشطرنج باستخدام آلة افتراضية تُعرف باسم آلة الورق، اثنان منهم لاعبان والثالث مُشغّل.
وفي ورقة بحثية بعنوان “آلات الحوسبة والذكاء” نشرت في عام 1950، أعاد تورينغ طرح التجربة باسم “لعبة المحاكاة”، وادّعى أنها وسيلة لتحديد قدرة الآلة على إظهار سلوك ذكي يُعادل ذكاء الإنسان. وشملت التجربة ثلاثة مشاركين: المشاركة أ امرأة، والمشارك ب رجل، والمشارك ج من أي جنس.
ومن خلال سلسلة من الأسئلة، يُطلب من المشارك (ج) تحديد ما إذا كان “س هو أ و ص هو ب” أو “س هو ب و ص هو أ”، بحيث يُمثل س و ص الجنسين.

ثم يُطرح السؤال التالي: “ماذا سيحدث عندما تتولى آلة دور (أ) في هذه اللعبة؟ هل سيخطئ المحقق في قراراته بنفس القدر عندما تُلعب اللعبة بهذه الطريقة كما يفعل عندما تُلعب بين رجل وامرأة؟”.
وكان الهدف من هذه الأسئلة استبدال السؤال الغامض: “هل تستطيع الآلات التفكير؟”. وقد زعم تورينغ أن هذا السؤال غامض لأنه يتطلب فهم مصطلحي “آلة” و”تفكر”، ومنها أن الاستخدامات “العادية” للكلمات من شأنها أن تجعل الإجابة على السؤال غير كافية.
وعلى مر السنين، اشتهرت هذه التجربة باسم اختبار تورينغ. ورغم تنوع موضوع الاختبار، إلا أن الاختبار ظلّ نقاشًا حول ما إذا كان “س هو أ و ص هو ب” أو “س هو ب و ص هو أ”.
لماذا يُعدّ اختبار تورينغ مثيرًا للجدل؟
على الرغم من شيوعه كوسيلة لاختبار ذكاء الآلة، إلا أنه لا يحظى بإجماعٍ على أنه وسيلة دقيقة للقيام بذلك. وفي الواقع، يُطعن في هذا الاختبار كثيرًا.
هناك أربعة اعتراضات رئيسية على اختبار تورينغ:
1. السلوك مقابل التفكير. يُجادل بعض الباحثين بأن القدرة على “اجتياز” الاختبار مسألة سلوك، وليست ذكاءً. لذلك، لا تناقض في القول إن الآلة قادرة على اجتياز لعبة المحاكاة، لكنها عاجزة عن التفكير.
2. الأدمغة ليست آلات. يُؤكد تورينغ أن الدماغ آلة، مدعيًا أنه يمكن تفسيره بمصطلحات ميكانيكية بحتة. يدحض العديد من الأكاديميين هذا الادعاء ويشككون في صحة الاختبار على هذا الأساس.
3. العمليات الداخلية. بما أن أجهزة الكمبيوتر ليست بشرًا، فقد لا تكون عملية التوصل إلى استنتاجات لديها قابلة للمقارنة بعملية الإنسان، مما يجعل الاختبار غير كافٍ لأن المقارنة المباشرة لا تُجدي نفعًا.
4. نطاق الاختبار. يعتقد بعض الباحثين أن اختبار سلوك واحد فقط لا يكفي لتحديد الذكاء.

فهل يضاهي ذكاء النماذج اللغوية الكبيرة ذكاء الإنسان؟
بينما تزعم المقالة التمهيدية أن “جي بي تي – 4.5” اجتاز اختبار تورينغ، فإنها تنص أيضًا على أن:
اختبار تورينغ هو مقياس لقابلية الاستبدال: هل يمكن لنظام أن يحل محل شخص حقيقي دون […] ملاحظة الفرق.
وهذا يعني أن الباحثين لا يدعمون فكرة كون اختبار تورينغ مؤشرًا مشروعًا على الذكاء البشري. بل هو مؤشر على محاكاة الذكاء البشري – وهو بمثابة قصيدة غنائية (تحية) لأصول الاختبار.
وتجدر الإشارة أيضًا إلى أن ظروف الدراسة لم تكن خالية من المشاكل. وعلى سبيل المثال، فترة الاختبار التي تبلغ خمس دقائق قصيرة نسبيًا.
بالإضافة إلى ذلك، طُلب من كل النماذج اللغوية الكبيرة تبني شخصية معينة، ولكن من غير الواضح ما هي تفاصيل وتأثير “الشخصيات” على الاختبار.
وفي الوقت الحالي، من الآمن القول إن “جي بي تي – 4.5” ليس بمستوى ذكاء البشر – على الرغم من أنه قد يكون ذلك بمثابة عمل معقول لإقناع بعض الأشخاص بخلاف ذلك.
*تمت الترجمة بتصرف
المصدر:
https://www.sciencealert.com/a-chatbot-has-passed-a-critical-test-for-human-like-intelligence-now-what
الهوامش:
[1] الدكتورة زينة أسعد محاضرة أولى في كلية الهندسة بالجامعة الوطنية الأسترالية. حصلت على درجة الدكتوراه في هندسة الطيران من معهد ملبورن الملكي للتكنولوجيا (RMIT) في العام 2019، وعلى زمالات من مركز أبحاث الجيش الأسترالي ومؤسسة الأنظمة المستقلة الموثوقة. يستكشف بحثها سلامة العمل الجماعي بين الإنسان والآلة، وتنظيم وضمان الأنظمة المستقلة وأنظمة الذكاء الاصطناعي. الدكتورة أسعد عضو في المجموعة الاستشارية الخبيرة التابعة للجنة العالمية للذكاء الاصطناعي المسؤول في المجال العسكري. اختارتها مجلة الذكاء الاصطناعي كواحدة من “أفضل عشر نساء في مجال الذكاء الاصطناعي” في منطقة آسيا والمحيط الهادئ. حصلت على جائزة المرأة في مجال الذكاء الاصطناعي للدفاع لعام 2023، وجائزة المرأة الجديرة بالملاحظة في تقنيات الطيران الناشئة لعام 2023، واختيرت كواحدة من “100 امرأة بارعة في أخلاقيات الذكاء الاصطناعي” لعام 2023. كما كانت من بين أفضل خمس باحثين في العلوم مقيمين لدى هيئة الإذاعة الأسترالية (ABC)، وهي مقدمة بودكاست “بايتات مسؤولة” (Responsible Bytes). المصدر: Zena Assaad – The Conversation.
