اجتياز الاختبار – إذا كانت الذكاء الاصطناعي يجعل اختبار تورينغ قديمًا، ما الذي يمكن أن يكون أفضل؟

إذا كانت الآلة أو برنامج الذكاء الاصطناعي يتفوق على الذكاء البشري أو يضاهيه، هل يعني ذلك أنه يمكنه محاكاة البشر بشكل مثالي؟ إذا كان الجواب نعم، فماذا عن التفكير – قدرتنا على تطبيق المنطق والتفكير بشكل عقلاني قبل اتخاذ القرارات؟ كيف يمكننا تحديد ما إذا كان برنامج الذكاء الاصطناعي قادرًا على التفكير؟ لمحاولة الإجابة على هذا السؤال، اقترح فريق من الباحثين إطارًا جديدًا يعمل مثل دراسة نفسية للبرمجيات.

اختبار جديد لتقييم الذكاء الاصطناعي

يقترح الباحثون أن الأساليب القياسية لتقييم ذكاء الآلة، مثل اختبار تورينغ، يمكن أن تخبرك فقط إذا كانت الآلة جيدة في معالجة المعلومات ومحاكاة استجابات الإنسان. فالأجيال الحالية من برامج الذكاء الاصطناعي، مثل LaMDA من Google وChatGPT من OpenAI، على سبيل المثال، اقتربت من اجتياز اختبار تورينغ، ومع ذلك، لا تعني نتائج الاختبار أن هذه البرامج يمكنها التفكير والاستدلال مثل البشر.

مشاكل اختبار تورينغ

خلال اختبار تورينغ، يلعب المقيمون ألعابًا مختلفة تنطوي على التواصل القائم على النصوص مع بشر حقيقيين وبرامج الذكاء الاصطناعي (الآلات أو الروبوتات الدردشة). إنه اختبار أعمى، لذلك لا يعرف المقيمون ما إذا كانوا يراسلون إنسانًا أم روبوت دردشة. إذا نجحت برامج الذكاء الاصطناعي في توليد ردود تشبه البشر – إلى درجة تجعل المقيمين يصعب عليهم التمييز بين الإنسان وبرنامج الذكاء الاصطناعي – يعتبر أن الذكاء الاصطناعي قد اجتاز الاختبار. ومع ذلك، نظرًا لأن اختبار تورينغ يعتمد على التفسير الذاتي، فإن هذه النتائج أيضًا ذات طابع شخصي.

قيود اختبار تورينغ

يقترح الباحثون أن هناك العديد من القيود المرتبطة بـ اختبار تورينغ. على سبيل المثال، يعتبر أي من الألعاب التي تلعب خلال الاختبار ألعاب تقليدية مصممة لاختبار ما إذا كانت الآلة قادرة على تقليد الإنسان أم لا. يتخذ المقيمون قرارات فقط بناءً على لغة أو نغمة الرسائل التي يتلقونها. فبرنامج ChatGPT رائع في تقليد لغة الإنسان، حتى في الردود التي يقدم فيها معلومات غير صحيحة. لذا، فإن الاختبار لا يقيم قدرة الآلة على التفكير والاستدلال المنطقي.

نتائج اختبار تورينغ أيضًا لا يمكن أن تخبرك ما إذا كانت الآلة قادرة على التفكير الداخلي. غالبًا ما نفكر في أفعالنا السابقة ونتأمل في حياتنا وقراراتنا، وهي قدرة حاسمة تمنعنا من تكرار الأخطاء نفسها. ونفس الشيء ينطبق على الذكاء الاصطناعي أيضًا، وفقًا لدراسة من جامعة ستانفورد التي تشير إلى أن الآلات التي يمكنها التفكير الذاتي هي أكثر فعالية للاستخدام البشري.

“وكيل الذكاء الاصطناعي الذي يمكنه الاستفادة من الخبرة السابقة والتكيف بشكل جيد من خلال استكشاف البيئات الجديدة أو المتغيرة سيؤدي إلى تقنيات أكثر تكيفًا ومرونة، من الروبوتات المنزلية إلى أدوات التعلم الشخصية”، قال نيك هابر، أستاذ مساعد من جامعة ستانفورد ولم يشارك في الدراسة الحالية.

بالإضافة إلى ذلك، يفشل اختبار تورينغ في تحليل قدرة برنامج الذكاء الاصطناعي على التفكير. في تجربة تورينغ الأخيرة، تمكن GPT-4 من إقناع المقيمين بأنهم يراسلون بشرًا أكثر من 40 في المائة من الوقت. ومع ذلك، فإن هذه النتيجة لا تجيب على السؤال الأساسي: هل يمكن لبرنامج الذكاء الاصطناعي التفكير؟

قال آلان تورينغ، العالم البريطاني الشهير الذي ابتكر اختبار تورينغ: “يستحق الكمبيوتر أن يسمى ذكيًا إذا كان قادرًا على إخداع إنسان وجعله يعتقد أنه إنسان”. اختباره يغطي جانبًا واحدًا فقط من الذكاء البشري، وهو التقليد. على الرغم من أنه من الممكن أن يخدع شخصًا باستخدام هذا الجانب الواحد، إلا أن العديد من الخبراء يعتقدون أن الآلة لن تتمكن أبدًا من تحقيق الذكاء البشري الحقيقي دون تضمين تلك الجوانب الأخرى.

“ليس واضحًا ما إذا كان اجتياز اختبار تورينغ هو معلمة ذات مغزى أم لا. إنه لا يخبرنا عن قدرة النظام على القيام بأي شيء أو فهم أي شيء، أو عن ما إذا كان قد أنشأ حوارًا داخليًا معقدًا أو يمكنه التخطيط على المدى الزمني المجرد، وهو أمر أساسي للذكاء البشري”، قال مصطفى سليمان، خبير في الذكاء الاصطناعي ومؤسس DeepAI، لـ Bloomberg.

Source: https://arstechnica.com/ai/2023/12/do-ai-improvements-call-for-something-better-than-the-turing-test/


Comments

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *