تمكن الذكاء الاصطناعي من الغش بأفضل ما يمكن أن تقدمه البشرية بعد اكتشاف ثغرة في لعبة الأركيد الكلاسيكية Q * bert وتشغيلها.
في حين أن التكرارات السابقة للذكاء الاصطناعي ستلعب Q * bert بشكل صحيح ، في مرحلة ما من تعلمها لكيفية عمل اللعبة ، تكتشف استغلالًا يتيح لها جمع نقاط مجنونة. وبطبيعة الحال ، كما يفعل أي لاعب يبحث عن النقاط ، فإنه يكرر العملية حتى يتمكن من زيادة درجاته بأكثر الطرق فعالية ممكنة.
يمكنك رؤية الذكاء الاصطناعي وهو يعمل حول الأنظمة الأساسية في الفيديو أدناه. في البداية ، يبدو أنه يقفز بلا هدف بين الأنظمة الأساسية. بدلاً من رؤية تقدم اللعبة إلى الجولة التالية ، تصبح Q * bert عالقة في حلقة حيث تبدأ جميع منصاتها في الوميض - وهنا يمكن للذكاء الاصطناعي أن يكتسب نقاطًا ضخمة.
اقرأ التالي: تم أخيرًا تشويه أحد سجلات اللعبة الأكثر إثارة للجدل
كيف تضيف أرقام الصفحات في مستندات جوجل
كيف انتصر الذكاء الاصطناعي في حرب Q * bert
حطم الذكاء الاصطناعي الرقم القياسي في اللقب ، وحقق درجة عالية بشكل مستحيل بفضل برمجة خوارزمية استراتيجية التطور. تختلف استراتيجيات التطور (ES) عن التعلم المعزز المعتاد (RL) الذي يستخدمه الذكاء الاصطناعي التقليدي لأنه يُنظر إليه على أنه أكثر قابلية للتطوير بسبب التعلم عبر الأجيال.
يشار إلى كل حلقة تعلم على أنها جيل وتواصل مهمتها حتى يتم استيفاء شرط معين (في هذه الحالة ، درجة عالية). مع كل جيل متتالي ، يمتص الذكاء الاصطناعي معرفة الجيل السابق ، وبالتالي يكون أفضل في تحقيق نفس الهدف وتجاوزه. استمر في العمل ، وسوف ينتهي بك الأمر مع ذكاء اصطناعي لا مثيل له على الإطلاق في مهمته. هذا بالضبط ما حدث هنا مع نتيجة Q * bert.
محدد في الورقة ، الذي نشره الأسبوع الماضي باحثون في جامعة فرايبورغ بألمانيا ، يبدو أن الخطأ لم يكن معروفًا. في الواقع ، على الرغم من أنهم لم يفاجأوا كثيرًا بالعثور على الخطأ ، فمن المثير للاهتمام أن نرى كيف تقدم الذكاء الاصطناعي بعد ذلك وتعلم كيفية استغلاله في كل مرة يلعب فيها لزيادة إمكاناته في التسجيل إلى أقصى حد.
اقرأ التالي: لقد تعلم هذا الذكاء الاصطناعي إتقان لعبة Super Mario Bros
للعثور على الخطأ ، كان على الوكيل أولاً أن يتعلم إكمال المستوى الأول تقريبًا - لم يتم ذلك مرة واحدة ولكن باستخدام العديد من التحسينات الصغيرة ، أوضح الباحثون لـ السجل . نشك في أنه في مرحلة ما من التدريب ، واجه أحد حلول الأبناء الخطأ وحصل على درجة أفضل بكثير مقارنة بإخوته ، مما أدى بدوره إلى زيادة مساهمته في التحديث - كان وزنه هو الأعلى في المتوسط المرجح. أدى هذا إلى نقل الحل ببطء إلى الفضاء حيث بدأ المزيد والمزيد من النسل في مواجهة نفس الخطأ.
لا نعرف بالضبط الظروف التي يظهر فيها الخطأ. من الممكن أن يظهر فقط إذا اتبع العامل نمطًا يبدو دون المستوى الأمثل ، [على سبيل المثال عندما يضيع الوكيل الوقت ، أو حتى يفقد حياته]. إذا كان الأمر كذلك ، فسيكون من الصعب للغاية على RL القياسي العثور على الخطأ: إذا كنت تستخدم مكافآت متزايدة ، فسوف تتعلم الاستراتيجيات التي تحقق بعض المكافآت بسرعة ، بدلاً من استراتيجيات التعلم التي لا تسفر عن الكثير من المكافآت لفترة من الوقت و ثم فجأة الفوز الكبير.
انظر ذات الصلة فقد بطل دراغستر تود روجرز لقبه بعد 35 عامًا يتعلم هذا الذكاء الاصطناعي إتقان Super Mario Bros 1-2 لمدة 17 يومًا شاهد هذا الذكاء الاصطناعي وهو يتعلم القيادة في GTA V على Twitch
ومع ذلك ، على الرغم من النتائج الرائعة للروبوت ، لا يقول الباحثون أن هذه حالة لدعم تعلم ES على RL. في الواقع ، كلا النظامين لهما مشاكلهما الخاصة ويُنظر إلى مزيج من الاثنين إلى حد كبير على أنه أفضل خيار للمضي قدمًا.
نفس طريقة ES في ألعاب Atari الأخرى لم تحقق نفس النتائج الإيجابية. من ناحية أخرى ، RL مسؤول عن تحطيم الأرقام القياسية من اليسار واليمين والوسط ، بما في ذلك التغلب على أفضل لاعب GO في العالم. لا يزال ES له مكانه الخاص في الأشياء ، وهو في الواقع كيفية أداء Nvidia للكثير من تدريب الذكاء الاصطناعي نظرًا لأنه يتطلب مزيدًا من القوة الحاسوبية ولكنه يحقق نتائج أفضل على مدى فترة زمنية أطول.
بغض النظر عن الطريقة التي ستصبح مستقبلًا لتطوير الذكاء الاصطناعي ، على الأقل هذا الروبوت الذي يخدع النظام ليس سيئًا مثل هذا الآن بطل العالم في لعبة الفيديو العار .