يتعلم الذكاء الاصطناعي الغش في Q * bert بطريقة لم يفعلها أي إنسان من قبل

تمكن الذكاء الاصطناعي من الغش بأفضل ما يمكن أن تقدمه البشرية بعد اكتشاف ثغرة في لعبة الأركيد الكلاسيكية Q * bert وتشغيلها.

في حين أن التكرارات السابقة للذكاء الاصطناعي ستلعب Q * bert بشكل صحيح ، في مرحلة ما من تعلمها لكيفية عمل اللعبة ، تكتشف استغلالًا يتيح لها جمع نقاط مجنونة. وبطبيعة الحال ، كما يفعل أي لاعب يبحث عن النقاط ، فإنه يكرر العملية حتى يتمكن من زيادة درجاته بأكثر الطرق فعالية ممكنة.

يمكنك رؤية الذكاء الاصطناعي وهو يعمل حول الأنظمة الأساسية في الفيديو أدناه. في البداية ، يبدو أنه يقفز بلا هدف بين الأنظمة الأساسية. بدلاً من رؤية تقدم اللعبة إلى الجولة التالية ، تصبح Q * bert عالقة في حلقة حيث تبدأ جميع منصاتها في الوميض - وهنا يمكن للذكاء الاصطناعي أن يكتسب نقاطًا ضخمة.

اقرأ التالي: تم أخيرًا تشويه أحد سجلات اللعبة الأكثر إثارة للجدل

كيف تضيف أرقام الصفحات في مستندات جوجل

كيف انتصر الذكاء الاصطناعي في حرب Q * bert

حطم الذكاء الاصطناعي الرقم القياسي في اللقب ، وحقق درجة عالية بشكل مستحيل بفضل برمجة خوارزمية استراتيجية التطور. تختلف استراتيجيات التطور (ES) عن التعلم المعزز المعتاد (RL) الذي يستخدمه الذكاء الاصطناعي التقليدي لأنه يُنظر إليه على أنه أكثر قابلية للتطوير بسبب التعلم عبر الأجيال.

يشار إلى كل حلقة تعلم على أنها جيل وتواصل مهمتها حتى يتم استيفاء شرط معين (في هذه الحالة ، درجة عالية). مع كل جيل متتالي ، يمتص الذكاء الاصطناعي معرفة الجيل السابق ، وبالتالي يكون أفضل في تحقيق نفس الهدف وتجاوزه. استمر في العمل ، وسوف ينتهي بك الأمر مع ذكاء اصطناعي لا مثيل له على الإطلاق في مهمته. هذا بالضبط ما حدث هنا مع نتيجة Q * bert.

محدد في الورقة ، الذي نشره الأسبوع الماضي باحثون في جامعة فرايبورغ بألمانيا ، يبدو أن الخطأ لم يكن معروفًا. في الواقع ، على الرغم من أنهم لم يفاجأوا كثيرًا بالعثور على الخطأ ، فمن المثير للاهتمام أن نرى كيف تقدم الذكاء الاصطناعي بعد ذلك وتعلم كيفية استغلاله في كل مرة يلعب فيها لزيادة إمكاناته في التسجيل إلى أقصى حد.

none

اقرأ التالي: لقد تعلم هذا الذكاء الاصطناعي إتقان لعبة Super Mario Bros

للعثور على الخطأ ، كان على الوكيل أولاً أن يتعلم إكمال المستوى الأول تقريبًا - لم يتم ذلك مرة واحدة ولكن باستخدام العديد من التحسينات الصغيرة ، أوضح الباحثون لـ السجل . نشك في أنه في مرحلة ما من التدريب ، واجه أحد حلول الأبناء الخطأ وحصل على درجة أفضل بكثير مقارنة بإخوته ، مما أدى بدوره إلى زيادة مساهمته في التحديث - كان وزنه هو الأعلى في المتوسط المرجح. أدى هذا إلى نقل الحل ببطء إلى الفضاء حيث بدأ المزيد والمزيد من النسل في مواجهة نفس الخطأ.

لا نعرف بالضبط الظروف التي يظهر فيها الخطأ. من الممكن أن يظهر فقط إذا اتبع العامل نمطًا يبدو دون المستوى الأمثل ، [على سبيل المثال عندما يضيع الوكيل الوقت ، أو حتى يفقد حياته]. إذا كان الأمر كذلك ، فسيكون من الصعب للغاية على RL القياسي العثور على الخطأ: إذا كنت تستخدم مكافآت متزايدة ، فسوف تتعلم الاستراتيجيات التي تحقق بعض المكافآت بسرعة ، بدلاً من استراتيجيات التعلم التي لا تسفر عن الكثير من المكافآت لفترة من الوقت و ثم فجأة الفوز الكبير.

انظر ذات الصلة فقد بطل دراغستر تود روجرز لقبه بعد 35 عامًا يتعلم هذا الذكاء الاصطناعي إتقان Super Mario Bros 1-2 لمدة 17 يومًا شاهد هذا الذكاء الاصطناعي وهو يتعلم القيادة في GTA V على Twitch

ومع ذلك ، على الرغم من النتائج الرائعة للروبوت ، لا يقول الباحثون أن هذه حالة لدعم تعلم ES على RL. في الواقع ، كلا النظامين لهما مشاكلهما الخاصة ويُنظر إلى مزيج من الاثنين إلى حد كبير على أنه أفضل خيار للمضي قدمًا.

نفس طريقة ES في ألعاب Atari الأخرى لم تحقق نفس النتائج الإيجابية. من ناحية أخرى ، RL مسؤول عن تحطيم الأرقام القياسية من اليسار واليمين والوسط ، بما في ذلك التغلب على أفضل لاعب GO في العالم. لا يزال ES له مكانه الخاص في الأشياء ، وهو في الواقع كيفية أداء Nvidia للكثير من تدريب الذكاء الاصطناعي نظرًا لأنه يتطلب مزيدًا من القوة الحاسوبية ولكنه يحقق نتائج أفضل على مدى فترة زمنية أطول.

بغض النظر عن الطريقة التي ستصبح مستقبلًا لتطوير الذكاء الاصطناعي ، على الأقل هذا الروبوت الذي يخدع النظام ليس سيئًا مثل هذا الآن بطل العالم في لعبة الفيديو العار .

**يتعلم الذكاء الاصطناعي الغش في Q * bert بطريقة لم يفعلها أي إنسان من قبل**

كيف انتصر الذكاء الاصطناعي في حرب Q * bert

مقالات مثيرة للاهتمام

يقدم Telegram مجلدات الدردشة والمزيد

كيفية مسح ذاكرة التخزين المؤقت والبيانات على Waze

اختيار المحرر

مراجعة Windows Movie Maker 2.1

كيفية استخدام الرادار في حرب الرعد

ما هي أقراص MP3؟

يؤدي نسخ ملفات MP3 إلى قرص مضغوط إلى إنشاء قرص مضغوط MP3. تعرف على المزيد حول أقراص MP3 المضغوطة، بما في ذلك إيجابيات وسلبيات ملفات الأقراص المضغوطة هذه.

كيفية تعطيل التصفح الخاص في Firefox

ستسمح Microsoft بإزالة تطبيق People من نظام التشغيل Windows 10

كيفية رفع مستوى الصداقة في تأثير جينشين

ما هو المجلد الجذر أو الدليل الجذر؟

المجلد الجذر، المعروف أيضًا باسم الدليل الجذر، هو المجلد الأعلى في أي تسلسل هرمي قائم على المجلدات. على سبيل المثال، المجلد الجذر لمحرك الأقراص C هو C:.