رئيسي خدمات البث يتعلم الذكاء الاصطناعي الغش في Q * bert بطريقة لم يفعلها أي إنسان من قبل

يتعلم الذكاء الاصطناعي الغش في Q * bert بطريقة لم يفعلها أي إنسان من قبل



تمكن الذكاء الاصطناعي من الغش بأفضل ما يمكن أن تقدمه البشرية بعد اكتشاف ثغرة في لعبة الأركيد الكلاسيكية Q * bert وتشغيلها.

في حين أن التكرارات السابقة للذكاء الاصطناعي ستلعب Q * bert بشكل صحيح ، في مرحلة ما من تعلمها لكيفية عمل اللعبة ، تكتشف استغلالًا يتيح لها جمع نقاط مجنونة. وبطبيعة الحال ، كما يفعل أي لاعب يبحث عن النقاط ، فإنه يكرر العملية حتى يتمكن من زيادة درجاته بأكثر الطرق فعالية ممكنة.

يمكنك رؤية الذكاء الاصطناعي وهو يعمل حول الأنظمة الأساسية في الفيديو أدناه. في البداية ، يبدو أنه يقفز بلا هدف بين الأنظمة الأساسية. بدلاً من رؤية تقدم اللعبة إلى الجولة التالية ، تصبح Q * bert عالقة في حلقة حيث تبدأ جميع منصاتها في الوميض - وهنا يمكن للذكاء الاصطناعي أن يكتسب نقاطًا ضخمة.

اقرأ التالي: تم أخيرًا تشويه أحد سجلات اللعبة الأكثر إثارة للجدل

كيف تضيف أرقام الصفحات في مستندات جوجل

كيف انتصر الذكاء الاصطناعي في حرب Q * bert

حطم الذكاء الاصطناعي الرقم القياسي في اللقب ، وحقق درجة عالية بشكل مستحيل بفضل برمجة خوارزمية استراتيجية التطور. تختلف استراتيجيات التطور (ES) عن التعلم المعزز المعتاد (RL) الذي يستخدمه الذكاء الاصطناعي التقليدي لأنه يُنظر إليه على أنه أكثر قابلية للتطوير بسبب التعلم عبر الأجيال.

يشار إلى كل حلقة تعلم على أنها جيل وتواصل مهمتها حتى يتم استيفاء شرط معين (في هذه الحالة ، درجة عالية). مع كل جيل متتالي ، يمتص الذكاء الاصطناعي معرفة الجيل السابق ، وبالتالي يكون أفضل في تحقيق نفس الهدف وتجاوزه. استمر في العمل ، وسوف ينتهي بك الأمر مع ذكاء اصطناعي لا مثيل له على الإطلاق في مهمته. هذا بالضبط ما حدث هنا مع نتيجة Q * bert.

محدد في الورقة ، الذي نشره الأسبوع الماضي باحثون في جامعة فرايبورغ بألمانيا ، يبدو أن الخطأ لم يكن معروفًا. في الواقع ، على الرغم من أنهم لم يفاجأوا كثيرًا بالعثور على الخطأ ، فمن المثير للاهتمام أن نرى كيف تقدم الذكاء الاصطناعي بعد ذلك وتعلم كيفية استغلاله في كل مرة يلعب فيها لزيادة إمكاناته في التسجيل إلى أقصى حد.

none

اقرأ التالي: لقد تعلم هذا الذكاء الاصطناعي إتقان لعبة Super Mario Bros

للعثور على الخطأ ، كان على الوكيل أولاً أن يتعلم إكمال المستوى الأول تقريبًا - لم يتم ذلك مرة واحدة ولكن باستخدام العديد من التحسينات الصغيرة ، أوضح الباحثون لـ السجل . نشك في أنه في مرحلة ما من التدريب ، واجه أحد حلول الأبناء الخطأ وحصل على درجة أفضل بكثير مقارنة بإخوته ، مما أدى بدوره إلى زيادة مساهمته في التحديث - كان وزنه هو الأعلى في المتوسط ​​المرجح. أدى هذا إلى نقل الحل ببطء إلى الفضاء حيث بدأ المزيد والمزيد من النسل في مواجهة نفس الخطأ.

لا نعرف بالضبط الظروف التي يظهر فيها الخطأ. من الممكن أن يظهر فقط إذا اتبع العامل نمطًا يبدو دون المستوى الأمثل ، [على سبيل المثال عندما يضيع الوكيل الوقت ، أو حتى يفقد حياته]. إذا كان الأمر كذلك ، فسيكون من الصعب للغاية على RL القياسي العثور على الخطأ: إذا كنت تستخدم مكافآت متزايدة ، فسوف تتعلم الاستراتيجيات التي تحقق بعض المكافآت بسرعة ، بدلاً من استراتيجيات التعلم التي لا تسفر عن الكثير من المكافآت لفترة من الوقت و ثم فجأة الفوز الكبير.

انظر ذات الصلة فقد بطل دراغستر تود روجرز لقبه بعد 35 عامًا يتعلم هذا الذكاء الاصطناعي إتقان Super Mario Bros 1-2 لمدة 17 يومًا شاهد هذا الذكاء الاصطناعي وهو يتعلم القيادة في GTA V على Twitch

ومع ذلك ، على الرغم من النتائج الرائعة للروبوت ، لا يقول الباحثون أن هذه حالة لدعم تعلم ES على RL. في الواقع ، كلا النظامين لهما مشاكلهما الخاصة ويُنظر إلى مزيج من الاثنين إلى حد كبير على أنه أفضل خيار للمضي قدمًا.

نفس طريقة ES في ألعاب Atari الأخرى لم تحقق نفس النتائج الإيجابية. من ناحية أخرى ، RL مسؤول عن تحطيم الأرقام القياسية من اليسار واليمين والوسط ، بما في ذلك التغلب على أفضل لاعب GO في العالم. لا يزال ES له مكانه الخاص في الأشياء ، وهو في الواقع كيفية أداء Nvidia للكثير من تدريب الذكاء الاصطناعي نظرًا لأنه يتطلب مزيدًا من القوة الحاسوبية ولكنه يحقق نتائج أفضل على مدى فترة زمنية أطول.

بغض النظر عن الطريقة التي ستصبح مستقبلًا لتطوير الذكاء الاصطناعي ، على الأقل هذا الروبوت الذي يخدع النظام ليس سيئًا مثل هذا الآن بطل العالم في لعبة الفيديو العار .

مقالات مثيرة للاهتمام

اختيار المحرر

none
مراجعة Windows Movie Maker 2.1
كان الإصدار الأول من Windows Movie Maker ، المرفق مع Windows Millennium Edition و XP ، يفتقر إلى الميزات. لكنها قطعت شوطًا طويلاً منذ ذلك الحين. لا يزال مجانيًا ، ولكن على الرغم من أنك اعتدت أن تكون قادرًا على ذلك
none
كيفية استخدام الرادار في حرب الرعد
في عام 2020 ، تلقت War Thunder تحديثًا جلب وظائف الرادار إلى العديد من المركبات القتالية. يعد الرادار ضروريًا لاكتشاف الأعداء وتعقبهم والمزيد. مع العديد من الميزات المختلفة ، فلا عجب أن يكافح بعض اللاعبين لإتقانها. ومع ذلك،
none
ما هي أقراص MP3؟
يؤدي نسخ ملفات MP3 إلى قرص مضغوط إلى إنشاء قرص مضغوط MP3. تعرف على المزيد حول أقراص MP3 المضغوطة، بما في ذلك إيجابيات وسلبيات ملفات الأقراص المضغوطة هذه.
none
كيفية تعطيل التصفح الخاص في Firefox
إذا كنت تدير مستخدمي الإنترنت الأصغر سنًا وترغب في مراقبة أنشطتهم ، فإن تعطيل التصفح الخاص هو إحدى طرق القيام بذلك. سيوضح لك هذا البرنامج التعليمي كيفية تعطيل التصفح الخاص في Windows. سيشمل ذلك
none
ستسمح Microsoft بإزالة تطبيق People من نظام التشغيل Windows 10
نظرًا للتغييرات القادمة على تطبيق Your Phone ، والتي ستحل في النهاية محل تطبيق People في نظام التشغيل Windows 10 ، تختبر Microsoft الآن القدرة على إلغاء تثبيت تطبيق People. يمكن لمجموعة محددة من المطلعين بالفعل إلغاء تثبيت التطبيق ببضع نقرات. يأتي Windows 10 مع تطبيق People المدمج الذي
none
كيفية رفع مستوى الصداقة في تأثير جينشين
في Genshin Impact ، هناك مجموعة كبيرة من الشخصيات التي يمكن أن يكون لديك في حزبك. يمكنك معرفة المزيد عن ماضيهم وحياتهم من خلال رفع مستوى صداقتك. حتى أنك تحصل على بعض المكافآت الأخرى في النهاية. عند لعب Genshin
none
ما هو المجلد الجذر أو الدليل الجذر؟
المجلد الجذر، المعروف أيضًا باسم الدليل الجذر، هو المجلد الأعلى في أي تسلسل هرمي قائم على المجلدات. على سبيل المثال، المجلد الجذر لمحرك الأقراص C هو C:.