آموزش پیاده سازی بازی مار در پایتون با یادگیری تقویتی عمیق
یادگیری پیادهسازی بازی مار در پایتون با تکنیکهای یادگیری تقویتی عمیق، یکی از مثالهای کاربردی و مفید یادگیری تقویتی عمیق است. با استفاده از تکنیکهای یادگیری عمیق، مانند شبکههای عصبی عمیق و زبان برنامهنویسی پایتون، میتوان به راحتی یک محیط یادگیری تقویتی را پیادهسازی کرد و بازی مار را به عنوان مثالی از محیطی پویا و پیچیده، برای آموزش شبکههای عصبی عمیق به کار برد.
- فصل یکم: آشنایی با بازی مار و تعریف مساله
- فصل دوم: پیادهسازی محیط بازی
- درس ۲: آشنایی با محیط بازی
- درس ۳: پیادهسازی محیط بازی
- فصل سوم: پیادهسازی عامل
- درس ۴: آشنایی با یادگیری عمیق Q
- درس ۵: آشنایی با روش آموزش شبکه عمیق Q
- درس ۶: آشنایی با سیاست
- درس ۷: جمعبندی تعادل جستوجو با بهرهبرداری
- درس ۸: شروع پیادهسازی عامل
- درس ۹: تعریف مدل
- درس ۱۰: رمزگذاری شرایط و تکمیل مدل
- درس ۱۱: کامپایل و خلاصهسازی مدل
- درس ۱۲: ذخیره، فراخوانی و پیشبینی با مدل
- درس ۱۳: تعریف شرایط و اصلاح مقیاس آن
- درس ۱۴: پیادهسازی سیاستها
- درس ۱۵: تعریف اپیزود و گام
- درس ۱۶: پیادهسازی بافر و حافظه مدل
- درس ۱۷: ذخیره تجربیات عامل و آموزش مدل
- درس ۱۸: تعریف پاداشها و محدود کردن مقادیر Q
- درس ۱۹: شبیهسازی محیط و برخورد مار با دیوار
- درس ۲۰: شبیهسازی حرکت مار با طول اولیه
- درس ۲۱: شبیهسازی خوردن غذا با طول اولیه
- درس ۲۲: شبیهسازی حرکات مار با طول بیشتر از یک
- درس ۲۳: پیادهسازی متد آموزش مدل
- درس ۲۴: پیادهسازی متد آزمایش مدل
- درس ۲۵: رسم نمودار پاداش برای اعمال و اپیزودها
- درس ۲۶: آموزش مدل با سیاست اپسیلون-حریصانه (Epsilon-Greedy)
- درس ۲۷: بررسی نتایج سیاست اپسیلون-حریصانه (Epsilon-Greedy) و آموزش مدل با سیاست بولتزمن (Boltzmann)
- درس ۲۸: بررسی نتایج سیاست بولتزمن، تنظیم هایپرپارامترها و پاداشهای مساله
- درس ۲۹: تنظیم نرخ یادگیری، سایز Batch و بهینهسازی کد
- درس ۳۰: تنظیم دما و ادامه آموزش مدل
- درس ۳۱: شرایط تغییر اندازه Batch و مقدار اپسیلون
- درس ۳۲: بررسی مزایای سیاست بولتزمن نسبت به سیاست اپسیلون-حریصانه و تنظیم Maximum Step
- درس ۳۳: بررسی نتایج از ابتدای آموزش مدل و آزمایش کردن عامل با سیاست بولتزمن
- درس ۳۴: آموزش یکپارچه مدل و تحلیل خروجیها
- فصل چهارم: راهنمایی ادامه مسیر
- درس ۳۵: جمعبندی و نتیجه مباحث
- درس ۳۶: ادامه یادگیری
منبع:
فرادرس