آموزش پیاده سازی بازی مار در پایتون با یادگیری تقویتی عمیق

یادگیری پیاده‌سازی بازی مار در پایتون با تکنیک‌های یادگیری تقویتی عمیق، یکی از مثال‌های کاربردی و مفید یادگیری تقویتی عمیق است. با استفاده از تکنیک‌های یادگیری عمیق، مانند شبکه‌های عصبی عمیق و زبان برنامه‌نویسی پایتون، می‌توان به راحتی یک محیط یادگیری تقویتی را پیاده‌سازی کرد و بازی مار را به عنوان مثالی از محیطی پویا و پیچیده، برای آموزش شبکه‌های عصبی عمیق به کار برد.
آموزش پیاده سازی بازی مار در پایتون با یادگیری تقویتی عمیق
  • فصل یکم: آشنایی با بازی مار و تعریف مساله
    • درس ۱: مقدمه
  • فصل دوم: پیاده‌سازی محیط بازی
    • درس ۲: آشنایی با محیط بازی
    • درس ۳: پیاده‌سازی محیط بازی
  • فصل سوم: پیاده‌سازی عامل
    • درس ۴: آشنایی با یادگیری عمیق Q
    • درس ۵: آشنایی با روش آموزش شبکه عمیق Q
    • درس ۶: آشنایی با سیاست
    • درس ۷: جمع‌بندی تعادل جست‌وجو با بهره‌برداری
    • درس ۸: شروع پیاده‌سازی عامل
    • درس ۹: تعریف مدل
    • درس ۱۰: رمزگذاری شرایط و تکمیل مدل
    • درس ۱۱: کامپایل و خلاصه‌سازی مدل
    • درس ۱۲: ذخیره، فراخوانی و پیش‌بینی با مدل
    • درس ۱۳: تعریف شرایط و اصلاح مقیاس آن
    • درس ۱۴: پیاده‌سازی سیاست‌ها
    • درس ۱۵: تعریف اپیزود و گام
    • درس ۱۶: پیاده‌سازی بافر و حافظه مدل
    • درس ۱۷: ذخیره تجربیات عامل و آموزش مدل
    • درس ۱۸: تعریف پاداش‌ها و محدود کردن مقادیر Q
    • درس ۱۹: شبیه‌سازی محیط و برخورد مار با دیوار
    • درس ۲۰: شبیه‌سازی حرکت مار با طول اولیه
    • درس ۲۱: شبیه‌سازی خوردن غذا با طول اولیه
    • درس ۲۲: شبیه‌سازی حرکات مار با طول بیشتر از یک
    • درس ۲۳: پیاده‌سازی متد آموزش مدل
    • درس ۲۴: پیاده‌سازی متد آزمایش مدل
    • درس ۲۵: رسم نمودار پاداش برای اعمال و اپیزودها
    • درس ۲۶: آموزش مدل با سیاست اپسیلون-حریصانه (Epsilon-Greedy)
    • درس ۲۷: بررسی نتایج سیاست اپسیلون-حریصانه (Epsilon-Greedy) و آموزش مدل با سیاست بولتزمن (Boltzmann)
    • درس ۲۸: بررسی نتایج سیاست بولتزمن، تنظیم هایپرپارامترها و پاداش‌های مساله
    • درس ۲۹: تنظیم نرخ یادگیری، سایز Batch و بهینه‌سازی کد
    • درس ۳۰: تنظیم دما و ادامه آموزش مدل
    • درس ۳۱: شرایط تغییر اندازه Batch و مقدار اپسیلون
    • درس ۳۲: بررسی مزایای سیاست بولتزمن نسبت به سیاست اپسیلون-حریصانه و تنظیم Maximum Step
    • درس ۳۳: بررسی نتایج از ابتدای آموزش مدل و آزمایش کردن عامل با سیاست بولتزمن
    • درس ۳۴: آموزش یکپارچه مدل و تحلیل خروجی‌ها
  • فصل چهارم: راهنمایی ادامه مسیر
    • درس ۳۵: جمع‌بندی و نتیجه مباحث
    • درس ۳۶: ادامه یادگیری
منبع: فرادرس
فرادرس
599,000 تومان
دریافت فایل
جمعه 7 دی 1403، ساعت 19:06