این پروژه قبلا توسط بنده انجام شده ولی استاد ازم خواسته ایرادات کدم رو برطرف کنم ولی چون درگیر امتحانات هستم و وقتم محدوده از شما میخوام خواهش کنم منو تو این پروژه همراهی کنید.کدی که برای این تمرین نوشتم به همراه دیتاست ضمیمه شده.هدف از این پروژه ایجاد و مقایسه ی پنج مدل ماشین لرنینگ برای پیدا کردن دقیق ترین مدل یا مدل ها برای پیش بینی فاکتور های موثر بر دیابت استدیتاست شامل اطلاعات کلینیکی در مورد افراد دیابتی و غیردیابتی است.اصلاحات طبق خواسته ی استاد به شرح زیر است: 1. Encoding باعث به وجود آمدن نتایج غیرمعتبر میشود. خصوصا در رگرسیون لجستیک پس به جای استفاده از Encoding راه بهتر استفاده از dummy-variables(pd.get\_dummies) است.این روش داده ها رو به روش onehot کدگذاری میکنه. درست مثل Race variable. این روش در Smoking\_history و سایر ویژگی های categorical کمک کننده خواهد بود. متغیرهای باینری مثل Hypertension نیازی به این متد ندارند.2. برای داده های categorical محاسبه ی correlation matrix خیلی هوشمندانه نیست. ما میخواهیم بدانیم اساسا آیا همبستگی وجود دارد یا خیر! پس روش هایی مثل chi^2 test مناسب تر است.(https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2\_contingency.html) تجسم ها میتواند چیزی شبیه به چیزی که اینجا آمده (https://seaborn.pydata.org/tutorial/categorical.html) با catplot باشد3. برای سایر داده ها مثلا BMI و غیره میتوان از نمودارهای جعبه ای استفاده کرد که براساس دیابت تقسیم میشوند. بنابراین در این قسمت ما یک Boxplot برای bmi افراد غیردیابتی و یکی هم برای افراد دیابتی داریم. که با توجه به این باکس پلات ها باید بررسی کنیم که آیا تفاوت هایی وجود دارد یا خیر4. ساختن نمودارهای جعبه ای از داده های طبقه بندی معقول نیست( این روش همانطور که در کد نوشته شده دیده میشود، معمولا فقط یک خط و یک نقطه است و چیزی بیشتر نمی توان دید. چیزی شبیه به barplot ها را امتحان کنید تا ببینید برای هرکدام چند متغیر دارید. این روش برای Smoking\_history و غیره هم صدق میکند.5. مدل ها نیاز به tuning دارند. به عنوان مثال در حال حاضر نمیدانیم که آیا Random Forrest با پارامترهای مختلف بهتر عمل میکند یا خیر؟!اینجا روش cross\_validation روش معقولانه ای خواهد بود. https://scikit-learn.org/stable/modules/generated/sklearn.model\_selection.GridSearchCV.html که این برای boosted trees هم صدق میکند.مدل ها در حالت فعلی به احتمال زیاد overfitting دارند.6. باید مراقب باشید که فقط از regular score استفاده نکنید! چون مجموعه ی داده بسیار نامتعادل است( از اونجایی که حدود 8٪ افراد دیابتی هستند و بقیه نیستند) بنابراین accuracy مشخصه ی مناسبی نخواهد بود. تصور کنید اگر مدل همیشه فقط غیردیابتی ها را در نظر بگیرد، بدون توجه به اینکه چه اتفاقی افتاده، accuracy این پیش بینی 92٪ خواهد بودچون 92٪ از دیتاست غیر دیابتی هستند!پس F1-score یا حتی F1-score وزنی انتخاب بهتری خواهد بود.( https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification\_report.html )این F1-scoreبرای هر گروه رو نشان میدهد. بنابراین میتوانیم ببینیم که درکل چقدر خوب عمل میکند.7. برای رگرسیون لجستیک هم میتوانید تاثیر دقیق هر پارامتر را جستجو کنید. این میتونه جالب باشه که ببینیم کدام ویژگی بیشتر بر روی دیابت تاثیر میگذاره.8. برای بقیه مدل ها معمولا feature\_importance( https://scikit-learn.org/stable/auto\_examples/ensemble/plot\_forest\_importances.html) اطلاعاتی رو در مورد اینکه کدام ویژگی به پیش بینی مدل کمک کرده رو ارائه میده. حتی اگر نمیتوانیم پارامترها رو برای هرکدام دریافت کنیم
این آگهی از وبسایت پارسکدرز پیدا شده، با زدن دکمهی تماس با کارفرما، به وبسایت پارسکدرز برین و از اونجا برای این شغل اقدام کنین.
هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک، با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.