
سلام روزتون بخیر بنده داشجویان ارشد فناوری اطلاعات هستم یکی از پروژه های پایان ترمم انجام پروزه weka است ] 7 روز زمان دارم پس از نصب نرم افزار WEKA و برای استفاده از تمام قابلیتهای آن، در صفحه ابتدایی، از منوی Tools، بر روی گزینه Package Manager کلیک نمایید. سپس در پنجرهی جدید، گزینهی Available را انتخاب نموده، تمامی Package های ذیل آن را انتخاب (هایلایت) کرده (با کلیک بر روی یکی از آنها و استفاده از کلیدهای Ctrl + A روی صفحه کیبورد) و بر روی گزینه install کلیک نمایید. در صورتی که در مرحله نصب برخی Package ها، پیغام خطا نمایش داده شد، نگران نباشید و آن خطاها را OK کنید؛ مراحل نصب سایر Package ها ادامه خواهد یافت. دانشجویان عزیز با سلام و احترام؛ میتوانید جهت شروع پروژه پیادهسازی یک سیستم هوشمند مبتنی بر دادهکاوی با نرمافزار WEKA، از فایل زیر بعنوان یک دیتاست استاندارد، استفاده نمایید. البته استفاده از سایر دیتاستها نیز مشروط بر استاندارد بودن آنها و تأیید بنده، مجاز میباشد. انتظار میرود بعنوان اولین اقدام، الگوریتمهای انتخاب ویژگی Information Gain و Gain Ratio (هر دو فیلتر، مبتنی بر آنتروپی میباشند) را اجرا نموده، تعداد ویژگیهای کاهشیافته و منتخب دیتاست ذیل را در چهار حالت 100، 200، 300 و 500 ویژگی (صفت خاصه) برای هر کدام بصورت مجزا، بدست آورده و فایل مربوط به هر کدام را جداگانه و با نامی که مشخصکنندهی فیلتر و تعداد ویژگی منتخب باشد، ذخیره نمایید. شایان ذکر است مراحل پیشپردازش اولیه بر روی فایل دیتاست ذیلالاشاره، انجام پذیرفته و نیاز به طی مجدد این مراحل نمیباشد. موفق باشید این یکی از نسخ کامل مجموعه داده LingSpam است که برای تشخیص ماهیت ایمیلها (قانونی یا هرزنامه بودن آنها) در یک سیستم داده کاوی مبتنی بر الگوریتمهای یادگیری ماشین، مورد استفاده قرار میگیرد. در این فایل که به فرمت arff (قابل خواندن توسط نرمافزار WEKA) است، پیشپردازش اولیه N-Gram (با مقدار N=1) روی متون ایمیلها، اعمال شده و آماده برای اجرای سایر مراحل (اعم از استخراج و انتخاب ویژگی و نیز دسته بندی و ارزیابی مدل)، میباشد. دانشجویان عزیز با سلام و احترام و عرض تسلیت و تعزیت بهمناسبت شهادت حضرت فاطمه زهرا (س)؛ بعنوان دومین اقدام در تکمیل پروژه درسی، انتظار میرود الگوریتم انتخاب ویژگی Chi Squared (مربع کای، مبتنی بر روش آماری کایدو) را اجرا نموده، تعداد ویژگیهای کاهشیافته و منتخب دیتاست صدرالاشاره را در چهار حالت 100، 200، 300 و 500 ویژگی (صفت خاصه)، بدست آورده و فایل مربوط به هر کدام را جداگانه و با نامی که مشخصکنندهی فیلتر و تعداد ویژگی منتخب باشد، ذخیره نمایید. مانند قبل، ذخیرهی فایل با فرمت arff انجام پذیرد. موفق باشید دانشجویان عزیز با سلام و احترام؛ بعنوان سومین اقدام در تکمیل پروژه درسی، انتظار میرود الگوریتم انتخاب ویژگی Wrapper (رپر) را روی نتایج تمامی فیلترهای مراحل قبلی (فیلترهای InformationGain, GainRatio, ChiSquared) اجرا نموده، تعداد ویژگیهای کاهشیافته و منتخب هر کدام را بدست آورده و فایل مربوط به هر کدام را جداگانه و با نامی که مشخصکنندهی فیلتر و رپر و تعداد ویژگی منتخب باشد، ذخیره نمایید. (بطور مثال: ChiSq100-WrMNB33 بهمعنای اینکه رپر MNB روی خروجی فیلتر مربع کای با 100 ویژگی اعمال شده و تعداد ویژگیها را به 33 عدد کاهش داده است؛ توجه فرمایید که ویژگی @@ class @@ نباید در شمارش ویژگیهای نهایی لحاظ گردد). مانند قبل، ذخیرهی فایل با فرمت arff انجام پذیرد. نکته 1) از الگوریتم Multinomial Naive Bayes (دستهبند MNB) بعنوان دستهبند رپر استفاده نمایید. دلیل استفاده از این دستهبند، سریع بودن آن و نیز این موضوع است که دستهبند مذکور، مخصوص کار با مباحث Text Mining (متن کاوی) میباشد. میتوان از دستهبندهای دیگر مثل درخت تصمیم (J48) نیز بعنوان دستهبند درون رپر استفاده نمود، لکن زمان پردازش برای انتخاب بهترین ویژگیها افزایش خواهد یافت. نکته 2) نیازی به تغییر سایر مشخصات رپر نمیباشد؛ فقط دستهبند را به MNB یا هر دستهبند دیگر تغییر دهید. ضمناً روش جستجو نیز بصورت پیشفرض، الگوریتم BestFirst باشد. موفق باشید دانشجویان عزیز با سلام و احترام و عرض تبریک بهمناسبت روز دانشجو؛ انتظار میرود در گام پایانی انجام پروژه درسی با نرمافزار WEKA، فایل اکسل ذیل این پیام را بطور کامل تکمیل نمایید. ضمناً توجه به نکات زیر، ضروری میباشد. 1) همراه فایل Excel، در یک فایل Word سه روشی را که از نظر شما بهترین انتخابها برای پیادهسازی این سیستم هوشمند میباشند، مشخص نموده (الزاماً سه روش انتخابی از سه روش دستهبندی متفاوت استفاده نمایند) و بطور کامل و به تفصیل، دلیل خود را برای این انتخابها بنویسید. 2) در فایل Word مذکور، توضیح دهید که اگر بجای دستهبند MNB، از دستهبند دیگری (بطور مثال درخت تصمیم J48) درون Wrapper استفاده میشد، نتایج احتمالاً چه تغییری میکرد. 3) نهایتاً تمامی فایلهای arff مراحل قبلی، بهمراه فایلهای Excel, Word صدرالاشاره را در یک پوشه (با فرمت rar یا zip) ذخیره نموده و صرفاً از طریق ایتا، یا از طریق ایمیل زیر، ارسال بفرمایید. ******* 4) برای معیارهای ارزیابی مندرج در فایل Excel، عدد میانگین دو کلاس (Spam, Legitimate) را در نظر بگیرید. 5) از روش k-fold Cross Validation با مقدار k=10 برای تقسیمبندی مجموعههای آموزشی و آزمایشی استفاده نمایید. 6) دلیل عدم استفادهی مستقیم از فایلهای با 300 و 500 ویژگی، زمان غیر بهینهی آنها در مقایسه با سایر موارد میباشد. 7) با برخی از دستهبندها تا کنون آشنا شدهاید و جزییات سایر دستهبندها را انشالله در جلسات آینده فرا خواهید گرفت. 8) مهلت ارسال پروژه، حداکثر تا تاریخ 10 دی ماه 1404 میباشد. 9) در ابتدای فایل Word، نام و نامخانوادگی و شماره دانشجویی اعضای گروه را مرقوم بفرمایید. موفق باشید توضیحات استاد در رابطه با اجرای پروژه #حمیدی
این آگهی از وبسایت کافه پروژه پیدا شده، با زدن دکمهی تماس با کارفرما، به وبسایت کافه پروژه برین و از اونجا برای این شغل اقدام کنین.