پروژه درس پردازش زبان های طبیعی(nlp) اگر قرار است صفر تا صد کار را chat gpt بزنه و هیچ دانشی نسبت به پروژه ندارین لطفا پبشنهاد ندین فایل موارد خواسته شده اپلود شده هست در صورت پیشنهاد در چت فیلم توضیحات و دیتاست هم ارسال می شود
در این پروژه از شما خواسته میشود تا مجموعهای از Taskهای پردازش زبان طبیعی را در زبان برنامهنویسی دلخواه خود پیادهسازی کنید و در قالب یک مجموعه نرمافزاری یکپارچه (Suite) پیادهسازی کنید. به طور کلی، این پروژه از چهار بخش اصلی تشکیل شده است بخش پیش پردازش دادههای متنی (انجام پردازشهای پایهای روی دادههای متنی)
بخش دستهبندی دادههای متنی
بخش بازیابی اطلاعات
بخش سیستم توصیه گر مبتنی بر فیلتر مشارکتی
در صورتی که به صورت تکنفره پروژه را انجام میدهید، از بین بخشهای معرفی شده، انجام بخشهای اول و دوم اجباری است ولی از بین بخشهای سوم و چهارم، تنها کافی است یکی از بخشها را انجام دهید.
بخش اول: پیش پردازش دادههای متنی (انجام پردازشهای پایهای روی دادههای متنی)
در این بخش، از شما خواسته خواهد شد تا مجموعهای از فرایندهای پیش پردازشی را روی داده متنی ورودی (فایل متنی موجود در پوشه “Dataset\TextProcessing”) خاصی پیادهسازی کند. کاربر باید قادر باشد تا با انتخاب فرایند پردازشی مد نظرش، خروجی مرتبط با انجام فرایند پیش پردازشی را روی داده متنی مشاهده کند. فرایندهای پیش پردازشی مورد نظر در این بخش عبارتند از
توکن بندی رشتههای متنی موجود در فایل (بخش بندی داده متنی به واحدهای زبانی تشکیل دهنده)
تبدیل حروف دادههای متنی به حروف کوچک
مشخص کردن تعداد دفعات تکرار هر کلمه یا توکن در داده متنی ورودی
انجام فرایند پیش پردازشی Stemming با استفاده از الگوریتم پرتر روی دادههای متنی
نکته: برای پیادهسازی الگوریتم Porter میتوانید از کتابخانهها یا بستههای Third Party ارائه شده برای زبانهای برنامهنویسی مختلف استفاده کنید
بخش دوم: دستهبندی دادههای متنی
در این بخش هدف این است تا یک سیستم دستهبندی متن با استفاده از روش بیز ساده (Naïve Bayes) پیادهسازی شود. در این بخش، مجموعهای متشکل از اسناد متنی در اختیار شما قرار داده شدهاند که در پنج کلاس مختلف دستهبندی شدهاند. همچنین، دادههای لازم برای آموزش مدل بیز ساده (یادگیری پارامترهای احتمالی) و تست این مدل در اختیار شما قرار داده شدهاند. این دادهها، در پوشه (“Dataset\Classification-Train And Test”) قرار دارند. برای پیادهسازی این بخش لازم است ابتدا
دیکشنری کلمات موجود در اسناد متنی این مجموعه داده را بسازیدبرای ساختن دیکشنری از دادههای آموزش استفاده کنید
احتمالات کلاسها یا P(C) را محاسبه کنید (فقط از دادههای آموزش برای محاسبه این احتمالات استفاده کنید)
احتمالات شرطی هر کدام از کلمات به شرط کلاسها (P(W|C)) را محاسبه کنید
از رابطه قانون بیز برای دستهبندی اسناد موجود در مجموعه تست (test) در یکی از کلاسهای پنجگانه استفاده کنید
بخش سوم: بازیابی اطلاعات
در این بخش، هدف این است تا با پیادهسازی یک واحد بازیابی اطلاعات، دادههای متنی مرتبط با پرس و جوی کاربری شناسایی، بازیابی و به کاربران نمایش داده شود. در این بخش، از روش زیر برای بازیابی اطلاعات استفاده خواهد شد:
براساس روش Ranked retrieval
استفاده از روش وزندهی TF-IDF برای بازیابی اطلاعات
استفاده از مدل فضای برداری (براساس محاسبه امتیاز Cosine) برای مشخص کردن میزان شباهت یک سند متنی (شاخص) به پرس و جوی کاربری
دادههای لازم برای تولید مدل TF-IDF و وزنهای کلمات در آن به ازاء هر سند متنی در پوشه (“Dataset\IR”) موجود است.
مدل TF-IDF حتما براساس روش دادههای در اختیار قرار داده شده محاسبه شود
برای پیادهسازی روش محاسبه امتیاز Cosine برای مشخص کردن میزان شباهت یک سند متنی (شاخص) به پرس و جوی کاربری (بر اساس روش وزندهی TF-IDF) میتوانید از بستهها یا کتابخانههای Third Party استفاده کنید
بخش چهارم: سیستم توصیه گر مبتنی بر فیلتر مشارکتی (Collaborative Filtering)
در این بخش، هدف این است تا با پیادهسازی یک سیستم توصیه گر فیلتر مشارکتی، آیدی موسیقیهای که ممکن است کاربر به آنها علاقه داشته باشد، به او توصیه شود.این سیستم فیلتر مشارکتی قرار است توسط الگوریتم User-User Collaborative Filtering (این مبحث در کلاس توضیح داده شده است) انجام شود. دیتاست مورد استفاده در این بخش دیتاستی به اسم Sings Dataset است. در این دیتاست، امتیاز (rating) مربوط به 800 هزار آیتم (موسیقی) ثبت شده است. به عبارت دیگر، 80 هزار کاربر، نظر خود در مورد چند آیتم از بین آیتمهای موجود در سیستم به وسیله مقادیر 1 تا 5 نمایش دادهاند. در این بخش، از روش زیر برای توصیه آیتمهای موسیقی به کاربران استفاده خواهد شد:
پیادهسازی ماتریس سودمندی (Utility Matrix) از روی دیتاستی که در اختیار شما قرار داده شده است.
انجام عملیات Mean-Center کردن دادههای ماتریس (روی هر سطر اعمال شود)
انتخاب یکی از کاربران (موجود در دیتاست) برای recommend کردن آیتم موسیقی جدید به او.
مشخص کردن میزان شباهت هر کاربر به تمامی کاربران موجود در دیتاست
مشخص کردن تعداد مشخص (K) از کاربرانی که بیشترین شباهت را به کاربر انتخانی دارند (پارامتر K)
به ازای 10 آیتم موسیقی که توسط کاربر Rate نشده است، rating احتمالی کاربر انتخابی برای این 10 آیتم را مشخص کنید.
دادههای لازم برای تولید در پوشه (“Dataset\Collaborative Filtering”) موجود است.
حتما ماتریس سودمندی (Utility Matrix) از روی دیتاستی که در اختیار شما قرار داده شده، ساخته شود.
برای مشخص کردن میزان شباهت هر کاربر به تمامی کاربران موجود در دیتاست، باید از روش Mean-centered overlapping-item cosine similarity برای پیادهسازی این روش محاسبه شباهت میان کاربران، میتوانید از بستهها یا کتابخانههای Third Party استفاده کنید.
این آگهی از وبسایت کارلنسر پیدا شده، با زدن دکمهی تماس با کارفرما، به وبسایت کارلنسر برین و از اونجا برای این شغل اقدام کنین.
هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک، با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.