نشان کن
کد آگهی: KP8246464341

پروژه درس پردازش زبان های طبیعی(nlp)

در تهران
در وبسایت کارلنسر  (چند ساعت پیش)
دورکاری
اطلاعات شغل:
امکان دورکاری و کار در منزل: دارد
نوع همکاری:  پروژه‌ای
مهارت‌های مورد نیاز:
برنامه نویسی
انجام پروژه
پردازش زبان طبیعی
هوش مصنوعی
متخصص هوش مصنوعی
nlp
کدنویسی
پایتون
python
ماشین لرنینگ
بازه حقوق:  از 800,000 تا 2,500,000 تومان
نحوه پرداخت:  پروژه‌ای
متن کامل آگهی:
پروژه درس پردازش زبان های طبیعی(nlp) اگر قرار است صفر تا صد کار را chat gpt بزنه و هیچ دانشی نسبت به پروژه ندارین لطفا پبشنهاد ندین فایل موارد خواسته شده اپلود شده هست در صورت پیشنهاد در چت فیلم توضیحات و دیتاست هم ارسال می شود در این پروژه از شما خواسته می‌شود تا مجموعه‌ای از Taskهای پردازش زبان طبیعی را در زبان برنامه‌نویسی دلخواه خود پیاده‌سازی کنید و در قالب یک مجموعه نرم‌افزاری یکپارچه (Suite) پیاده‌سازی کنید. به طور کلی، این پروژه از چهار بخش اصلی تشکیل شده است بخش پیش پردازش داده‌های متنی (انجام پردازش‌های پایه‌ای روی داده‌های متنی) بخش دسته‌بندی داده‌های متنی بخش بازیابی اطلاعات بخش سیستم توصیه گر مبتنی بر فیلتر مشارکتی در صورتی که به صورت تک‌نفره پروژه را انجام می‌دهید، از بین بخش‌های معرفی شده، انجام بخش‌های اول و دوم اجباری است ولی از بین بخش‌های سوم و چهارم، تنها کافی است یکی از بخش‌ها را انجام دهید. بخش اول: پیش پردازش داده‌های متنی (انجام پردازش‌های پایه‌ای روی داده‌های متنی) در این بخش، از شما خواسته خواهد شد تا مجموعه‌ای از فرایندهای پیش پردازشی را روی داده متنی ورودی (فایل متنی موجود در پوشه “Dataset\TextProcessing”) خاصی پیاده‌سازی کند. کاربر باید قادر باشد تا با انتخاب فرایند پردازشی مد نظرش، خروجی مرتبط با انجام فرایند پیش پردازشی را روی داده متنی مشاهده کند. فرایندهای پیش پردازشی مورد نظر در این بخش عبارتند از توکن بندی رشته‌های متنی موجود در فایل (بخش بندی داده متنی به واحدهای زبانی تشکیل دهنده) تبدیل حروف داده‌های متنی به حروف کوچک مشخص کردن تعداد دفعات تکرار هر کلمه یا توکن در داده متنی ورودی انجام فرایند پیش پردازشی Stemming با استفاده از الگوریتم پرتر روی داده‌های متنی نکته: برای پیاده‌سازی الگوریتم Porter می‌توانید از کتابخانه‌ها یا بسته‌های Third Party ارائه شده برای زبان‌های برنامه‌نویسی مختلف استفاده کنید بخش دوم: دسته‌بندی داده‌های متنی در این بخش هدف این است تا یک سیستم دسته‌بندی متن با استفاده از روش بیز ساده (Naïve Bayes) پیاده‌سازی شود. در این بخش، مجموعه‌ای متشکل از اسناد متنی در اختیار شما قرار داده شده‌اند که در پنج کلاس مختلف دسته‌بندی شده‌اند. همچنین، داده‌های لازم برای آموزش مدل بیز ساده (یادگیری پارامترهای احتمالی) و تست این مدل در اختیار شما قرار داده شده‌اند. این داده‌ها، در پوشه (“Dataset\Classification-Train And Test”) قرار دارند. برای پیاده‌سازی این بخش لازم است ابتدا دیکشنری کلمات موجود در اسناد متنی این مجموعه داده را بسازیدبرای ساختن دیکشنری از داده‌های آموزش استفاده کنید احتمالات کلاس‌ها یا P(C) را محاسبه کنید (فقط از داده‌های آموزش برای محاسبه این احتمالات استفاده کنید) احتمالات شرطی هر کدام از کلمات به شرط کلاس‌ها (P(W|C)) را محاسبه کنید از رابطه قانون بیز برای دسته‌بندی اسناد موجود در مجموعه تست (test) در یکی از کلاس‌های پنج‌گانه استفاده کنید بخش سوم: بازیابی اطلاعات در این بخش، هدف این است تا با پیاده‌سازی یک واحد بازیابی اطلاعات، داده‌های متنی مرتبط با پرس و جوی کاربری شناسایی، بازیابی و به کاربران نمایش داده شود. در این بخش، از روش زیر برای بازیابی اطلاعات استفاده خواهد شد: براساس روش Ranked retrieval استفاده از روش وزن‌دهی TF-IDF برای بازیابی اطلاعات استفاده از مدل فضای برداری (براساس محاسبه امتیاز Cosine) برای مشخص کردن میزان شباهت یک سند متنی (شاخص) به پرس و جوی کاربری داده‌های لازم برای تولید مدل TF-IDF و وزن‌های کلمات در آن به ازاء هر سند متنی در پوشه (“Dataset\IR”) موجود است. مدل TF-IDF حتما براساس روش داده‌های در اختیار قرار داده شده محاسبه شود برای پیاده‌سازی روش محاسبه امتیاز Cosine برای مشخص کردن میزان شباهت یک سند متنی (شاخص) به پرس و جوی کاربری (بر اساس روش وزن‌دهی TF-IDF) می‌توانید از بسته‌ها یا کتابخانه‌های Third Party استفاده کنید بخش چهارم: سیستم توصیه گر مبتنی بر فیلتر مشارکتی (Collaborative Filtering) در این بخش، هدف این است تا با پیاده‌سازی یک سیستم توصیه گر فیلتر مشارکتی، آیدی موسیقی‌های که ممکن است کاربر به آن‌ها علاقه داشته باشد، به او توصیه شود.این سیستم فیلتر مشارکتی قرار است توسط الگوریتم User-User Collaborative Filtering (این مبحث در کلاس توضیح داده شده است) انجام شود. دیتاست مورد استفاده در این بخش دیتاستی به اسم Sings Dataset است. در این دیتاست، امتیاز (rating) مربوط به 800 هزار آیتم (موسیقی) ثبت شده است. به عبارت دیگر، 80 هزار کاربر، نظر خود در مورد چند آیتم از بین آیتم‌های موجود در سیستم به وسیله مقادیر 1 تا 5 نمایش داده‌اند. در این بخش، از روش زیر برای توصیه آیتم‌های موسیقی به کاربران استفاده خواهد شد: پیاده‌سازی ماتریس سودمندی (Utility Matrix) از روی دیتاستی که در اختیار شما قرار داده شده است. انجام عملیات Mean-Center کردن داده‌های ماتریس (روی هر سطر اعمال شود) انتخاب یکی از کاربران (موجود در دیتاست) برای recommend کردن آیتم موسیقی جدید به او. مشخص کردن میزان شباهت هر کاربر به تمامی کاربران موجود در دیتاست مشخص کردن تعداد مشخص (K) از کاربرانی که بیشترین شباهت را به کاربر انتخانی دارند (پارامتر K) به ازای 10 آیتم موسیقی که توسط کاربر Rate نشده است، rating احتمالی کاربر انتخابی برای این 10 آیتم را مشخص کنید. داده‌های لازم برای تولید در پوشه (“Dataset\Collaborative Filtering”) موجود است. حتما ماتریس سودمندی (Utility Matrix) از روی دیتاستی که در اختیار شما قرار داده شده، ساخته شود. برای مشخص کردن میزان شباهت هر کاربر به تمامی کاربران موجود در دیتاست، باید از روش Mean-centered overlapping-item cosine similarity برای پیاده‌سازی این روش محاسبه شباهت میان کاربران، می‌توانید از بسته‌ها یا کتابخانه‌های Third Party استفاده کنید.

این آگهی از وبسایت کارلنسر پیدا شده، با زدن دکمه‌ی تماس با کارفرما، به وبسایت کارلنسر برین و از اون‌جا برای این شغل اقدام کنین.

هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک،‌ با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.
گزارش مشکل آگهی
تماس با کارفرما
این آگهی رو برای دیگران بفرست
نشان کن
گزارش مشکل آگهی
جستجوهای مرتبط
دوشنبه 9 دی 1404، ساعت 12:21