سلام
خلاصه روش مورد نظر در ذهن من به سرح زیر است:
روش جدید که ایده ی ان را دارم شامل سه بخش اساسی است:
1. (پیشپردازش دادههای ورودی (Embedding):در این بخش، دادههای ورودی تحت فرآیند پیشپردازش قرار میگیرند. این فرآیند شامل سه مرحله اصلی است:
1.1)باینریسازی دادهها :تبدیل ورودیها به مقادیر صفر و یک.در واقع هر ورودی متشکل از N ویژگی به یک بردار دو دویی تبدیل میشود و مقدار هر یک از پارامتر های این بردار(ویژگی ) یک مقداری باینری خواهد بود .درواقع در انتها ما به ازای هر ورودی یک بردار باینری N تایی خواهیم داشت .تمام ویژگیها کنار هم قرار گرفته و یک ماتریس باینری تشکیل میدهند.اگر m داده داشته باشیم و هرکدام دارای n ویژگی باشند .ماتریس باینری کل دیتای ما ابعادی برابر با m\*n خواهد داشت.
1.2)فشردهسازی دادهها :کاهش حجم دادهها برای افزایش سرعت پردازش.از یک ماتریس وزن متمایز برای هر ویژگی استفاده میکنیم تا داده های ما متراکم تر شوند .ماتریس وزنی A یک پارامتر یادگیریپذیر است که در طی فرآیند آموزش، مقادیر آن بهروزرسانی میشوند.این ماتریس با استفاده از الگوریتمهای بهینهسازی (مانند گرادیان نزولی) و بر اساس خطای مدل یاد گرفته میشود.
ابعاد ماتریس وزنی:برای هر ویژگی، 𝐴n ابعادی برابر با d\*Dn دارد .که dn تعداد مقادیر یکتای ویژگی است و d ،تعداد ابعاد فضای تعبیهشده (معمولاً به صورت هایپرپارامتر مشخص میشود).
هر ویژگی (Feature) در دادهها یک ماتریس وزن متمایز برای کاهش بعد (Projection) دارد. این ماتریس وزن به ویژگی خاصی که روی آن اعمال میشود، اختصاص داده شده است و برای تمام نمونهها (Instances) که شامل آن ویژگی هستند، مشترک است.
این مراحل Embedding به بهینهسازی و آمادهسازی دادهها برای مراحل بعدی کمک شایانی میکنند.
2 (کنترلر (Controller):
2.1)نرمالسازی دادهها :همسانسازی مقادیر ورودی با استفاده از روش BatchNorm.
2.2) به عنوان ورودی هر بار یکی از بردار های ویژگی مربوط به یک نمونه که در مراحل قبل باینری شده-متراکم شده-و نرمال شده بود به یک MLP سه لایه با تابع فعال سازی گامبل سافت مکس (Gumbel-Soft-max)داده میشود .تا به وسیله ان وزن و اهمیت تمام ویزگی های ان نمونه (N) ویژگی محاسبه شود .استفاده از گامبل سافت مکس موجب میشود یه نویز و شانس هم در نظر گرفته شود که در روش ادا اف اس وجود نداشت .این موضوع باعث افزایش انعطاف پذیری روش جدید شده است .
شبکه کنترلی (Controller Network) بهطور مستقل، احتمالها و وزنهای هر ویژگی را برای هر نمونه محاسبه میکند. بنابراین، تعاملات خاص کاربر-آیتم حفظ میشود.
2.3)استفاده از Auxiliary Loss توزیع این وزنهای بدست امده برای تمام ویژگی های هر نمونه را را تنظیم میکند تا وزنها متعادلتر و یادگیری بهتر شود.
2.4)استفاده از مکانیزم توجه یا ATTENTION که هربار یکی از نموئنه ها که داری N ویژگی است و در مرحله قبل وزن هر ویژگی تعیین شده به این مکانیزم وارد میشود .تا تعاملات بین ویژگی هارا به صورت 2 به 2 برسی کند .
2.5)مدل اداسافت : پس از محاسبه وزن ویژگی های هر نمونه و اعمال مکانیزم توجه برای کشف تعاملات و روابط بین ویژگی ها از نتایج ان ها به عنوان ورودی مدل اداسافت استفاده میکنیم . اداسافت یک مدل است که برای هر نمونه از تمام ویژگی هایش با در نظر گرفتن نتایج مکانیزم توجه استفاده میکند اما هرکدام که وزن بیشتری داشته باشد و تعامل و وابستگی بیشتری داشته باشد قطعا دارای اهمیت بیشتری است و هرکدام که وزن کمتری داشته باشد و تعاملات و وابستگی کمتری هم داشته باشد دارای اهمیت کمتر خواهد بود .اما هیچ ویژگی ای برای هیچ نمونه ای حذف نمیشود.
2.6) بازوزندهی:پس از اعمال مکانیزم توجه و برسی وابستگی و تعاملات بین ویژگی ها . ویژگیهایی که احتمالشان کمتر از آستانه هستند حذف یا کاهش وزن مییابند. وزن ویژگیهای باقیمانده نرمالسازی میشود.
در مرحله بازوزندهی، یک آستانه ثابت ممکن است برای همه نمونهها مناسب نباشد. با تنظیم آستانه به صورت پویا و متناسب با ویژگیهای هر نمونه، مدل میتواند انعطافپذیری بیشتری در انتخاب ویژگیها داشته باشد.
این روش به شما کمک میکند تا وزن ویژگیها بهطور دقیقتر تنظیم شود و ویژگیهای کلیدی هر نمونه حفظ شوند.
برای تنظیم استانه هر نمونه از میانگین و واریانس ویژگی های ان نمونه استفاده میکنیم .
2.5)مدل الگوریتم greedy :اعمال مدل الگوریتم greedy بر خروجی بازوزن دهی برای انتخاب بهترین ترکیب ویژگی های هر نمونه
2.4)مدل اداهارد : اداهارد از تمام ویژگی ها استفاده نمیکند بلکه با روش k-max-pooling از k تا از ویژگی های هر نمونه که بیشترین وزن را دارند استفاده کرده و باقی را حذف میکند .تعداد k برای تمام نمونه ها باید یکسان باشد .در نهایت هم یک reweight انجام میشود .
3)سیستم توصیهگر مبتنی بر یادگیری عمیق(مدل دیپ ):
در بخش مدل دیپ که وظیفه پیشبینی نرخ کلیک را دارد .نویسنده از mlp استفاده کرده اما فکر میکنم با استفاده از Ensemble learning و تنطیمات دقیق تر میتوان خروجی هایی بسیار دقیق تر را بدست اورد
جهت بهینه سازی هم این مقاله از تکنیک I-DART استفاده میشود .
دیتاست های مورد استفاده در مقاله که نتایج ان ها ثبت شده عبارتند از :
MovieLens 1m -CRITEO-AVAZAU
بنابراین کد باید به گونه ای منعطف طراحی شود که بر روی هر 3 دیتاست معرفی شده به خوبی عمل کند و به نتایج درست برسد.
در این روش از مدل اداسافت استفاده نشده و تنها از مدل اداهارد با برخی تغییرات در فرایند استفاده شده است.همچنین میخواهیم برای تنظیم دقیق پارامتر ها از Lookahead optimizer استفاده کنیم .
در این روش ما از 3 مدل استفاده خواهیم کرد و کاربر باید بتواند خودش در ابتدای کار تنظیم کند که از کدام مدل برای انتخاب ویژگی استفاده خواهد کرد.اما هر 3 مدل باید به دقت تنظیم شوند و در کد موجود باشند .
معیار ارزیابی هم auc-logloss خواهد بود
این آگهی از وبسایت پارسکدرز پیدا شده، با زدن دکمهی تماس با کارفرما، به وبسایت پارسکدرز برین و از اونجا برای این شغل اقدام کنین.
هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک، با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.