نشان کن
کد آگهی: KP1991348167

رمزگذار خودکار برای خوشه بندی

در سراسر کشور
در وبسایت پارسکدرز  (چند ساعت پیش)
دورکاری
اطلاعات شغل:
امکان دورکاری و کار در منزل: دارد
نوع همکاری:  پروژه‌ای
مهارت‌های مورد نیاز:
یادگیری ماشین (Machine Learning)
Deep Learning
تحلیل داده (Data Analysis)
ترجمه (Translation)
بازه حقوق:  از 750,000 تا 5,000,000 تومان
متن کامل آگهی:
الزامات تکمیل در این دوره شما سه استراتژی برای استفاده از رمزگذارهای خودکار برای خوشه‌بندی آموختید. 1) 2 dim code2) One Hot Encoding (does not require Kmeans)3) relatively high dim code در این کار شما دو روش اول را بر روی یک مثال بسیار ساده، پنگوئن هایی که از قبل آشنا هستند، آزمایش خواهید کرد. داده ها برای روش سوم به اندازه کافی ابعاد بالایی ندارند، بنابراین این قابل اجرا نیست. لطفا به صورت زیر عمل کنید: 1) داده ها را از CSV پیوست شده "penguins\_size.csv" بارگیری کنید. ستون "گونه" برچسب است. این برای خوشه بندی نادیده گرفته می شود، اما بعداً برای نمودارهایی استفاده می شود که کیفیت نتیجه را نشان می دهد. 2) کاوش و پاکسازی حداقل داده ها: به مقادیر از دست رفته و نقاط پرت شدید توجه کنید 3) خوشه‌بندی را با استفاده از رمزگذار خودکار که به 2 نورون کاهش می‌یابد، انجام دهید، سپس دوباره با استفاده از رمزگذار خودکاری که برای 3 گونه پنگوئن مورد نظر کدگذاری شده است، "یک داغ" انجام دهید. لطفاً با دنبال کردن منحنی‌های ضرر، مطمئن شوید که یک رمزگذار خودکار تنظیم‌شده (معماری، نرخ\_آموزش، بهینه‌ساز، اندازه دسته، ...) ایجاد کرده‌اید. 4) کیفیت نتیجه: در مورد "2 dim"، لطفاً داده های رمزگذاری شده را در نمودار 2 بعدی رسم کنید. گونه های واقعی را با خوشه های یافت شده مقایسه کنید (مثلاً با کدهای رنگی و شکل نقاط یا با 2 نمودار در کنار یکدیگر با کدهای رنگ و غیره. در اینجا هیچ محدودیتی برای خلاقیت شما وجود ندارد). در مورد "یک داغ"، طرحی که کیفیت را تجزیه و تحلیل کند بسیار دشوارتر است. باز هم، چند پیشنهاد، شما خودتان تصمیم می گیرید که چگونه آنها را ارائه دهید: -> ابتدا می توانید داده ها را با استفاده از PCA به 2 بعد کاهش دهید، سپس از کدهای رنگی برای مقایسه خوشه های رمزگذار خودکار با برچسب های واقعی استفاده کنید. -> می توانید 2 ویژگی را در یک ماتریس رسم کنید و سپس آنها را با استفاده از کدهای رنگی مقایسه کنید -> می توانید توزیع مقادیر ویژگی های فردی را برای هر خوشه برای نقاط داده جداگانه مشخص کنید (نحوه انجام این کار را می توان به روش های مختلفی انجام داد، به عنوان مثال نمودار ویولن) و مشخص کنید که نقاط داده خوشه چگونه است. توزیع شده در بین گونه ها (در ساده ترین حالت، نمودار دایره ای) ->... 4) لطفاً نظر خود را در مورد هر مرحله در نظرات بیان کنید. Example #3: Autoencoder for clusteringCompletion requirements In the course you learned three strategies for using autoencoders for clustering. a) 2 dim codeb) One Hot Encoding (does not require Kmeans)c) relatively high dim code In this task you will test the first two methods on a very simple example, the already familiar penguins. The data is not high-dimensional enough for the third method, so this is not applicable. Please proceed as follows: 1) Load data from the attached CSV "penguins\_size.csv". The column "species" is the label. This is ignored for clustering, but is later used for plots that show the quality of the result. 2) Minimal data exploration and cleansing: Pay attention to missing values ​​and extreme outliers 3) Perform clustering using an autoencoder that is reduced to 2 neurons, then again using an autoencoder that is "one-hot" encoded for the 3 penguin species you are looking for. Please make sure to create a well-tuned autoencoder (architecture, learning\_rate, optimizer, batch\_size, ...) by following the course of loss curves. 4) Quality of the result: In the "2 dim" case, please plot the coded data in a 2d plot. Compare the actual species with the clusters found (e.g. by color codes and shapes of the points or by 2 plots next to each other with color codes, etc. There is no limit to your creativity here). In the "one-hot" case, a plot that analyzes the quality is much more difficult. Again, some suggestions, you decide for yourself how to present them: -> You could first reduce the data to 2 dimensions using PCA, then use color codes to compare the autoencoder clusters with the actual labels -> You could plot 2 attributes in a matrix and then compare them using color codes -> You could specify the distribution of the values ​​of the individual attributes for each cluster for the individual data points (how to do this could be done in many ways, e.g. violin plot) and specify how the data points of the cluster are distributed across the species (in the simplest case, pie chart) -> ... 4) Please make sure to state in the comments what you thought about each step

این آگهی از وبسایت پارسکدرز پیدا شده، با زدن دکمه‌ی تماس با کارفرما، به وبسایت پارسکدرز برین و از اون‌جا برای این شغل اقدام کنین.

هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک،‌ با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.
گزارش مشکل آگهی
تماس با کارفرما
این آگهی رو برای دیگران بفرست
نشان کن
گزارش مشکل آگهی
سه‌شنبه 2 بهمن 1403، ساعت 02:14