نشان کن
کد آگهی: KP4825774804

اسکریپت Web Scraping جهت خواندن اطلاعات از سایتهای دانشگاه

در سراسر کشور
در وبسایت پونیشا  (1 هفته پیش)
دورکاری
اطلاعات شغل:
امکان دورکاری و کار در منزل: دارد
نوع همکاری:  پروژه‌ای
مهارت‌های مورد نیاز:
پایتون (Python)
Web Scraping
متن کامل آگهی:
ما به یک اسکریتپ Web Scraping نیازمندیم که یک لیست از وب سایت دانشگاه های جهان را در ورودی دریافت کند و اطلاعات اساتیدی که در یک حوزه خاص کار میکنند (شامل نام دانشگاه، نام کامل استاد، ایمیل، دپارتمان و تخصص) را استخراج کند و در خروجی به صورت فایل اکسل اطلاعات را ارائه کند. نکات مهم: 🔸 هر وب سایت ساختار متفاوتی با وب سایت دیگر دارد (مثلا ساختار HTML وب سایت دانشگاه هاروارد با کمبریج متفاوت است) پس لازم است اسکریپت به صورت پویا نوشته شود و لازم نباشد برای هر وب سایت تغییری در آن ایجاد شود. 🔸 تعداد وب سایت ها زیاد است (مثلا 1000 دانشگاه برتر دنیا) پس نوشتن اسکریپت متفاوت برای هر دانشگاه امکان پذیر نیست. 🔸 بعضی از دانشگاه‌ها مربوط به کشورهای غیر انگلیسی زبان هستند. در این حالت معمولا دانشگاه‌ها زبان انگلیسی را به عنوان یکی از زبان‌های ساپورت شده ارائه می‌دهند و اطلاعات باید از نسخه انگلیسی زبان استخراج شود. (اگر دانشگاه نسخه زبان انگلیسی نداشته باشد، یا به هردلیلی نتوانستیم اطلاعات را استخراج کنیم باید متن خطای پیش آمده را برای آن رکورد داشته باشیم) 🔸 صفحه مربوط به اطلاعات اساتید هر دانشگاه ممکن است نامی متفاوت داشته باشد. باید در نظر داشته باشید که ما فقط وب سایت دانشگاه را در ورودی میدهیم و یافتن صفحه مربوط به اعضای هیئت علمی باید توسط اسکریپت انجام شود. 🔸 درخصوص انتخاب اساتید مورد نظر ما، لازم است صفحه (پروفایل) هر استاد یافته شود و سپس با کلمات کلیدی که در رابطه با تخصص اساتید توسط ما تعیین می شود. البته در برخی دانشگاه ها، اساتید پروفایل ندارند و یک لیست شامل اطلاعات اساتید است که باید اطلاعات از همان لیست استخراج شود. (این کلمات می‌توانند چندین کلمه کلیدی باشد مثلا Data Science, AI, Data Mining, etc ) سپس Relevance Score نسبت به هر کلمه کلیدی تعیین می‌شود و اگر از یک حد آستانه بیشتر باشد، استاد انتخاب می‌شود. ▫️ نحوه محاسبه‌ی Relevance Score به این شکل است که فاصله (شباهت) اطلاعات موجود در صفحه‌ هر استاد با هر یک از کلمات کلیدی ما محاسبه می‌شود و در نتیجه به یک عدد خواهیم رسید که اگر بیشتر از حد آستانه باشد، آن استاد انتخاب خواهد شد. (چنانچه روش‌های دیگری از نظر شما مناسب‌تر است یا نتیجه‌ی بهتری خواهد داشت، از ارائه پیشنهادات استقبال می‌کنیم.) 🔸 خروجی اسکریپت یک فایل اکسل است که هر شیت آن نام دانشگاه است و دارای ستون زیر است: نام دانشگاه، تاریخ استخراج داده، ساعت استخراج داده، آدرس URL صفحه‌ای که اطلاعات از آن استخراج شده است، نام استاد، نام خانوادگی استاد، آدرس ایمیل استاد، نام دپارتمان یا مرکزی که استاد در آن فعالیت می‌کند، امتیازی که بر اساس آن استاد انتخاب شده است (لازم است مشخص شود که Relevance Score به ازای هر کلمه کلیدی ورودی چه عددی بوده است) و تخصص استاد. (چنانچه از نظر شما به عنوان متخصص Web Scraping، اطلاعات مفید دیگری ممکن است وجود داشته باشد یا روش بهتری را می‌شناسید، نسبت به ارائه پیشنهادات از جانب شما استقبال خواهیم کرد) 🔸 لازم به ذکر است که اطلاعات درخواستی ما در دانشگاه‌ها به صورت پابلیک وجود دارد و مانند برخی مراکز دیگر مخفی یا محرمانه نیست و به صورت دستی قابل مشاهده و دسترسی هستند و هدف ما این است که این پروسه خودکار شود. 🔸 لازم به ذکر است که ما کد را تحویل میگیریم و ممکن است بارها با کلمات کلیدی متفاوت و دانشگاه های متفاوت در ورودی، اسکریپت را اجرا کنیم و نتایج را دریافت و بررسی کنیم. 🔸 هر جایی که در این متن از کلمه استاد استفاده شده است، منظور فقط اساتید نیستند، شاید در لیستی که دانشگاه ارائه میکند، علاوه بر اساتید، محققان، پژوهشگران، دانشجویان پست دکترا و دکترا هم وجود داشته باشند که ما به اطلاعات همه ی این افراد نیاز داریم و لازم نیست که فقط اساتید را فیلتر کنیم.

این آگهی از وبسایت پونیشا پیدا شده، با زدن دکمه‌ی تماس با کارفرما، به وبسایت پونیشا برین و از اون‌جا برای این شغل اقدام کنین.

هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک،‌ با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.
گزارش مشکل آگهی
تماس با کارفرما
این آگهی رو برای دیگران بفرست
نشان کن
گزارش مشکل آگهی
جستجوهای مرتبط
یک‌شنبه 29 مهر 1403، ساعت 20:12