اسکریپت Web Scraping جهت خواندن اطلاعات از سایتهای دانشگاه
در سراسر کشور
در وبسایت پونیشا(1 هفته پیش)
دورکاری
اطلاعات شغل:
امکان دورکاری و کار در منزل: دارد
نوع همکاری: پروژهای
مهارتهای مورد نیاز:
پایتون (Python)
Web Scraping
متن کامل آگهی:
ما به یک اسکریتپ Web Scraping نیازمندیم که یک لیست از وب سایت دانشگاه های جهان را در ورودی دریافت کند و اطلاعات اساتیدی که در یک حوزه خاص کار میکنند (شامل نام دانشگاه، نام کامل استاد، ایمیل، دپارتمان و تخصص) را استخراج کند و در خروجی به صورت فایل اکسل اطلاعات را ارائه کند.
نکات مهم:
🔸 هر وب سایت ساختار متفاوتی با وب سایت دیگر دارد (مثلا ساختار HTML وب سایت دانشگاه هاروارد با کمبریج متفاوت است) پس لازم است اسکریپت به صورت پویا نوشته شود و لازم نباشد برای هر وب سایت تغییری در آن ایجاد شود.
🔸 تعداد وب سایت ها زیاد است (مثلا 1000 دانشگاه برتر دنیا) پس نوشتن اسکریپت متفاوت برای هر دانشگاه امکان پذیر نیست.
🔸 بعضی از دانشگاهها مربوط به کشورهای غیر انگلیسی زبان هستند. در این حالت معمولا دانشگاهها زبان انگلیسی را به عنوان یکی از زبانهای ساپورت شده ارائه میدهند و اطلاعات باید از نسخه انگلیسی زبان استخراج شود. (اگر دانشگاه نسخه زبان انگلیسی نداشته باشد، یا به هردلیلی نتوانستیم اطلاعات را استخراج کنیم باید متن خطای پیش آمده را برای آن رکورد داشته باشیم)
🔸 صفحه مربوط به اطلاعات اساتید هر دانشگاه ممکن است نامی متفاوت داشته باشد. باید در نظر داشته باشید که ما فقط وب سایت دانشگاه را در ورودی میدهیم و یافتن صفحه مربوط به اعضای هیئت علمی باید توسط اسکریپت انجام شود.
🔸 درخصوص انتخاب اساتید مورد نظر ما، لازم است صفحه (پروفایل) هر استاد یافته شود و سپس با کلمات کلیدی که در رابطه با تخصص اساتید توسط ما تعیین می شود. البته در برخی دانشگاه ها، اساتید پروفایل ندارند و یک لیست شامل اطلاعات اساتید است که باید اطلاعات از همان لیست استخراج شود. (این کلمات میتوانند چندین کلمه کلیدی باشد مثلا Data Science, AI, Data Mining, etc ) سپس Relevance Score نسبت به هر کلمه کلیدی تعیین میشود و اگر از یک حد آستانه بیشتر باشد، استاد انتخاب میشود.
▫️ نحوه محاسبهی Relevance Score به این شکل است که فاصله (شباهت) اطلاعات موجود در صفحه هر استاد با هر یک از کلمات کلیدی ما محاسبه میشود و در نتیجه به یک عدد خواهیم رسید که اگر بیشتر از حد آستانه باشد، آن استاد انتخاب خواهد شد. (چنانچه روشهای دیگری از نظر شما مناسبتر است یا نتیجهی بهتری خواهد داشت، از ارائه پیشنهادات استقبال میکنیم.)
🔸 خروجی اسکریپت یک فایل اکسل است که هر شیت آن نام دانشگاه است و دارای ستون زیر است:
نام دانشگاه، تاریخ استخراج داده، ساعت استخراج داده، آدرس URL صفحهای که اطلاعات از آن استخراج شده است، نام استاد، نام خانوادگی استاد، آدرس ایمیل استاد، نام دپارتمان یا مرکزی که استاد در آن فعالیت میکند، امتیازی که بر اساس آن استاد انتخاب شده است (لازم است مشخص شود که Relevance Score به ازای هر کلمه کلیدی ورودی چه عددی بوده است) و تخصص استاد. (چنانچه از نظر شما به عنوان متخصص Web Scraping، اطلاعات مفید دیگری ممکن است وجود داشته باشد یا روش بهتری را میشناسید، نسبت به ارائه پیشنهادات از جانب شما استقبال خواهیم کرد)
🔸 لازم به ذکر است که اطلاعات درخواستی ما در دانشگاهها به صورت پابلیک وجود دارد و مانند برخی مراکز دیگر مخفی یا محرمانه نیست و به صورت دستی قابل مشاهده و دسترسی هستند و هدف ما این است که این پروسه خودکار شود.
🔸 لازم به ذکر است که ما کد را تحویل میگیریم و ممکن است بارها با کلمات کلیدی متفاوت و دانشگاه های متفاوت در ورودی، اسکریپت را اجرا کنیم و نتایج را دریافت و بررسی کنیم.
🔸 هر جایی که در این متن از کلمه استاد استفاده شده است، منظور فقط اساتید نیستند، شاید در لیستی که دانشگاه ارائه میکند، علاوه بر اساتید، محققان، پژوهشگران، دانشجویان پست دکترا و دکترا هم وجود داشته باشند که ما به اطلاعات همه ی این افراد نیاز داریم و لازم نیست که فقط اساتید را فیلتر کنیم.
این آگهی از وبسایت پونیشا پیدا شده، با زدن دکمهی تماس با کارفرما، به وبسایت پونیشا برین و از اونجا برای این شغل اقدام کنین.
هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک، با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.