نشان کن
کد آگهی: KP4163847465

نوشتن برنامه کراولر متن فارسی از وبسایت

در سراسر کشور
در وبسایت پونیشا  (1 روز پیش)
دورکاری
اطلاعات شغل:
امکان دورکاری و کار در منزل: دارد
نوع همکاری:  پروژه‌ای
مهارت‌های مورد نیاز:
پایتون (Python)
برنامه نویسی
متن کامل آگهی:
شرح پروژه: استخراج متن و لینک‌های صفحات وب سلام، ما به دنبال یک فریلنسر با تجربه در زمینه برنامه‌نویسی پایتون برای توسعه یک برنامه کاربردی هستیم. شرح دقیق پروژه به شرح زیر است: هدف پروژه: ایجاد یک اسکریپت پایتون که قادر باشد: - استخراج متن فارسی صفحه وب به صورت درست و مشخص و خوانا: - ورودی: یک URL از کاربر. وظیفه: اسکریپت باید متن (تکست) فارسی موجود در صفحه وب مربوط به URL داده شده را استخراج کرده و آن را در یک فایل متنی (مثل .txt) ذخیره کند. • برنامه روی یک لپتاپ ویندوز فارسی باید به سادگی اجرا شود   اسکریپت باید تمامی محتواهای متنی - فارسی - موجود در صفحه وب (به جز هدر و فوتر و سایدبار) را به صورت درختواره استخراج کند. به این معنی که اسکریپت باید تمامی لینک‌ها در صفحه مبدا را پیدا کرده ، کراول کنه و تیتر و متن فارسی اون ها رو به طور مشخص استخراج کنه به صورتی که هر تیتر و متن و آدرس اینترنتی به طور مجزا و خوانا باشه و هم ساختار سلسله‌مراتبی هر متن را شبیه به درخت نمایش دهد. یعنی تیتر و متن صفحه اصلی    تیتر و  متن صفحه لینک داخلی a در صفحه اصلی             تیتر و متن صفحه لینک داخلیa     تیتر و متن صفحه لینک داخلیb   در صفحه اصلی            تیتر و متن صفحه لینک داخلی b   این روند باید به صورت بازگشتی ادامه پیدا کند تا زمانی که تمام صفحات به صورت متنی استخراج شوند. در تصویر ضمیمه شده سعی کردیم که حدودی از کاری که کراولر باید انجام بده رو بهتر توضیح بدیم. مشابه کاری که اکستنشن web scraper  در وردپرس انجام میده، منتها با کاربری راحت تر و کراول تا آخرین سطح لینک داخلی به طور خودکار لازمه که بدونید سایت هایی که قراره کراول میشن، الزاما وردپرسی نیستن و باید روی همه سایت ها کار کنن. تیترها و متن هر بخش و هر صفحه، هم باید دقیقا مشخص باشه تیتر هر بخش هم از متنش قابل تمایز باشه   نیازمندی‌های فنی: کد نهایی با سورس و نوت کامل هر بخش دریافت می شود ذخیره‌سازی و مدیریت فایل‌ها به صورت متنی. قابلیت ادامه‌ی کار در صورت بروز خطاها یا وقفه‌ها.   ویژگی‌های مطلوب: سابقه کار در پروژه‌های مشابه. توانایی تست و دیباگ کدها. قابلیت مدیریت و بهینه‌سازی عملکرد برای صفحات با حجم بالای اطلاعات.   در صورتی که توانایی انجام این پروژه را دارید، لطفاً با ما در ارتباط باشید و تخمین زمان و هزینه انجام پروژه را ارائه دهید. ممنون از توجه شما!

این آگهی از وبسایت پونیشا پیدا شده، با زدن دکمه‌ی تماس با کارفرما، به وبسایت پونیشا برین و از اون‌جا برای این شغل اقدام کنین.

هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک،‌ با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.
گزارش مشکل آگهی
تماس با کارفرما
این آگهی رو برای دیگران بفرست
نشان کن
گزارش مشکل آگهی
دوشنبه 10 تیر 1404، ساعت 11:54