1. معرفی پروژه
هدف این پروژه، توسعه یک وباسکرپر هوشمند، انعطافپذیر و قابل توسعه با استفاده از کتابخانه BeautifulSoup در زبان پایتون است. این ابزار باید قادر باشد اطلاعات موردنظر را از وبسایتهای هدف استخراج کرده و آنها را در قالبهای ساختیافتهای مانند JSON، CSV یا Excel ذخیره کند.
2. اهداف کلیدی
استخراج دادههای مشخص از صفحات وب بر اساس تنظیمات تعریفشده
ذخیرهسازی منظم و استاندارد دادههای جمعآوریشده
کنترل و مدیریت فرآیند اسکرپینگ شامل نرخ درخواستها و مدیریت خطا
امکان توسعه آسان برای پشتیبانی از وبسایتهای جدید در آینده
3. امکانات و قابلیتها
الف) ماژول استخراج داده
قابلیت تنظیم سریع برای وبسایتهای مختلف
استخراج اطلاعات بر اساس:
تگهای HTML
کلاسها و شناسهها (ID)
CSS Selector
XPath
پشتیبانی از انواع داده:
متن
لینک
تصویر
جدول
دادههای ساختیافته مانند JSON-LD و Microdata
ب) ماژول مدیریت درخواست
تنظیم هوشمند فاصله زمانی بین درخواستها
رعایت قوانین robots.txt
مدیریت کوکیها و نشستها (Session)
امکان تنظیم هدرهای HTTP
پشتیبانی اختیاری از پروکسی
ج) ماژول ذخیرهسازی
خروجی در قالبهای:
JSON
CSV
Excel
SQLite
ساختاربندی خودکار دادهها
امکان ذخیرهسازی مرحلهای (Incremental)
د) مدیریت خطا و لاگ
ثبت و گزارش خطاهای اسکرپینگ
ارائه آمار اجرای برنامه
قابلیت ادامه اجرا از آخرین نقطه توقف
4. فناوریهای پیشنهادی
زبان برنامهنویسی: Python 3
کتابخانهها:
BeautifulSoup4 (پارس HTML)
Requests (ارسال درخواستها)
Pandas (پردازش دادهها)
Selenium (در صورت نیاز به صفحات داینامیک)
روشهای ذخیرهسازی: SQLite، CSV، JSON
5. الزامات فنی
رعایت اصول اخلاقی وباسکرپینگ
پیادهسازی مناسب مدیریت خطا
کدنویسی ماژولار، تمیز و قابل توسعه
مستندسازی کامل کد و ساختار پروژه
قابلیت اجرا در سیستمعاملهای مختلف
6. اقلام تحویلی
سورسکد کامل پروژه
فایل requirements.txt
مستندات فنی شامل معماری و ماژولها
راهنمای کاربری
نمونه خروجیهای تستشده با داده واقعی
7. معیارهای پذیرش
استخراج دقیق اطلاعات از صفحات نمونه
عملکرد صحیح در مواجهه با خطاها و شرایط خاص
پایداری در اجراهای طولانیمدت
امکان توسعه و افزودن منابع جدید
رعایت استانداردهای برنامهنویسی پایتون
این آگهی از وبسایت کارلنسر پیدا شده، با زدن دکمهی تماس با کارفرما، به وبسایت کارلنسر برین و از اونجا برای این شغل اقدام کنین.
هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک، با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.