پروژه: توسعه وب اسکراپر (Web Scraper) با قابلیت استخراج دادههای ساختاریافته
مخاطب هدف: توسعهدهندگان پایتون، متخصصین وب اسکرپینگ، دادهکاوان
1. خلاصه پروژه:
هدف این پروژه، طراحی و توسعه یک خزنده وب هوشمند و مقیاسپذیر با استفاده از کتابخانه BeautifulSoup در پایتون است. این اسکراپر باید بتواند دادههای موردنیاز را از وبسایتهای هدف استخراج کرده و به صورت ساختاریافته (مانند JSON, CSV, Excel) ذخیره نماید.
2. اهداف اصلی پروژه:
استخراج دادههای خاص از صفحات وب بر اساس پارامترهای تعریف شده
ذخیرهسازی سازمانیافته دادههای استخراج شده
مدیریت فرآیند اسکرپینگ (کنترل نرخ درخواست، مدیریت خطاها)
قابلیت گسترش برای افزودن وبسایتهای جدید در آینده
3. ویژگیهای اصلی و قابلیتها:
الف) ماژول اسکرپینگ:
پیکربندی آسان برای وبسایتهای جدید
استخراج دادهها بر اساس:
تگهای HTML
کلاسها و IDها
Selectorهای CSS
XPath
استخراج انواع داده:
متون
لینکها
تصاویر
جداول
دادههای ساختاریافته (JSON-LD, Microdata)
ب) ماژول مدیریت درخواستها:
تنظیم اتوماتیک فواصل زمانی بین درخواستها
رعایت robots.txt
مدیریت کوکیها و sessionها
پشتیبانی از HTTP headers قابل تنظیم
امکان استفاده از پروکسی (اختیاری)
ج) ماژول ذخیرهسازی دادهها:
خروجی در قالبهای:
JSON
CSV
Excel
SQLite
ساختاردهی خودکار دادهها
پشتیبانی از ذخیرهسازی افزایشی (Incremental)
د) ماژول مدیریت خطا و لاگگیری:
ثبت خطاهای اسکرپینگ
گزارش آمار اجرا
قابلیت restart از نقطه توقف
4. تکنولوژیهای پیشنهادی:
زبان برنامهنویسی: Python 3.x
کتابخانههای اصلی:
BeautifulSoup4 برای پارسینگ HTML
Requests برای ارسال درخواستهای HTTP
Pandas برای پردازش دادهها
Selenium (در صورت نیاز برای صفحات JavaScript-heavy)
ذخیرهسازی: SQLite, CSV, JSON
5. الزامات فنی:
رعایت اخلاقیات وب اسکرپینگ
مدیریت صحیح خطاها (Error Handling)
کدنویسی تمیز و قابل توسعه (Modular Code)
مستندسازی کامل کدها
قابلیت اجرا روی سیستمعاملهای مختلف
6. خروجیهای قابل تحویل:
سورس کد کامل پایتون
فایل requirements.txt
مستندات فنی (توضیح معماری و ماژولها)
مستندات کاربری (راهنمای استفاده)
نمونههای تست شده با دادههای واقعی
7. معیارهای پذیرش پروژه:
استخراج دقیق دادهها از صفحات تست
مدیریت صحیح خطاها و موارد edge case
عملکرد پایدار در اجراهای طولانی
قابلیت توسعه و افزودن وبسایتهای جدید
رعایت استانداردهای کدنویسی پایتون
این آگهی از وبسایت کارلنسر پیدا شده، با زدن دکمهی تماس با کارفرما، به وبسایت کارلنسر برین و از اونجا برای این شغل اقدام کنین.
هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک، با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.