#پروژه\_جدید #کدپروژه : 91470موضوع : پروژه پایتون =/سلام وقت بخیر یه پروژه داشتم میخواستم زحمتشو بکشیدTask: Automate Job Data Collection with Crawl4AI and n8nObjective: Use Crawl4AI to scrape, preprocess, and store data from public UK job boards into a vector database.Steps: 1. Set Up Crawl4AI: • Configure it to target job boards like Find a Job and Civil Service Jobs. • Specify crawling scope (e.g., job search and detail pages). 2. Define Data Fields: • Job Title • Company Name • Location • Salary • Job Description • Posting Date 3. Preprocessing: • Use Crawl4AI’s built-in tools to clean data (remove HTML tags, normalize fields). • Deduplicate entries using unique identifiers (e.g., job title + company + posting date). 4. Vector Database Integration: • Generate embeddings for job descriptions using a language model. • Store embeddings and metadata in the vector database for efficient querying.Deliverables: • Configured Crawl4AI project for targeted crawling. • Cleaned, deduplicated job data. • Populated vector database with searchable embeddings.For vector database use postgres + pgai extension: https://github.com/timescale/pgaiCrawl4ai: https://github.com/unclecode/crawl4aiUse Ollama + OSS LLM for the crawlاین سایتی هست که باید اطلاعاتش استخراج بشه https://findajob.dwp.gov.uk/search?q=&w=با پایتون و از crawl4ai استفاده بشهتا فردا صبح زمان دارم
این آگهی از وبسایت پارسکدرز پیدا شده، با زدن دکمهی تماس با کارفرما، به وبسایت پارسکدرز برین و از اونجا برای این شغل اقدام کنین.
هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک، با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.