مهندس داده برای پروژهی RAG با دادههای متنی بزرگ
ما در حال ساخت یک سیستم پیشرفتهی بازیابی افزودهشده با تولید (Retrieval-Augmented Generation - RAG) هستیم؛ سیستمی که قرار است نحوهی تعامل با دادههای متنی حجیم و بدون ساختار را دگرگون کند. اگر به دادههای عظیم، مدلهای زبانی پیشرفته و حل چالشهای واقعی علاقهمند هستید، جای شما در تیم ما خالیست!
موقعیتشغلی
ما بهدنبال جذب 2 مهندس داده با تجربهی قوی در Web/Data Scraping و Search Engineering هستیم تا در بخشهای زیر با ما همکاری کنند:
شرح وظایف
در این پروژه، شما درگیر موارد جذاب و چالشبرانگیزی خواهید بود، مثل: استخراج، دانلود و پاکسازی دادههای متنی حجیم از منابع متنوع (PDF، HTML، XML و ...)، طراحی سیستم جستجوی برداری (Vector Search) سریع و سبک برای اجرا روی CPU (مثلاً با استفاده از FAISS یا ScaNN)، یکپارچهسازی مدلهای embedding (مثل BERT، Instructor، OpenAI و ...) با سیستم بازیابی، ساخت پایپلاینهای RAG با استفاده از ابزارهایی مثل LangChain یا LlamaIndex، اجرای کوئریهای ترکیبی جستجو + تولید متن (RAG) با مدلهای زبانی بزرگ (مانند GPT-4 یا Claude).
مهارتهای مورد نیاز
✔ تسلط کامل به Python و کتابخانههای scraping و parsing، مانند: BeautifulSoup، pdfplumber، lxml، requests/selenium (امتیاز مثبت).
✔ تجربهی عملی با حداقل یکی از این موارد: FAISS، ScaNN، Annoy یا سایر کتابخانههای جستجوی برداری، LangChain یا LlamaIndex برای ساخت پایپلاینهای RAG.
✔ آشنایی با مفهوم Embedding Models و جستجوی تقریبی نزدیکترین همسایهها (ANN).
✔ امتیاز ویژه برای کسانی که: تجربهی طراحی prompt یا ارزیابی سیستمهای RAG و reranking دارند، درک عمیقی از معماری LLMها دارند.
ما به دنبال افرادی هستیم که:
عاشق یادگیری چیزهای جدید هستند، در برخورد با چالشهای فنی، انگیزه میگیرند نه استرس، میتوانند راهحلهای خلاقانه ارائه دهند و خودشان را بهروز نگه دارند، توانایی مستندسازی و برقراری ارتباط موثر در تیم را دارند.
نوع همکاری:
پروژهای (با امکان تمدید یا تبدیل به همکاری بلندمدت)، کاملاً ریموت، پرداخت منصفانه و رقابتی.
🚀 اگر فکر میکنی مهارت های بالا رو داری، همین حالا رزومهات را برای ما بفرست. در رزومه حتماً به پروژههای مرتبط یا تجربیات مشابه اشاره کن. اگر پروژه ای هم داری که بتونه تواناییهات رو نشون بده، مشتاقانه منتظریم ببینیمش.