ماموریت اصلی: طراحی و پیادهسازی پایپلاین داده و زیرساخت تحلیلی مورد نیاز برای تیم مدلسازی شامل جمعآوری، پاکسازی، و آمادهسازی دادههای تراکنشی، رفتاری و مالی مشتریان جهت استفاده در مدلهای یادگیری ماشین.
مسئولیتها و وظایف اصلی:
1. درک دامنه داده و نیاز مدل
· همکاری با تیم Data Science برای شناسایی دقیق منابع داده مورد نیاز برای مدلسازی.
· تحلیل ساختار دادههای موجود در سامانههای CRM، معاملات، تراکنشها و رفتار کاربر در وب/اپ.
· تعریف اسکیمای داده تحلیلی مورد نیاز Feature Store
2. ساخت پایپلاین داده
· طراحی و توسعه ETL / ELT برای تجمیع داده از منابع مختلف (SQL DB, Logs, APIs).
· پردازش دادههای تاریخی بهصورت Batch.
· طراحی جداول آماده برای مدلسازی در PostgreSQL یا ClickHouse
· زمانبندی و مانیتورینگ جریان دادهها با Airflow
3. پاکسازی و آمادهسازی داده (Data Preparation & Quality)
· اعمال فرآیندهای Data Cleaning, Deduplication, Normalization.
· اعتبارسنجی دادهها (Data Validation) و رفع ناسازگاریهای دادهای.
· مستندسازی فرآیند ETL و ساختار Featureها برای تیم مدلسازی
4. پشتیبانی از تیم مدلسازی
· ایجاد دیتاستهای آموزشی و تست (Train/Test Splits) برای مدل ML.
· همکاری در طراحی Featureها و محاسبه متریکهای (Behavioral & Financial features).
· بهینهسازی سرعت Queryها و دسترسی داده برای تست مدلها.
5. زیرساخت حداقلی داده (MVP Infrastructure)
· راهاندازی محیط دادهای سبک و مقیاسپذیر PostgreSQLیا MinIO
· استقرار Pipeline روی محیط On-premise شرکت.
· ایجاد Backup و سیستم لاگگیری پایه برای پایپلاین داده.
مهارتها و دانش مورد نیاز:
حوزه ابزار / تکنولوژی
Data Processing: Python (Pandas, Numpy), SQL
ETL / Workflow: Apache Airflow
Database: PostgreSQL, ClickHouse
Version Control: Git / GitLab
مهارتهای نرم
· تفکر تحلیلی و دقت بالا در جزئیات داده
· توانایی مستندسازی و ارتباط موثر با تیم Data Science
· مدیریت زمان و توانایی تحویل در فازهای کوتاهمدت
پیشنیازها
· کارشناسی یا کارشناسی ارشد در مهندسی کامپیوتر، علم داده، یا IT
· حداقل 2 سال تجربه در Data Engineering
· تجربه کار با دادههای حجیم و پراکنده از چند منبع مختلف