این نقش روی طراحی و پیادهسازی زیرساخت و پایپلاینهای داده در مقیاس بزرگ تمرکز دارد: ساخت و بهینهسازی ETL/ELT، پردازش دستهای و جریانی، تضمین کیفیت/دسترسپذیری داده و آمادهسازی بستر داده برای تیمهای تحلیلی و علم داده.
مسئولیتها
· طراحی معماری داده و پیادهسازی پایپلاینهای مقیاسپذیر (Batch/Streaming)
· توسعه و نگهداری ETL/ELT، Data Lake/Warehouse
· بهینهسازی عملکرد پردازش و ذخیرهسازی (پارتیشنبندی، فرمتها مثل Parquet، بهینهسازی Query)
· تضمین کیفیت داده، lineage، مانیتورینگ پایپلاین و رفع خطاها
· همکاری با Data Scientist/Data Analyst برای تأمین دادهی تمیز، پایدار و قابل اتکا
· مهارتها و الزامات (Must Have)
· تسلط به SQL و اصول مدلسازی داده
· تسلط به یکی از زبانها: Python/Scala (ترجیحاً Python)
· تجربه عملی با پردازش توزیعشده/کلانداده: بهخصوص Apache Spark (و آشنایی با Flink مزیت است)
· تجربه ساخت پایپلاین و ارکستریشن (Airflow یا مشابه)
· تجربه با Kafka و پردازش جریانی (Streaming)
· تجربه کار با Clickhouse یا StarRocks
· آشنایی با Git و اصول توسعه تیمی
امتیاز محسوب میشود (Nice to Have)
· آشنایی با Docker/Kubernetes و استقرار سرویسها (Data/MLOps)
· تجربه کار با NoSQL (مثل Elasticsearch/Cassandra/MongoDB) و ذخیرهسازی تحلیلی
· تجربه یا آشنایی با Data Quality / Data Governance