این نقش روی طراحی و پیادهسازی زیرساخت و پایپلاینهای داده در مقیاس بزرگ تمرکز دارد: ساخت و بهینهسازی ETL/ELT، پردازش دستهای و جریانی، تضمین کیفیت/دسترسپذیری داده و آمادهسازی بستر داده برای تیمهای تحلیلی و علم داده.
مسئولیتها:
طراحی معماری داده و پیادهسازی پایپلاینهای مقیاسپذیر (Batch/Streaming)
توسعه و نگهداری ETL/ELT، Data Lake/Warehouse
بهینهسازی عملکرد پردازش و ذخیرهسازی (پارتیشنبندی، فرمتها مثل Parquet، بهینهسازی Query)
تضمین کیفیت داده، lineage، مانیتورینگ پایپلاین و رفع خطاها
همکاری با Data Scientist/Data Analyst برای تامین دادهی تمیز، پایدار و قابل اتکا
مهارتها و الزامات (Must Have):
تسلط به SQL و اصول مدلسازی داده
تسلط به یکی از زبانها: Python/Scala (ترجیحاً Python)
تجربه عملی با پردازش توزیعشده/کلانداده: بهخصوص Apache Spark (و آشنایی با Flink مزیت است)
تجربه ساخت پایپلاین و ارکستریشن (Airflow یا مشابه)
تجربه با Kafka و پردازش جریانی (Streaming)
تجربه کار با Clickhouse یا StarRocks
آشنایی با Git و اصول توسعه تیمی
امتیاز محسوب میشود (Nice to Have):
آشنایی با Docker/Kubernetes و استقرار سرویسها (Data/MLOps)
تجربه کار با NoSQL (مثل Elasticsearch/Cassandra/MongoDB) و ذخیرهسازی تحلیلی
تجربه یا آشنایی با Data Quality / Data Governance