ما بهدنبال یک مهندس ارشد DevOps/MLOps (AI Infrastructure & Model Operations) هستیم که بتواند بهصورت end-to-end مسئولیت طراحی، پیادهسازی و نگهداشت زیرساختهای مقیاسپذیر و پایدار را برای سرویسهای هوش مصنوعی برعهده بگیرد. این نقش شامل مالکیت کامل چرخهٔ CI/CD و GitOps، مدیریت و بهینهسازی کلاسترهای Kubernetes، استقرار و مانیتورینگ سرویسهای AI مبتنی بر GPU، و ایجاد پایپلاینهای MLOps و MALOps برای آموزش و استقرار مداوم مدلها است.
مهندس منتخب باید ذهنی ساختارمند، نگاه سیستمی و تسلط عمیق به مفاهیم Observability، امنیت، و چرخهٔ عمر مدلهای یادگیری ماشین داشته باشد تا بتواند پلی میان تیمهای توسعه، داده و یادگیری ماشین ایجاد کند و زیرساختی پایدار، امن و قابلگسترش برای هوش مصنوعی فراهم آورد.
شرح وظایف و مسئولیتهای موقعیت شغلی:
CI/CD و GitOps
• طراحی و نگهداشت پایپلاینهای ساخت، تست و انتشار، بههمراه کشینگ آرتیفکت و کنترل کیفیت
• استقرار فرآیندهای GitOps برای چند محیط و چند کلاستر، شامل استقرار تدریجی (Canary) و همگامسازی خودکار
Kubernetes/Rancher Ops
• مدیریت و نگهداشت کلاسترها شامل ظرفیت، مقیاسپذیری خودکار، آپگرید و رولبک امن
• بهینهسازی منابع برای بارهای کاری هوش مصنوعی و یادگیری ماشین با زمانبندی GPU و مدیریت سهمیه منابع
Observability (Metrics/Logs/Traces)
• پیادهسازی Prometheus + Alertmanager برای قواعد آلارمینگ و روتینگ
• استفاده از OpenTelemetry Collector برای تراسینگ و متریکها
امنیت و کامپلاینس K8s
• تعریف و اعمال سیاستهای امنیتی و کنترل دسترسی در سطح کلاستر
• مدیریت اسرار و رمزگذاری دادههای حساس برای افزایش امنیت
Backup/DR
• طراحی و اجرای فرآیندهای پشتیبانگیری و بازیابی کلاستر و منابع
• پشتیبانگیری از دادهها و دیسکها و تست دورهای ریکاوری برای اطمینان از آمادهبهکار بودن سیستم
AI Serving (GPU)
• استقرار و تیونینگ سروینگ مدلها با KServe، NVIDIA Triton و vLLM روی Kubernetes
• پایش عملکرد GPU، مدیریت منابع و تنظیم توازن بار بین کارتهای گرافیک
MLOps و MALOps
• طراحی پایپلاینهای Kubeflow Pipelines یا Airflow برای CI/CD/CT (Continuous Training) و reproducibility
• ثبت و مدیریت نسخههای مدل و ترفیع تدریجی از محیط آزمایشی به تولید
• مانیتورینگ کیفیت داده و مدل، شناسایی انحراف (Drift) و اجرای بازآموزی خودکار
• تعریف و مدیریت چرخه عمر مدل شامل استقرار، پایش عملکرد، بازآموزی و بازگشت نسخه
• خودکارسازی عملیات مدلها شامل زمانبندی هوشمند بازآموزی و کنترل نسخهی مدلها
شایستگی ها و مهارت های مورد نیاز شغل:
دانش تخصصی:
• تسلط عمیق بر مفاهیم DevOps، CI/CD، GitOps، Kubernetes، Containerization Architecture
• درک جامع از MLOps، Model Lifecycle Management، Data/Model Drift، Continuous Training (CT) و AI Serving
• آشنایی با اصول امنیت، Observability، Disaster Recovery، Backup، Resource Optimization و طراحی زیرساخت پایدار
• شناخت از پروسههای یادگیری ماشین و یادگیری عمیق و نحوهی استقرار مدلها در محیط تولید
مهارتهای فنی:
• تسلط بر طراحی و نگهداشت پایپلاینهای Jenkins و GitOps
• مهارت در مدیریت کلاسترهای Kubernetes/Rancher و بهینهسازی منابع GPU
• تجربه در مانیتورینگ و تحلیل متریکها با Prometheus + Alertmanager و OpenTelemetry Collector
• تسلط بر استقرار مدلها با KServe، NVIDIA Triton، vLLM
• توانایی طراحی پایپلاینهای Kubeflow Pipelines یا Airflow برای آموزش و استقرار مداوم
• مهارت در اسکریپتنویسی (Python/Bash/YAML) و کار با سیستمهای کنترل نسخه (Git)
رشته تحصیلی:
مهندسی کامپیوتر، فناوری اطلاعات، هوش مصنوعی یا مهندسی برق
حداقل سابقه کاری:
حداقل 5 سال تجربهٔ حرفهای در حوزهٔ DevOps، و حداقل 2 سال سابقهٔ مستقیم در MLOps / AI Infrastructure