شرح وظایف و مسئولیتها
- راهاندازی، پیکربندی و نگهداری سرورها (Linux-based) در محیطهای development، staging و production
- مانیتورینگ سلامت سیستمها، سرویسها و منابع
- همکاری در نگهداری و بهبود پایپلاینهای AI/ML
- مدیریت سرویسها و کانتینرها (Docker و در صورت آشنایی Kubernetes)
- پیادهسازی و نگهداری فرآیندهای CI/CD
- بررسی لاگها، شناسایی و رفع خطاها و گلوگاههای عملکردی
- همکاری در پیادهسازی اصول SRE شامل:
- Reliability
- Observability
- Incident Response
- پشتیبانی از پایگاههای داده و سرویسهای داده (مانند Elasticsearch، PostgreSQL، Redis و ...)
- رعایت و بهبود مسائل امنیتی سرورها (SSH، Firewall، Secrets، Access Control)
- مستندسازی تنظیمات، فرآیندها و رویههای عملیاتی
مهارتها و دانش مورد نیاز
الزامی:
- تسلط مناسب به Linux و مفاهیم سیستمعامل
- آشنایی با مفاهیم شبکه (TCP/IP، DNS، Reverse Proxy)
- تجربه کار با Docker
- آشنایی با مفاهیم DevOps و CI/CD
- توانایی خواندن لاگها و Debug کردن مشکلات سیستمی
- آشنایی اولیه با اسکریپتنویسی
موارد زیر امتیاز محسوب میشود:
- تجربه یا علاقهمندی به زیرساختهای AI/ML/LLM
- آشنایی با Kubernetes یا سیستمهای Orchestration
- تجربه کار با ابزارهای مانیتورینگ
- سابقه کار در محیطهای استارتاپی یا محصولمحور
ویژگیهای فردی مورد انتظار:
- علاقهمند به یادگیری و رشد فنی مداوم
- مسئولیتپذیر و دقیق در کار با سیستمهای حساس
- توانایی کار تیمی و ارتباط مؤثر با توسعهدهندگان و تیم AI
- توانایی مدیریت همزمان چند سرویس و اولویتبندی مسائل
- رویکرد حل مسئله و نگاه سیستمی
مزایا و شرایط کاری
- کار روی پروژههای واقعی در حوزه هوش مصنوعی و مدلهای زبانی بزرگ
- امکان رشد به سمت MLOps Engineer و LLMOps
- محیط فنی چالشبرانگیز و یادگیرنده
- کار به صورت هیبرید