متن کامل آگهی:
در okala، ما به دنبال استخدام یک مهندس ماهر و فعال قابلیت اطمینان سایت (sre) هستیم که نقش مهمی در حفظ قابلیت اطمینان سیستم، بهبود اتوماسیون، و پشتیبانی از محیطهای تولید مقیاسپذیر ایفا میکند.
با یک طرز فکر عملی، به پیشرفت عملیاتی و اطمینان از در دسترس بودن بالای خدمات ما کمک میکنید.
انجام:
استقرار بهروزرسانیها، وصلهها و اصلاحات در حین ارائه پشتیبانی فنی پیشرفته
طراحی و ساخت ابزارهای اتوماسیون برای کاهش خطاها و افزایش پایداری سیستم و تجربه مشتری
انجام تجزیه و تحلیل ریشهای در حوادث تولید و حل مسائل فنی پیچیده
توسعه اسکریپتها برای جلوگیری از خودکارسازی فرآیندهای عملیاتی تکراری و رفع مشکلات سیستم و طراحی سیستم
تعمیر و نگهداری
به سرعت روابط کاری موثر با تیم ها ایجاد کنید و مسائل را به سمت حل و فصل از طریق ارتباط واضح هدایت کنید
پیکربندی و حفظ سیستم های نظارت و هشدار برای اطمینان از قابلیت اطمینان خدمات
در چرخش های حین تماس شرکت کنید تا از محیط های عملیاتی 24/7 پشتیبانی کنید
آنچه را که می آورید:
کارشناسی مهندسی الکترونیکی یا لیسانس مرتبط با مهندسی کامپیوتر تجربه)
حداقل 1 سال تجربه عملی در مهندسی قابلیت اطمینان سایت، توسعه، یا نقشی نزدیک به هم
تخصص قوی در مدیریت سیستم لینوکس و عیب یابی در محیط های تولید
مهارت های عالی اسکریپت نویسی و اتوماسیون با استفاده از bash، python، یا زبان های مشابه
storage و سیستم های ذخیره سازی
solid
دانش کانتینرسازی و هماهنگسازی، بهویژه kubernetes
تجربه قوی در طراحی و نگهداری خطوط لوله ci/cd (ترجیحاً gitlab ci/cd)
تجربه پیادهسازی استراتژیهای پیادهسازی خودکار، آزمایش، و بازگشت به عقب
تجربه عملی با نظارت، ثبتنام، و قابلیت مدیریت ابزارها و هشدار با استفاده از ابزارها (observer) ابزارهای اتوماسیون زیرساخت مانند ansible
درک قوی از مفاهیم شبکه (dns، مسیریابی، فایروال ها، متعادل سازی بار)
تجربه با سیستم های توزیع شده و پلتفرم های جریان رویداد (مانند کافکا)
مهارت های حل مسئله قوی از جمله پاسخگویی به حادثه، تجزیه و تحلیل علت ریشه ای، بهبود فعال بودن راه حل و قابلیت اطمینان طرز فکر
چرا okala؟
زیرا در okala، شما فقط سیستمها را حفظ نمیکنید - شما به تقویت یکی از پلتفرمهای خردهفروشی آنلاین پیشرو در ایران کمک میکنید.
با خدمات در بیش از 200 شهر و میلیونها کاربر روزانه، ما به سرعت حرکت میکنیم، به طور مداوم از یادگیری لذت میبریم و همیشه به دنبال راهحلهای
و محیط کاری دوستانه
گردهمایی های هفتگی: شب مافیا، شب سینما و موارد دیگر
دسترسی به برنامه های آموزشی کاربردی و با کیفیت
صبحانه رایگان، یارانه رفت و آمد و ناهار
بیمه درمانی تکمیلی، پزشک داخلی، و پارکینگ
هدایای تخفیف ویژه تولد، کد تخفیف های فصلی، تخفیف ویژه برای تولد خودکار کنید، و با ما مقیاس کنید؟
بیایید فصل بعدی موفقیت را با هم بنویسیم.
At Okala, we are looking to hire a skilled and proactive Site Reliability Engineer (SRE) who will play a critical role in maintaining system reliability, improving automation, and supporting scalable production environments.
With a hands-on mindset, you will help drive operational excellence and ensure high availability of our services.
your story belongs here.
What You'll Be Doing:
Deploy updates, patches, and fixes while providing advanced technical support
Design and build automation tools to reduce errors and enhance system stability and customer experience
Perform root cause analysis on production incidents and resolve complex technical issues
Develop scripts to automate repetitive operational tasks
Design and maintain procedures for system troubleshooting and preventive maintenance
Rapidly build effective working relationships with teams and drive issues toward resolution through clear communication
Configure and maintain monitoring and alerting systems to ensure service reliability
Participate in on-call rotations to support 24/7 operational environments
What You Bring:
Bachelor’s degree in Computer Science, Engineering, or a related field (or equivalent practical experience)
At least 1 year of hands-on experience in Site Reliability Engineering, DevOps, or a closely related role
Strong expertise in Linux system administration and troubleshooting in production environments
Excellent scripting and automation skills using Bash, Python, or similar languages
Solid understanding of databases, storage systems, and SQL
Deep knowledge of containerization and orchestration, especially Kubernetes
Strong experience designing and maintaining CI/CD pipelines (GitLab CI/CD preferred)
Experience implementing automated deployment, testing, and rollback strategies
Hands-on experience with monitoring, logging, and alerting (observability) tools
Familiarity with configuration management and infrastructure automation tools such as Ansible
Strong understanding of networking concepts (DNS, routing, firewalls, load balancing)
Experience with distributed systems and event streaming platforms (e.g., Kafka)
Strong problem-solving skills including incident response, root cause analysis, and reliability improvement
Proactive, self-driven, and solution-oriented mindset
Why Okala?
Because at Okala, you’re not just maintaining systems — you’re helping power one of Iran’s leading online retail platforms.
With services across 200+ cities and millions of daily users, we move fast, learn continuously, and are always looking for smarter, more scalable solutions.
What You’ll Enjoy:
A dynamic and friendly work environment
Weekly gatherings: Mafia Night, Cinema Night & more
Access to practical and high-quality training programs
Free breakfast, commuting & lunch subsidies
Supplementary health insurance, in-house doctor, and parking
Birthday gifts, seasonal bonuses, and exclusive Okala discount codes
Ready to build, automate, and scale with us?
Let’s write the next chapter of success together.