نشان کن
کد آگهی: KP611135531

سایت سوپروایزر | Site Reliability Engineer (SRE)

سایت سوپروایزر | Site Reliability Engineer (SRE) - هوآوي | Huawei Technologies Service (Iranian)
هوآوي | Huawei Technologies Service (Iranian)
در تهران
در وبسایت ایران تلنت  (3 روز پیش)
اطلاعات شغل:
نوع همکاری:  تمام‌وقت
بازه سنی:  از 24 تا 44 سال
نیاز به سابقه:  حداقل 1 سال
متن کامل آگهی:
ما به دنبال یک مهندس قابلیت اطمینان سایت (sre) هستیم تا از قابلیت اطمینان، در دسترس بودن و مقیاس پذیری سیستم های خود اطمینان حاصل کنیم. این نقش از نزدیک با تیم‌های توسعه برای بهبود انعطاف‌پذیری سیستم، خودکارسازی عملیات، و پاسخ به حوادث تولید همکاری می‌کند. (به‌روزرسانی‌های نرم‌افزار، رفع اشکال‌ها و وصله‌های امنیتی).

مسئولیت‌ها

• طراحی، بهره‌برداری، و بهبود سیستم‌های قابل اعتماد، مقیاس‌پذیر و مقاوم در برابر خطا.
• نظارت بر سلامت سیستم و حفظ نظارت بر روی دستگاه و حفظ سلامت سیستم و حفظ آن بر روی یک داشبورد. چرخش و واکنش حادثه؛ انجام تجزیه و تحلیل علت اصلی و پس از مرگ بی‌عیب به ابتکارات قابلیت اطمینان کمک کنید.

الزامات

• مدرک لیسانس در علوم کامپیوتر یا رشته مرتبط، یا تجربه عملی معادل.
• بیش از 3 سال تجربه در sre، devops، سیستم‌ها یا مهندسی نرم‌افزار.
• تجربه با حداقل یک زبان برنامه‌نویسی (به عنوان مثال، c++, java, c#, c#,) یا حوزه‌های بیشتر: شبکه، لینوکس، کانتینرها، ذخیره‌سازی، مجازی‌سازی، امنیت سایبری، پایگاه‌های داده یا داده‌های بزرگ.
• تجربه با kubernetes/containers و زیرساخت‌های ابری.
• مهارت در زیرساخت‌ها به عنوان کد (terraform، ansible، عروسک، آشپز، و غیره).
• اسکریپت‌نویسی و مهارت نظارت بر اتوماسیون،
ابزارهای مشاهده‌پذیری (پرومته، گرانا، الک)، ابزارهای خودکار O&M (مانند ansible، terraform، jenkins، و غیره).
• درک مدیریت حادثه، مهندسی قابلیت اطمینان، و سیستم‌های توزیع‌شده.
• مهارت‌های حل مسئله، ارتباطی و کار تیمی قوی. elasticsearch

برگزیده:

• گواهینامه های ابر یا شبکه (معمار راه حل های aws، معمار لاجورد، توسعه دهنده ابر گوگل، hcie، سیسکو).
• گواهی itil یا سایر گواهی های عملیات مرتبط
• تجربه با سیستم های در مقیاس بزرگ یا در دسترس بالا
We are looking for a Site Reliability Engineer (SRE) to ensure the reliability, availability, and scalability of our systems. The role works closely with development teams to improve system resilience, automate operations, and respond to production incidents.(Software updates, bug fixes, and security patches).

Responsibilities

• Design, operate, and improve reliable, scalable, and fault-tolerant systems.
• Monitor system health and maintain alerting and observability dashboards.
• Participate in on-call rotations and incident response; perform root cause analysis and blameless postmortems.
• Define and manage SLAs, SLOs, and error budgets.
• Automate operational tasks and reduce manual toil.
• Perform capacity planning and resilience improvements (e.g., chaos engineering).
• Collaborate with development teams on deployments, updates, and security patches.
• Promote SRE best practices and contribute to reliability initiatives.

Requirements

• Bachelor’s degree in Computer Science or related field, or equivalent practical experience.
• 3+ years of experience in SRE, DevOps, systems, or software engineering.
• Experience with at least one programming language (e.g., C++, C#, Java, Python, JavaScript)
• Strong knowledge in one or more areas: networking, Linux, containers, storage, virtualization, cybersecurity, databases, or big data.
• Experience with Kubernetes/containers and cloud infrastructure.
• Proficiency with Infrastructure as Code (Terraform, Ansible, Puppet, Chef, etc.).
• Scripting and automation skills (Python, Shell, Go).
• Familiarity with monitoring and observability tools (Prometheus, Grafana, ELK), automated O&M tools (e.g. Ansible, Terraform, Jenkins, etc.).
• Understanding of incident management, reliability engineering, and distributed systems.
• Strong problem-solving, communication, and teamwork skills.
• Hands-on with Spark, Hadoop, Fink, or ElasticSearch

Preferred:

• Cloud or networking certifications (AWS Solutions Architect, Azure Architect, Google Cloud Developer, HCIE, Cisco).
• ITIL certification or other relevant OPS certifications
• Experience with large-scale or high-availability systems

این آگهی از وبسایت ایران تلنت پیدا شده، با زدن دکمه‌ی تماس با کارفرما، به وبسایت ایران تلنت برین و از اون‌جا برای این شغل اقدام کنین.

هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک،‌ با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.
گزارش مشکل آگهی
تماس با کارفرما
این آگهی رو برای دیگران بفرست
نشان کن
گزارش مشکل آگهی
سه‌شنبه 22 بهمن 1404، ساعت 15:20