مهارت ها:
1. Linux : آشنایی پایه و توانایی کار با دستورات اساسی سیستمعامل لینوکس. 2. مانیتورینگ و لاگ : آشنایی مفهومی با مفاهیم اصلی مانیتورینگ، جمعآوری متریک و مدیریت لاگ. 3. Kubernetes : آشنایی اولیه با ساختار و مفاهیم اصلی Kubernetes یا OpenShift (مانند Pod، Deployment، Service). 4. تحلیل و گزارشدهی : توانایی تحلیل دادههای فنی و گزارشدهی شفاف در مورد مشکلات شناسایی شده. 5. فرهنگ سازمانی : روحیه قوی یادگیری، کنجکاوی فنی بالا و حس مسئولیتپذیری قوی.
وظایف و مسئولیت ها:
1. مانیتورینگ زیرساخت: مانیتورینگ مستمر وضعیت عملکردی زیرساخت و سرویسها با استفاده از ابزارهای اصلی مانند Prometheus و Grafana. 2. مدیریت آلارمها: بررسی و تحلیل اولیه هشدارهای دریافتی (Alerts) و تشخیص رخدادهای واقعی از هشدارهای کاذب (False Positive). 3. تحلیل لاگ: پایش، جستجو و تحلیل لاگها و خطاها با استفاده از ELK Stack (Elasticsearch, Logstash, Kibana) برای یافتن ریشهی مشکلات. 4. پایش کانتینرها: بررسی دقیق وضعیت Podها، Nodeها و Namespaceها در محیطهای Kubernetes / OpenShift. 5. عیبیابی اولیه: تشخیص مشکلات رایج کانتینری مانند CrashLoopBackOff، وضعیت Pod Pending و شناسایی الگوهای کمبود منابع (مانند CPU / Memory / Disk). 6. مانیتورینگ سرویسهای اصلی: · Kafka: بررسی وضعیت Brokerها و تأخیر مصرفکنندهها (Consumer Lag). · Redis: نظارت بر میزان استفاده از حافظه (Memory Usage)، تعداد اتصالات (Connections) و عملیات حذف داده (Evictions). · دیتابیسها: مانیتورینگ در سطح Read-Only شامل وضعیت اتصال، میزان فضای دیسک و هشدارهای عمومی. 7. مستندسازی رخداد: ثبت دقیق و مستندسازی تمامی رخدادها و مشکلات شناسایی شده در قالب گزارش رخداد (Incident Report). 8. ارتقاء (Escalation): ارجاع و اطلاعرسانی صحیح و به موقع مشکلات به تیمهای تخصصی مربوطه (Dev، Infra یا DBA) در صورت لزوم.
آشنای با ابزارهای زیر مزیت محسوب میشود:
1. ابزارهای مانیتورینگ: آشنایی عملی یا پروژهای با Prometheus و Grafana.
2. ELK: تجربه کار یا آشنایی با کار با ELK Stack.
3.سرویسها: آشنایی نسبی با معماری و عملکرد Kafka، Redis و دیتابیسهای رایج
4.شبکه: آشنایی اولیه با مفاهیم پایه Networking و پروتکل TCP/IP