شما بهعنوان مسئول طراحی، پیادهسازی و مدیریت جامع راهکارهای مانیتورینگ، مشاهدهپذیری و مدیریت لاگ در زیرساخت و سرویسهای سازمان، نقش کلیدی در تضمین پایداری و سلامت سیستمها خواهید داشت. در این جایگاه، وظیفه دارید با استفاده از ابزارهای پیشرفته، تمامی سرویسها، زیرساختها و اپلیکیشنها را بهصورت دقیق پایش کرده و دادههای عملکردی و لاگها را جمعآوری، تحلیل و گزارش کنید تا امکان شناسایی و رفع سریع مشکلات فراهم شود و تجربه کاربری بهینه تضمین گردد.
وظایف اصلی این موقعیت شغلی:
- طراحی و پیادهسازی معماری مانیتورینگ و مشاهدهپذیری برای زیرساخت، سرویسها و اپلیکیشنها.
- راهاندازی، پیکربندی و نگهداری ابزارهای مانیتورینگ و لاگینگ مانند Prometheus, Grafana, ELK Stack, Loki, Zabbix.
- ایجاد و مدیریت داشبوردها، گزارشها و آلارمهای هوشمند برای پایش سلامت سرویسها و زیرساخت.
- پیادهسازی جمعآوری، پردازش و تحلیل لاگها برای شناسایی مشکلات، پیشبینی خطاها و بهبود عملکرد.
- پایش و بهینهسازی شاخصهای کلیدی عملکرد (KPIs)، SLI, SLO و SLA برای سرویسها.
- اتوماسیون فرآیندهای مانیتورینگ با استفاده از اسکریپتنویسی (Bash, Python) و ابزارهای CI/CD.
- تحلیل رخدادها و همکاری با تیمهای DevOps، امنیت و توسعه برای رفع سریع مشکلات.
- مستندسازی کامل معماری، تنظیمات و فرآیندهای مانیتورینگ و مشاهدهپذیری برای استفاده تیمی.
- ارائه راهکارهای بهبود مستمر برای افزایش قابلیت اطمینان (Reliability) و مقیاسپذیری سیستمها.
- آموزش و مشاوره به تیمها برای استفاده بهینه از داشبوردها و ابزارهای مانیتورینگ.
برای موفقیت در این نقش انتظار داریم مهارتهای زیر را داشته باشید:
مهارتهای فنی (Technical Skills):
- تسلط کامل به ابزارهای مانیتورینگ و مشاهدهپذیری:
Prometheus، Grafana، Zabbix، ELK (Elasticsearch, Logstash, Kibana )
تجربه طراحی معماری مانیتورینگ در مقیاس بالا برای زیرساختهای متنوع (On-Prem، Hybrid).
آشنایی با سیستمعامل لینوکس (مدیریت سرویسها، Performance Tuning).
تسلط به مفاهیم و ابزارهای لاگینگ و تحلیل داده.
آشنایی با معماری Containerization:
Docker
- مهارت اسکریپتنویسی برای اتوماسیون:
Bash، Python (برای Integrations و Alerting).
تسلط به پروتکلهای شبکه و مفاهیم Performance Tuning.
آشنایی با مفاهیم SRE و SLAs / SLOs / SLIs.
آشنایی با ابزارهای CI/CD و DevOps Culture.
مهارتهای نرم (Soft Skills):
- توانایی تحلیل و حل مسئله در شرایط بحرانی.
- مهارت ارتباطی قوی برای تعامل با تیمهای DevOps، توسعه، زیرساخت و امنیت.
- مدیریت زمان و اولویتبندی وظایف.
- ذهنیت بهبود مستمر و ارائه پیشنهاد برای بهینهسازی.
- مستندسازی شفاف و دقیق برای فرآیندها و تنظیمات.
افزون بر این داشتن مهارتهای زیر اولویت جذب شما را بیشتر میکند:
تسلط بر Observability پیشرفته:
توانایی طراحی و پیادهسازی سیستمهای جامع پایش شامل متریکها، لاگها و تریسها با استفاده از ابزارهایی مانند Prometheus برای شفافیت کامل عملکرد سرویسها.