استخدام NOC Manager (مشهد)
شرح موقعیت شغلی
ایرانسرور برای حفظ پایداری سرویسها، مانیتورینگ پیشدستانه و مدیریت عملیات حیاتی زیرساخت به دنبال یک مدیر NOC دقیق و آیندهنگر است. در این جایگاه ، مسئولیت هدایت تیم عملیات،استانداردسازی فرآیندها و پیشبرد پروژههای تحول زیرساخت در یکی از بزرگترین پلتفرمهای میزبانی کشور خواهی داشت.
اگر به هدایت تیمهای عملیاتی، ساخت ساختارهای استاندارد، اتوماسیون هوشمند، تصمیمگیری در شرایط بحرانی و کار در محیطهای Large-Scale علاقهمند هستی،این نقش میتواند نقطه عطف مسیر حرفهای تو باشد.
اگر به هدایت تیمهای عملیاتی، ساخت ساختارهای استاندارد، اتوماسیون هوشمند، تصمیمگیری در شرایط بحرانی و کار در محیطهای Large-Scale علاقهمند هستی،این نقش میتواند نقطه عطف مسیر حرفهای تو باشد.
وظایف اصلی:
- مدیریت، برنامهریزی و هدایت تیم NOC در شیفتهای مختلف برای تضمین High Availability
- پایش مداوم شبکه، سرورها، تجهیزات دیتاسنتر و سرویسهای حیاتی
- تحلیل رخدادهای عملیاتی، شناسایی نقاط بحرانی و اقدام سریع برای رفع مشکل
- تعریف، مستندسازی و بهبود فرآیندهای Monitoring، Incident Response، Escalation و Major Incident Management
- همکاری نزدیک با تیمهای شبکه، SRE، دیتاسنتر، DevOps و SOC
- طراحی و اجرای KPIهای عملیاتی شامل Uptime، MTTR، MTTD، SLA و Capacity Metrics
- تحلیل هشدارها و رویدادها با استفاده از Zabbix، Grafana، Prometheus، ELK، Splunk
- مدیریت ظرفیت و عملکرد (Capacity & Performance Management)
- تحلیل حوادث و تهیه RCA استاندارد برای ارائه به مدیریت
- مشارکت فعال در طراحی، بهروزرسانی و تست برنامههای Disaster Recovery و Business Continuity
- مشارکت در طراحی داشبوردهای پیشرفته برای مشاهده سلامت سرویسها (Observability)
- پیشنهاد و پیادهسازی بهبودها در ابزارهای NOC، رویهها، استانداردها و Automation
- هدایت تیم در شرایط بحران و هماهنگی میان تیمها برای کاهش زمان اختلال
شرایط و مهارتهای مورد نیاز:
مهارتهای تخصصی
- تجربه عملی در طراحی، مستندسازی و بهبود فرآیندهای عملیاتی
(Incident, Problem, Change, Escalation Flow، SOP، Runbook) - توانایی ایجاد ساختار Process-Driven NOC و نهادینهسازی انضباط عملیاتی
- تسلط به مفاهیم شبکه: Routing، Switching، BGP، OSPF، VLAN، Firewalling
- آشنایی با ساختارها و عملیات دیتاسنتر شامل: Power، Cooling، Rack Layout، Connectivity
- تجربه با ابزارهای مانیتورینگ و Observability: Zabbix / Prometheus / Grafana / ELK / Splunk
- مهارت در اتوماسیون عملیات (Ops Automation) با ابزارهای:
Python/ Bash Scripting
Ansible / SaltStack
API Integration - آشنایی با مفاهیم AIOps و Machine Learning for Operations برای:
کاهش هشدارهای کاذب
پیشبینی خطا
تحلیل رفتار سرویسها
anomaly detection - تجربه در طراحی داشبوردهای هوشمند:
trend analysis، capacity forecasting، health scoring - آشنایی با مفاهیم و شاخصهای SRE: SLA, SLO, Error Budget
- توانایی تحلیل لاگها، Troubleshooting پیشرفته و ارائه RCA کامل
- تجربه با معماریهای Cloud، OpenStack، Kubernetes یا microservices مزیت محسوب میشود
مهارتهای رفتاری
- روحیه بهبود مداوم و علاقه به ساخت ساختارهای استاندارد و خودکار
- تفکر سیستماتیک و Data-Driven در تصمیمگیری
- رهبری تیم و هدایت نیروها به سمت فرهنگ Automation-First
- توانایی مدیریت بحران و تصمیمگیری دقیق زیر فشار
- مهارت ارتباطی قوی برای هماهنگی میان تیمهای مختلف
- تعهد به مستندسازی، انضباط عملیاتی و شفافیت
مهارتهای مورد نیاز
- noc
- لینوکس
- مفاهیم شبکه
حداقل سابقه کار
- بیش از شش سال
جنسیت
- مهم نیست
وضعیت نظام وظیفه
- مهم نیست