ایرانسرور برای حفظ پایداری سرویسها، مانیتورینگ پیشدستانه و مدیریت عملیات حیاتی زیرساخت به دنبال یک مدیر NOC دقیق و آیندهنگر است. در این جایگاه ، مسئولیت هدایت تیم عملیات،استانداردسازی فرآیندها و پیشبرد پروژههای تحول زیرساخت در یکی از بزرگترین پلتفرمهای میزبانی کشور خواهی داشت. اگر به هدایت تیمهای عملیاتی، ساخت ساختارهای استاندارد، اتوماسیون هوشمند، تصمیمگیری در شرایط بحرانی و کار در محیطهای Large-Scale علاقهمند هستی،این نقش میتواند نقطه عطف مسیر حرفهای تو باشد.
وظایف اصلی:
مدیریت، برنامهریزی و هدایت تیم NOC در شیفتهای مختلف برای تضمین High Availability
پایش مداوم شبکه، سرورها، تجهیزات دیتاسنتر و سرویسهای حیاتی
تحلیل رخدادهای عملیاتی، شناسایی نقاط بحرانی و اقدام سریع برای رفع مشکل
تعریف، مستندسازی و بهبود فرآیندهای Monitoring، Incident Response، Escalation و Major Incident Management
همکاری نزدیک با تیمهای شبکه، SRE، دیتاسنتر، DevOps و SOC
طراحی و اجرای KPIهای عملیاتی شامل Uptime، MTTR، MTTD، SLA و Capacity Metrics
تحلیل هشدارها و رویدادها با استفاده از Zabbix، Grafana، Prometheus، ELK، Splunk
مدیریت ظرفیت و عملکرد (Capacity & Performance Management)
تحلیل حوادث و تهیه RCA استاندارد برای ارائه به مدیریت
مشارکت فعال در طراحی، بهروزرسانی و تست برنامههای Disaster Recovery و Business Continuity
مشارکت در طراحی داشبوردهای پیشرفته برای مشاهده سلامت سرویسها (Observability)
پیشنهاد و پیادهسازی بهبودها در ابزارهای NOC، رویهها، استانداردها و Automation
هدایت تیم در شرایط بحران و هماهنگی میان تیمها برای کاهش زمان اختلال
شرایط و مهارتهای مورد نیاز:
مهارتهای تخصصی
تجربه عملی در طراحی، مستندسازی و بهبود فرآیندهای عملیاتی (Incident, Problem, Change, Escalation Flow، SOP، Runbook)
توانایی ایجاد ساختار Process-Driven NOC و نهادینهسازی انضباط عملیاتی
تسلط به مفاهیم شبکه: Routing، Switching، BGP، OSPF، VLAN، Firewalling
آشنایی با ساختارها و عملیات دیتاسنتر شامل: Power، Cooling، Rack Layout، Connectivity
تجربه با ابزارهای مانیتورینگ و Observability: Zabbix / Prometheus / Grafana / ELK / Splunk
مهارت در اتوماسیون عملیات (Ops Automation) با ابزارهای: Python/ Bash Scripting Ansible / SaltStack API Integration
آشنایی با مفاهیم AIOps و Machine Learning for Operations برای: کاهش هشدارهای کاذب پیشبینی خطا تحلیل رفتار سرویسها anomaly detection
تجربه در طراحی داشبوردهای هوشمند: trend analysis، capacity forecasting، health scoring
آشنایی با مفاهیم و شاخصهای SRE: SLA, SLO, Error Budget
توانایی تحلیل لاگها، Troubleshooting پیشرفته و ارائه RCA کامل
تجربه با معماریهای Cloud، OpenStack، Kubernetes یا microservices مزیت محسوب میشود
مهارتهای رفتاری
روحیه بهبود مداوم و علاقه به ساخت ساختارهای استاندارد و خودکار
تفکر سیستماتیک و Data-Driven در تصمیمگیری
رهبری تیم و هدایت نیروها به سمت فرهنگ Automation-First
شرکت گرینوب با سرمایه نیروی انسانی نخبه و متخصص و با پشتوانه مشتریانی وفادار و ماندگار و در کنار توکل بر خدا مسیر طولانی پیشرفت را با سرعتی زیاد طی کرده است و هم اکنون در کنار بزرگان صنعت فناوری اطلاعات و با در نظر گرفتن پیشرفت و توسعه کشور عزیزمان در حوزههای فناوری اطلاعات چشم به افقهایی دوخته است که در آن صادرات خدمات فنی و مهندسی فناوری اطلاعات به بزرگترین قدرتهای این حوزه انجام پذیرد و در این مسیر بعنوان صادرکننده برتر خدمات فنی و مهندسی در حوزه فناوری اطلاعات در سال 95 و صادر کننده نمونه ملی در حوزه فناوری اطلاعات در سال 1401 انتخاب گردید.