استخدام کارشناس SRE
شرح موقعیت شغلی
ما در فناوران به دنبال یک کارشناس SRE مسئولیت پذیر و جزئی نگر برای پیوستن به فناوران هستیم. در این نقش شما مسئول مانیتورینگ سیستم ها و نرم افزارها، پیگیری رخدادها، شناسایی اولیه مشکلات و انجام اقدامات اولیه برای حفظ سلامت و در دسترس بودن سیستم ها می باشید.
مسئولیت ها:
- نظارت مستمر بر سیستم ها، نرم افزارها، زیرساخت ها با استفاده از ابزارهای استاندارد
- پاسخگویی به خطاها، رخدادها در زمان مناسب، اولویت بندی و انجام اقدامات بیشتر در مواقع نیاز
- انجام اقدامات اولیه مانند رفع اولیه خطاها، SQL checks، IIS checks و runbook execution
- نظارت بر سلامت، در دسترس بودن و اجرای اپلیکیشن های .NET در محیط های ویندوزی
- استفاده از Prometheus, Grafana, ELK, Zabbix و Redgate در بررسی ایشوها، مرور خطاها و شناسایی رفتارهای غیرعادی
- همکاری در بررسی فرآیندهای تکراری، شناسایی الگوها و RCA (Root Cause Analysis)
- حفظ دقیق سوابق و اسناد وقایع، تهیه گزارش های شفاف و مختصر به مدیران ذیربط
- شناسایی موضوعات متناوب و الگوهای مشکوک، ریسک های احتمالی و صحبت در خصوص آنها با تیم های مربوطه
- مشارکت با تیم های زیرساخت، DevOps و توسعه در جهت پشتیبانی از ثبات عملیاتی
- مشارکت در توسعه سطح نظارتی، کیفیت آمادگی، پروسه های عملیاتی و ران بوک ها
- بررسی و شناسایی توسعه اتوماسیون فرآیندها یا توسعه فرآیندها
- پیگیری رویه های عملیاتی مورد توافق و مشارکت در توسعه پیوسته آنها
شرایط احراز:
- دارا بودن حداقل دو سال تجربه کاری در حوزه NOC، شبکه، یا سایر نقش های با تمرکز با مانیتورینگ
- توانایی کار در شیفت های 24×7 ، شب ها، پایان هفته ها و تعطیلات
- توانایی انجام مستقل اقدامات عملیاتی اولیه و پیروی از scalation paths
- داشتن دانش عمیق در حوزه مفهوم مانیتورینگ، هندلینگ رخدادها، فلوهای escalation و فرآیندهای پشتیبانی عملیاتی
- داشتن تجربه در محیط کاری ویندوز و آشنایی ابتدایی از لینوکس
- داشتن درک عمیق از Sql Server و IIS
- آشنایی با محیط .NET و اصول مانیتورینگ
- داشتن تجربه در Prometheus, Grafana, ELK stack, Zabbix, or similar monitoring and logging tools
- آشنایی با Redgate یا ابزار مشابه مانیتورینگ دیتابیس
- توانایی اجرای first-line troubleshooting و رویه های مشخص عملیاتی و ران بوک ها
- درک عمیق ازservice dependencies, infrastructure monitoring و network-related
- توجه عمیق به جزئیات ownership mindset
- مهارت های ارتباطی خوب در گزارش گیری رخدادها و مستندسازی
- با انگیزه، منظم، منعطف، علاقه مند به یادگیری مستمر و بهبود کیفی
ویژگی هایی که مزیت محسوب می شوند:
- دارا بودن تجربه پشتیبانی نرم افزارهای .NET در محیط های تولید
- آشنایی با پشتیبانی IIS و مانیتورینگ Sql server
- داشتن تجربه در محیط های عملیاتی in on-premises
- تجربه در خصوص پلت فرم های Kubernetes-based monitoring
- درک alert optimization، operational workflows و incident follow-up
- علاقه مند به ارتقا درحوزه SRE و reliability-related operations
شرایط کاری:
- همکاری به صورت تمام وقت است
مسئولیت ها:
- نظارت مستمر بر سیستم ها، نرم افزارها، زیرساخت ها با استفاده از ابزارهای استاندارد
- پاسخگویی به خطاها، رخدادها در زمان مناسب، اولویت بندی و انجام اقدامات بیشتر در مواقع نیاز
- انجام اقدامات اولیه مانند رفع اولیه خطاها، SQL checks، IIS checks و runbook execution
- نظارت بر سلامت، در دسترس بودن و اجرای اپلیکیشن های .NET در محیط های ویندوزی
- استفاده از Prometheus, Grafana, ELK, Zabbix و Redgate در بررسی ایشوها، مرور خطاها و شناسایی رفتارهای غیرعادی
- همکاری در بررسی فرآیندهای تکراری، شناسایی الگوها و RCA (Root Cause Analysis)
- حفظ دقیق سوابق و اسناد وقایع، تهیه گزارش های شفاف و مختصر به مدیران ذیربط
- شناسایی موضوعات متناوب و الگوهای مشکوک، ریسک های احتمالی و صحبت در خصوص آنها با تیم های مربوطه
- مشارکت با تیم های زیرساخت، DevOps و توسعه در جهت پشتیبانی از ثبات عملیاتی
- مشارکت در توسعه سطح نظارتی، کیفیت آمادگی، پروسه های عملیاتی و ران بوک ها
- بررسی و شناسایی توسعه اتوماسیون فرآیندها یا توسعه فرآیندها
- پیگیری رویه های عملیاتی مورد توافق و مشارکت در توسعه پیوسته آنها
شرایط احراز:
- دارا بودن حداقل دو سال تجربه کاری در حوزه NOC، شبکه، یا سایر نقش های با تمرکز با مانیتورینگ
- توانایی کار در شیفت های 24×7 ، شب ها، پایان هفته ها و تعطیلات
- توانایی انجام مستقل اقدامات عملیاتی اولیه و پیروی از scalation paths
- داشتن دانش عمیق در حوزه مفهوم مانیتورینگ، هندلینگ رخدادها، فلوهای escalation و فرآیندهای پشتیبانی عملیاتی
- داشتن تجربه در محیط کاری ویندوز و آشنایی ابتدایی از لینوکس
- داشتن درک عمیق از Sql Server و IIS
- آشنایی با محیط .NET و اصول مانیتورینگ
- داشتن تجربه در Prometheus, Grafana, ELK stack, Zabbix, or similar monitoring and logging tools
- آشنایی با Redgate یا ابزار مشابه مانیتورینگ دیتابیس
- توانایی اجرای first-line troubleshooting و رویه های مشخص عملیاتی و ران بوک ها
- درک عمیق ازservice dependencies, infrastructure monitoring و network-related
- توجه عمیق به جزئیات ownership mindset
- مهارت های ارتباطی خوب در گزارش گیری رخدادها و مستندسازی
- با انگیزه، منظم، منعطف، علاقه مند به یادگیری مستمر و بهبود کیفی
ویژگی هایی که مزیت محسوب می شوند:
- دارا بودن تجربه پشتیبانی نرم افزارهای .NET در محیط های تولید
- آشنایی با پشتیبانی IIS و مانیتورینگ Sql server
- داشتن تجربه در محیط های عملیاتی in on-premises
- تجربه در خصوص پلت فرم های Kubernetes-based monitoring
- درک alert optimization، operational workflows و incident follow-up
- علاقه مند به ارتقا درحوزه SRE و reliability-related operations
شرایط کاری:
- همکاری به صورت تمام وقت است
مهارتهای مورد نیاز
- SRE
- شبکه
- ZABBIX
- Linux
حداقل سابقه کار
- کمتر از سه سال
جنسیت
- مهم نیست
وضعیت نظام وظیفه
- معافیت دائم پایان خدمت