آگهی‌های استخدامی

استخدام Platform Engineer (آقا)

شرح موقعیت شغلی

ما در فناوران به دنبال یک Platform Engineer توانمند، مسئولیت‌پذیر و عمل‌گرا هستیم تا مسئولیت راه‌اندازی، نگهداری، توسعه و بهبود پلتفرم‌ها و سرویس‌های مرتبط با Alerting ،Tracing ،Logging ،Monitoring و به‌طور کلی Observability در محیط عملیاتی ما را بر عهده بگیرد. این نقش ماهیتی کاملاً مهندسی دارد و نیازمند ترکیبی از مهارت‌های زیرساخت، DevOps، اتوماسیون، بهره‌برداری از سرویس‌ها و توسعه نرم‌افزار است.

در این نقش، شما مسئول طراحی، استقرار، نگهداری و بهبود سرویس‌ها و پلتفرم‌هایی خواهید بود که برای پایش، تحلیل، مشاهده‌پذیری و پایداری محیط Production استفاده می‌شوند. این موقعیت برای فردی مناسب است که علاوه بر تسلط بر سرویس‌ها و ابزارهای متن‌باز رایج، توانایی توسعه ابزارها و اتوماسیون‌های موردنیاز را نیز داشته باشد و بتواند از زاویه Reliability و Platform Ownership به مسائل نگاه کند.

 مسئولیت‌ها:

  • طراحی، راه‌اندازی، نگهداری و بهبود پلتفرم‌های Observability و سرویس‌های زیرساختی مرتبط در محیط Production
  • مالکیت فنی و عملیاتی پلتفرم‌های Tracing ،Logging ،Monitoring و Alerting با هدف حفظ پایداری، دسترس‌پذیری، مقیاس‌پذیری و کارایی آن‌ها
  • پیاده‌سازی و نگهداری مؤلفه‌های پلتفرمی مبتنی بر ابزارها و سرویس‌های متن‌باز برای متریک، لاگ، تریس، دشبورد و هشدار
  • توسعه و بهبود استراتژی‌های مانیتورینگ، پوشش Observability و میزان دیدپذیری سرویس‌ها، سیستم‌ها، زیرساخت و اپلیکیشن‌ها
  • شناسایی Blind Spotها و نقاط کور در مانیتورینگ و Observability و ارائه راهکار برای بهبود تشخیص، تحلیل و پاسخ‌گویی عملیاتی
  • استقرار، پیکربندی، نگهداری و عیب‌یابی سرویس‌ها و مؤلفه‌های پلتفرمی مبتنی بر Kubernetes
  • مدیریت و بهبود سلامت، عملکرد و چرخه عمر سرویس‌هایی مانند Prometheus ،Grafana ،ELK، اجزای Alerting ،Exporterها، Collectorها و ابزارهای مشابه
  • اتوماسیون فرآیندهای عملیاتی، Provisioning سرویس‌ها، مدیریت پیکربندی، استقرار و نگهداری با استفاده از رویکردهای DevOps و Infrastructure as Code
  • توسعه ابزارهای داخلی، اسکریپت‌ها، Integrationها یا مؤلفه‌های نرم‌افزاری موردنیاز برای Observability ،Automation و عملیات پلتفرم
  • همکاری نزدیک با تیم‌های SRE، زیرساخت، DevOps و توسعه برای یکپارچه‌سازی قابلیت‌های Monitoring و Reliability در سرویس‌ها و سامانه‌ها
  • مشارکت در تحلیل رخدادها، عیب‌یابی، ظرفیت‌سنجی، بهبود تاب‌آوری و بررسی ریشه‌ای مشکلات در سطح پلتفرم
  • تهیه و نگهداری مستندات فنی، رویه‌های عملیاتی، تصمیمات معماری و ران‌بوک‌های مرتبط با پلتفرم
  • ارزیابی مستمر پایداری، کارایی، مقیاس‌پذیری و نگهداشت‌پذیری پلتفرم و پیشبرد بهبودهای لازم
شرایط احراز:

  • حداقل سه سال سابقه کار در حوزه Platform Engineering ،DevOps ،SRE ،Infrastructure Engineering یا نقش‌های فنی مشابه
  • تجربه عملی و قوی در مدیریت، بهره‌برداری و عیب‌یابی سیستم‌های Linux
  • تجربه جدی در Kubernetes همراه با Workloadهای کانتینری و بهره‌برداری از سرویس‌های Production بر بستر Kubernetes
  • تجربه کار عملی با پلتفرم‌ها و ابزارهای Observability مانند Prometheus ،Grafana ،ELK Stack ،OpenSearch ،Loki ،Tempo ،Jaeger ،Zabbix یا ابزارهای مشابه
  • درک عمیق از مفاهیم Monitoring ،Logging ،Tracing، جمع‌آوری متریک، طراحی Alert و معماری Observability
  • تجربه طراحی و پیاده‌سازی پوشش مانیتورینگ برای اپلیکیشن‌ها، سیستم‌ها، زیرساخت و سرویس‌های توزیع‌شده
  • تجربه کار با CI/CD، اتوماسیون و ابزارهای Infrastructure as Code یا Configuration Management مانند Ansible ،Terraform ،Helm یا GitLab CI
  • مهارت خوب در اسکریپت‌نویسی یا برنامه‌نویسی با حداقل یکی از زبان‌های Python ،Go ،Bash یا زبان‌های مشابه برای Automation و Tooling
  • درک مناسب از مفاهیم شبکه، Service Discovery ،DNS ،TLS ،Reverse Proxy ،Load Balancing و وابستگی‌های رایج زیرساختی
  • توانایی عیب‌یابی سرویس‌های Production و تحلیل مشکلات پیچیده در لایه‌های مختلف استک
  • آشنایی با سرویس‌های متن‌باز رایج در زیرساخت و پلتفرم‌های مدرن
  • توانایی کار مستقل، پذیرش Ownership روی سرویس‌های پلتفرمی و پیشبرد بهبودهای فنی به‌صورت End-to-End
  • ذهنیت مهندسی مبتنی بر Reliability، دقت بالا و توانمندی قوی در حل مسئله
  • مهارت ارتباطی و همکاری مناسب برای کار مؤثر با تیم‌های فنی و عملیاتی
 شرایط ترجیحی:

  • تجربه طراحی یا بهره‌برداری از پلتفرم‌های Observability در محیط‌های Large-Scale یا High-Availability
  • تجربه همکاری با تیم‌های توسعه برای Instrumentation ،Metrics ،Logging ،Tracing و پیاده‌سازی Best Practiceهای Alerting
  • آشنایی با نیازمندی‌های مانیتورینگ در محیط‌های مبتنی بر Windows و اکوسیستم‌های Production با اپلیکیشن‌های NET.
  • تجربه کار در محیط‌های On-Premises یا محیط‌های عملیاتی ترکیبی
  • آشنایی با مفاهیمی مانند SLI ،SLO، بهبود کیفیت هشدارها و Operational Readiness
  • تجربه توسعه Internal Platform Service ،Exporter ،Operator یا Integration برای سناریوهای Observability
  • آشنایی عملیاتی با Message Brokerها، پایگاه‌های داده، Caching Systemها، Reverse Proxyها و سایر سرویس‌های زیرساختی
  • علاقه‌مندی به توسعه بلوغ پلتفرم، تعمیق اتوماسیون، توانمندسازی تیم‌های توسعه و بهبود Reliability Engineering
 شرایط کاری:

  • همکاری به صورت تمام وقت است.
  • کار به صورت هیبرید می باشد.



مهارت‌های مورد نیاز

  • SRE
  • Linux
  • kubernetes
  • DevOps

حداقل سابقه کار

  • سه تا شش سال

جنسیت

  • مرد

وضعیت نظام وظیفه

  • معافیت دائم پایان خدمت

نوع همکاری:

تمام وقت

دسته‌بندی شغلی:

IT / DevOps / Server

تاریخ انتشار آگهی:

۱۴۰۵/۰۳/۰۴
ارسال رزومه