استخدام Platform Engineer (آقا)
شرح موقعیت شغلی
ما در فناوران به دنبال یک Platform Engineer توانمند، مسئولیتپذیر و عملگرا هستیم تا مسئولیت راهاندازی، نگهداری، توسعه و بهبود پلتفرمها و سرویسهای مرتبط با Alerting ،Tracing ،Logging ،Monitoring و بهطور کلی Observability در محیط عملیاتی ما را بر عهده بگیرد. این نقش ماهیتی کاملاً مهندسی دارد و نیازمند ترکیبی از مهارتهای زیرساخت، DevOps، اتوماسیون، بهرهبرداری از سرویسها و توسعه نرمافزار است.
در این نقش، شما مسئول طراحی، استقرار، نگهداری و بهبود سرویسها و پلتفرمهایی خواهید بود که برای پایش، تحلیل، مشاهدهپذیری و پایداری محیط Production استفاده میشوند. این موقعیت برای فردی مناسب است که علاوه بر تسلط بر سرویسها و ابزارهای متنباز رایج، توانایی توسعه ابزارها و اتوماسیونهای موردنیاز را نیز داشته باشد و بتواند از زاویه Reliability و Platform Ownership به مسائل نگاه کند.
مسئولیتها:
- طراحی، راهاندازی، نگهداری و بهبود پلتفرمهای Observability و سرویسهای زیرساختی مرتبط در محیط Production
- مالکیت فنی و عملیاتی پلتفرمهای Tracing ،Logging ،Monitoring و Alerting با هدف حفظ پایداری، دسترسپذیری، مقیاسپذیری و کارایی آنها
- پیادهسازی و نگهداری مؤلفههای پلتفرمی مبتنی بر ابزارها و سرویسهای متنباز برای متریک، لاگ، تریس، دشبورد و هشدار
- توسعه و بهبود استراتژیهای مانیتورینگ، پوشش Observability و میزان دیدپذیری سرویسها، سیستمها، زیرساخت و اپلیکیشنها
- شناسایی Blind Spotها و نقاط کور در مانیتورینگ و Observability و ارائه راهکار برای بهبود تشخیص، تحلیل و پاسخگویی عملیاتی
- استقرار، پیکربندی، نگهداری و عیبیابی سرویسها و مؤلفههای پلتفرمی مبتنی بر Kubernetes
- مدیریت و بهبود سلامت، عملکرد و چرخه عمر سرویسهایی مانند Prometheus ،Grafana ،ELK، اجزای Alerting ،Exporterها، Collectorها و ابزارهای مشابه
- اتوماسیون فرآیندهای عملیاتی، Provisioning سرویسها، مدیریت پیکربندی، استقرار و نگهداری با استفاده از رویکردهای DevOps و Infrastructure as Code
- توسعه ابزارهای داخلی، اسکریپتها، Integrationها یا مؤلفههای نرمافزاری موردنیاز برای Observability ،Automation و عملیات پلتفرم
- همکاری نزدیک با تیمهای SRE، زیرساخت، DevOps و توسعه برای یکپارچهسازی قابلیتهای Monitoring و Reliability در سرویسها و سامانهها
- مشارکت در تحلیل رخدادها، عیبیابی، ظرفیتسنجی، بهبود تابآوری و بررسی ریشهای مشکلات در سطح پلتفرم
- تهیه و نگهداری مستندات فنی، رویههای عملیاتی، تصمیمات معماری و رانبوکهای مرتبط با پلتفرم
- ارزیابی مستمر پایداری، کارایی، مقیاسپذیری و نگهداشتپذیری پلتفرم و پیشبرد بهبودهای لازم
شرایط احراز:
- حداقل سه سال سابقه کار در حوزه Platform Engineering ،DevOps ،SRE ،Infrastructure Engineering یا نقشهای فنی مشابه
- تجربه عملی و قوی در مدیریت، بهرهبرداری و عیبیابی سیستمهای Linux
- تجربه جدی در Kubernetes همراه با Workloadهای کانتینری و بهرهبرداری از سرویسهای Production بر بستر Kubernetes
- تجربه کار عملی با پلتفرمها و ابزارهای Observability مانند Prometheus ،Grafana ،ELK Stack ،OpenSearch ،Loki ،Tempo ،Jaeger ،Zabbix یا ابزارهای مشابه
- درک عمیق از مفاهیم Monitoring ،Logging ،Tracing، جمعآوری متریک، طراحی Alert و معماری Observability
- تجربه طراحی و پیادهسازی پوشش مانیتورینگ برای اپلیکیشنها، سیستمها، زیرساخت و سرویسهای توزیعشده
- تجربه کار با CI/CD، اتوماسیون و ابزارهای Infrastructure as Code یا Configuration Management مانند Ansible ،Terraform ،Helm یا GitLab CI
- مهارت خوب در اسکریپتنویسی یا برنامهنویسی با حداقل یکی از زبانهای Python ،Go ،Bash یا زبانهای مشابه برای Automation و Tooling
- درک مناسب از مفاهیم شبکه، Service Discovery ،DNS ،TLS ،Reverse Proxy ،Load Balancing و وابستگیهای رایج زیرساختی
- توانایی عیبیابی سرویسهای Production و تحلیل مشکلات پیچیده در لایههای مختلف استک
- آشنایی با سرویسهای متنباز رایج در زیرساخت و پلتفرمهای مدرن
- توانایی کار مستقل، پذیرش Ownership روی سرویسهای پلتفرمی و پیشبرد بهبودهای فنی بهصورت End-to-End
- ذهنیت مهندسی مبتنی بر Reliability، دقت بالا و توانمندی قوی در حل مسئله
- مهارت ارتباطی و همکاری مناسب برای کار مؤثر با تیمهای فنی و عملیاتی
شرایط ترجیحی:
- تجربه طراحی یا بهرهبرداری از پلتفرمهای Observability در محیطهای Large-Scale یا High-Availability
- تجربه همکاری با تیمهای توسعه برای Instrumentation ،Metrics ،Logging ،Tracing و پیادهسازی Best Practiceهای Alerting
- آشنایی با نیازمندیهای مانیتورینگ در محیطهای مبتنی بر Windows و اکوسیستمهای Production با اپلیکیشنهای NET.
- تجربه کار در محیطهای On-Premises یا محیطهای عملیاتی ترکیبی
- آشنایی با مفاهیمی مانند SLI ،SLO، بهبود کیفیت هشدارها و Operational Readiness
- تجربه توسعه Internal Platform Service ،Exporter ،Operator یا Integration برای سناریوهای Observability
- آشنایی عملیاتی با Message Brokerها، پایگاههای داده، Caching Systemها، Reverse Proxyها و سایر سرویسهای زیرساختی
- علاقهمندی به توسعه بلوغ پلتفرم، تعمیق اتوماسیون، توانمندسازی تیمهای توسعه و بهبود Reliability Engineering
شرایط کاری:
- همکاری به صورت تمام وقت است.
- کار به صورت هیبرید می باشد.
مهارتهای مورد نیاز
- SRE
- Linux
- kubernetes
- DevOps
حداقل سابقه کار
- سه تا شش سال
جنسیت
- مرد
وضعیت نظام وظیفه
- معافیت دائم پایان خدمت