خانه هوش ایران | Iran Ai House

استخدام کارشناس ارشد تحقیق و مهندسی داده (Data & Benchmark Engineer)

  • دسته‌بندی شغلی

    وب،‌ برنامه‌نویسی و نرم‌افزار
  • موقعیت مکانی

    تهران ، تهران
  • نوع همکاری

    تمام وقت
  • حداقل سابقه کار

    سه تا شش سال
  • حقوق

    توافقی

شرح موقعیت شغلی



طراحی و پیاده‌سازی چرخه‌ی کامل داده برای آموزش یک Foundation Document Model end-to-end روی اسناد متنوع

 ساخت مجموعه‌داده‌های ساخت‌یافته، متنوع و باکیفیت همراه با test set و بنچمارک‌های استاندارد برای ارزیابی مدل‌های end-to-end روی سناریوهای واقعی.

شرح وظایف

۱. شناسایی و جمع‌آوری داده

  • شناسایی، جمع‌آوری و سازماندهی انواع داده‌های سندمحور از منابع مختلف
  •  مستندسازی دقیق منبع داده، شرایط ثبت (زاویه، نور، دستگاه)، و متادیتا برای استفاده در تحلیل و بنچمارک.
۲. طراحی ساختار دیتاست، دسته‌بندی و برچسب‌زنی

  • تعریف اسکیما و طبقه‌بندی داده‌ها بر اساس:
    • نوع محیط (Classroom, Meeting Room, Conference Hall, etc.)
    • نوع سطح نوشتار (Whiteboard, Glass Board, Flip Chart, Screen, Paper, …)
    • نوع منبع (Camera, Scanner, Screen Capture)
    • سطح پیچیدگی و میزان شلوغی صحنه (text density, clutter, occlusion).
  • طراحی استراتژی برچسب‌زنی برای مدل‌های end-to-end:
    • برچسب‌های ساختاری: بلاک‌های متن، تیتر، جدول، شکل، ناحیه‌ی تخته، ناحیه‌ی اسلاید.
    • برچسب‌های معنایی: نوع محتوا عنوان اسلاید، متن آموزشی، فرمول، نمودار، (bullet list).
    • برچسب‌های چندلایه مشابه دیتاست‌هایی مثل HierText و سایر دیتاست‌های گوگل‌ریسرچ (برای الهام از ساختار، نه کپی).
    • طراحی فرمت‌های annotation مناسب برای مدل‌های end-to-end به‌جای فقط bounding box ساده.
  • انتخاب، ارزیابی و مدیریت ابزارهای برچسب‌زنی:
    • ابزارهای labeling مبتنی بر وب/دسکتاپ (Label Studio)، CVAT، ابزارهای داخلی و ….
  • طراحی guideline دقیق برای annotatorها:
    • چگونه تخته، اسلاید، مانیتور، متن دست‌نویس، متن چاپی و عناصر حاشیه‌ای را برچسب بزنند.
    • نحوه‌ی نشانه‌گذاری سناریوهای چندمنبعی (whiteboard + projector + display).
۳. طراحی بنچمارک و test set

  • طراحی test setهای تخصصی برای سنجش توان مدل
  • تعریف پروتکل بنچمارک:
    • متریک‌ها برای ارزیابی (end-to-end) از تصویر تا خروجی ساختاریافته.
    • تفکیک بنچمارک بر اساس domain (Classroom / Meeting / Mixed).
    • طراحی split حرفه‌ای (train / val / test) با رعایت diversity و جلوگیری از (shortcut learning) مثلاً عدم وابستگی به ویژگی‌های سطحی مانند فقط رنگ پس‌زمینه یا نوع دستگاه.
    • الهام و هم‌تراز کردن ساختار بنچمارک با دیتاست‌های معتبر متن-در-تصویر و اسناد (برای امکان مقایسه‌ی علمی در آینده).
۴. کنترل کیفیت، فیلترینگ و پردازش تصویر

  • طراحی و پیاده‌سازی pipeline پردازش تصویر برای:
    • پاک‌سازی و استانداردسازی داده‌ها  resize)، normalizing، (cropping  هوشمند، حذف نویز شدید.
    • اعمال فیلترینگ بر اساس معیارهای تصویر blur)، exposure، (compression artifacts
    • پیاده‌سازی و تست انواع فیلترهای تصویری و تکنیک‌های کامپیوتری گرافیک برای بهبود کیفیت یا شبیه‌سازی شرایط واقعی  noise) motion blur، (perspective distortion
  • استفاده از معیارهای کمی برای انتخاب داده‌های با ارزش:
    • شناخت مفاهیمی مانند diversity، sample complexity، و اجتناب از bias.
  • طراحی استراتژی جلوگیری از shortcut learning
  • پیشنهاد و پیاده‌سازی روش‌های augmentation معنادار برای سناریوهای واقعی 
    • شبیه‌سازی reflection روی مانیتور، نور پروژکتور، سایه‌ی نفرات، لکه روی تخته، دست‌نویس نامنظم و …
۵. شناخت بنچمارک‌ها و مدل‌های end-to-end

  • آشنایی عمیق با بنچمارک‌ها و دیتاست‌های مرجع
  • دیتاست‌های چندسطحی و اسناد پیچیده.
  • شناخت معماری‌ها و رویکردهای end-to-end
  • مدل‌هایی که از «تصویر تا layout + متن + ساختار» را یکجا یاد می‌گیرند.
  • رابطه‌ی نوع annotation با نوع مدل (two-stage vs end-to-end).
  • کمک به طراحی بنچمارک داخلی برای سنجش Foundation Document Model در مقابل این استانداردها.
۶ . همکاری بین‌تیمی و مستندسازی

  • همکاری نزدیک با:
    • تیم تحقیق (Model / Algorithm) برای هم‌راستا کردن نیازهای داده با طراحی معماری.
    • تیم مهندسی (MLOps / Data Engineer) برای پیاده‌سازی پایپ‌لاین‌های مقیاس‌پذیر.
  • مستندسازی کامل:
    • guideline برچسب‌زنی.
    • طراحی بنچمارک، splitها و متریک‌ها.
    • نسخه‌بندی دیتاست‌ها و تغییرات آن‌ها در طول زمان.
  • مهارت‌های فنی ضروری (Must-have)
  • تسلط خوب روی Python برای اسکریپت‌نویسی پردازش تصویر و مدیریت داده.
  • تسلط بر مباحث آمار و احتمالات، جبر خطی و هندسه ترسیمی
  • آشنایی عملی با پردازش تصویر:
    • کار با کتابخانه‌هایی مانند OpenCV (یا مشابه)، مفاهیم فیلترهای مکانی/فرکانسی، آشنایی با blur، sharpening، thresholding، edge detection و …
  • درک مفاهیم پایه‌ای گرافیک کامپیوتری:
    • transformهای هندسی (rotation, perspective, homography)
    • مفاهیم display، projection، رزولوشن، aspect ratio.
    • شناخت مفاهیم کلیدی در یادگیری عمیق برای مدل‌های end-to-end:
    • اهمیت diversity در داده و نقش آن در generalization.
    • آشنایی با augmentation و توانایی طراحی augmentation مسئله‌محور.
  • آشنایی با بنچمارک‌ها و دیتاست‌های مهم در حوزه:
    • scene text / document understanding.
  • آشنایی کلی با ساختار دیتاست‌های بزرگ (مثلاً دیتاست‌هایی که برای متن در تصویر و اسناد استفاده می‌شوند) و شکل annotation آن‌ها.
  • تجربه‌ی عملی با ابزارهای برچسب‌زنی:
    • کار با حداقل یک ابزار annotation حرفه‌ای (مثلاً CVAT، Label Studio یا ابزار مشابه).
    • توانایی تعریف template و guideline برای annotatorها.
    • توانایی طراحی و مدیریت test set:
    • تعریف splitهای منطقی، سناریوهای edge-case، و طراحی بنچمارک برای end-to-end.
    • مهارت‌های ترجیحی (Nice-to-have)
    • آشنایی با معماری‌های OCR، scene text detection/recognition، و مدل‌های Document Foundation / VLM.
    • تجربه‌ی کار با دیتاست‌های public در حوزه‌ی اسناد و متن در تصویر.
    • آشنایی با مفاهیم research (پروتکل آزمایش، ablation study، تحلیل خطا).
    • تجربه‌ی کار در تیم‌های تحقیقاتی یا محصول‌محور مرتبط با بینایی کامپیوتر یا NLP.
    • مهارت‌های نرم (Soft Skills)
    • دقت بالا در جزئیات و حساسیت نسبت به کیفیت annotation.
    • توانایی فکر کردن سیستمی و طراحی فرایند
    • مهارت مستندسازی روشن و منظم.

معرفی شرکت

به خانه هـوش ایــران خوش اومدید!
  • مهارت‌های مورد نیاز

    شناسایی Guideline
  • جنسیت

    مهم نیست
  • وضعیت نظام وظیفه

    مهم‌ نیست
  • حداقل مدرک تحصیلی

    مهم نیست

مشاغل مشابه

چه موردی را می‌خواهید گزارش کنید؟

از اینجا شروع کنید

در شغل بهتری استخدام شوید! رایگان!

  • جستجو و ارسال رزومه به آگهی‌های استخدام بیش از ۱۰۰,۰۰۰ شرکت ایرانی
  • رزومه‌ساز رایگان
  • دریافت فرصت‌های شغلی جدید مرتبط از طریق ایمیل (Job Alert)
  • شناخت محیط کار و فرهنگ سازمانی شرکت‌های در حال استخدام
image/svg+xml