خانه هوش ایران | Iran Ai House

کامپیوتر، فناوری اطلاعات و اینترنت ۱۱ تا ۵۰ نفر Iranaihouse.ai

فرصت‌های شغلی ۱۲

استخدام کارشناس ارشد تحقیق و مهندسی داده (Data & Benchmark Engineer)

دسته‌بندی شغلی

وب،‌ برنامه‌نویسی و نرم‌افزار
موقعیت مکانی

تهران ، تهران
نوع همکاری

تمام وقت
حداقل سابقه کار

سه تا شش سال
حقوق

توافقی

شرح موقعیت شغلی

طراحی و پیاده‌سازی چرخه‌ی کامل داده برای آموزش یک Foundation Document Model end-to-end روی اسناد متنوع

ساخت مجموعه‌داده‌های ساخت‌یافته، متنوع و باکیفیت همراه با test set و بنچمارک‌های استاندارد برای ارزیابی مدل‌های end-to-end روی سناریوهای واقعی.

شرح وظایف

۱. شناسایی و جمع‌آوری داده

شناسایی، جمع‌آوری و سازماندهی انواع داده‌های سندمحور از منابع مختلف
مستندسازی دقیق منبع داده، شرایط ثبت (زاویه، نور، دستگاه)، و متادیتا برای استفاده در تحلیل و بنچمارک.

۲. طراحی ساختار دیتاست، دسته‌بندی و برچسب‌زنی

تعریف اسکیما و طبقه‌بندی داده‌ها بر اساس:
- نوع محیط (Classroom, Meeting Room, Conference Hall, etc.)
- نوع سطح نوشتار (Whiteboard, Glass Board, Flip Chart, Screen, Paper, …)
- نوع منبع (Camera, Scanner, Screen Capture)
- سطح پیچیدگی و میزان شلوغی صحنه (text density, clutter, occlusion).
طراحی استراتژی برچسب‌زنی برای مدل‌های end-to-end:
- برچسب‌های ساختاری: بلاک‌های متن، تیتر، جدول، شکل، ناحیه‌ی تخته، ناحیه‌ی اسلاید.
- برچسب‌های معنایی: نوع محتوا عنوان اسلاید، متن آموزشی، فرمول، نمودار، (bullet list).
- برچسب‌های چندلایه مشابه دیتاست‌هایی مثل HierText و سایر دیتاست‌های گوگل‌ریسرچ (برای الهام از ساختار، نه کپی).
- طراحی فرمت‌های annotation مناسب برای مدل‌های end-to-end به‌جای فقط bounding box ساده.
انتخاب، ارزیابی و مدیریت ابزارهای برچسب‌زنی:
- ابزارهای labeling مبتنی بر وب/دسکتاپ (Label Studio)، CVAT، ابزارهای داخلی و ….
طراحی guideline دقیق برای annotatorها:
- چگونه تخته، اسلاید، مانیتور، متن دست‌نویس، متن چاپی و عناصر حاشیه‌ای را برچسب بزنند.
- نحوه‌ی نشانه‌گذاری سناریوهای چندمنبعی (whiteboard + projector + display).

۳. طراحی بنچمارک و test set

طراحی test setهای تخصصی برای سنجش توان مدل
تعریف پروتکل بنچمارک:
- متریک‌ها برای ارزیابی (end-to-end) از تصویر تا خروجی ساختاریافته.
- تفکیک بنچمارک بر اساس domain (Classroom / Meeting / Mixed).
- طراحی split حرفه‌ای (train / val / test) با رعایت diversity و جلوگیری از (shortcut learning) مثلاً عدم وابستگی به ویژگی‌های سطحی مانند فقط رنگ پس‌زمینه یا نوع دستگاه.
- الهام و هم‌تراز کردن ساختار بنچمارک با دیتاست‌های معتبر متن-در-تصویر و اسناد (برای امکان مقایسه‌ی علمی در آینده).

۴. کنترل کیفیت، فیلترینگ و پردازش تصویر

طراحی و پیاده‌سازی pipeline پردازش تصویر برای:
- پاک‌سازی و استانداردسازی داده‌ها resize)، normalizing، (cropping هوشمند، حذف نویز شدید.
- اعمال فیلترینگ بر اساس معیارهای تصویر blur)، exposure، (compression artifacts
- پیاده‌سازی و تست انواع فیلترهای تصویری و تکنیک‌های کامپیوتری گرافیک برای بهبود کیفیت یا شبیه‌سازی شرایط واقعی noise) motion blur، (perspective distortion
استفاده از معیارهای کمی برای انتخاب داده‌های با ارزش:
- شناخت مفاهیمی مانند diversity، sample complexity، و اجتناب از bias.
طراحی استراتژی جلوگیری از shortcut learning
پیشنهاد و پیاده‌سازی روش‌های augmentation معنادار برای سناریوهای واقعی
- شبیه‌سازی reflection روی مانیتور، نور پروژکتور، سایه‌ی نفرات، لکه روی تخته، دست‌نویس نامنظم و …

۵. شناخت بنچمارک‌ها و مدل‌های end-to-end

آشنایی عمیق با بنچمارک‌ها و دیتاست‌های مرجع
دیتاست‌های چندسطحی و اسناد پیچیده.
شناخت معماری‌ها و رویکردهای end-to-end
مدل‌هایی که از «تصویر تا layout + متن + ساختار» را یکجا یاد می‌گیرند.
رابطه‌ی نوع annotation با نوع مدل (two-stage vs end-to-end).
کمک به طراحی بنچمارک داخلی برای سنجش Foundation Document Model در مقابل این استانداردها.

۶ . همکاری بین‌تیمی و مستندسازی

همکاری نزدیک با:
- تیم تحقیق (Model / Algorithm) برای هم‌راستا کردن نیازهای داده با طراحی معماری.
- تیم مهندسی (MLOps / Data Engineer) برای پیاده‌سازی پایپ‌لاین‌های مقیاس‌پذیر.
مستندسازی کامل:

- guideline برچسب‌زنی.

- طراحی بنچمارک، splitها و متریک‌ها.
- نسخه‌بندی دیتاست‌ها و تغییرات آن‌ها در طول زمان.
مهارت‌های فنی ضروری (Must-have)
تسلط خوب روی Python برای اسکریپت‌نویسی پردازش تصویر و مدیریت داده.
تسلط بر مباحث آمار و احتمالات، جبر خطی و هندسه ترسیمی
آشنایی عملی با پردازش تصویر:
- کار با کتابخانه‌هایی مانند OpenCV (یا مشابه)، مفاهیم فیلترهای مکانی/فرکانسی، آشنایی با blur، sharpening، thresholding، edge detection و …
درک مفاهیم پایه‌ای گرافیک کامپیوتری:

- transformهای هندسی (rotation, perspective, homography)

- مفاهیم display، projection، رزولوشن، aspect ratio.
- شناخت مفاهیم کلیدی در یادگیری عمیق برای مدل‌های end-to-end:
- اهمیت diversity در داده و نقش آن در generalization.
- آشنایی با augmentation و توانایی طراحی augmentation مسئله‌محور.
آشنایی با بنچمارک‌ها و دیتاست‌های مهم در حوزه:

- scene text / document understanding.

آشنایی کلی با ساختار دیتاست‌های بزرگ (مثلاً دیتاست‌هایی که برای متن در تصویر و اسناد استفاده می‌شوند) و شکل annotation آن‌ها.
تجربه‌ی عملی با ابزارهای برچسب‌زنی:
- کار با حداقل یک ابزار annotation حرفه‌ای (مثلاً CVAT، Label Studio یا ابزار مشابه).
- توانایی تعریف template و guideline برای annotatorها.
- توانایی طراحی و مدیریت test set:
- تعریف splitهای منطقی، سناریوهای edge-case، و طراحی بنچمارک برای end-to-end.
- مهارت‌های ترجیحی (Nice-to-have)
- آشنایی با معماری‌های OCR، scene text detection/recognition، و مدل‌های Document Foundation / VLM.
- تجربه‌ی کار با دیتاست‌های public در حوزه‌ی اسناد و متن در تصویر.
- آشنایی با مفاهیم research (پروتکل آزمایش، ablation study، تحلیل خطا).
- تجربه‌ی کار در تیم‌های تحقیقاتی یا محصول‌محور مرتبط با بینایی کامپیوتر یا NLP.
- مهارت‌های نرم (Soft Skills)
- دقت بالا در جزئیات و حساسیت نسبت به کیفیت annotation.
- توانایی فکر کردن سیستمی و طراحی فرایند
- مهارت مستندسازی روشن و منظم.

ثبت آگهی استخدام در جابینجا

معرفی شرکت

به خانه هـوش ایــران خوش اومدید!

مهارت‌های مورد نیاز

شناسایی Guideline
جنسیت

مهم نیست
وضعیت نظام وظیفه

مهم‌ نیست
حداقل مدرک تحصیلی

مهم نیست

مشاغل مشابه
اطلاع‌رسانی از طریق ایمیل

توسعه‌دهنده وردپرس (۴۶ روز پیش)
- زوم بازار | Zoom Bazar
- تهران، تهران
- قرارداد تمام‌وقت (برای مشاهده حقوق وارد شوید)
Data Engineer (۱ روز پیش)
- ازکی وام | Azki Vam
- تهران، تهران
- قرارداد تمام‌وقت (برای مشاهده حقوق وارد شوید)
Data Engineer (۸ روز پیش)
- کیلو | Kilo
- تهران، تهران
- قرارداد تمام‌وقت (برای مشاهده حقوق وارد شوید)
Data Engineer (۱۷ روز پیش)
- گراف | Graph
- تهران، تهران
- قرارداد تمام‌وقت (برای مشاهده حقوق وارد شوید)
Senior Data Engineer (امروز)
- تلوبیون | Telewebion
- تهران، تهران
- قرارداد تمام‌وقت (برای مشاهده حقوق وارد شوید)
Data Engineer (دورکاری) (۲۹ روز پیش)
- ایدورامدیا | Edoramedia
- تهران، تهران
- قرارداد دورکاری (برای مشاهده حقوق وارد شوید)