طراحی و پیادهسازی چرخهی کامل داده برای آموزش یک Foundation Document Model end-to-end روی اسناد متنوع
ساخت مجموعهدادههای ساختیافته، متنوع و باکیفیت همراه با test set و بنچمارکهای استاندارد برای ارزیابی مدلهای end-to-end روی سناریوهای واقعی.
شرح وظایف
1. شناسایی و جمعآوری داده
- شناسایی، جمعآوری و سازماندهی انواع دادههای سندمحور از منابع مختلف
- مستندسازی دقیق منبع داده، شرایط ثبت (زاویه، نور، دستگاه)، و متادیتا برای استفاده در تحلیل و بنچمارک.
2. طراحی ساختار دیتاست، دستهبندی و برچسبزنی
- تعریف اسکیما و طبقهبندی دادهها بر اساس:
- نوع محیط (Classroom, Meeting Room, Conference Hall, etc.)
- نوع سطح نوشتار (Whiteboard, Glass Board, Flip Chart, Screen, Paper, …)
- نوع منبع (Camera, Scanner, Screen Capture)
- سطح پیچیدگی و میزان شلوغی صحنه (text density, clutter, occlusion).
- طراحی استراتژی برچسبزنی برای مدلهای end-to-end:
- برچسبهای ساختاری: بلاکهای متن، تیتر، جدول، شکل، ناحیهی تخته، ناحیهی اسلاید.
- برچسبهای معنایی: نوع محتوا عنوان اسلاید، متن آموزشی، فرمول، نمودار، (bullet list).
- برچسبهای چندلایه مشابه دیتاستهایی مثل HierText و سایر دیتاستهای گوگلریسرچ (برای الهام از ساختار، نه کپی).
- طراحی فرمتهای annotation مناسب برای مدلهای end-to-end بهجای فقط bounding box ساده.
- انتخاب، ارزیابی و مدیریت ابزارهای برچسبزنی:
- ابزارهای labeling مبتنی بر وب/دسکتاپ (Label Studio)، CVAT، ابزارهای داخلی و ….
- طراحی guideline دقیق برای annotatorها:
- چگونه تخته، اسلاید، مانیتور، متن دستنویس، متن چاپی و عناصر حاشیهای را برچسب بزنند.
- نحوهی نشانهگذاری سناریوهای چندمنبعی (whiteboard + projector + display).
3. طراحی بنچمارک و test set
- طراحی test setهای تخصصی برای سنجش توان مدل
- تعریف پروتکل بنچمارک:
- متریکها برای ارزیابی (end-to-end) از تصویر تا خروجی ساختاریافته.
- تفکیک بنچمارک بر اساس domain (Classroom / Meeting / Mixed).
- طراحی split حرفهای (train / val / test) با رعایت diversity و جلوگیری از (shortcut learning) مثلاً عدم وابستگی به ویژگیهای سطحی مانند فقط رنگ پسزمینه یا نوع دستگاه.
- الهام و همتراز کردن ساختار بنچمارک با دیتاستهای معتبر متن-در-تصویر و اسناد (برای امکان مقایسهی علمی در آینده).
4. کنترل کیفیت، فیلترینگ و پردازش تصویر
- طراحی و پیادهسازی pipeline پردازش تصویر برای:
- پاکسازی و استانداردسازی دادهها resize)، normalizing، (cropping هوشمند، حذف نویز شدید.
- اعمال فیلترینگ بر اساس معیارهای تصویر blur)، exposure، (compression artifacts
- پیادهسازی و تست انواع فیلترهای تصویری و تکنیکهای کامپیوتری گرافیک برای بهبود کیفیت یا شبیهسازی شرایط واقعی noise) motion blur، (perspective distortion
- استفاده از معیارهای کمی برای انتخاب دادههای با ارزش:
- شناخت مفاهیمی مانند diversity، sample complexity، و اجتناب از bias.
- طراحی استراتژی جلوگیری از shortcut learning
- پیشنهاد و پیادهسازی روشهای augmentation معنادار برای سناریوهای واقعی
- شبیهسازی reflection روی مانیتور، نور پروژکتور، سایهی نفرات، لکه روی تخته، دستنویس نامنظم و …
5. شناخت بنچمارکها و مدلهای end-to-end
- آشنایی عمیق با بنچمارکها و دیتاستهای مرجع
- دیتاستهای چندسطحی و اسناد پیچیده.
- شناخت معماریها و رویکردهای end-to-end
- مدلهایی که از «تصویر تا layout + متن + ساختار» را یکجا یاد میگیرند.
- رابطهی نوع annotation با نوع مدل (two-stage vs end-to-end).
- کمک به طراحی بنچمارک داخلی برای سنجش Foundation Document Model در مقابل این استانداردها.
6 . همکاری بینتیمی و مستندسازی
- همکاری نزدیک با:
- تیم تحقیق (Model / Algorithm) برای همراستا کردن نیازهای داده با طراحی معماری.
- تیم مهندسی (MLOps / Data Engineer) برای پیادهسازی پایپلاینهای مقیاسپذیر.
- مستندسازی کامل:
- طراحی بنچمارک، splitها و متریکها.
- نسخهبندی دیتاستها و تغییرات آنها در طول زمان.
- مهارتهای فنی ضروری (Must-have)
- تسلط خوب روی Python برای اسکریپتنویسی پردازش تصویر و مدیریت داده.
- تسلط بر مباحث آمار و احتمالات، جبر خطی و هندسه ترسیمی
- آشنایی عملی با پردازش تصویر:
- کار با کتابخانههایی مانند OpenCV (یا مشابه)، مفاهیم فیلترهای مکانی/فرکانسی، آشنایی با blur، sharpening، thresholding، edge detection و …
- درک مفاهیم پایهای گرافیک کامپیوتری:
- transformهای هندسی (rotation, perspective, homography)
- مفاهیم display، projection، رزولوشن، aspect ratio.
- شناخت مفاهیم کلیدی در یادگیری عمیق برای مدلهای end-to-end:
- اهمیت diversity در داده و نقش آن در generalization.
- آشنایی با augmentation و توانایی طراحی augmentation مسئلهمحور.
- آشنایی با بنچمارکها و دیتاستهای مهم در حوزه:
- scene text / document understanding.
- آشنایی کلی با ساختار دیتاستهای بزرگ (مثلاً دیتاستهایی که برای متن در تصویر و اسناد استفاده میشوند) و شکل annotation آنها.
- تجربهی عملی با ابزارهای برچسبزنی:
- کار با حداقل یک ابزار annotation حرفهای (مثلاً CVAT، Label Studio یا ابزار مشابه).
- توانایی تعریف template و guideline برای annotatorها.
- توانایی طراحی و مدیریت test set:
- تعریف splitهای منطقی، سناریوهای edge-case، و طراحی بنچمارک برای end-to-end.
- مهارتهای ترجیحی (Nice-to-have)
- آشنایی با معماریهای OCR، scene text detection/recognition، و مدلهای Document Foundation / VLM.
- تجربهی کار با دیتاستهای public در حوزهی اسناد و متن در تصویر.
- آشنایی با مفاهیم research (پروتکل آزمایش، ablation study، تحلیل خطا).
- تجربهی کار در تیمهای تحقیقاتی یا محصولمحور مرتبط با بینایی کامپیوتر یا NLP.
- مهارتهای نرم (Soft Skills)
- دقت بالا در جزئیات و حساسیت نسبت به کیفیت annotation.
- توانایی فکر کردن سیستمی و طراحی فرایند
- مهارت مستندسازی روشن و منظم.