| |مهارتهای مرتبط با مدلهای زبانی بزرگ و مدلهای چندوجهی (LLMs + Vision)
کار با مدلهای چندوجهی: CLIP، BLIP، Florence، LLaVA
استفاده از LLMها برای پردازش تصویر: تولید توضیح تصویر، پرسشوپاسخ تصویری، استخراج اطلاعات از تصویر
طراحی Pipelineهای Vision + Language: ترکیب مدلهای بینایی با LLMها برای تحلیل اسناد، OCR هوشمند، سیستمهای جستجوی تصویری
کار با APIهای مدلهای بزرگ: OpenAI Vision، Gemini Vision، Azure Vision Services
آشنایی با مدلهای Diffusion: Stable Diffusion، ControlNet، Image-to-Image
مهارتهای اصلی پردازش تصویر و بینایی ماشین
پردازش تصویر کلاسیک: فیلترها، تبدیلها، استخراج ویژگیها (SIFT, SURF, ORB)، مورفولوژی، هیستوگرامها
بینایی ماشین مبتنی بر یادگیری عمیق: شبکههای CNN، معماریهای ResNet, EfficientNet, MobileNet
تشخیص و طبقهبندی اشیا: YOLO، Faster R-CNN، RetinaNet
بخشبندی تصاویر: U-Net، DeepLab، Mask R-CNN
ردیابی اشیا: SORT، DeepSORT، ByteTrack
پردازش ویدئو: استخراج فریم، Optical Flow، مدلهای سهبعدی (I3D, SlowFast)
مهارتهای برنامهنویسی و ابزار:
تسلط به Python برای توسعه مدلها
کتابخانههای یادگیری عمیق: PyTorch، TensorFlow، Keras
MLOps و استقرار مدل: Docker، FastAPI، ONNX، TensorRT
پردازش دادههای تصویری در مقیاس بزرگ: DALI، WebDataset، Ray
کار با GPU: CUDA، cuDNN