نشان کن
کد آگهی: KP4008744111

استخراج اطلاعات از فایل اکسل و پی دی اف با کمک ماشین لرنینگ

در تهران
در وبسایت کارلنسر  (5 روز پیش)
دورکاری
اطلاعات شغل:
امکان دورکاری و کار در منزل: دارد
نوع همکاری:  پروژه‌ای
مهارت‌های مورد نیاز:
برنامه نویسی
ماشین لرنینگ
machine learning
پایتون
python
کد نویسی
بازه حقوق:  از 25,000,000 تا 50,000,000 تومان
نحوه پرداخت:  پروژه‌ای
متن کامل آگهی:
بیانیه‌ی شرح کار (Statement of Work - SOW) عنوان پروژه: سامانه یادگیری ماشین برای استخراج ساخت‌یافته از CTAs و BidGridها دامنه‌ی کار طراحی و پیاده‌سازی یک پایپ‌لاین یادگیری ماشین کامل که فایل‌های "توافق‌نامه‌های کارآزمایی بالینی (Clinical Trial Agreements - CTAs)" و "BidGridها" را با فرمت‌های .xlsx و .csv (و در آینده با پشتیبانی از .pdf) پردازش کند. این پایپ‌لاین داده‌های ساخت‌یافته شامل فراداده‌های سند، اقدامات (procedures)، موارد غیر‌اقدامی (non-procedures)، سربارها (overheads)، هزینه‌های سایت و سایر مؤلفه‌های مالی را استخراج کرده و در قالب استاندارد JSON خروجی دهد. ویژگی‌های مورد نیاز سیستم: • پشتیبانی از انواع مختلف مدل‌ها (قوانین NLP با پایتون، مدل‌های LLM نظیر GPT-4 و vLLMهایی مانند Qwen2-VL-7B-Instruct) • امکان مقایسه‌ی خروجی مدل‌های مختلف با استفاده از سیستم امتیازدهی کیفیت (در بازه 0 تا 100) • ادغام یک API سبک برای نگاشت اصطلاحات پزشکی (اقدامی و غیر‌اقدامی) به نام‌ها و شناسه‌های CUI در پایگاه UMLS • ذخیره تمام اصطلاحات هزینه‌ای استخراج‌شده در یک وکتور استور همراه با رابط جستجو برای بازگرداندن 5 مورد مشابه برتر • ذخیره‌سازی نام‌ها و مقادیر هزینه‌های استخراج‌شده در جداول از پیش تعریف‌شده در PostgreSQL از طریق SQL توجه: دیاگرام جریان کار ارائه شده است. تمام مؤلفه‌هایی که با فونت ضخیم و در کادرهای آبی نمایش داده شده‌اند، تحویلی‌های الزامی هستند، با امکان اعمال تغییرات جزئی در صورت توافق طرفین. ________________________________________ مشخصات فنی • زبان برنامه‌نویسی: Python • پلتفرم‌های یادگیری ماشین: AWS Bedrock، AWS SageMaker (استفاده از Google Colab برای نمونه‌سازی مجاز است) • استقرار: به‌صورت کامل در قالب کانتینر Docker شامل اسکریپت‌های راه‌اندازی، مستندات و تست‌های آزمایشی • نکات معماری (بر اساس دیاگرام): o طبقه‌بندی پیچیدگی سند (ComplexityClassifier) o موتورهای استخراج ماژولار (NLP، LLM، vLLM) o نرمال‌سازی خروجی JSON o ماژول مقایسه و امتیازدهی خروجی‌ها o ماژول API برای UMLS o وکتور استور با API بازیابی o نویسنده SQL برای اتصال به PostgreSQL ________________________________________ داده‌ها • مجموعه اولیه: 5 فایل Excel/CSV برای توسعه و ارزیابی مدل • مجموعه توسعه‌یافته: 5 فایل اضافی در فاز دوم برای بهبود و گسترش پایپ‌لاین ________________________________________ زمان‌بندی و تحویلی‌ها فاز اول: پیاده‌سازی اولیه جریان کار مدت زمان: هفته‌های 1 تا 2 تحویلی‌ها: • یک پایپ‌لاین کامل برای پردازش 5 فایل ارائه‌شده • ادغام سه نوع مدل (پایتون/NLP، GPT-4، Qwen2-VL-7B-Instruct) • خروجی JSON مطابق با شِما و دقت استخراج ترکیبی ≥95٪ • موتور امتیازدهی کیفیت خروجی‌ها (بازه 0 تا 100) • پیاده‌سازی نگاشت API به UMLS • وکتور استور با قابلیت پرس‌وجوی 5 مشابه برتر • منطق درج داده‌های هزینه در PostgreSQL (اختیاری) ________________________________________ فاز دوم: بهینه‌سازی و توسعه مدت زمان: هفته سوم تحویلی‌ها: • پردازش 5 فایل اضافی (مجموعاً 10 فایل) • بهینه‌سازی جریان کار (دقت، سرعت، عملکرد مدل) • (اختیاری) افزودن مدل‌های LLM/vLLM جدید ________________________________________ الزامات بسته‌بندی سیستم نهایی باید به‌صورت یک ایمیج Docker خودبسنده تحویل داده شود، شامل: • اسکریپت‌های تست خودکار • مستندات کامل راه‌اندازی و نحوه استفاده • نمونه‌هایی از ورودی/خروجی • فایل README شامل دستورالعمل‌های پیکربندی مدل و زیرساخت ________________________________________ معیارهای تکمیل • تمام خروجی‌ها مطابق شِما بوده و دقت هدف را محقق کنند • نگاشت‌های UMLS و جستجوی وکتوری به‌درستی کار کنند • خروجی‌های JSON امتیازدهی و ذخیره شوند • سیستم تمام تست‌های ارائه‌شده را با موفقیت پشت سر بگذارد

این آگهی از وبسایت کارلنسر پیدا شده، با زدن دکمه‌ی تماس با کارفرما، به وبسایت کارلنسر برین و از اون‌جا برای این شغل اقدام کنین.

هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک،‌ با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.
گزارش مشکل آگهی
تماس با کارفرما
این آگهی رو برای دیگران بفرست
نشان کن
گزارش مشکل آگهی
جمعه 3 خرداد 1404، ساعت 10:21