استخراج اطلاعات از فایل اکسل و پی دی اف با کمک ماشین لرنینگ
در تهران
در وبسایت کارلنسر(5 روز پیش)
دورکاری
اطلاعات شغل:
امکان دورکاری و کار در منزل: دارد
نوع همکاری: پروژهای
مهارتهای مورد نیاز:
برنامه نویسی
ماشین لرنینگ
machine learning
پایتون
python
کد نویسی
بازه حقوق:از 25,000,000 تا 50,000,000 تومان
نحوه پرداخت:پروژهای
متن کامل آگهی:
بیانیهی شرح کار (Statement of Work - SOW)
عنوان پروژه:
سامانه یادگیری ماشین برای استخراج ساختیافته از CTAs و BidGridها
دامنهی کار
طراحی و پیادهسازی یک پایپلاین یادگیری ماشین کامل که فایلهای "توافقنامههای کارآزمایی بالینی (Clinical Trial Agreements - CTAs)" و "BidGridها" را با فرمتهای .xlsx و .csv (و در آینده با پشتیبانی از .pdf) پردازش کند. این پایپلاین دادههای ساختیافته شامل فرادادههای سند، اقدامات (procedures)، موارد غیراقدامی (non-procedures)، سربارها (overheads)، هزینههای سایت و سایر مؤلفههای مالی را استخراج کرده و در قالب استاندارد JSON خروجی دهد.
ویژگیهای مورد نیاز سیستم:
• پشتیبانی از انواع مختلف مدلها (قوانین NLP با پایتون، مدلهای LLM نظیر GPT-4 و vLLMهایی مانند Qwen2-VL-7B-Instruct)
• امکان مقایسهی خروجی مدلهای مختلف با استفاده از سیستم امتیازدهی کیفیت (در بازه 0 تا 100)
• ادغام یک API سبک برای نگاشت اصطلاحات پزشکی (اقدامی و غیراقدامی) به نامها و شناسههای CUI در پایگاه UMLS
• ذخیره تمام اصطلاحات هزینهای استخراجشده در یک وکتور استور همراه با رابط جستجو برای بازگرداندن 5 مورد مشابه برتر
• ذخیرهسازی نامها و مقادیر هزینههای استخراجشده در جداول از پیش تعریفشده در PostgreSQL از طریق SQL
توجه: دیاگرام جریان کار ارائه شده است. تمام مؤلفههایی که با فونت ضخیم و در کادرهای آبی نمایش داده شدهاند، تحویلیهای الزامی هستند، با امکان اعمال تغییرات جزئی در صورت توافق طرفین.
________________________________________
مشخصات فنی
• زبان برنامهنویسی: Python
• پلتفرمهای یادگیری ماشین: AWS Bedrock، AWS SageMaker (استفاده از Google Colab برای نمونهسازی مجاز است)
• استقرار: بهصورت کامل در قالب کانتینر Docker شامل اسکریپتهای راهاندازی، مستندات و تستهای آزمایشی
• نکات معماری (بر اساس دیاگرام):
o طبقهبندی پیچیدگی سند (ComplexityClassifier)
o موتورهای استخراج ماژولار (NLP، LLM، vLLM)
o نرمالسازی خروجی JSON
o ماژول مقایسه و امتیازدهی خروجیها
o ماژول API برای UMLS
o وکتور استور با API بازیابی
o نویسنده SQL برای اتصال به PostgreSQL
________________________________________
دادهها
• مجموعه اولیه: 5 فایل Excel/CSV برای توسعه و ارزیابی مدل
• مجموعه توسعهیافته: 5 فایل اضافی در فاز دوم برای بهبود و گسترش پایپلاین
________________________________________
زمانبندی و تحویلیها
فاز اول: پیادهسازی اولیه جریان کار
مدت زمان: هفتههای 1 تا 2
تحویلیها:
• یک پایپلاین کامل برای پردازش 5 فایل ارائهشده
• ادغام سه نوع مدل (پایتون/NLP، GPT-4، Qwen2-VL-7B-Instruct)
• خروجی JSON مطابق با شِما و دقت استخراج ترکیبی ≥95٪
• موتور امتیازدهی کیفیت خروجیها (بازه 0 تا 100)
• پیادهسازی نگاشت API به UMLS
• وکتور استور با قابلیت پرسوجوی 5 مشابه برتر
• منطق درج دادههای هزینه در PostgreSQL (اختیاری)
________________________________________
فاز دوم: بهینهسازی و توسعه
مدت زمان: هفته سوم
تحویلیها:
• پردازش 5 فایل اضافی (مجموعاً 10 فایل)
• بهینهسازی جریان کار (دقت، سرعت، عملکرد مدل)
• (اختیاری) افزودن مدلهای LLM/vLLM جدید
________________________________________
الزامات بستهبندی
سیستم نهایی باید بهصورت یک ایمیج Docker خودبسنده تحویل داده شود، شامل:
• اسکریپتهای تست خودکار
• مستندات کامل راهاندازی و نحوه استفاده
• نمونههایی از ورودی/خروجی
• فایل README شامل دستورالعملهای پیکربندی مدل و زیرساخت
________________________________________
معیارهای تکمیل
• تمام خروجیها مطابق شِما بوده و دقت هدف را محقق کنند
• نگاشتهای UMLS و جستجوی وکتوری بهدرستی کار کنند
• خروجیهای JSON امتیازدهی و ذخیره شوند
• سیستم تمام تستهای ارائهشده را با موفقیت پشت سر بگذارد
این آگهی از وبسایت کارلنسر پیدا شده، با زدن دکمهی تماس با کارفرما، به وبسایت کارلنسر برین و از اونجا برای این شغل اقدام کنین.
هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک، با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.