تبدیل هوشمند فایل های PDF به فرمت JSON با Google Cloud AI
در سراسر کشور
در وبسایت پونیشا(1 هفته پیش)
دورکاری
اطلاعات شغل:
امکان دورکاری و کار در منزل: دارد
نوع همکاری: پروژهای
مهارتهای مورد نیاز:
جاوا اسکریپت (JavaScript)
پایتون (Python)
هوش مصنوعی (AI)
رایانش ابری (Cloud Computing)
پردازش تصویر
متن کامل آگهی:
**عنوان پروژه:** تبدیل هوشمند فایلهای PDF به فرمت JSON با Google Cloud AI
**شرح پروژه:**
**1) خلاصه پروژه:**
هدف این پروژه، استخراج دقیق و ساختاریافته محتوای کامل کتابهای درسی فارسی از فایلهای PDF و تبدیل آنها به فرمت JSON است. محتوای کتابها شامل متون فارسی، تصاویر، جداول، فرمولهای ریاضی و علمی و بخشهای مختلفی نظیر کار در کلاس، فعالیت، تمرین و ... میباشد. انتظار میرود این فرآیند با دقت بالا و به صورت ساختاریافته برای هر کتاب، فصل به فصل انجام شود.
**2) فناوریهای مورد استفاده (الزامی):**
پروژه باید با استفاده از قویترین و جدیدترین مدلهای هوش مصنوعی گوگل انجام شود. رویکرد ترکیبی زیر الزامی است:
- **Google Document AI:** برای استخراج دقیق و ساختاریافته محتوا از اسناد. این سرویس به عنوان هسته اصلی پروژه، باید برای موارد زیر استفاده شود:
- **Document OCR Processor:** برای تشخیص متن و ساختار کلی (پاراگرافها، عنوانها، لیستها).
- **Table Parser Processor:** برای شناسایی و استخراج دقیق دادهها از جداول به صورت سطر و ستون.
- **مدل Gemini 2.5 Pro:** برای پردازش محتوای چندوجهی مانند تصاویر و فرمولها. از این مدل برای تبدیل فرمولهای ریاضی به فرمت LaTeX و تولید توضیحات (Caption) برای تصاویر استفاده خواهد شد. پالایش و ساختاردهی نهایی خروجی به فرمت JSON.
**3) خروجی مورد انتظار:**
- خروجی نهایی باید برای هر فصل از کتاب یک فایل JSON مجزا باشد که ساختاری جامع و یکپارچه داشته باشد.
- هر فایل JSON باید شامل محتوای صفحه به صفحه باشد که تمامی المانها (متن، جدول، تصویر، فرمول) در آن به صورت ساختاریافته و قابل استفاده قرار گرفته باشند.
- ساختار JSON باید به گونهای باشد که به سادگی قابل استفاده در برنامههای کاربردی باشد.
**4) الزامات و انتظارات:**
- **دقت بالا:** استخراج متن فارسی، جداول و فرمولها باید با بالاترین دقت ممکن انجام شود.
- **حفظ ساختار:** خروجی JSON باید ساختار اصلی کتاب (فصلها، صفحات، تیترها، پاراگرافها) را به درستی منعکس کند.
- **قابلیت مقیاسپذیری:** راهکار ارائه شده باید قابلیت پردازش تعداد زیادی فایل PDF را داشته باشد.
**5) تعداد فایل و صفحات:**
- 250 عنوان کتاب
- 34,000 صفحه
**دستهبندی پروژه:** توسعه نرمافزار و آیتی
از تمامی علاقمندان و متخصصین دعوت میشود تا با ما در ارتباط باشند و با ارائه تجربیات و نمونه کاریهای خود، علاقهمندی خود را در این پروژه اعلام کنند.
این آگهی از وبسایت پونیشا پیدا شده، با زدن دکمهی تماس با کارفرما، به وبسایت پونیشا برین و از اونجا برای این شغل اقدام کنین.
هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک، با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.