نشان کن
کد آگهی: KP4401664550

تبدیل هوشمند فایل های PDF به فرمت JSON با Google Cloud AI

در سراسر کشور
در وبسایت پونیشا  (1 هفته پیش)
دورکاری
اطلاعات شغل:
امکان دورکاری و کار در منزل: دارد
نوع همکاری:  پروژه‌ای
مهارت‌های مورد نیاز:
جاوا اسکریپت (JavaScript)
پایتون (Python)
هوش مصنوعی (AI)
رایانش ابری (Cloud Computing)
پردازش تصویر
متن کامل آگهی:
**عنوان پروژه:** تبدیل هوشمند فایل‌های PDF به فرمت JSON با Google Cloud AI **شرح پروژه:** **1) خلاصه پروژه:** هدف این پروژه، استخراج دقیق و ساختاریافته محتوای کامل کتاب‌های درسی فارسی از فایل‌های PDF و تبدیل آن‌ها به فرمت JSON است. محتوای کتاب‌ها شامل متون فارسی، تصاویر، جداول، فرمول‌های ریاضی و علمی و بخش‌های مختلفی نظیر کار در کلاس، فعالیت، تمرین و ... می‌باشد. انتظار می‌رود این فرآیند با دقت بالا و به صورت ساختاریافته برای هر کتاب، فصل به فصل انجام شود. **2) فناوری‌های مورد استفاده (الزامی):** پروژه باید با استفاده از قوی‌ترین و جدیدترین مدل‌های هوش مصنوعی گوگل انجام شود. رویکرد ترکیبی زیر الزامی است: - **Google Document AI:** برای استخراج دقیق و ساختاریافته محتوا از اسناد. این سرویس به عنوان هسته اصلی پروژه، باید برای موارد زیر استفاده شود: - **Document OCR Processor:** برای تشخیص متن و ساختار کلی (پاراگراف‌ها، عنوان‌ها، لیست‌ها). - **Table Parser Processor:** برای شناسایی و استخراج دقیق داده‌ها از جداول به صورت سطر و ستون. - **مدل Gemini 2.5 Pro:** برای پردازش محتوای چندوجهی مانند تصاویر و فرمول‌ها. از این مدل برای تبدیل فرمول‌های ریاضی به فرمت LaTeX و تولید توضیحات (Caption) برای تصاویر استفاده خواهد شد. پالایش و ساختاردهی نهایی خروجی به فرمت JSON. **3) خروجی مورد انتظار:** - خروجی نهایی باید برای هر فصل از کتاب یک فایل JSON مجزا باشد که ساختاری جامع و یکپارچه داشته باشد. - هر فایل JSON باید شامل محتوای صفحه به صفحه باشد که تمامی المان‌ها (متن، جدول، تصویر، فرمول) در آن به صورت ساختاریافته و قابل استفاده قرار گرفته باشند. - ساختار JSON باید به گونه‌ای باشد که به سادگی قابل استفاده در برنامه‌های کاربردی باشد. **4) الزامات و انتظارات:** - **دقت بالا:** استخراج متن فارسی، جداول و فرمول‌ها باید با بالاترین دقت ممکن انجام شود. - **حفظ ساختار:** خروجی JSON باید ساختار اصلی کتاب (فصل‌ها، صفحات، تیترها، پاراگراف‌ها) را به درستی منعکس کند. - **قابلیت مقیاس‌پذیری:** راهکار ارائه شده باید قابلیت پردازش تعداد زیادی فایل PDF را داشته باشد. **5) تعداد فایل و صفحات:** - 250 عنوان کتاب - 34,000 صفحه **دسته‌بندی پروژه:** توسعه نرم‌افزار و آی‌تی از تمامی علاقمندان و متخصصین دعوت می‌شود تا با ما در ارتباط باشند و با ارائه تجربیات و نمونه کاری‌های خود، علاقه‌مندی خود را در این پروژه اعلام کنند.

این آگهی از وبسایت پونیشا پیدا شده، با زدن دکمه‌ی تماس با کارفرما، به وبسایت پونیشا برین و از اون‌جا برای این شغل اقدام کنین.

هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک،‌ با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.
گزارش مشکل آگهی
تماس با کارفرما
این آگهی رو برای دیگران بفرست
نشان کن
گزارش مشکل آگهی
جستجوهای مرتبط
پنج‌شنبه 31 مرداد 1404، ساعت 23:02