📌 شرح پروژه: توسعه سرویس تشخیص گفتار به متن (STT)
🎯 هدف پروژه
ما به دنبال توسعه یا پیادهسازی یک سرویس تشخیص گفتار به متن (STT) هستیم که بتواند صداهای ورودی (فارسی و در صورت امکان انگلیسی) را با دقت بالا و در زمان واقعی (real-time) به متن تبدیل کند.
این سرویس بهعنوان یک زیرسیستم برای دستیار هوش مصنوعی تلفنی و اپلیکیشنهای داخلی ما استفاده خواهد شد.
✅ نیازمندیها
1. امکانات کلیدی
Real-time STT (پردازش همزمان با ورودی صدا)
پشتیبانی از فرمت صوتی 8kHz و 16kHz (mono WAV/PCM) برای سناریوهای تلفنی و معمولی
خروجی به صورت متن لحظهای (streaming transcript) با قابلیت اصلاح و تکمیل جملات در انتها
دقت تشخیص بالا (حداقل 95٪ روی دادههای فارسی تلفنی)
قابلیت تشخیص شروع و پایان جملات (sentence segmentation)
پشتیبانی از API REST و WebSocket
2. کیفیت و خروجی
پشتیبانی از زبان فارسی (اولویت) و امکان افزودن زبانهای دیگر در آینده
زمان پاسخگویی (Latency) کمتر از 300 میلیثانیه در حالت آنلاین
⚠️ چالشهای پروژه
کیفیت پایین صدا در کانالهای تلفنی (8kHz، نویز بالا، اکو)
نیاز به مدیریت دیالکتها و لهجههای فارسی
بهینهسازی سرعت inference در شرایط real-time
یکدست نبودن لحن و مکثها در ورودی
احتمال نیاز به مدل سفارشی (Fine-tuning روی Common Voice Persian)
🔧 تکنولوژیهای پیشنهادی
مدلها: Whisper, NVIDIA NeMo FastConformer, DeepSpeech (متنباز)
در صورت نیاز منابع سخت افزاری در اختیارتان گذاشته میشود: GPU, Docker, Kubernetes
بهبود کیفیت صدا: DNS4, RNNoise یا مشابه برای حذف نویز
📊 معیارهای پذیرش
ارائه یک دموی عملی روی یک نمونه فایل صوتی و استریم زنده
رسیدن به حداقل 95٪ دقت روی دیتاست تست ما
مستندسازی کامل و قابل استفاده برای تیم داخلی
این آگهی از وبسایت پونیشا پیدا شده، با زدن دکمهی تماس با کارفرما، به وبسایت پونیشا برین و از اونجا برای این شغل اقدام کنین.
هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک، با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.