سلام
این پروژه برای استفاده در تماسهای تلفنی و دستیار هوش مصنوعی صوتی است، بنابراین بلادرنگ بودن (Real-Time Streaming) و کیفیت لحن طبیعی برای ما بسیار حیاتی است.
الزامات حیاتی
🎯 Streaming واقعی: خروجی باید chunk به chunk تولید و ارسال شود (نه تبدیل یکجای کل متن).
⚡ Latency پایین: شروع پخش صدا حداکثر 500ms بعد از دریافت متن.
🎤 کیفیت صدا: صدای روان، طبیعی، بدون رباتیک بودن.
🎶 لحن انسانی: شروع و پایان طبیعی جمله، رعایت مکثها و تأکیدها، یکنواخت نبودن لحن.
جزئیات فنی مورد انتظار
زبان: فارسی (حداقل یک صدای زن و یک صدای مرد)
API: REST و WebSocket
قابلیت کنترل سرعت، pitch و voice_id
استقرار: Docker یا Kubernetes (روی GPU RTX 3090)
هندل کردن کاراتر های ورودی و بدون مشکل خواندن اعداد
پایداری
موارد ترجیحی
پشتیبانی از چند صدا یا چند لحن (رسمی، دوستانه و …)
امکان استفاده از تگهای شبیه SSML برای کنترل مکث و تأکید
مقیاسپذیری برای تماسهای همزمان
این آگهی از وبسایت پونیشا پیدا شده، با زدن دکمهی تماس با کارفرما، به وبسایت پونیشا برین و از اونجا برای این شغل اقدام کنین.
هشدار
توجه داشته باشید که دریافت هزینه از کارجو برای استخدام با هر عنوانی غیرقانونی است. در صورت مواجهه با موارد مشکوک، با کلیک بر روی «گزارش مشکل آگهی» به ما در پیگیری تخلفات کمک کنید.