ما به دنبال یک مهندس هوش مصنوعی توانمند در حوزه گفتار هستیم تا به تیم تحقیق و توسعه ما بپیوندد. شما در این نقش بر روی مدلهای تبدیل متن به گفتار (TTS)، تشخیص احساسات صوتی (SER) و یکپارچهسازی مدلهای صوتی در چارچوبهای یادگیری عمیق و مدلهای زبان بزرگ چندوجهی (Multimodal LLMs) کار خواهید کرد. توانایی درک عمیق از دادههای صوتی، طراحی مدلهای پیشرفته و تسلط بر ابزارهای مدرن یادگیری ماشین، از ویژگیهای کلیدی این نقش است.
الزامات تخصصی:
مزیتهای ترجیحی:
We are looking for an expert artificial engineer in the field of speech AI to join our research and development team. This role will work on text -to -text -to -speech (TTS) models, audio emotion detection (SER) and integration of audio models in deep learning frameworks and MultiModal LLMS. The ability to deeply understand the audio data, design advanced models, and master the modern machine learning tools are key features of this role.
Specialized requirements:
Full mastery of machine learning concepts and deep learning
Practical experience in developing TTS and SER models
Skill in work with audio data and speech signal processing
Mastered one of the learning frameworks like PyTorch or Tensorflow
Experience work with advanced voice frames and deep learning like:
ESPnet
SpeechBrain
NVIDIA NEMO
OpenVoice
A correct understanding of the architecture of speech -producing models and audio quality evaluation
Introduction to MultiModal LLMS Multi -Language Models
Preferred advantages:
Introduction to Transformer Architects and Diffusion-Based Models in Speech
Experience in using multicolored LLM models with audio input
Introduction to Deployment and Development Tools such as FastApi, Torchserve and Docker
Experience of Models Training on GPU and distributed computing servers
Introduction to A/B testing tools and model performance monitor
این آگهی از وبسایت ایران تلنت پیدا شده، با زدن دکمهی تماس با کارفرما، به وبسایت ایران تلنت برین و از اونجا برای این شغل اقدام کنین.