Google объявила о выпуске Gemini 3.5 Live Translate — аудиомодели, обеспечивающей перевод речи в режиме, близком к реальному времени, на более чем 70 языках. Модель автоматически определяет языки и генерирует переведённую речь, сохраняя интонацию, темп и тональность говорящего.
Gemini 3.5 Live Translate генерирует речь непрерывно, не дожидаясь окончания фразы собеседника, и отстаёт от говорящего лишь на несколько секунд на протяжении всего сеанса. Модель обрабатывает речь в потоковом режиме и работает с многоязычными входными данными без ручной настройки. Google отметила, что устойчивость модели к шумам позволяет ей функционировать в громких и непредсказуемых условиях.
Модель уже сегодня внедряется в продукты Google: публичная предварительная версия доступна разработчикам через Gemini Live API и Google AI Studio, частная предварительная версия для корпоративных клиентов запускается в Google Meet в этом месяце, а также модель доступна через Google Translate на Android и iOS. Разработчики платформ Agora, Fishjam, LiveKit, Pipecat и Vision Agents интегрируют технологию для создания приложений голосового перевода.
Компания Grab тестирует модель для обеспечения многоязычного общения между водителями и пассажирами при посадке. Пользователи сервиса совершают более 10 миллионов голосовых звонков в месяц через Grab. Филипп Кандаль, директор по продуктам Grab, отметил, что компания высоко оценила способность модели автоматически определять несколько языков и точно переводить речь с минимальной задержкой.
Google Meet будет использовать 3.5 Live Translate для перевода речи, предлагая поддержку более 70 языков по сравнению с прежним ограничением в пять языков и обеспечивая общение в рамках более 2 000 языковых комбинаций в рамках одной встречи. Всё аудио, генерируемое моделью, маркируется с помощью SynthID — незаметного водяного знака, встроенного в аудиовыход для противодействия распространению дезинформации.







