Настройки Перевода аудио: голос, модели и клонирование

Распознавание, модели перевода, озвучка, стили Qwen и оценка в токенах.

Автор Umakhan Magomedov

Последнее обновление 11 дней назад

Откройте лист настроек в Переводе аудио, чтобы управлять распознаванием речи, качеством перевода и озвучкой. В этой статье разобраны все опции и момент их применения.

Где найти настройки

  1. Откройте Перевод аудио на вкладке Инструменты.

  2. Нажмите значок Настройки в правом верхнем углу.

  3. Измените распознавание, перевод или озвучку. Оценка в токенах обновится сразу.

ℹ️ Изменения распознавания и модели перевода применяются при следующей загрузке файла, не к текущему результату. Настройки озвучки влияют на следующую генерацию аудио.


Распознавание (речь в текст)

Выберите движок транскрипции загруженного аудио. По умолчанию: ElevenLabs Scribe.

Провайдер

Стоимость

Примечания

ElevenLabs Scribe (по умолчанию)

0.0133 токена/сек

Рекомендуется. Быстро и точно для большинства записей.

OpenAI Transcribe

0.02 токена/сек

Модель gpt-4o-transcribe. Подходит для шумного аудио.

Whisper

0.01 токена/сек

Бюджетный вариант. На длинных файлах чуть медленнее.


Перевод

Выберите AI-модель для повторных переводов при смене языка или редактировании исходного текста.

⚠️ Автоматический пайплайн при первой загрузке всегда использует Gemini 3 на бэкенде, независимо от выбранной здесь модели. Настройки влияют только на повторные переводы.

Модель

Стоимость

Когда использовать

Gemini Flash Lite

0.006 токена/1K символов

Самые быстрые и дешёвые повторные переводы

Gemini Flash

0.028 токена/1K символов

Баланс скорости и качества

Gemini 3 (по умолчанию)

0.044 токена/1K символов

Первый перевод в пайплайне и качественные повторные переводы

GPT-4o

0.156 токена/1K символов

Максимальная точность для сложного текста

GPT-5 Mini

0.028 токена/1K символов

Хорошее качество при умеренной цене


Озвучка без клонирования

Стандартные синтетические голоса. Образец из исходного аудио не используется.

Провайдер

Языки

Стоимость

Скорость

ElevenLabs (по умолчанию)

~74 языка

0.01 токена/сек

~2 секунды

OpenAI

Широкая поддержка

0.03 токена/сек

~5 секунд

Если ElevenLabs не поддерживает целевой язык, приложение автоматически переключается на OpenAI.


Озвучка с клонированием

Эти провайдеры клонируют голос говорящего из загруженного аудио или сохранённого Custom Voice.

MiniMax (рекомендуется)

Стоимость

0.15 токена/сек + 150 токенов за первое клонирование голоса

Скорость речи

от 0.5x до 2.0x

Эмоции

7 пресетов + Авто

Мин. длина для клона

10 секунд

Сохранённый Custom Voice

Да, через Custom Voices

Qwen

Языки

10: русский, английский, китайский, немецкий, французский, испанский, итальянский, японский, корейский, португальский

Стоимость

0.15 токена/сек, минимум 5 токенов за запрос

Мин. длина для клона

3 секунды

Стили речи

Авто, Медленно, Быстро, Спокойно, Энергично, Профессионально, Дружелюбно, Мягко — только в auto_clone, не с сохранёнными Custom Voices

HeyGen

Стоимость

3.67 токена/сек (HeyGen v3 с 3 июня 2026)

Время генерации

~10 минут для длинного текста

Формат

Аудио MP4

Сохранённые Custom Voices

Не поддерживаются. Клон только из загруженного аудио.


Поведение TTS

  • Редактирование перевода: изменение текста сбрасывает текущую озвучку. Нажмите воспроизведение для новой генерации.

  • Незавершённые и завершённые задачи: задачи MiniMax, Qwen и HeyGen продолжаются в фоне. При открытии из истории воспроизведение или опрос возобновляются.

  • Смена языка: если провайдер клонирования не поддерживает новый язык или аудио слишком короткое, приложение автоматически переключается на ElevenLabs.

  • Смена настроек: переключение провайдера, скорости, эмоции или стиля сбрасывает кэшированное аудио для текущего результата.


Часто задаваемые вопросы