Настройки Перевода аудио: голос, модели и клонирование

Распознавание, модели перевода, озвучка, стили Qwen и оценка в токенах.

Автор Umakhan Magomedov

Последнее обновление 11 дней назад

Откройте лист настроек в Переводе аудио, чтобы управлять распознаванием речи, качеством перевода и озвучкой. В этой статье разобраны все опции и момент их применения.

Где найти настройки

Откройте Перевод аудио на вкладке Инструменты.
Нажмите значок Настройки в правом верхнем углу.
Измените распознавание, перевод или озвучку. Оценка в токенах обновится сразу.

ℹ️ Изменения распознавания и модели перевода применяются при следующей загрузке файла, не к текущему результату. Настройки озвучки влияют на следующую генерацию аудио.

Распознавание (речь в текст)

Выберите движок транскрипции загруженного аудио. По умолчанию: ElevenLabs Scribe.

Провайдер	Стоимость	Примечания
ElevenLabs Scribe (по умолчанию)	0.0133 токена/сек	Рекомендуется. Быстро и точно для большинства записей.
OpenAI Transcribe	0.02 токена/сек	Модель gpt-4o-transcribe. Подходит для шумного аудио.
Whisper	0.01 токена/сек	Бюджетный вариант. На длинных файлах чуть медленнее.

Перевод

Выберите AI-модель для повторных переводов при смене языка или редактировании исходного текста.

⚠️ Автоматический пайплайн при первой загрузке всегда использует Gemini 3 на бэкенде, независимо от выбранной здесь модели. Настройки влияют только на повторные переводы.

Модель	Стоимость	Когда использовать
Gemini Flash Lite	0.006 токена/1K символов	Самые быстрые и дешёвые повторные переводы
Gemini Flash	0.028 токена/1K символов	Баланс скорости и качества
Gemini 3 (по умолчанию)	0.044 токена/1K символов	Первый перевод в пайплайне и качественные повторные переводы
GPT-4o	0.156 токена/1K символов	Максимальная точность для сложного текста
GPT-5 Mini	0.028 токена/1K символов	Хорошее качество при умеренной цене

Озвучка без клонирования

Стандартные синтетические голоса. Образец из исходного аудио не используется.

Провайдер	Языки	Стоимость	Скорость
ElevenLabs (по умолчанию)	~74 языка	0.01 токена/сек	~2 секунды
OpenAI	Широкая поддержка	0.03 токена/сек	~5 секунд

Если ElevenLabs не поддерживает целевой язык, приложение автоматически переключается на OpenAI.

Озвучка с клонированием

Эти провайдеры клонируют голос говорящего из загруженного аудио или сохранённого Custom Voice.

MiniMax (рекомендуется)

Стоимость	0.15 токена/сек + 150 токенов за первое клонирование голоса
Скорость речи	от 0.5x до 2.0x
Эмоции	7 пресетов + Авто
Мин. длина для клона	10 секунд
Сохранённый Custom Voice	Да, через Custom Voices

Qwen

Языки	10: русский, английский, китайский, немецкий, французский, испанский, итальянский, японский, корейский, португальский
Стоимость	0.15 токена/сек, минимум 5 токенов за запрос
Мин. длина для клона	3 секунды
Стили речи	Авто, Медленно, Быстро, Спокойно, Энергично, Профессионально, Дружелюбно, Мягко — только в auto_clone, не с сохранёнными Custom Voices

HeyGen

Стоимость	3.67 токена/сек (HeyGen v3 с 3 июня 2026)
Время генерации	~10 минут для длинного текста
Формат	Аудио MP4
Сохранённые Custom Voices	Не поддерживаются. Клон только из загруженного аудио.

Поведение TTS

Редактирование перевода: изменение текста сбрасывает текущую озвучку. Нажмите воспроизведение для новой генерации.
Незавершённые и завершённые задачи: задачи MiniMax, Qwen и HeyGen продолжаются в фоне. При открытии из истории воспроизведение или опрос возобновляются.
Смена языка: если провайдер клонирования не поддерживает новый язык или аудио слишком короткое, приложение автоматически переключается на ElevenLabs.
Смена настроек: переключение провайдера, скорости, эмоции или стиля сбрасывает кэшированное аудио для текущего результата.

VocaLingo

Настройки Перевода аудио: голос, модели и клонирование

Где найти настройки

Распознавание (речь в текст)

Перевод

Озвучка без клонирования

Озвучка с клонированием

MiniMax (рекомендуется)

Qwen

HeyGen

Поведение TTS

Часто задаваемые вопросы

Где найти настройки

Распознавание (речь в текст)

Перевод

Озвучка без клонирования

Озвучка с клонированием

MiniMax (рекомендуется)

Qwen

HeyGen

Поведение TTS

Часто задаваемые вопросы

Что делает регулировка скорости MiniMax?

Можно использовать стили Qwen с сохранённым Custom Voice?

HeyGen или MiniMax: что выбрать?

Почему озвучка пропала после редактирования перевода?

Аудио слишком короткое для клонирования. Какой минимум?

ElevenLabs или OpenAI для стандартной озвучки?

Когда списываются 150 токенов за MiniMax?

Можно использовать HeyGen Custom Voice из аккаунта?

Смотрите также