Как работает Видео в текст
Загрузите видео или вставьте ссылку, чтобы получить транскрипцию, метки говорящих, определённый язык и структурированное изложение.
Автор Umakhan Magomedov
Последнее обновление 11 дней назад
Видео в текст (транскрипция видео) превращает речь из видео в полный текст с автоматическим определением языка, метками говорящих и опциональным структурированным изложением. Загрузите файл с устройства или вставьте ссылку на YouTube, Instagram или TikTok.
Когда использовать
Получить транскрипцию видеоурока, вебинара или записанной презентации
Извлечь содержимое из видео на YouTube без ручного просмотра
Превратить подкаст-видео в текст для заметок или перевода
Подготовить текст из видео для редактирования, анализа или публикации
Что можно загрузить
Форматы: MP4, MOV, AVI, MKV, WebM, M4V
Источники ссылок: YouTube, Instagram, TikTok или прямая ссылка на видео.
Импорт по ссылке
Нажмите Вставить ссылку, введите URL и нажмите Скачать. Приложение показывает три этапа:
Скачивание: VocaLingo загружает видео с платформы на сервер.
Сохранение: файл сохраняется для обработки.
Обработка: видео подготавливается и автоматически запускается распознавание речи.
Для импорта по ссылке до 2 ГБ файл не загружается с вашего устройства. Тот же процесс описан в Импорт аудио по ссылке для других инструментов.
Как запустить
Откройте Видео в текст на вкладке Инструменты в браузере, на iOS или Android.
Нажмите Выбрать для загрузки файла или Вставить ссылку для импорта по URL.
Обработка запускается автоматически. При загрузке с устройства приложение может сначала сжать видео для ускорения передачи.
После завершения транскрипция появится на вкладке Текст. Откройте Суть для структурированного обзора.
ℹ️ После начала обработки можно закрыть или свернуть приложение. Когда транскрипция будет готова, VocaLingo отправит push-уведомление, если уведомления включены. Подробнее: Push-уведомления.
Что вы получите
Результат разделён на три вкладки:
Видео: воспроизведение исходного видео с кнопками скачивания и публикации. Импорт по ссылке использует удалённый стриминг: большие файлы воспроизводятся без полной загрузки в память устройства.
Текст: полная транскрипция с определённым языком и метками говорящих, если в видео несколько участников.
Суть: структурированное изложение по запросу (заголовок, резюме, ключевые моменты, вывод и цитаты). См. Краткое изложение видео.
Результаты автоматически сохраняются в История.
Вкладка «Текст»
На вкладке Текст доступно:
Переключатель Показывать таймкоды — обычный текст или сегменты с метками времени и говорящими.
Копирование и отправка транскрипции через панель инструментов.
Распознавание речи
Видео в текст использует ElevenLabs Scribe v2 для преобразования речи в текст. Это не OpenAI Whisper. Scribe v2 поддерживает автоматическое определение языка и разделение по говорящим (diarization) для более понятной транскрипции и изложений.
Сколько стоит
Видео в текст списывает токены по длительности видео (распознавание речи). Вкладка Суть расходует дополнительные токены при генерации. Подробные цены: Цены в токенах для каждого инструмента.