STT — Транскрибация речи¶
STT (Speech-to-Text) преобразует аудиозаписи в текст. Полезен для анализа звонков, голосовых сообщений и аудиоконтента.
Провайдеры¶
| Провайдер | Языки | Особенности |
|---|---|---|
| YandexSpeechKit | Русский (основной) | Диаризация, таймкоды, высокое качество на русском |
| Whisper (OpenAI) | Мультиязык (100+) | Универсальное распознавание, отличная пунктуация |
Провайдеры настраиваются в разделе AI-провайдеры.
Возможности¶
- Диаризация — определение «кто говорит». Расставляет метки
speaker_1,speaker_2. Полезно для записей звонков клиент-оператор - Таймкоды — время начала и конца каждой реплики
- Суммаризация — краткое содержание разговора через LLM
- Сервисные связи — STT как предобработка на ребре перед AI Chat / AI Task
Два способа использовать STT¶
1. Отдельный узел STT Task¶
Добавьте на холст узел STT Task — получите транскрипт как обычные выходные переменные:
2. Сервисное ребро с STT¶
Вместо отдельного узла сделайте обычное ребро «сервисным» с типом STT — предобработка произойдёт «на лету». Граф остаётся компактным.
Клиент записывает голосовое — оно автоматически транскрибируется — AI Chat видит уже текст.
Пример: анализ звонков¶
Webhook (запись звонка)
↓
STT Task (транскрибация + диаризация)
↓
AI Task (извлечь: тема звонка, договорённости, настроение клиента)
↓
User Task (ревью менеджером)
Результат — структурированные данные из произвольной записи:
topic— «техподдержка»agreements— «клиент согласился на апгрейд до Pro»sentiment— «нейтральный»
Выходные переменные STT Task¶
transcript(строка) — полный текстsegments(массив) — реплики сspeaker,start_time,end_time,textsummary(строка) — краткое содержание (если суммаризация включена)duration_seconds(число) — длительность записи
Поддерживаемые форматы¶
MP3, WAV, OGG, M4A, FLAC. Максимальный размер — зависит от провайдера и вашего тарифа.