STT — Транскрибация речи¶

STT (Speech-to-Text) преобразует аудиозаписи в текст. Полезен для анализа звонков, голосовых сообщений и аудиоконтента.

Провайдеры¶

Провайдер	Языки	Особенности
YandexSpeechKit	Русский (основной)	Диаризация, таймкоды, высокое качество на русском
Whisper (OpenAI)	Мультиязык (100+)	Универсальное распознавание, отличная пунктуация

Провайдеры настраиваются в разделе AI-провайдеры.

Возможности¶

Диаризация — определение «кто говорит». Расставляет метки speaker_1, speaker_2. Полезно для записей звонков клиент-оператор
Таймкоды — время начала и конца каждой реплики
Суммаризация — краткое содержание разговора через LLM
Сервисные связи — STT как предобработка на ребре перед AI Chat / AI Task

Два способа использовать STT¶

1. Отдельный узел STT Task¶

Добавьте на холст узел STT Task — получите транскрипт как обычные выходные переменные:

Start (Webhook с audio_url) → STT Task → AI Task → End

2. Сервисное ребро с STT¶

Вместо отдельного узла сделайте обычное ребро «сервисным» с типом STT — предобработка произойдёт «на лету». Граф остаётся компактным.

Start (Telegram голосовое) —[STT-edge]→ AI Chat

Клиент записывает голосовое — оно автоматически транскрибируется — AI Chat видит уже текст.

Пример: анализ звонков¶

Webhook (запись звонка)
      ↓
STT Task (транскрибация + диаризация)
      ↓
AI Task (извлечь: тема звонка, договорённости, настроение клиента)
      ↓
User Task (ревью менеджером)

Результат — структурированные данные из произвольной записи:

topic — «техподдержка»
agreements — «клиент согласился на апгрейд до Pro»
sentiment — «нейтральный»

Выходные переменные STT Task¶

transcript (строка) — полный текст
segments (массив) — реплики с speaker, start_time, end_time, text
summary (строка) — краткое содержание (если суммаризация включена)
duration_seconds (число) — длительность записи

Поддерживаемые форматы¶

MP3, WAV, OGG, M4A, FLAC. Максимальный размер — зависит от провайдера и вашего тарифа.