Перейти к содержанию

STT — Транскрибация речи

STT (Speech-to-Text) преобразует аудиозаписи в текст. Полезен для анализа звонков, голосовых сообщений и аудиоконтента.

Провайдеры

Провайдер Языки Особенности
YandexSpeechKit Русский (основной) Диаризация, таймкоды, высокое качество на русском
Whisper (OpenAI) Мультиязык (100+) Универсальное распознавание, отличная пунктуация

Провайдеры настраиваются в разделе AI-провайдеры.

Возможности

  • Диаризация — определение «кто говорит». Расставляет метки speaker_1, speaker_2. Полезно для записей звонков клиент-оператор
  • Таймкоды — время начала и конца каждой реплики
  • Суммаризация — краткое содержание разговора через LLM
  • Сервисные связи — STT как предобработка на ребре перед AI Chat / AI Task

Два способа использовать STT

1. Отдельный узел STT Task

Добавьте на холст узел STT Task — получите транскрипт как обычные выходные переменные:

Start (Webhook с audio_url) → STT Task → AI Task → End

2. Сервисное ребро с STT

Вместо отдельного узла сделайте обычное ребро «сервисным» с типом STT — предобработка произойдёт «на лету». Граф остаётся компактным.

Start (Telegram голосовое) —[STT-edge]→ AI Chat

Клиент записывает голосовое — оно автоматически транскрибируется — AI Chat видит уже текст.

Пример: анализ звонков

Webhook (запись звонка)
STT Task (транскрибация + диаризация)
AI Task (извлечь: тема звонка, договорённости, настроение клиента)
User Task (ревью менеджером)

Результат — структурированные данные из произвольной записи:

  • topic — «техподдержка»
  • agreements — «клиент согласился на апгрейд до Pro»
  • sentiment — «нейтральный»

Выходные переменные STT Task

  • transcript (строка) — полный текст
  • segments (массив) — реплики с speaker, start_time, end_time, text
  • summary (строка) — краткое содержание (если суммаризация включена)
  • duration_seconds (число) — длительность записи

Поддерживаемые форматы

MP3, WAV, OGG, M4A, FLAC. Максимальный размер — зависит от провайдера и вашего тарифа.