🎧

AI-сервис транскрибации аудио и видео с анализом по промптам

Расшифровка аудио/видео, разделение по ролям, ИИ-резюме и кастомный анализ под бизнес-сценарии.

Задача клиента

Собственный SaaS: расшифровка аудио и видео, разделение по спикерам, ИИ-резюме и кастомный анализ под бизнес-сценарии (контроль качества звонков, кастдевы, протоколы).

Было

На рынке либо дорогие западные сервисы, либо решения без разделения по спикерам и без гибкого ИИ-анализа под промпты.

Решение

Whisper-подобные модели для транскрипции, разделение по ролям, несколько ИИ на выбор (GPT, Claude, DeepSeek), 6 форматов экспорта, поминутный тариф с бесплатными 5 часами на старте.

Результат

Час аудио обрабатывается за 2–5 минут, пользователь получает точный текст с ролями спикеров и ИИ-выводы под свою задачу.

Техническая часть

Ruby on Rails, Whisper / ASR-модели, OpenAI / Claude / DeepSeek API, PostgreSQL, Redis, Sidekiq, ffmpeg, Docker.

Сроки

Развивается с 2026 года.

Ключевые решения

→Обработка часа аудио за 2–5 минут
→Распознавание ролей спикеров с высокой точностью
→Несколько ИИ на выбор для анализа: GPT, Claude, DeepSeek
→6 форматов экспорта, включая SRT-субтитры
→Гибкая модель оплаты — за минуты