txtAI.tech Studio

ProviderПровайдер	TypeТип	DescriptionОписание
Piper	Local	Fast, CPU, lightweightБыстрый, CPU, лёгкий
XTTS v2	Local	Voice cloning, high quality, GPUКлонирование голоса, высокое качество, GPU
Kokoro-Ruslan	Local	Russian TTS based on Kokoro (82M)Русский TTS на базе Kokoro (82M)
OmniVoice	Local	646 languages, voice cloning, GPU (k2-fsa)646 языков, клонирование голоса, GPU (k2-fsa)
FreeTTS.ru	Cloud	Free, 14 Russian voicesБесплатный, 14 русских голосов
Puter.js TTS	Cloud	AWS Polly, OpenAI, ElevenLabsAWS Polly, OpenAI, ElevenLabs
Custom TTS	Any	User-defined serverПользовательский сервер

	Windows	macOS (planned)
GUI	PySide6	PySide6
XTTS	CUDA GPU	MPS GPU
Piper	CUDA / CPU	CPU
Kokoro	CUDA / CPU	MPS GPU
OmniVoice	CUDA GPU	—
WhisperX	CUDA (faster-whisper)	MLX Whisper
BuildСборка	Portable (Python + FFmpeg bundled)Портативная (Python + FFmpeg в комплекте)	PlannedПланируется

Documentation

Документация

1. Opening Files (Files Tab)

Option 1: Click 📁 Open Folder on the toolbar
Option 2: Click ➕ Add Files to select individual files
Option 3: Drag & drop files/folders directly into the window

2. Renaming Files

1. Check the desired files → 2. Select Rename mode → 3. Configure parameters → 4. Click Apply
Use ↶ Undo (Ctrl+Z) to roll back if needed.

3. Book Conversion

Go to Prepare → Convert Files → Add books (EPUB, FB2, DOCX, PDF) → Configure splitting → Click Split → TXT

4. AI Text Processing

Select AI provider → Set up API key in Settings → AI Models → Choose a prompt preset → Click Start Processing!

5. Text-to-Speech

Select TTS provider (Piper, XTTS, Kokoro, FreeTTS, Puter.js, Custom) → Make sure server is running (green ●) → Click Start Voiceover!

6. Book Playback (Reader)

Open a TXT file via 📂 Open Book → Click ▶️ Play → Use ⏸️ Pause, ⏮️ Previous, ⏭️ Next

💡 Use the file transfer buttons between tabs for a fast workflow.

1. Открытие файлов (вкладка Файлы)

Способ 1: Нажмите 📁 Открыть папку на панели инструментов
Способ 2: Нажмите ➕ Добавить файлы для выбора отдельных файлов
Способ 3: Перетащите файлы/папки прямо в окно программы

2. Переименование файлов

1. Отметьте галочками нужные файлы → 2. Выберите режим Переименование → 3. Настройте параметры → 4. Нажмите Применить
Используйте ↶ Отменить (Ctrl+Z) если нужно откатить.

3. Конвертация книг

Перейдите на Подготовка → Конвертация файлов → Добавьте книги (EPUB, FB2, DOCX, PDF) → Настройте разбиение → Нажмите Разбить → TXT

4. Обработка текста через AI

Выберите провайдер AI → Настройте API ключ в Параметры → Нейронки → Выберите пресет промпта → Нажмите Погнали обрабатывать!

5. Озвучка текста

Выберите провайдер TTS (Piper, XTTS, Kokoro, FreeTTS, Puter.js, Custom) → Убедитесь что сервер запущен (зелёный ●) → Нажмите Погнали озвучивать!

6. Прослушивание книг (Читалка)

Откройте TXT файл через 📂 Открыть книгу → Нажмите ▶️ Прослушать → Используйте ⏸️ Пауза, ⏮️ Назад, ⏭️ Вперёд

💡 Используйте кнопки передачи файлов между вкладками для быстрого workflow.

🐦 Piper TTS (Local, CPU/GPU)

Fast and lightweight speech synthesis. Runs on CPU, no powerful GPU required. Port: 5003

1. Go to Settings → Dependencies → 2. Click Install Piper → 3. Wait for voice models → 4. Start with ▶ Start Piper

🎙️ XTTS v2 (Local, GPU)

High-quality voice cloning. Requires NVIDIA GPU with CUDA. Port: 5002, Python 3.9–3.11, min 4 GB VRAM.

1. Ensure Python 3.9–3.11 is installed → 2. Settings → Dependencies → 3. Install XTTS v2 (~3 GB) → 4. ▶ Start XTTS

⚠️ If CUDA is unavailable, XTTS falls back to CPU (very slow). Make sure NVIDIA drivers and cuDNN are installed.

🗣️ Kokoro-Ruslan (Local)

Russian-language TTS based on Kokoro model. Port: 5004

1. Settings → Dependencies → 2. Install Kokoro-Ruslan → 3. Wait for model → 4. ▶ Start Kokoro

🌍 OmniVoice (Local, GPU, 646 languages)

Zero-shot multilingual TTS with voice cloning. Requires NVIDIA GPU. Port: 5005. Isolated environment (own torch 2.6 + transformers 5.x).

1. Settings → Dependencies → 2. Install OmniVoice (~4 GB) → 3. Wait for model download → 4. ▶ Start OmniVoice

☁️ FreeTTS.ru (Cloud, Free)

Free cloud service. No installation, no API key needed.

Select FreeTTS from provider list → Choose a voice → Done!

☁️ Puter.js TTS (Cloud)

Cloud TTS via Puter.js. Supports AWS Polly, OpenAI TTS, and ElevenLabs.

Select Puter.js TTS → Choose engine → Enter API key if needed → Select voice

✅ Start with FreeTTS.ru (no setup) or Piper (lightweight and fast).

🐦 Piper TTS (локальный, CPU/GPU)

Быстрый и лёгкий синтез речи. Работает на CPU. Порт: 5003

1. Параметры → Зависимости → 2. Установить Piper → 3. Дождитесь загрузки моделей → 4. ▶ Запустить Piper

🎙️ XTTS v2 (локальный, GPU)

Высококачественный клон голоса. Требует NVIDIA GPU с CUDA. Порт: 5002, Python 3.9–3.11, мин. 4 ГБ VRAM.

1. Убедитесь что Python 3.9–3.11 установлен → 2. Параметры → Зависимости → 3. Установить XTTS v2 (~3 ГБ) → 4. ▶ Запустить XTTS

⚠️ Если CUDA недоступна, XTTS будет работать на CPU (очень медленно). Убедитесь что установлены драйверы NVIDIA и cuDNN.

🗣️ Kokoro-Ruslan (локальный)

Русскоязычный TTS на базе модели Kokoro. Порт: 5004

1. Параметры → Зависимости → 2. Установить Kokoro-Ruslan → 3. Дождитесь загрузки → 4. ▶ Запустить Kokoro

🌍 OmniVoice (локальный, GPU, 646 языков)

Мультиязычный TTS с клонированием голоса. Требует NVIDIA GPU. Порт: 5005. Изолированное окружение (свой torch 2.6 + transformers 5.x).

1. Параметры → Зависимости → 2. Установить OmniVoice (~4 ГБ) → 3. Дождитесь загрузки модели → 4. ▶ Запустить OmniVoice

☁️ FreeTTS.ru (облачный, бесплатный)

Бесплатный облачный сервис. Не требует установки и API-ключа.

Выберите FreeTTS в списке провайдеров → Выберите голос → Готово!

☁️ Puter.js TTS (облачный)

Облачный TTS через Puter.js. Поддерживает AWS Polly, OpenAI TTS и ElevenLabs.

Выберите Puter.js TTS → Выберите движок → Введите API-ключ при необходимости → Выберите голос

✅ Для начала попробуйте FreeTTS.ru (не нужна установка) или Piper (лёгкий и быстрый).

Adding Files

Click ➕ Add Files and select TXT files, or drag & drop into the table, or transfer from Prepare tab using → To Voiceover.

Processing Settings

Threads — parallel requests to TTS server (1–8)
Timeout — max response wait time (sec)
Voice — select from available voices
Speed — speech rate (if supported)

Controls

🚀 Start Voiceover! — begin for selected files
⏹ Stop — stop current voiceover
📂 Open Result — open folder with finished audio

Results are saved to a tts_output subfolder next to the source files (WAV or MP3).

💡 For Piper/XTTS, make sure the server is running (green ● indicator) before starting.

Добавление файлов

Нажмите ➕ Добавить файлы и выберите TXT-файлы, или перетащите в таблицу, или передайте с вкладки Подготовка кнопкой → В озвучку.

Настройки обработки

Потоки — параллельные запросы к TTS-серверу (1–8)
Таймаут — макс. время ожидания ответа (сек)
Голос — выбор из доступных голосов
Скорость — скорость речи (если поддерживается)

Управление

🚀 Погнали озвучивать! — запуск для выбранных файлов
⏹ Стоп — остановка текущей озвучки
📂 Открыть результат — открыть папку с готовыми аудио

Результаты сохраняются в подпапку tts_output рядом с исходными файлами (WAV или MP3).

💡 Для Piper/XTTS убедитесь что сервер запущен (зелёный ●) перед началом озвучки.

Opening a Book

Click 📂 Open Book → Select a TXT file → Text loads and splits into chunks.

Playback Controls

▶️ Play — start from current position ⏸️ Pause — pause ⏹️ Stop — full stop
⏮️ Previous — previous chunk ⏭️ Next — next chunk

Volume & Speed

Volume slider (0–100%) Speed slider (0.5x – 2.0x)

Streaming Mode

Text is voiced on the fly — the next chunk generates while the current one plays. No need to wait for the entire book.

Library

The Reader remembers opened books. Last reading position is saved automatically. Continue from where you left off.

💡 For best quality use XTTS v2 or Kokoro-Ruslan. For speed — Piper.

Открытие книги

Нажмите 📂 Открыть книгу → Выберите TXT-файл → Текст загрузится и разобьётся на фрагменты.

Управление воспроизведением

▶️ Прослушать — начать с текущей позиции ⏸️ Пауза — приостановить ⏹️ Стоп — полная остановка
⏮️ Назад — предыдущий фрагмент ⏭️ Вперёд — следующий фрагмент

Громкость и скорость

Громкость (0–100%) Скорость (0.5x – 2.0x)

Потоковый режим

Текст озвучивается «на лету» — следующий фрагмент генерируется пока воспроизводится текущий. Не нужно ждать озвучки всей книги.

Библиотека

Читалка запоминает открытые книги. Последняя позиция чтения сохраняется автоматически. Можно продолжить с того места где остановились.

💡 Для лучшего качества используйте XTTS v2 или Kokoro-Ruslan. Для скорости — Piper.

txtAI.tech Studio includes built-in prompt presets for AI text processing. You can also create your own.

Prompt Structure

A good prompt has 5 elements: Role (who the AI is) → Task (what to do) → Context (genre, style) → Limits (what not to do) → Format (how to return result).

Preset Categories

✏️

Minimal Edits

Fix typos, punctuation, grammar. Text stays close to original.

📚

Literature

Literary editing, style improvement, genre adaptation.

🔬

Science & Tech

Scientific style, technical docs, simplifying complex texts.

💼

Business

Business correspondence, marketing, presentations.

🔊

TTS-Specific

Preparing text for voiceover: pauses, abbreviations, numbers.

🎬

Subtitles

Subtitle formatting, line splitting, screen adaptation.

txtAI.tech Studio содержит встроенные пресеты промптов для обработки текста через AI. Вы также можете создавать свои.

Структура промпта

Хороший промпт состоит из 5 элементов: Роль (кем является AI) → Задача (что сделать) → Контекст (жанр, стиль) → Ограничения (чего нельзя) → Формат (в каком виде вернуть).

Категории пресетов

✏️

Минимальные правки

Исправление опечаток, пунктуации, грамматики. Текст максимально близок к оригиналу.

📚

Литература

Художественная редактура, улучшение стиля, адаптация для жанров.

🔬

Наука и техника

Научный стиль, техническая документация, упрощение сложных текстов.

💼

Бизнес

Деловая переписка, маркетинговые тексты, презентации.

🔊

TTS-специфичные

Подготовка текста для озвучки: паузы, аббревиатуры, числа.

🎬

Субтитры

Форматирование субтитров, разбиение на строки, адаптация для экрана.

📋 General

Open folder after conversion · Remove empty lines · Interface language · Theme (Light/Dark/System)

⚡ Performance

Max files limit · Metadata mode (Full/Fast) · Processing threads

🤖 AI Models

TTS Providers: Piper, XTTS, Kokoro, FreeTTS, Puter.js — port config, voice selection, synthesis parameters.
Text Processing: Custom Server, Puter AI, LLM7.IO, g4f, OpenAI, Anthropic, Gemini.
API Keys: OpenAI, Anthropic, Google Gemini, ElevenLabs.

🌐 Network & Proxy

HTTP/SOCKS5 proxy · Connection timeout · Retry attempts

📦 Dependencies

Install/update TTS servers · Check Python, CUDA, cuDNN · Download voice models · Manage virtual environments

💡 After changing settings, click Save. Some options require an app restart.

📋 Общие

Открывать папку после конвертации · Удалять пустые строки · Язык интерфейса · Тема (Светлая/Тёмная/Системная)

⚡ Производительность

Максимум файлов · Режим метаданных (Полный/Быстрый) · Потоки обработки

🤖 Нейронки

TTS-провайдеры: Piper, XTTS, Kokoro, FreeTTS, Puter.js — порты, голоса, параметры синтеза.
Обработка текста: Custom Server, Puter AI, LLM7.IO, g4f, OpenAI, Anthropic, Gemini.
API-ключи: OpenAI, Anthropic, Google Gemini, ElevenLabs.

🌐 Сеть и прокси

HTTP/SOCKS5 прокси · Таймаут соединения · Повторные попытки

📦 Зависимости

Установка/обновление TTS-серверов · Проверка Python, CUDA, cuDNN · Загрузка моделей · Управление окружениями

💡 После изменения настроек нажмите Сохранить. Некоторые параметры требуют перезапуска.

General

Shortcut	Action
`Ctrl+Z`	Undo
`Ctrl+Y`	Redo
`Ctrl+O`	Open folder
`Esc`	Cancel operation
`Ctrl+A`	Select all files
`Delete`	Remove selected
`Ctrl+S`	Save settings

Drag & Drop

Files — drag files/folders to add
Prepare — drag books (EPUB, FB2, DOCX, PDF)
Voiceover — drag TXT files
Reader — drag a TXT file to open

Общие

Клавиша	Действие
`Ctrl+Z`	Отменить
`Ctrl+Y`	Повторить
`Ctrl+O`	Открыть папку
`Esc`	Отменить операцию
`Ctrl+A`	Выделить все файлы
`Delete`	Удалить выбранные
`Ctrl+S`	Сохранить настройки

Drag & Drop

Файлы — перетащите файлы/папки для добавления
Подготовка — перетащите книги (EPUB, FB2, DOCX, PDF)
Озвучка — перетащите TXT-файлы
Читалка — перетащите TXT-файл для открытия

Subtitle Workflow Overview

txtAI.tech Studio provides a complete pipeline for subtitle creation, translation, voiceover and dubbing — from raw audio/video to a fully dubbed video file.

1. Generate Subtitles from Audio/Video

Go to Prepare → Subtitles tab → Select audio or video file → Choose WhisperX model and language → Click ▶ Generate subtitles
Outputs SRT, VTT or both formats. Uses WhisperX with GPU acceleration for fast, accurate transcription.

2. Split Subtitles into Lines

Go to Subtitle Voiceover tab → Load your SRT/VTT file → Click 📄 Split into files
Each subtitle line becomes a separate numbered .txt file: srt_0001.txt, srt_0002.txt, etc.

3. Translate via AI

Click 📂 Load subtitles in the AI Processing tab → Select the folder with split .txt files → Choose AI provider and translation prompt → Click Start Processing!
All lines are translated in parallel. Results saved as srt_0001.edited.txt, etc.

4. Rebuild Translated Subtitles

Back in Subtitle Voiceover → Point to the folder with translated files → Click 📝 Rebuild subtitles
Creates a new SRT/VTT file with original timings but translated text. Saved next to the original.

5. Voice the Translated Lines

Click 📂 Load subtitles in the Voiceover tab → Select the folder with translated .txt files → Choose TTS provider → Click Start Voiceover!
Each line is voiced as a separate .wav file with matching numbering.

6. Assemble Dubbed Audio

In Subtitle Voiceover → Step 3 → Point to the folder with voiced .wav files → Click 🔊 Assemble audio by timings
Places each voiced clip at its subtitle timestamp. Mild time-stretch via FFmpeg atempo (pitch-preserving) when needed.

7. Overlay on Video

Step 4 → Select original video → Choose mode:
• Replace — remove original audio, use only dubbed
• Mix — keep original at low volume + dubbed at full volume
• Dual track — both audio tracks in the video (switchable in player)
Click 🎬 Overlay on video → Done!

💡 The entire pipeline works with any TTS provider: Piper, XTTS, Kokoro, OmniVoice, FreeTTS, or Custom. OmniVoice supports 646 languages with voice cloning.

Обзор работы с субтитрами

txtAI.tech Studio предоставляет полный конвейер для создания субтитров, перевода, озвучки и дубляжа — от исходного аудио/видео до готового дублированного видеофайла.

1. Генерация субтитров из аудио/видео

Перейдите на Подготовка → Субтитры → Выберите аудио или видео файл → Укажите модель WhisperX и язык → Нажмите ▶ Генерировать субтитры
Результат в формате SRT, VTT или оба. Используется WhisperX с GPU-ускорением.

2. Разбивка субтитров на строки

Перейдите на вкладку Озвучка субтитров → Загрузите SRT/VTT файл → Нажмите 📄 Разбить на файлы
Каждая строка субтитров становится отдельным .txt файлом: srt_0001.txt, srt_0002.txt и т.д.

3. Перевод через AI

Нажмите 📂 Загрузить субтитры во вкладке Обработка нейронкой → Выберите папку с .txt файлами → Выберите AI-провайдер и промпт для перевода → Нажмите Погнали обрабатывать!
Все строки переводятся параллельно. Результаты: srt_0001.edited.txt и т.д.

4. Сборка переведённых субтитров

Вернитесь на Озвучка субтитров → Укажите папку с переведёнными файлами → Нажмите 📝 Собрать субтитры
Создаётся новый SRT/VTT файл с оригинальными таймингами, но переведённым текстом. Сохраняется рядом с оригиналом.

5. Озвучка переведённых строк

Нажмите 📂 Загрузить субтитры во вкладке Озвучка → Выберите папку с переведёнными .txt файлами → Выберите TTS-провайдер → Нажмите Погнали озвучивать!
Каждая строка озвучивается в отдельный .wav файл с соответствующей нумерацией.

6. Сборка дубляжа

На вкладке Озвучка субтитров → Шаг 3 → Укажите папку с озвученными .wav файлами → Нажмите 🔊 Собрать аудио по таймингам
Каждый клип размещается по временной метке субтитра. При необходимости применяется мягкое ускорение через FFmpeg atempo (без изменения тона).

7. Наложение на видео

Шаг 4 → Выберите оригинальное видео → Выберите режим:
• Заменить — удалить оригинальную дорожку, оставить только дубляж
• Микшировать — оригинал тихо + дубляж на полной громкости
• Две дорожки — обе аудиодорожки в видео (переключаются в плеере)
Нажмите 🎬 Наложить на видео → Готово!

💡 Весь конвейер работает с любым TTS-провайдером: Piper, XTTS, Kokoro, OmniVoice, FreeTTS или Custom. OmniVoice поддерживает 646 языков с клонированием голоса.

ProjectПроект	DescriptionОписание	LicenseЛицензия
Coqui TTS	XTTS v2 — multilingual TTS with voice cloning	MPL-2.0
Piper	Fast local TTS on ONNX	MIT
WhisperX	Audio transcription with word-level alignment	BSD-4
Kokoro-Ruslan	Russian TTS based on Kokoro	—
omogre	Russian stress marks and IPA	—
XTTS v2 Fine-tuning	XTTS fine-tuning with LoRA	—
Coqpit	Dataclass-based configuration	MIT
OmniVoice	646-language zero-shot TTS with voice cloning	Apache-2.0

txtAI.tech Studio

Features

Возможности

Files

Файлы

Prepare

Подготовка

Voiceover

Озвучка

Reader

Читалка

TTS Training

Обучение TTS

Subtitle Voiceover

Озвучка субтитров

14 Languages

14 языков

TTS Providers

Platform Support

Поддержка платформ

Quick Start

Быстрый старт

🪟 Windows

🍎 macOS (Apple Silicon) — coming soon

Data Structure

Структура данных