Powerful tool for batch file processing, book conversion, AI text editing and TTS voiceover
Мощный инструмент для массовой обработки файлов, конвертации книг, AI-редактирования текста и озвучки через TTS
Everything you need for text, audio and file processing in one app
Всё для работы с текстом, аудио и файлами в одном приложении
Batch rename, copy, archive, audio merge, playlists. 12 rename presets, undo/redo.
Массовое переименование, копирование, архивация, склейка аудио, плейлисты. 12 пресетов, отмена/повтор.
Convert EPUB, FB2, DOCX, PDF → TXT. AI text processing with built-in prompt presets.
Конвертация EPUB, FB2, DOCX, PDF → TXT. Обработка текста через AI с готовыми пресетами промптов.
Batch text-to-speech with 7 TTS providers. Parallel processing, voice cloning.
Массовая озвучка текста через 7 TTS-провайдеров. Параллельная обработка, клонирование голоса.
Streaming book playback with automatic voiceover and caching. Library with reading history.
Потоковое прослушивание книг с автоматической озвучкой и кешированием. Библиотека с историей.
Fine-tune XTTS v2 with LoRA, train Piper and Kokoro-Ruslan voices. WhisperX dataset prep.
Дообучение XTTS v2 с LoRA, обучение голосов Piper и Kokoro-Ruslan. Подготовка датасетов через WhisperX.
Split SRT/VTT into lines, translate via AI, voice with any TTS, assemble dubbed audio, overlay on video via FFmpeg.
Разбивка SRT/VTT на строки, перевод через AI, озвучка любым TTS, сборка дубляжа, наложение на видео через FFmpeg.
Full UI localization: RU, EN, DE, ES, PT, FR, ZH, JA, KO, AR, HI, FA, VI, TH.
Полная локализация интерфейса: RU, EN, DE, ES, PT, FR, ZH, JA, KO, AR, HI, FA, VI, TH.
Local and cloud speech synthesis engines
Локальные и облачные движки синтеза речи
| ProviderПровайдер | TypeТип | DescriptionОписание |
|---|---|---|
| Piper | Local | Fast, CPU, lightweightБыстрый, CPU, лёгкий |
| XTTS v2 | Local | Voice cloning, high quality, GPUКлонирование голоса, высокое качество, GPU |
| Kokoro-Ruslan | Local | Russian TTS based on Kokoro (82M)Русский TTS на базе Kokoro (82M) |
| OmniVoice | Local | 646 languages, voice cloning, GPU (k2-fsa)646 языков, клонирование голоса, GPU (k2-fsa) |
| FreeTTS.ru | Cloud | Free, 14 Russian voicesБесплатный, 14 русских голосов |
| Puter.js TTS | Cloud | AWS Polly, OpenAI, ElevenLabsAWS Polly, OpenAI, ElevenLabs |
| Custom TTS | Any | User-defined serverПользовательский сервер |
| Windows | macOS (planned) | |
|---|---|---|
| GUI | PySide6 | PySide6 |
| XTTS | CUDA GPU | MPS GPU |
| Piper | CUDA / CPU | CPU |
| Kokoro | CUDA / CPU | MPS GPU |
| OmniVoice | CUDA GPU | — |
| WhisperX | CUDA (faster-whisper) | MLX Whisper |
| BuildСборка | Portable (Python + FFmpeg bundled)Портативная (Python + FFmpeg в комплекте) | PlannedПланируется |
txtAI-studio-*-win-x64.zip from ReleasestxtAI-studio-*-win-x64.zip из Releasesinstall.bat — choose componentsinstall.bat — выберите компонентыtxtAI.battxtAI.batPython, FFmpeg and base dependencies are bundled.
Python, FFmpeg и базовые зависимости включены в архив.
All data is stored in .txtAI/ next to the program. Nothing is installed to system folders.
Все данные хранятся в .txtAI/ рядом с программой. Ничего не устанавливается в системные папки.
.txtAI/ ├── tts_env/ — unified TTS environment ├── omnivoice_env/ — OmniVoice (isolated, torch 2.6+) ├── models/ — all models and caches ├── xtts_models/ — trained LoRA adapters ├── piper/models/ — Piper voices ├── cudnn/ — cuDNN DLLs (Windows) └── tools/ — bundled Python, FFmpeg
📁 Open Folder on the toolbar➕ Add Files to select individual filesApply↶ Undo (Ctrl+Z) to roll back if needed.
Split → TXT
Start Processing!
Start Voiceover!
📂 Open Book → Click ▶️ Play → Use ⏸️ Pause, ⏮️ Previous, ⏭️ Next
📁 Открыть папку на панели инструментов➕ Добавить файлы для выбора отдельных файловПрименить↶ Отменить (Ctrl+Z) если нужно откатить.
Разбить → TXT
Погнали обрабатывать!
Погнали озвучивать!
📂 Открыть книгу → Нажмите ▶️ Прослушать → Используйте ⏸️ Пауза, ⏮️ Назад, ⏭️ Вперёд
Fast and lightweight speech synthesis. Runs on CPU, no powerful GPU required. Port: 5003
Install Piper → 3. Wait for voice models → 4. Start with ▶ Start PiperHigh-quality voice cloning. Requires NVIDIA GPU with CUDA. Port: 5002, Python 3.9–3.11, min 4 GB VRAM.
Install XTTS v2 (~3 GB) → 4. ▶ Start XTTSRussian-language TTS based on Kokoro model. Port: 5004
Install Kokoro-Ruslan → 3. Wait for model → 4. ▶ Start KokoroZero-shot multilingual TTS with voice cloning. Requires NVIDIA GPU. Port: 5005. Isolated environment (own torch 2.6 + transformers 5.x).
Install OmniVoice (~4 GB) → 3. Wait for model download → 4. ▶ Start OmniVoiceFree cloud service. No installation, no API key needed.
Cloud TTS via Puter.js. Supports AWS Polly, OpenAI TTS, and ElevenLabs.
Быстрый и лёгкий синтез речи. Работает на CPU. Порт: 5003
Установить Piper → 3. Дождитесь загрузки моделей → 4. ▶ Запустить PiperВысококачественный клон голоса. Требует NVIDIA GPU с CUDA. Порт: 5002, Python 3.9–3.11, мин. 4 ГБ VRAM.
Установить XTTS v2 (~3 ГБ) → 4. ▶ Запустить XTTSРусскоязычный TTS на базе модели Kokoro. Порт: 5004
Установить Kokoro-Ruslan → 3. Дождитесь загрузки → 4. ▶ Запустить KokoroМультиязычный TTS с клонированием голоса. Требует NVIDIA GPU. Порт: 5005. Изолированное окружение (свой torch 2.6 + transformers 5.x).
Установить OmniVoice (~4 ГБ) → 3. Дождитесь загрузки модели → 4. ▶ Запустить OmniVoiceБесплатный облачный сервис. Не требует установки и API-ключа.
Облачный TTS через Puter.js. Поддерживает AWS Polly, OpenAI TTS и ElevenLabs.
➕ Add Files and select TXT files, or drag & drop into the table, or transfer from Prepare tab using → To Voiceover.🚀 Start Voiceover! — begin for selected files⏹ Stop — stop current voiceover📂 Open Result — open folder with finished audio
Results are saved to a tts_output subfolder next to the source files (WAV or MP3).
➕ Добавить файлы и выберите TXT-файлы, или перетащите в таблицу, или передайте с вкладки Подготовка кнопкой → В озвучку.🚀 Погнали озвучивать! — запуск для выбранных файлов⏹ Стоп — остановка текущей озвучки📂 Открыть результат — открыть папку с готовыми аудио
Результаты сохраняются в подпапку tts_output рядом с исходными файлами (WAV или MP3).
📂 Open Book → Select a TXT file → Text loads and splits into chunks.▶️ Play — start from current position
⏸️ Pause — pause
⏹️ Stop — full stop⏮️ Previous — previous chunk
⏭️ Next — next chunk
Text is voiced on the fly — the next chunk generates while the current one plays. No need to wait for the entire book.
The Reader remembers opened books. Last reading position is saved automatically. Continue from where you left off.
📂 Открыть книгу → Выберите TXT-файл → Текст загрузится и разобьётся на фрагменты.▶️ Прослушать — начать с текущей позиции
⏸️ Пауза — приостановить
⏹️ Стоп — полная остановка⏮️ Назад — предыдущий фрагмент
⏭️ Вперёд — следующий фрагмент
Текст озвучивается «на лету» — следующий фрагмент генерируется пока воспроизводится текущий. Не нужно ждать озвучки всей книги.
Читалка запоминает открытые книги. Последняя позиция чтения сохраняется автоматически. Можно продолжить с того места где остановились.
txtAI.tech Studio includes built-in prompt presets for AI text processing. You can also create your own.
Fix typos, punctuation, grammar. Text stays close to original.
Literary editing, style improvement, genre adaptation.
Scientific style, technical docs, simplifying complex texts.
Business correspondence, marketing, presentations.
Preparing text for voiceover: pauses, abbreviations, numbers.
Subtitle formatting, line splitting, screen adaptation.
txtAI.tech Studio содержит встроенные пресеты промптов для обработки текста через AI. Вы также можете создавать свои.
Исправление опечаток, пунктуации, грамматики. Текст максимально близок к оригиналу.
Художественная редактура, улучшение стиля, адаптация для жанров.
Научный стиль, техническая документация, упрощение сложных текстов.
Деловая переписка, маркетинговые тексты, презентации.
Подготовка текста для озвучки: паузы, аббревиатуры, числа.
Форматирование субтитров, разбиение на строки, адаптация для экрана.
| Shortcut | Action |
|---|---|
Ctrl+Z | Undo |
Ctrl+Y | Redo |
Ctrl+O | Open folder |
Esc | Cancel operation |
Ctrl+A | Select all files |
Delete | Remove selected |
Ctrl+S | Save settings |
| Клавиша | Действие |
|---|---|
Ctrl+Z | Отменить |
Ctrl+Y | Повторить |
Ctrl+O | Открыть папку |
Esc | Отменить операцию |
Ctrl+A | Выделить все файлы |
Delete | Удалить выбранные |
Ctrl+S | Сохранить настройки |
txtAI.tech Studio provides a complete pipeline for subtitle creation, translation, voiceover and dubbing — from raw audio/video to a fully dubbed video file.
▶ Generate subtitles📄 Split into filessrt_0001.txt, srt_0002.txt, etc.
📂 Load subtitles in the AI Processing tab → Select the folder with split .txt files → Choose AI provider and translation prompt → Click Start Processing!srt_0001.edited.txt, etc.
📝 Rebuild subtitles📂 Load subtitles in the Voiceover tab → Select the folder with translated .txt files → Choose TTS provider → Click Start Voiceover!🔊 Assemble audio by timings🎬 Overlay on video → Done!
txtAI.tech Studio предоставляет полный конвейер для создания субтитров, перевода, озвучки и дубляжа — от исходного аудио/видео до готового дублированного видеофайла.
▶ Генерировать субтитры📄 Разбить на файлыsrt_0001.txt, srt_0002.txt и т.д.
📂 Загрузить субтитры во вкладке Обработка нейронкой → Выберите папку с .txt файлами → Выберите AI-провайдер и промпт для перевода → Нажмите Погнали обрабатывать!srt_0001.edited.txt и т.д.
📝 Собрать субтитры📂 Загрузить субтитры во вкладке Озвучка → Выберите папку с переведёнными .txt файлами → Выберите TTS-провайдер → Нажмите Погнали озвучивать!🔊 Собрать аудио по таймингам🎬 Наложить на видео → Готово!
Frequently asked questions
Часто задаваемые вопросы
nvcc --version. Reinstall PyTorch with CUDA via Settings → Dependencies. Run nvidia-smi to verify..txtAI/piper/models/ for .onnx files. Download models manually from huggingface.co/rhasspy/piper-voices..txtAI/cudnn/. Version must match your CUDA Toolkit.nvcc --version. Переустановите PyTorch с CUDA через Параметры → Зависимости. Выполните nvidia-smi..txtAI/piper/models/ — там должны быть файлы .onnx..txtAI/cudnn/. Версия должна соответствовать CUDA Toolkit.| ProjectПроект | DescriptionОписание | LicenseЛицензия |
|---|---|---|
| Coqui TTS | XTTS v2 — multilingual TTS with voice cloning | MPL-2.0 |
| Piper | Fast local TTS on ONNX | MIT |
| WhisperX | Audio transcription with word-level alignment | BSD-4 |
| Kokoro-Ruslan | Russian TTS based on Kokoro | — |
| omogre | Russian stress marks and IPA | — |
| XTTS v2 Fine-tuning | XTTS fine-tuning with LoRA | — |
| Coqpit | Dataclass-based configuration | MIT |
| OmniVoice | 646-language zero-shot TTS with voice cloning | Apache-2.0 |
If you find this project useful, you can support its development
Если проект оказался полезным, вы можете поддержать его развитие
⭐ Star on GitHub — it helps a lot!
Open-source project for educational and research purposes, distributed under the MIT License.
Открытый проект для образовательных и исследовательских целей, распространяется под лицензией MIT.
The MIT license applies to the application source code only. TTS models are downloaded separately and have their own licenses. Some models may restrict commercial use.
Лицензия MIT распространяется только на исходный код приложения. TTS-модели скачиваются отдельно и имеют собственные лицензии. Некоторые модели могут ограничивать коммерческое использование.