txtAI.tech Studio

Powerful tool for batch file processing, book conversion, AI text editing and TTS voiceover

Мощный инструмент для массовой обработки файлов, конвертации книг, AI-редактирования текста и озвучки через TTS

14 languages 7 TTS providers 7 AI providers MIT License Windows
⬇ Download ⬇ Скачать ⭐ GitHub

Features

Возможности

Everything you need for text, audio and file processing in one app

Всё для работы с текстом, аудио и файлами в одном приложении

📁

Files

Файлы

Batch rename, copy, archive, audio merge, playlists. 12 rename presets, undo/redo.

Массовое переименование, копирование, архивация, склейка аудио, плейлисты. 12 пресетов, отмена/повтор.

📚

Prepare

Подготовка

Convert EPUB, FB2, DOCX, PDF → TXT. AI text processing with built-in prompt presets.

Конвертация EPUB, FB2, DOCX, PDF → TXT. Обработка текста через AI с готовыми пресетами промптов.

🎙️

Voiceover

Озвучка

Batch text-to-speech with 7 TTS providers. Parallel processing, voice cloning.

Массовая озвучка текста через 7 TTS-провайдеров. Параллельная обработка, клонирование голоса.

📖

Reader

Читалка

Streaming book playback with automatic voiceover and caching. Library with reading history.

Потоковое прослушивание книг с автоматической озвучкой и кешированием. Библиотека с историей.

🎓

TTS Training

Обучение TTS

Fine-tune XTTS v2 with LoRA, train Piper and Kokoro-Ruslan voices. WhisperX dataset prep.

Дообучение XTTS v2 с LoRA, обучение голосов Piper и Kokoro-Ruslan. Подготовка датасетов через WhisperX.

🎬

Subtitle Voiceover

Озвучка субтитров

Split SRT/VTT into lines, translate via AI, voice with any TTS, assemble dubbed audio, overlay on video via FFmpeg.

Разбивка SRT/VTT на строки, перевод через AI, озвучка любым TTS, сборка дубляжа, наложение на видео через FFmpeg.

🌐

14 Languages

14 языков

Full UI localization: RU, EN, DE, ES, PT, FR, ZH, JA, KO, AR, HI, FA, VI, TH.

Полная локализация интерфейса: RU, EN, DE, ES, PT, FR, ZH, JA, KO, AR, HI, FA, VI, TH.

TTS Providers

Local and cloud speech synthesis engines

Локальные и облачные движки синтеза речи

ProviderПровайдер TypeТип DescriptionОписание
PiperLocal Fast, CPU, lightweightБыстрый, CPU, лёгкий
XTTS v2Local Voice cloning, high quality, GPUКлонирование голоса, высокое качество, GPU
Kokoro-RuslanLocal Russian TTS based on Kokoro (82M)Русский TTS на базе Kokoro (82M)
OmniVoiceLocal 646 languages, voice cloning, GPU (k2-fsa)646 языков, клонирование голоса, GPU (k2-fsa)
FreeTTS.ruCloud Free, 14 Russian voicesБесплатный, 14 русских голосов
Puter.js TTSCloud AWS Polly, OpenAI, ElevenLabsAWS Polly, OpenAI, ElevenLabs
Custom TTSAny User-defined serverПользовательский сервер

Platform Support

Поддержка платформ

WindowsmacOS (planned)
GUIPySide6PySide6
XTTSCUDA GPUMPS GPU
PiperCUDA / CPUCPU
KokoroCUDA / CPUMPS GPU
OmniVoiceCUDA GPU
WhisperXCUDA (faster-whisper)MLX Whisper
BuildСборка Portable (Python + FFmpeg bundled)Портативная (Python + FFmpeg в комплекте) PlannedПланируется

Quick Start

Быстрый старт

🪟 Windows

  1. Download txtAI-studio-*-win-x64.zip from Releases
  2. Скачайте txtAI-studio-*-win-x64.zip из Releases
  3. Extract to any folder
  4. Распакуйте в любую папку
  5. Run install.bat — choose components
  6. Запустите install.bat — выберите компоненты
  7. Run txtAI.bat
  8. Запустите txtAI.bat

Python, FFmpeg and base dependencies are bundled.

Python, FFmpeg и базовые зависимости включены в архив.

🍎 macOS (Apple Silicon) — coming soon

macOS support is planned for a future release. Stay tuned on GitHub.

Поддержка macOS планируется в будущих версиях. Следите за обновлениями на GitHub.

Data Structure

Структура данных

All data is stored in .txtAI/ next to the program. Nothing is installed to system folders.

Все данные хранятся в .txtAI/ рядом с программой. Ничего не устанавливается в системные папки.

.txtAI/
├── tts_env/           — unified TTS environment
├── omnivoice_env/     — OmniVoice (isolated, torch 2.6+)
├── models/            — all models and caches
├── xtts_models/       — trained LoRA adapters
├── piper/models/      — Piper voices
├── cudnn/             — cuDNN DLLs (Windows)
└── tools/             — bundled Python, FFmpeg

Documentation

Документация

1. Opening Files (Files Tab)

Files tab
Option 1: Click 📁 Open Folder on the toolbar
Option 2: Click ➕ Add Files to select individual files
Option 3: Drag & drop files/folders directly into the window

2. Renaming Files

1. Check the desired files → 2. Select Rename mode → 3. Configure parameters → 4. Click Apply
Use ↶ Undo (Ctrl+Z) to roll back if needed.

3. Book Conversion

Prepare tab
Go to Prepare → Convert Files → Add books (EPUB, FB2, DOCX, PDF) → Configure splitting → Click Split → TXT

4. AI Text Processing

Select AI provider → Set up API key in Settings → AI Models → Choose a prompt preset → Click Start Processing!

5. Text-to-Speech

Voiceover tab
Select TTS provider (Piper, XTTS, Kokoro, FreeTTS, Puter.js, Custom) → Make sure server is running (green ●) → Click Start Voiceover!

6. Book Playback (Reader)

Reader tab
Open a TXT file via 📂 Open Book → Click ▶️ Play → Use ⏸️ Pause, ⏮️ Previous, ⏭️ Next
💡 Use the file transfer buttons between tabs for a fast workflow.

1. Открытие файлов (вкладка Файлы)

Files tab
Способ 1: Нажмите 📁 Открыть папку на панели инструментов
Способ 2: Нажмите ➕ Добавить файлы для выбора отдельных файлов
Способ 3: Перетащите файлы/папки прямо в окно программы

2. Переименование файлов

1. Отметьте галочками нужные файлы → 2. Выберите режим Переименование → 3. Настройте параметры → 4. Нажмите Применить
Используйте ↶ Отменить (Ctrl+Z) если нужно откатить.

3. Конвертация книг

Prepare tab
Перейдите на Подготовка → Конвертация файлов → Добавьте книги (EPUB, FB2, DOCX, PDF) → Настройте разбиение → Нажмите Разбить → TXT

4. Обработка текста через AI

Выберите провайдер AI → Настройте API ключ в Параметры → Нейронки → Выберите пресет промпта → Нажмите Погнали обрабатывать!

5. Озвучка текста

Voiceover tab
Выберите провайдер TTS (Piper, XTTS, Kokoro, FreeTTS, Puter.js, Custom) → Убедитесь что сервер запущен (зелёный ●) → Нажмите Погнали озвучивать!

6. Прослушивание книг (Читалка)

Reader tab
Откройте TXT файл через 📂 Открыть книгу → Нажмите ▶️ Прослушать → Используйте ⏸️ Пауза, ⏮️ Назад, ⏭️ Вперёд
💡 Используйте кнопки передачи файлов между вкладками для быстрого workflow.

🐦 Piper TTS (Local, CPU/GPU)

Fast and lightweight speech synthesis. Runs on CPU, no powerful GPU required. Port: 5003

1. Go to Settings → Dependencies → 2. Click Install Piper → 3. Wait for voice models → 4. Start with ▶ Start Piper

🎙️ XTTS v2 (Local, GPU)

High-quality voice cloning. Requires NVIDIA GPU with CUDA. Port: 5002, Python 3.9–3.11, min 4 GB VRAM.

1. Ensure Python 3.9–3.11 is installed → 2. Settings → Dependencies → 3. Install XTTS v2 (~3 GB) → 4. ▶ Start XTTS
⚠️ If CUDA is unavailable, XTTS falls back to CPU (very slow). Make sure NVIDIA drivers and cuDNN are installed.

🗣️ Kokoro-Ruslan (Local)

Russian-language TTS based on Kokoro model. Port: 5004

1. Settings → Dependencies → 2. Install Kokoro-Ruslan → 3. Wait for model → 4. ▶ Start Kokoro

🌍 OmniVoice (Local, GPU, 646 languages)

Zero-shot multilingual TTS with voice cloning. Requires NVIDIA GPU. Port: 5005. Isolated environment (own torch 2.6 + transformers 5.x).

1. Settings → Dependencies → 2. Install OmniVoice (~4 GB) → 3. Wait for model download → 4. ▶ Start OmniVoice

☁️ FreeTTS.ru (Cloud, Free)

Free cloud service. No installation, no API key needed.

Select FreeTTS from provider list → Choose a voice → Done!

☁️ Puter.js TTS (Cloud)

Cloud TTS via Puter.js. Supports AWS Polly, OpenAI TTS, and ElevenLabs.

Select Puter.js TTS → Choose engine → Enter API key if needed → Select voice
✅ Start with FreeTTS.ru (no setup) or Piper (lightweight and fast).

🐦 Piper TTS (локальный, CPU/GPU)

Быстрый и лёгкий синтез речи. Работает на CPU. Порт: 5003

1. Параметры → Зависимости → 2. Установить Piper → 3. Дождитесь загрузки моделей → 4. ▶ Запустить Piper

🎙️ XTTS v2 (локальный, GPU)

Высококачественный клон голоса. Требует NVIDIA GPU с CUDA. Порт: 5002, Python 3.9–3.11, мин. 4 ГБ VRAM.

1. Убедитесь что Python 3.9–3.11 установлен → 2. Параметры → Зависимости → 3. Установить XTTS v2 (~3 ГБ) → 4. ▶ Запустить XTTS
⚠️ Если CUDA недоступна, XTTS будет работать на CPU (очень медленно). Убедитесь что установлены драйверы NVIDIA и cuDNN.

🗣️ Kokoro-Ruslan (локальный)

Русскоязычный TTS на базе модели Kokoro. Порт: 5004

1. Параметры → Зависимости → 2. Установить Kokoro-Ruslan → 3. Дождитесь загрузки → 4. ▶ Запустить Kokoro

🌍 OmniVoice (локальный, GPU, 646 языков)

Мультиязычный TTS с клонированием голоса. Требует NVIDIA GPU. Порт: 5005. Изолированное окружение (свой torch 2.6 + transformers 5.x).

1. Параметры → Зависимости → 2. Установить OmniVoice (~4 ГБ) → 3. Дождитесь загрузки модели → 4. ▶ Запустить OmniVoice

☁️ FreeTTS.ru (облачный, бесплатный)

Бесплатный облачный сервис. Не требует установки и API-ключа.

Выберите FreeTTS в списке провайдеров → Выберите голос → Готово!

☁️ Puter.js TTS (облачный)

Облачный TTS через Puter.js. Поддерживает AWS Polly, OpenAI TTS и ElevenLabs.

Выберите Puter.js TTS → Выберите движок → Введите API-ключ при необходимости → Выберите голос
✅ Для начала попробуйте FreeTTS.ru (не нужна установка) или Piper (лёгкий и быстрый).

Adding Files

Click ➕ Add Files and select TXT files, or drag & drop into the table, or transfer from Prepare tab using → To Voiceover.

Processing Settings

Threads — parallel requests to TTS server (1–8)
Timeout — max response wait time (sec)
Voice — select from available voices
Speed — speech rate (if supported)

Controls

🚀 Start Voiceover! — begin for selected files
⏹ Stop — stop current voiceover
📂 Open Result — open folder with finished audio

Results are saved to a tts_output subfolder next to the source files (WAV or MP3).

💡 For Piper/XTTS, make sure the server is running (green ● indicator) before starting.

Добавление файлов

Нажмите ➕ Добавить файлы и выберите TXT-файлы, или перетащите в таблицу, или передайте с вкладки Подготовка кнопкой → В озвучку.

Настройки обработки

Потоки — параллельные запросы к TTS-серверу (1–8)
Таймаут — макс. время ожидания ответа (сек)
Голос — выбор из доступных голосов
Скорость — скорость речи (если поддерживается)

Управление

🚀 Погнали озвучивать! — запуск для выбранных файлов
⏹ Стоп — остановка текущей озвучки
📂 Открыть результат — открыть папку с готовыми аудио

Результаты сохраняются в подпапку tts_output рядом с исходными файлами (WAV или MP3).

💡 Для Piper/XTTS убедитесь что сервер запущен (зелёный ●) перед началом озвучки.

Opening a Book

Click 📂 Open Book → Select a TXT file → Text loads and splits into chunks.

Playback Controls

▶️ Play — start from current position   ⏸️ Pause — pause   ⏹️ Stop — full stop
⏮️ Previous — previous chunk   ⏭️ Next — next chunk

Volume & Speed

Volume slider (0–100%)   Speed slider (0.5x – 2.0x)

Streaming Mode

Text is voiced on the fly — the next chunk generates while the current one plays. No need to wait for the entire book.

Library

The Reader remembers opened books. Last reading position is saved automatically. Continue from where you left off.

💡 For best quality use XTTS v2 or Kokoro-Ruslan. For speed — Piper.

Открытие книги

Нажмите 📂 Открыть книгу → Выберите TXT-файл → Текст загрузится и разобьётся на фрагменты.

Управление воспроизведением

▶️ Прослушать — начать с текущей позиции   ⏸️ Пауза — приостановить   ⏹️ Стоп — полная остановка
⏮️ Назад — предыдущий фрагмент   ⏭️ Вперёд — следующий фрагмент

Громкость и скорость

Громкость (0–100%)   Скорость (0.5x – 2.0x)

Потоковый режим

Текст озвучивается «на лету» — следующий фрагмент генерируется пока воспроизводится текущий. Не нужно ждать озвучки всей книги.

Библиотека

Читалка запоминает открытые книги. Последняя позиция чтения сохраняется автоматически. Можно продолжить с того места где остановились.

💡 Для лучшего качества используйте XTTS v2 или Kokoro-Ruslan. Для скорости — Piper.

txtAI.tech Studio includes built-in prompt presets for AI text processing. You can also create your own.

Prompt Structure

A good prompt has 5 elements: Role (who the AI is) → Task (what to do) → Context (genre, style) → Limits (what not to do) → Format (how to return result).

Preset Categories

✏️

Minimal Edits

Fix typos, punctuation, grammar. Text stays close to original.

📚

Literature

Literary editing, style improvement, genre adaptation.

🔬

Science & Tech

Scientific style, technical docs, simplifying complex texts.

💼

Business

Business correspondence, marketing, presentations.

🔊

TTS-Specific

Preparing text for voiceover: pauses, abbreviations, numbers.

🎬

Subtitles

Subtitle formatting, line splitting, screen adaptation.

txtAI.tech Studio содержит встроенные пресеты промптов для обработки текста через AI. Вы также можете создавать свои.

Структура промпта

Хороший промпт состоит из 5 элементов: Роль (кем является AI) → Задача (что сделать) → Контекст (жанр, стиль) → Ограничения (чего нельзя) → Формат (в каком виде вернуть).

Категории пресетов

✏️

Минимальные правки

Исправление опечаток, пунктуации, грамматики. Текст максимально близок к оригиналу.

📚

Литература

Художественная редактура, улучшение стиля, адаптация для жанров.

🔬

Наука и техника

Научный стиль, техническая документация, упрощение сложных текстов.

💼

Бизнес

Деловая переписка, маркетинговые тексты, презентации.

🔊

TTS-специфичные

Подготовка текста для озвучки: паузы, аббревиатуры, числа.

🎬

Субтитры

Форматирование субтитров, разбиение на строки, адаптация для экрана.

📋 General

Open folder after conversion · Remove empty lines · Interface language · Theme (Light/Dark/System)

⚡ Performance

Max files limit · Metadata mode (Full/Fast) · Processing threads

🤖 AI Models

TTS Providers: Piper, XTTS, Kokoro, FreeTTS, Puter.js — port config, voice selection, synthesis parameters.
Text Processing: Custom Server, Puter AI, LLM7.IO, g4f, OpenAI, Anthropic, Gemini.
API Keys: OpenAI, Anthropic, Google Gemini, ElevenLabs.

🌐 Network & Proxy

HTTP/SOCKS5 proxy · Connection timeout · Retry attempts

📦 Dependencies

Install/update TTS servers · Check Python, CUDA, cuDNN · Download voice models · Manage virtual environments
💡 After changing settings, click Save. Some options require an app restart.

📋 Общие

Открывать папку после конвертации · Удалять пустые строки · Язык интерфейса · Тема (Светлая/Тёмная/Системная)

⚡ Производительность

Максимум файлов · Режим метаданных (Полный/Быстрый) · Потоки обработки

🤖 Нейронки

TTS-провайдеры: Piper, XTTS, Kokoro, FreeTTS, Puter.js — порты, голоса, параметры синтеза.
Обработка текста: Custom Server, Puter AI, LLM7.IO, g4f, OpenAI, Anthropic, Gemini.
API-ключи: OpenAI, Anthropic, Google Gemini, ElevenLabs.

🌐 Сеть и прокси

HTTP/SOCKS5 прокси · Таймаут соединения · Повторные попытки

📦 Зависимости

Установка/обновление TTS-серверов · Проверка Python, CUDA, cuDNN · Загрузка моделей · Управление окружениями
💡 После изменения настроек нажмите Сохранить. Некоторые параметры требуют перезапуска.

General

ShortcutAction
Ctrl+ZUndo
Ctrl+YRedo
Ctrl+OOpen folder
EscCancel operation
Ctrl+ASelect all files
DeleteRemove selected
Ctrl+SSave settings

Drag & Drop

Files — drag files/folders to add
Prepare — drag books (EPUB, FB2, DOCX, PDF)
Voiceover — drag TXT files
Reader — drag a TXT file to open

Общие

КлавишаДействие
Ctrl+ZОтменить
Ctrl+YПовторить
Ctrl+OОткрыть папку
EscОтменить операцию
Ctrl+AВыделить все файлы
DeleteУдалить выбранные
Ctrl+SСохранить настройки

Drag & Drop

Файлы — перетащите файлы/папки для добавления
Подготовка — перетащите книги (EPUB, FB2, DOCX, PDF)
Озвучка — перетащите TXT-файлы
Читалка — перетащите TXT-файл для открытия

Subtitle Workflow Overview

txtAI.tech Studio provides a complete pipeline for subtitle creation, translation, voiceover and dubbing — from raw audio/video to a fully dubbed video file.

1. Generate Subtitles from Audio/Video

Subtitles tab
Go to Prepare → Subtitles tab → Select audio or video file → Choose WhisperX model and language → Click ▶ Generate subtitles
Outputs SRT, VTT or both formats. Uses WhisperX with GPU acceleration for fast, accurate transcription.

2. Split Subtitles into Lines

Go to Subtitle Voiceover tab → Load your SRT/VTT file → Click 📄 Split into files
Each subtitle line becomes a separate numbered .txt file: srt_0001.txt, srt_0002.txt, etc.

3. Translate via AI

Click 📂 Load subtitles in the AI Processing tab → Select the folder with split .txt files → Choose AI provider and translation prompt → Click Start Processing!
All lines are translated in parallel. Results saved as srt_0001.edited.txt, etc.

4. Rebuild Translated Subtitles

Back in Subtitle Voiceover → Point to the folder with translated files → Click 📝 Rebuild subtitles
Creates a new SRT/VTT file with original timings but translated text. Saved next to the original.

5. Voice the Translated Lines

Click 📂 Load subtitles in the Voiceover tab → Select the folder with translated .txt files → Choose TTS provider → Click Start Voiceover!
Each line is voiced as a separate .wav file with matching numbering.

6. Assemble Dubbed Audio

In Subtitle Voiceover → Step 3 → Point to the folder with voiced .wav files → Click 🔊 Assemble audio by timings
Places each voiced clip at its subtitle timestamp. Mild time-stretch via FFmpeg atempo (pitch-preserving) when needed.

7. Overlay on Video

Step 4 → Select original video → Choose mode:
Replace — remove original audio, use only dubbed
Mix — keep original at low volume + dubbed at full volume
Dual track — both audio tracks in the video (switchable in player)
Click 🎬 Overlay on video → Done!
💡 The entire pipeline works with any TTS provider: Piper, XTTS, Kokoro, OmniVoice, FreeTTS, or Custom. OmniVoice supports 646 languages with voice cloning.

Обзор работы с субтитрами

txtAI.tech Studio предоставляет полный конвейер для создания субтитров, перевода, озвучки и дубляжа — от исходного аудио/видео до готового дублированного видеофайла.

1. Генерация субтитров из аудио/видео

Subtitles tab
Перейдите на Подготовка → Субтитры → Выберите аудио или видео файл → Укажите модель WhisperX и язык → Нажмите ▶ Генерировать субтитры
Результат в формате SRT, VTT или оба. Используется WhisperX с GPU-ускорением.

2. Разбивка субтитров на строки

Перейдите на вкладку Озвучка субтитров → Загрузите SRT/VTT файл → Нажмите 📄 Разбить на файлы
Каждая строка субтитров становится отдельным .txt файлом: srt_0001.txt, srt_0002.txt и т.д.

3. Перевод через AI

Нажмите 📂 Загрузить субтитры во вкладке Обработка нейронкой → Выберите папку с .txt файлами → Выберите AI-провайдер и промпт для перевода → Нажмите Погнали обрабатывать!
Все строки переводятся параллельно. Результаты: srt_0001.edited.txt и т.д.

4. Сборка переведённых субтитров

Вернитесь на Озвучка субтитров → Укажите папку с переведёнными файлами → Нажмите 📝 Собрать субтитры
Создаётся новый SRT/VTT файл с оригинальными таймингами, но переведённым текстом. Сохраняется рядом с оригиналом.

5. Озвучка переведённых строк

Нажмите 📂 Загрузить субтитры во вкладке Озвучка → Выберите папку с переведёнными .txt файлами → Выберите TTS-провайдер → Нажмите Погнали озвучивать!
Каждая строка озвучивается в отдельный .wav файл с соответствующей нумерацией.

6. Сборка дубляжа

На вкладке Озвучка субтитров → Шаг 3 → Укажите папку с озвученными .wav файлами → Нажмите 🔊 Собрать аудио по таймингам
Каждый клип размещается по временной метке субтитра. При необходимости применяется мягкое ускорение через FFmpeg atempo (без изменения тона).

7. Наложение на видео

Шаг 4 → Выберите оригинальное видео → Выберите режим:
Заменить — удалить оригинальную дорожку, оставить только дубляж
Микшировать — оригинал тихо + дубляж на полной громкости
Две дорожки — обе аудиодорожки в видео (переключаются в плеере)
Нажмите 🎬 Наложить на видео → Готово!
💡 Весь конвейер работает с любым TTS-провайдером: Piper, XTTS, Kokoro, OmniVoice, FreeTTS или Custom. OmniVoice поддерживает 646 языков с клонированием голоса.

FAQ

Frequently asked questions

Часто задаваемые вопросы

Which Python version is required?
XTTS v2 requires Python 3.9–3.11. Python 3.12+ is not supported. Recommended: Python 3.10 or 3.11.
CUDA not detected / torch doesn't see GPU
Make sure NVIDIA drivers (525+) are installed. Check CUDA Toolkit: nvcc --version. Reinstall PyTorch with CUDA via Settings → Dependencies. Run nvidia-smi to verify.
FreeTTS.ru — timeout or connection error
Check internet connection. Increase timeout in Settings → Network. The service may be temporarily overloaded — try again later. Try using a proxy if unavailable in your region.
Piper: model not found
Go to Settings → Dependencies and reinstall Piper. Check .txtAI/piper/models/ for .onnx files. Download models manually from huggingface.co/rhasspy/piper-voices.
cuDNN error / cuDNN not found
cuDNN is required for XTTS v2 on GPU. Click Install cuDNN in Settings → Dependencies. Or download from NVIDIA and extract to .txtAI/cudnn/. Version must match your CUDA Toolkit.
TTS server won't start
Check if the port is already in use. Check the Logs tab for error details. Try reinstalling via Settings → Dependencies. Make sure antivirus is not blocking the process.
Какая версия Python нужна?
Для XTTS v2 требуется Python 3.9–3.11. Python 3.12+ не поддерживается. Рекомендуется Python 3.10 или 3.11.
CUDA не обнаружена / torch не видит GPU
Убедитесь что установлены драйверы NVIDIA (версия 525+). Проверьте CUDA Toolkit: nvcc --version. Переустановите PyTorch с CUDA через Параметры → Зависимости. Выполните nvidia-smi.
FreeTTS.ru — таймаут или ошибка соединения
Проверьте подключение к интернету. Увеличьте таймаут в Параметры → Сеть и прокси. Сервис может быть временно перегружен. Попробуйте использовать прокси.
Piper: модель не найдена
Перейдите в Параметры → Зависимости и переустановите Piper. Проверьте папку .txtAI/piper/models/ — там должны быть файлы .onnx.
Ошибка cuDNN / cuDNN не найден
cuDNN необходим для работы XTTS v2 на GPU. Нажмите Установить cuDNN в Параметры → Зависимости. Или скачайте с сайта NVIDIA и распакуйте в .txtAI/cudnn/. Версия должна соответствовать CUDA Toolkit.
TTS-сервер не запускается
Проверьте не занят ли порт другим приложением. Посмотрите логи во вкладке Логи. Попробуйте переустановить через Параметры → Зависимости. Убедитесь что антивирус не блокирует запуск.

Acknowledgements & Third-Party Code

Благодарности и сторонний код

ProjectПроект DescriptionОписание LicenseЛицензия
Coqui TTSXTTS v2 — multilingual TTS with voice cloningMPL-2.0
PiperFast local TTS on ONNXMIT
WhisperXAudio transcription with word-level alignmentBSD-4
Kokoro-RuslanRussian TTS based on Kokoro
omogreRussian stress marks and IPA
XTTS v2 Fine-tuningXTTS fine-tuning with LoRA
CoqpitDataclass-based configurationMIT
OmniVoice646-language zero-shot TTS with voice cloningApache-2.0

License

Лицензия

Open-source project for educational and research purposes, distributed under the MIT License.

Открытый проект для образовательных и исследовательских целей, распространяется под лицензией MIT.

The MIT license applies to the application source code only. TTS models are downloaded separately and have their own licenses. Some models may restrict commercial use.

Лицензия MIT распространяется только на исходный код приложения. TTS-модели скачиваются отдельно и имеют собственные лицензии. Некоторые модели могут ограничивать коммерческое использование.