Karagöz & Hacivat XTTS v2
Model Açıklaması
Karagöz & Hacivat XTTS v2, Türk geleneksel gölge oyunu karakterlerinin özgün ses tonlarını, şivelerini ve karakteristik üsluplarını dijital dünyada canlandırmak için geliştirilmiş bir Text-to-Speech (TTS) projesidir. Coqui TTS XTTS v2 mimarisi üzerine inşa edilen bu modeller, karakterlerin geleneksel ruhunu koruyarak yüksek kaliteli Türkçe konuşma sentezi sağlar.
Temel Özellikler:
- Base Model: Coqui XTTS v2
- Yöntem: Fine-tuning (İnce Ayar)
- Dil: Türkçe (TR)
- Karakterler: Karagöz (Halk ağzı, enerjik) & Hacivat (Formal, bilgiç)
Eğitim Detayları
Dataset
- Kaynak: Geleneksel gölge oyunu ses kayıtları.
- İşleme: Demucs ile vokal ayrıştırma, Bandpass filtreleme ve Spektral Gating yöntemleriyle gürültü temizliği yapılmıştır.
- Segmentasyon: 10-15 saniyelik, XTTS v2 limitlerine uygun (max 220 karakter) segmentler oluşturulmuştur.
- Etiketleme: Karakter bazlı ayrıştırma (Diarization) ve duygu analizi (Emotion labeling) uygulanmıştır.
Eğitim Konfigürasyonu
| Parametre | Değer |
|---|---|
| Base Model | XTTS v2 |
| Örnekleme Hızı | 22,050 Hz |
| Batch Size | 4-8 (GPU belleğine göre) |
| Optimizer | AdamW |
| Precision | Mixed Precision (FP16/BF16) |
Türkçe ve Karakter Zorlukları
- Prosodi: Karagöz'ün kelimeleri yanlış anlaması ve Hacivat'ın ağdalı cümle yapısı için özel tonlama çalışmaları yapılmıştır.
- Şive: Karakterlerin özgün "İstanbul ağzı" ve "Halk ağzı" dengesi korunmuştur.
- Ses Kalitesi: Arşiv kayıtlarındaki cızırtı ve müzik sesleri, modelin ses karakteristiğini bozmadan temizlenmiştir.
Kurulum
pip install TTS torch torchaudio
Kullanım
Inference Kodu (Karagöz Örneği)
from TTS.api import TTS
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
# Model yolları (Repo yapısına göre)
model_path = "models/karagoz/" # veya "models/hacivat/"
tts = TTS(
model_path=f"{model_path}model.pth",
config_path=f"{model_path}config.json",
vocab_path=f"{model_path}vocab.json"
).to(device)
# Sentezleme
tts.tts_to_file(
text="Aman Hacıvat, yine ne diller dökersin!",
speaker_wav="references/karagoz_ref.wav",
language="tr",
file_path="output.wav"
)
📜 Lisans ve Kullanım Şartları
⚠️ ÖNEMLİ: Bu proje Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) lisansı ile korunmaktadır.
- Ticari Kullanım Yasağı: Bu modeller, ses dosyaları ve veri setleri asla ticari bir amaçla kullanılamaz, üzerinden gelir elde edilemez.
- Atıf: Projenin kullanıldığı yerlerde geliştiriciye (SalihHub) atıfta bulunulmalıdır.
- Aynı Lisansla Paylaşım: Bu modelleri temel alarak yapılan geliştirmeler de aynı lisans (ticari olmayan) ile paylaşılmalıdır.
Geliştirici: SalihHub
Kategori: Ses Sentezi (TTS)
Anahtar Kelimeler: Karagöz, Hacivat, XTTS, Türkçe TTS, Gölge Oyunu, Yapay Zeka.
Model tree for SalihHub/karagoz-hacivat-xtts
Base model
coqui/XTTS-v2