Seite 3 von 6
Phase 2: Lokale Sprachsynthese mit Supertonic-3
Problemstellung
Neben der Textgenerierung sollte auch eine vollständig lokale Sprachsynthese ermöglicht werden.
Dabei traten insbesondere bei der Integration verschiedener OpenAI-kompatibler Clients zahlreiche Kompatibilitätsprobleme auf.
Ziele
- Lokale TTS-Inferenz
- OpenAI-kompatible API
- Integration in OpenWebUI
- Unterstützung von Browser-Clients
- Verzicht auf Cloud-TTS
Architektur
Read Aloud
│
▼
OpenAI-kompatibler Proxy
│
▼
Supertonic-3
│
▼
Lokale Sprachsynthese
Implementierte Lösungen
OpenAI-kompatibler Proxy
Der Proxy übernimmt:
- CORS
- OPTIONS-Requests
- API-Anpassungen
- Fehlerbehandlung
- Request-Transformation
Emulierte OpenAI-Endpunkte
Unter anderem:
/v1/models
/v1/audio/speech
Audio-Konvertierung
Automatische Anpassung zwischen:
- MP3
- WAV
Fehlerbehebung
Gelöst wurden unter anderem:
- fehlende API-Endpunkte,
- fehlerhafte Payloads,
- Content-Length-Probleme,
- Unicode-Fehler,
- Browser-Inkompatibilitäten.
Ergebnis
Es entstand eine vollständig lokale, OpenAI-kompatible Sprachsyntheseplattform.