Phase 2: Lokale Sprachsynthese mit Supertonic-3

Problemstellung

Neben der Textgenerierung sollte auch eine vollständig lokale Sprachsynthese ermöglicht werden.

Dabei traten insbesondere bei der Integration verschiedener OpenAI-kompatibler Clients zahlreiche Kompatibilitätsprobleme auf.

Ziele

  • Lokale TTS-Inferenz
  • OpenAI-kompatible API
  • Integration in OpenWebUI
  • Unterstützung von Browser-Clients
  • Verzicht auf Cloud-TTS

Architektur

Read Aloud
      │
      ▼
OpenAI-kompatibler Proxy
      │
      ▼
Supertonic-3
      │
      ▼
Lokale Sprachsynthese

Implementierte Lösungen

OpenAI-kompatibler Proxy

Der Proxy übernimmt:

  • CORS
  • OPTIONS-Requests
  • API-Anpassungen
  • Fehlerbehandlung
  • Request-Transformation

Emulierte OpenAI-Endpunkte

Unter anderem:

/v1/models
/v1/audio/speech

Audio-Konvertierung

Automatische Anpassung zwischen:

  • MP3
  • WAV

Fehlerbehebung

Gelöst wurden unter anderem:

  • fehlende API-Endpunkte,
  • fehlerhafte Payloads,
  • Content-Length-Probleme,
  • Unicode-Fehler,
  • Browser-Inkompatibilitäten.

Ergebnis

Es entstand eine vollständig lokale, OpenAI-kompatible Sprachsyntheseplattform.