Beitragsseiten

Ziel und Problemstellung: Ziel des Projektes war der Aufbau einer vollständig lokalen, datenschutzfreundlichen KI-Umgebung, die unabhängig von Cloud-Anbietern arbeitet und sowohl kreative als auch analytische Aufgaben übernehmen kann. Der Fokus lag dabei auf: lokaler Sprachmodell-Inferenz, lokaler Sprachsynthese, modularen Multi-Agent-Systemen, persistentem Wissensmanagement, sowie der Vorbereitung zukünftiger autonomer KI-Agenten.

Ergebnisse: Die Entwicklung erfolgte schrittweise und orientierte sich an praktischen Anwendungsfällen. Es wurden diverse Erfahrungen gesammelt und das Wissen mithilfe der erwähnten Gaming-Maschine angewendet.

Übersicht

Das Projekt entwickelte sich von einer lokalen LLM-Installation zu einer modularen Multi-Agent-Plattform für kreative und analytische Aufgaben.

Die wichtigsten Erkenntnisse waren:

Architektur ist wichtiger als Modellgröße.
Spezialisierte Agenten sind leistungsfähiger als universelle Modelle.
Persistentes Wissen ist entscheidend für Langzeitprojekte.
Lokale KI-Systeme können bereits heute komplexe Agentenarchitekturen unterstützen.
Die Zukunft liegt weniger in einzelnen Modellen als in kooperierenden lokalen KI-Agentensystemen.

Aufgrund der Tiefe und der Ergänzungen durch KI wird dieser Artikel aufgeteilt!

Das Titelbild wurde übrigens mit ChatGPT5o erstellt.

Phase 1: Aufbau der lokalen KI-Infrastruktur

Problemstellung

Cloudbasierte KI-Dienste verursachen:

laufende Kosten,
Datenschutzprobleme,
API-Abhängigkeiten,
begrenzte Anpassbarkeit,
eingeschränkte Offline-Fähigkeiten.

Es sollte daher eine vollständig lokale Infrastruktur aufgebaut werden.

Ziele

Vollständig lokaler Betrieb
Docker-basierte Architektur
Unterstützung verschiedener Open-Source-Modelle
Austauschbare Komponenten
Hardwarebeschleunigung über GPU
Integration in OpenWebUI

Umsetzung

Die Infrastruktur basiert auf:

Docker
Ollama
OpenWebUI
NVIDIA GPU-Beschleunigung
Reverse Proxy Infrastruktur

Dadurch entstand eine modulare lokale KI-Plattform, auf der verschiedene Sprachmodelle parallel betrieben werden können.

Phase 2: Lokale Sprachsynthese mit Supertonic-3

Problemstellung

Neben der Textgenerierung sollte auch eine vollständig lokale Sprachsynthese ermöglicht werden.

Dabei traten insbesondere bei der Integration verschiedener OpenAI-kompatibler Clients zahlreiche Kompatibilitätsprobleme auf.

Ziele

Lokale TTS-Inferenz
OpenAI-kompatible API
Integration in OpenWebUI
Unterstützung von Browser-Clients
Verzicht auf Cloud-TTS

Architektur

Read Aloud
      │
      ▼
OpenAI-kompatibler Proxy
      │
      ▼
Supertonic-3
      │
      ▼
Lokale Sprachsynthese

Implementierte Lösungen

OpenAI-kompatibler Proxy

Der Proxy übernimmt:

CORS
OPTIONS-Requests
API-Anpassungen
Fehlerbehandlung
Request-Transformation

Emulierte OpenAI-Endpunkte

Unter anderem:

/v1/models
/v1/audio/speech

Audio-Konvertierung

Automatische Anpassung zwischen:

Fehlerbehebung

Gelöst wurden unter anderem:

fehlende API-Endpunkte,
fehlerhafte Payloads,
Content-Length-Probleme,
Unicode-Fehler,
Browser-Inkompatibilitäten.

Ergebnis

Es entstand eine vollständig lokale, OpenAI-kompatible Sprachsyntheseplattform.

Phase 3: Entwicklung einer lokalen Multi-Model-Schreibpipeline

Problemstellung

Einzelne Sprachmodelle zeigten bei längeren Projekten erhebliche Schwächen:

Stilbrüche,
Inkonsistenzen,
Plotfehler,
Lore-Verlust,
hohe Rechenkosten.

Es wurde daher eine rollenbasierte Multi-Agent-Architektur entwickelt.

Ziele

Funktional

Trennung von Schreiben und Review
Persistentes Memory
Iterative Verbesserung
Unterstützung großer Projekte

Technisch

Vollständig lokal
Modulare Architektur
Austauschbare Modelle
Hohe Skalierbarkeit
Robuste Wiederaufnahme

Erste Implementierung: Python-Pipeline

Die erste Version entstand als lineare Python-Pipeline.

WRITE-Modus

Idee
   ↓
Writer
(Mistral Small 3.2)
   ↓
Review
   ↓
Merge
(Nemotron Cascade)
   ↓
Memory
(Nemotron Nano)

REVIEW-Modus

Kapitel
    ↓
Review0
(Nemotron Nano)
    ↓
Review1
(Qwen)
    ↓
Review2
(Gemma)
    ↓
Merge
(Nemotron Cascade)
    ↓
Memory

Modellrollen

Rolle	Modell	Aufgabe
Writer	Mistral Small 3.2	Kreative Texterstellung
Review0	Nemotron Nano	Schnelle Vorprüfung
Review1	Qwen 3.5	Struktur, Logik, Lore
Review2	Gemma 4	Stil und Konsistenz
Merge	Nemotron Cascade 2	Konsolidierung
Memory	Nemotron Nano	Wissensextraktion

Memory-System

Für jedes Kapitel werden erzeugt:

Zusammenfassungen
Charakterdaten
Orte
Fraktionen
Ereignisse
Regeln
Zeitachsen
Embeddings

Workflow:

Kapitel
   ↓
Analyse
   ↓
Zusammenfassung
   ↓
Metadaten
   ↓
Embedding
   ↓
Memory

Batch-Review-System

Später wurde die Architektur erweitert:

Kapitel 1..N
      ↓
Mistral Review
Qwen Review
Gemma Review
      ↓
Kapitel-Merge
      ↓
Globaler Merge
      ↓
Memory Update

Dadurch konnten komplette Werke analysiert werden, bevor gezielte Überarbeitungen erfolgten.

Erkenntnisse

Es zeigte sich, dass:

kleine Spezialmodelle oft effizienter arbeiten als große Universalmodelle,
unterschiedliche Modellfamilien systematische Fehler reduzieren,
ein gutes Merge-Modell wichtiger ist als ein sehr großes Schreibmodell,
Analyse und Schreiben getrennt werden sollten.

Ergebnis

Erreicht wurden:

lokale Multi-Agent-Pipeline,
persistentes Memory,
Batch-Review,
iterative Überarbeitung,
automatische Qualitätskontrolle,
Wiederaufnahme unterbrochener Läufe,
modulare Rollenarchitektur.

Sichtbar im Bild unten ist ein Sinnbild für diese Pipeline.

Phase 4: Integration semantischer Recherche- und Wissensagenten (Vane / Perplexica)

Problemstellung

Bis Phase 3 wurde eine Multi-LLM-Pipeline gebaut; ab Phase 4 beginnt der Übergang zu einer lokalen Agenten- und Wissensarchitektur. Basis dafür ist Wissenskollektion. Da die reine Multi-Model-Schreibpipeline zwar kreative Texte erzeugen, analysieren und konsolidieren konnte, war sie jedoch weiterhin auf den aktuell übergebenen Kontext beschränkt. Dies führte insbesondere bei komplexen Projekten zu Problemen wie:

fehlendem externen Fachwissen,
begrenzter Kontextgröße,
unvollständigem Worldbuilding,
mangelnder Quellenvalidierung,
schwieriger Navigation großer Wissensbestände.

Es entstand daher die Anforderung, ein semantisches Recherche- und Retrieval-System in die lokale Pipeline zu integrieren.

Ziele

Erweiterung der lokalen Pipeline um Retrieval-Augmented Generation (RAG)
Integration lokaler und externer Wissensquellen
Semantische Dokumentensuche
Automatische Kontextanreicherung
Unterstützung von Faktenprüfung und Recherche
Vorbereitung agentischer Workflows

Vane / Perplexcia 2.0

Die Untersuchung von Perplexica (Perplexcity, nur open-source) als lokaler Such- und Recherche-Agent hat folgendes ergeben:

Widmungen:

kontextabhängige Wissensaggregation,
semantische Navigation,
projektübergreifendes Gedächtnis,
Unterstützung autonomer Agenten.

Eigenschaften:

lokaler Betrieb,
Websuche,
Retrieval-Augmented Generation,
Quellenangaben,
OpenAI-kompatible Schnittstellen.

Angedachte, erweiterte Architektur

Benutzer
     │
     ▼
WRITE / REVIEW Pipeline
     │
     ▼
Memory-System
     │
     ▼
Vane / Perplexica
     │
     ▼
Semantische Recherche
     │
     ▼
Kontextanreicherung
     │
     ▼
LLM-Agenten

Erkenntnisse

Die Untersuchungen zeigten, dass zukünftige lokale KI-Systeme weniger aus einzelnen Sprachmodellen bestehen werden, sondern aus:

spezialisierten Agenten,
persistentem Langzeitgedächtnis,
semantischen Suchsystemen,
Retrieval-Komponenten,
dynamischen Workflow-Engines.

Dabei wurde deutlich, dass:

die Qualität der Wissensbeschaffung häufig wichtiger ist als die Größe des verwendeten Sprachmodells,
lokale Retrieval-Systeme Halluzinationen erheblich reduzieren können,
semantische Suche und Memory-Systeme zentrale Bestandteile zukünftiger Agentenarchitekturen darstellen.

Ergebnis

Die Integration von Vane und Perplexica markierte den Übergang von einer reinen Multi-LLM-Schreibpipeline hin zu einer allgemeinen lokalen Wissens- und Agentenplattform.

Damit wurde die Grundlage geschaffen für:

agentische Workflows,
semantisches Langzeitgedächtnis,
autonome Recherche,
wissensgestützte Generierung,
sowie zukünftige lokale Multi-Agent-Systeme.

Phase 5: Übergang zu graphbasierten Agentensystemen & Ausblick auf lokale KI-Agenten

Die Python-Pipeline zeigte, dass komplexe Arbeitsabläufe nicht mehr linear beschrieben werden können. Die entwickelte Architektur eignet sich nicht nur für kreatives Schreiben, sondern allgemein für:

Dokumentanalyse,
Wissensmanagement,
Projektplanung,
Langzeitgedächtnis,
Qualitätskontrolle,
semantische Suche,
autonome Agentensysteme.

Bereits heute zeigt sich, dass lokale Modelle über Ollama erfolgreich in Entwicklungsumgebungen integriert werden können, beispielsweise in:

Visual Studio Code,
OpenWebUI,
Agentenframeworks,
lokalen Toolchains.

Da dies aber bislang auf einer Basis an Frameworks und eher "simplen" 600 Zeilen an Python-Code, der dazu verdammt sein wird nicht wartbar zu sein, basiert habe ich mich auf langfristig sinnvollere Methoden besinnt. Daher begann die Migration zu graphbasierten Agentensystemen.

Ziele:

zustandsbasierte Agenten,
persistente Workflows,
parallele Verarbeitung,
semantisches Retrieval,
autonome Entscheidungsprozesse.

Hierfür werden aktuell insbesondere folgende Frameworks untersucht:

LangGraph,
LangFlow, (als aktueller Fokus, und sichtbar im Bild unten)
Flowise.

Dadurch entsteht langfristig eine vollständig lokale KI-Arbeitsumgebung, die nicht mehr aus einzelnen Modellen besteht, sondern aus spezialisierten, kooperierenden Agentensystemen.

Aufbau einer vollständig lokalen KI-Arbeitsumgebung für Schreiben, Sprachsynthese und Multi-Agent-Systeme

Beitragsseiten

Übersicht

Phase 1: Aufbau der lokalen KI-Infrastruktur

Problemstellung

Ziele

Umsetzung

Phase 2: Lokale Sprachsynthese mit Supertonic-3

Problemstellung

Ziele

Architektur

Implementierte Lösungen

OpenAI-kompatibler Proxy

Emulierte OpenAI-Endpunkte

Audio-Konvertierung

Fehlerbehebung

Ergebnis

Phase 3: Entwicklung einer lokalen Multi-Model-Schreibpipeline

Problemstellung

Ziele

Funktional

Technisch

Erste Implementierung: Python-Pipeline

WRITE-Modus

REVIEW-Modus

Modellrollen

Memory-System

Batch-Review-System

Erkenntnisse

Ergebnis

Phase 4: Integration semantischer Recherche- und Wissensagenten (Vane / Perplexica)

Problemstellung

Ziele

Vane / Perplexcia 2.0

Angedachte, erweiterte Architektur

Erkenntnisse

Ergebnis

Phase 5: Übergang zu graphbasierten Agentensystemen & Ausblick auf lokale KI-Agenten