Ihr Unternehmen wächst, aber Ihre Software hält nicht mit?

Wir begleiten etablierte Unternehmen und innovative Startups dabei, komplexe Legacy-Systeme und gewachsene Software-Infrastrukturen schrittweise in moderne, hochperformante Architekturen zu überführen. Unser Fokus liegt auf der Sicherung Ihrer digitalen Werte und der nahtlosen Integration von KI-Modulen im laufenden Betrieb, ohne dabei Nutzererfahrung, Datenintegrität oder geschäftskritische Prozesse zu gefährden.

Strategische Erstberatung (Audit)

System-Audit & Risikoanalyse - ab 1.500 € exkl. MwSt.

Jede nachhaltige System-Evolution beginnt mit einer präzisen Bestandsaufnahme. Wir führen eine forensische Analyse Ihrer Software-Architektur durch, identifizieren technische Schulden und bewerten Skalierungsrisiken. Der Umfang der Analyse wird individuell auf die Komplexität Ihrer Infrastruktur abgestimmt.

\"Das Ergebnis: Ein detailliertes Gutachten über den technologischen Status Quo Ihres Unternehmens. Diese Analyse liefert die notwendige Datenbasis für jede fundierte strategische Entscheidung und zukünftige Roadmap-Planung.\"

Audit anfragen →

Der Aufwand für das Initial-Audit wird bei einer anschließenden Beauftragung der Modernisierung anteilig angerechnet.

Evolution of Computing: Sinclair ZX Spectrum and NVIDIA DGX Spark
Lab Status: Live-Updates
2026-04-01Erfolgreiche Integration der Blackwell-Inferenz-Benchmarks.
2026-03-30PostgreSQL-Cluster auf Version 16 stabilisiert.
01 / Team

Technologische Souveränität durch Systemtiefe

Das westudiolab operiert als spezialisierte Engineering-Boutique an der Schnittstelle zwischen gewachsener Industrie-Infrastruktur und hochperformanten KI-Ökosystemen. Wir sichern den technologischen Kern von Unternehmen durch präzise Architektur-Evolution und den Betrieb dedizierter Inferenz-Kapazitäten.

Peter Gesierich

PRINCIPAL SYSTEM ARCHITECT

40+ Jahre Software-Entwicklung – von Lochkarten-Systemen und dem Sinclair ZX Spectrum bis hin zur NVIDIA DGX Spark Infrastruktur und Cloud-native Architekturen. Spezialist für System-Integration, pragmatische AI-Orchestrierung und SEO-Engineering. Fokus auf zukunftssichere Lösungen, die im laufenden Betrieb modernisiert werden können – ohne Risiko, ohne Downtime. Kombination aus technischer Tiefe, Business-Realität und jahrzehntelanger Problemlösungs-Erfahrung. Prokurist WE Studio Media GmbH (Foto-/Filmstudios Berlin). Bereitstellung lokaler High-Performance-Compute Ressourcen für datensensible Anwendungen.

David Reger

LEAD INFRASTRUCTURE ENGINEER

Spezialist für Datenplattformen, AI-Integrationen und skalierbare Systemarchitekturen. Fokus auf dem Aufbau des Datenfundaments für produktive AI-Anwendungen – von Datenintegration über RAG-Systeme bis zu agentischen Workflows. Expertise in Python (FastAPI, SQLAlchemy), SQL/ Datenbank Engines, Apache Spark, Kubernetes und modernen Data-Stacks. Erfahrung mit Web-Scraping, PDF-Parsing, ERP-Integrationen, semantischer Suche und Event-driven Architekturen. Technischer Schwerpunkt: Lakehouse-Plattformen, Streaming-Systeme, Datenaufbereitung, LLM-Orchestrierung und produktionsreife AI-Deployments. Von der Datenerschließung bis zur belastbaren Bereitstellung AI-fähiger Services.

02 / Strategie

Unser 5-Phasen-Modell zur Modernisierung

[01]

Phase 1 – Sichtbar machen & absichern

Aufnahme der Systemlandschaft, Prozesse und Abhängigkeiten. Einrichtung von Monitoring und Blue-Green-Deployment-Strategien, damit jede Änderung rückrollbar bleibt. Dabei setzen wir auf automatisierte Discovery-Tools und Tiefen-Scans der bestehenden Codebase.

[02]

Phase 2 – Modularisieren statt zerschlagen

Strukturierung des bestehenden Codes in einen "Modular Monolith". Einführung sauberer APIs zwischen den Modulen statt Wild-West-Datenzugriffen. Wir eliminieren zirkuläre Abhängigkeiten und schaffen eine saubere Trennung der Verantwortlichkeiten.

[03]

Phase 3 – Strangler-Ansatz & Hüllarchitektur

Einsatz des Strangler-Fig-Patterns: Neue Funktionen werden außen neu gebaut, alte Endpunkte nach und nach ersetzt, ohne dass Benutzer den Umbau merken. Diese Methode erlaubt es, neue Features in modernen Sprachen wie Go oder Python zu entwickeln.

[04]

Phase 4 – Datenmigration ohne Schock

Einsatz von Change-Data-Capture und Read-Replikas. Parallelbetrieb alter und neuer Datenpfade mit permanenter Validierung. Wir validieren jeden Migrationsschritt durch parallele Schatten-Datenbanken und Echtzeit-Abgleiche.

[05]

Phase 5 – Decommission & Aufräumen

Gezieltes Abschalten des Altsystems und Bereinigung von totem Code. Übergabe eines schlanken, modernen Kernsystems an Ihr Team. Erst wenn das neue System seine Überlegenheit bewiesen hat, wird die alte Infrastruktur sicher abgeschaltet.

03 / Tech

Technologische Exzellenz – vom Backend bis zur AI-Infrastruktur

[01]

Backend & APIs: Python (FastAPI, SQLAlchemy, Pydantic), Node.js (Next.js, Express), RESTful APIs, GraphQL, WebSockets für Echtzeit-Integration.

[02]

AI & LLM: RAG-Pipelines, agentische Workflows, Multi-Model-Orchestrierung (OpenAI, Anthropic, lokale LLMs via Ollama), LiteLLM Gateway, semantische Suche, Embeddings.

[03]

Daten & Integration: Apache Spark, Lakehouse-Architekturen, Web-Scraping (Playwright, BeautifulSoup), PDF-Parsing, ERP/CRM-Integration, Event-Streaming (Kafka).

[04]

Frontend & SEO: Next.js 13+ (App Router, Server Components), React, Tailwind CSS, technisches SEO (100% Scores), strukturierte Daten, Core Web Vitals-Optimierung.

[05]

DevOps & Infra: Docker, Kubernetes, CI/CD (GitHub Actions), Ubuntu Server, Caddy Reverse Proxy, Systemd, Monitoring, NVIDIA DGX für lokale AI-Workloads.

Lab-Berichte: Einblicke in unsere Engineering-Praxis

Optimierung der Inferenz-Latenz auf NVIDIA Blackwell (GB10)

Bei der Modernisierung komplexer Industriesysteme stoßen wir oft auf ein Problem: Die Latenz. Ein System, das seit 30 Jahren stabil läuft, darf durch die Einführung von KI-Modulen nicht ausgebremst werden. In unserem Lab in Berlin-Lichtenberg analysieren wir daher die Performance-Vorteile der NVIDIA Blackwell Architektur (GB10) im Vergleich zur Vorgängergeneration. Das Setup: Unser DGX Spark dient als Benchmark-Plattform. Wir nutzen einen Stack aus Ubuntu 24.04 LTS, CUDA 13.0 und PyTorch 2.3. Das Ziel ist die Minimierung der Time-To-First-Token (TTFT) bei Modellen mit 70 Milliarden Parametern. Die technische Herausforderung: Standard-Virtualisierung in der Cloud führt oft zu 'Jitter' in der Speicherbandbreite. Auf unserer lokalen Hardware implementieren wir eine strikte VRAM-Partitionierung. Durch den Einsatz von FP16-Quantisierung und die direkte Anbindung über NVLink erreichen wir eine konstante Inferenz-Geschwindigkeit von 42 Tokens pro Sekunde bei einer Chiptemperatur von stabilen 62°C unter Volllast. Dies ist nur möglich, weil wir die Inferenz-Engine (vLLM) direkt auf die Hardware-Register der GB10-Kerne kalibrieren. Warum das für den Mittelstand zählt: Viele Unternehmen zögern bei der KI-Integration, weil sie ihre Daten nicht in öffentliche Clouds schicken wollen. Unser Ansatz der 'lokalen High-Performance Compute Ressourcen' erlaubt es, Inferenz-Pipelines direkt im lokalen Netzwerk des Kunden (On-Premise) oder in unserem abgesicherten Berliner Lab laufen zu lassen. Wir nutzen dafür FastAPI als asynchrone Schnittstelle, die Anfragen in Millisekunden validiert und an die GPU-Worker weiterreicht. Unsere Blackwell-Infrastruktur erlaubt es uns, neuronale Netze mit einer Bandbreite von bis zu 900 GB/s zu füttern, was die typischen Flaschenhälse herkömmlicher PCIe-basierter Systeme eliminiert.

Zero-Downtime Migration: Von Legacy-SQL zu PostgreSQL

In der Praxis der Software-Evolution ist die Datenbank-Migration die riskanteste Operation. Auf unserem DGX Spark simulieren wir komplexe Migrationsszenarien mittels PostgreSQL 16 und SQLAlchemy 2.0. Ein Kernproblem bei Legacy-Systemen ist die mangelnde Konsistenz der Datenmodelle. Oft finden wir gewachsene Strukturen vor, die keine Fremdschlüssel-Integrität besitzen. Unsere Strategie basiert auf dem Einsatz von Read-Replicas und Change-Data-Capture (CDC). Hierbei spiegeln wir die alte Datenbank in Echtzeit auf ein neues Schema. Wir nutzen Python-basierte Validierungs-Skripte, die jeden Datensatz auf dem NVIDIA-Cluster gegen das Zielschema prüfen. Durch den Einsatz von asynchronen Migrations-Pipelines können wir Terabytes an Daten transformieren, während das Frontend weiterhin auf den alten Stand zugreift. Erst wenn die Integrität auf dem Spark-Cluster zu 100% verifiziert ist, schalten wir die Schreibzugriffe im laufenden Betrieb um (Atomic Switch). Dies minimiert nicht nur das Fehlerrisiko, sondern eliminiert die berüchtigten Wartungsfenster, die im modernen E-Commerce oder bei industriellen Prozessen nicht mehr tragbar sind. Bei der PostgreSQL-Optimierung nutzen wir spezialisierte Indizierungsverfahren, die auf die parallele Architektur moderner GPU-Cluster abgestimmt sind, um Abfragezeiten im Mikrosekundenbereich zu garantieren.

Skalierbare High-Concurrency Backends mit Python

Bei der Modernisierung von Altsystemen stoßen wir oft auf synchrone Blockaden. Alte PHP- oder Java-Monolithen verarbeiten Anfragen oft nacheinander (Blocking I/O). In unserem Berliner Lab implementieren wir konsequent asynchrone Architekturen auf Basis von Python 3.12 und dem FastAPI Framework. Der Einsatz von ASGI (Asynchronous Server Gateway Interface) ermöglicht es uns, I/O-intensive Aufgaben – wie Datenbankabfragen oder KI-Inferenz-Aufrufe – parallel zu verarbeiten, ohne den Haupt-Thread zu blockieren. Auf unserem NVIDIA DGX Spark optimieren wir dies durch eine strikte Thread-Isolierung. Wir nutzen Worker-Pools, die speziell auf die ARM-Architektur des Blackwell-Systems abgestimmt sind. Ein besonderes Augenmerk liegt auf der Middleware-Orchestrierung. Wir setzen Caddy als Reverse Proxy ein, um TLS-Terminierung und HTTP/3-Unterstützung direkt am Edge zu kapseln. Dies entlastet das Python-Backend massiv. Durch die Kombination von Caddy und FastAPI erreichen wir Antwortzeiten im niedrigen zweistelligen Millisekundenbereich, selbst wenn im Hintergrund komplexe Logik-Operationen laufen.

Bereit für die Zukunft?

Projektbeschreibung (Vorerst kein telefonischer Erstkontakt)