Ich betreibe produktive Kubernetes-, Observability- (Prometheus, Grafana, OpenTelemetry) und Daten-/ML-Plattformen im Flottenmaßstab, aktuell für 100.000+ IoT-Geräte. Dieselbe Produktionsreife bringe ich in LLM-Inferenz-Infrastruktur ein: llm-d, Readiness-Gates und Benchmarking. Zuvor habe ich Cloud-Datenplattformen für fünf Enterprise-Kunden umgesetzt.
I run production Kubernetes, observability (Prometheus, Grafana, OpenTelemetry), and data/ML platforms at fleet scale, currently for 100,000+ IoT devices. I bring that same production rigor to LLM inference infrastructure: llm-d, readiness gates, and benchmarking. Earlier I delivered cloud data platforms for five enterprise clients.
Aktueller Fokus: zuverlässige Plattform- und Observability-Infrastruktur, von IoT-Flotten bis zu LLM-Inferenz-Systemen, mit Open-Source-Beiträgen in llm-d.
Current focus: reliable platform and observability infrastructure, from IoT fleets to LLM inference systems, with open-source contributions in llm-d.
Operator-Workflow für LLM-Inferenz-Deployments: externe Probes, SLA-Gates, Prometheus/vLLM-Korrelation, Concurrency-Sweeps, Grafana-Inspektion, Runbooks, Tests und CI. Operator workflow for LLM inference deployments: external probes, SLA gates, Prometheus/vLLM correlation, concurrency sweeps, Grafana inspection, runbooks, tests, and CI.
Zentrales Analytics-Warehouse für 100.000+ IoT-Thermostate, von der rohen Gerätetelemetrie zu getesteten dbt-Modellen, Dagster-Orchestrierung und Grafana-Dashboards auf Kubernetes. Central analytics warehouse for 100,000+ IoT thermostats, from raw device telemetry to tested dbt models, Dagster orchestration, and Grafana dashboards on Kubernetes.
ML-gestützte Kapazitäts- und Laufzeitvorhersage für 100.000+ IoT-Geräte, als produktionsreife Python-Bibliothek mit Konfidenzintervallen und hardwarespezifischen Defaults. ML-powered capacity and runtime prediction for 100,000+ IoT devices, shipped as a production Python library with confidence intervals and per-hardware defaults.
Speicher-Profiling und Optimierung für 4 SNNI-Systeme auf BERT und ViT. Aktuelle Thesis-Experimente zeigen 61-99 % Speicherreduktion, plus analytische Modelle und ein Deployability-Framework. Memory profiling and optimization across 4 SNNI systems on BERT and ViT. Current thesis experiments show 61-99% memory reduction, plus analytical models and a deployability framework.
Gemergte Beiträge in produktionsnahen AI-/Daten-Infrastrukturprojekten und einsatznahe Werkzeuge für LLM-Betrieb: Deploy-Gates, Endpoint-Health, Latenz und Kosten. Merged contributions in production-grade AI/data infrastructure projects and applied tools for LLM operations: deploy gates, endpoint health, latency, and cost.
Security- und Reliability-Härtung für den llm-d Router. Security and reliability hardening for the llm-d router.
llm-d/llm-d-router #960OpenAI-Tool-Definitionen in OpenTelemetry GenAI-Telemetrie durchgereicht. Passed OpenAI tool definitions through OpenTelemetry GenAI telemetry.
opentelemetry-python-contrib #4554Einsatznahe AI-Plattform-Werkzeuge: konkrete Operator-Workflows für Probleme, die beim Betrieb von AI-Features tatsächlich wehtun: Eval-Gates, Deploy-Gates, Endpoint-Health, Latenz und Kosten. Applied AI platform tools: concrete operator workflows for the problems that actually hurt when operating AI features: eval gates, deploy gates, endpoint health, latency, and cost.
CI/CD-Readiness-Gate für AI-Apps und LLM-Endpoints: Evals, Kostenbudgets, externe Probes, SLA-Gates, Prometheus/vLLM-Korrelation und Runbooks. CI/CD readiness gate for AI apps and LLM endpoints: evals, cost budgets, external probes, SLA gates, Prometheus/vLLM correlation, and runbooks.
Go-CLI für Synthetic Monitoring und CI-Smoke-Tests von LLM-Inference-Endpunkten. Misst TTFT, Latenz, Durchsatz und Fehler. Go CLI for synthetic monitoring and CI smoke tests of LLM inference endpoints. Measures TTFT, latency, throughput, and errors.
GitHub Action und CLI für LLM-Kostendiffs in Code Reviews: statische Analyse, Preisdatenbank, PR-Kommentare und MCP-Server. GitHub Action and CLI for LLM cost diffs in code review: static analysis, pricing database, PR comments, and MCP server.
Batterie-Vorhersagealgorithmen, IoT-Datenplattform (dbt + Dagster + ArgoCD), Fleet-Monitoring und interne FastAPI-Ops-Tools für 100.000+ Geräte. Battery prediction algorithms, IoT data platform (dbt + Dagster + ArgoCD), fleet monitoring, and internal FastAPI ops tools for 100,000+ devices.
Cloud Data Warehouses (Snowflake / BigQuery / Azure Synapse), Python-ETL-Pipelines und Streamlit-Apps mit OAuth SSO für Enterprise-Kunden. Cloud data warehouses (Snowflake / BigQuery / Azure Synapse), Python ETL pipelines, and Streamlit apps with OAuth SSO for enterprise clients.
ML-Modelle zur Präsenzerkennung (Python, scikit-learn), PostgreSQL/TimescaleDB-Pipelines, Vue.js-Frontend und internes Labeling-Tool. Presence-detection ML models (Python, scikit-learn), PostgreSQL/TimescaleDB pipelines, Vue.js frontend, and internal labeling tool.
Universität Münster | Thesis: Speicheroptimierung für Secure Neural Network Inference in Transformern University of Münster | Thesis: Optimizing memory footprints for secure neural network inference in transformers