Blog

Technische Fallstudien zu produktiver ML-/AI-Infrastruktur, Datenplattformen, Observability und LLM-Betrieb.

| llm / infrastruktur / kubernetes

Was ich durch Beiträge zu llm-d gelernt habe, einem produktiven Inferenz-Router

Mehr als zehn gemergte PRs in llm-d, die Kubernetes-Inferenz-Routing-Schicht von Red Hat, IBM und Google. Flow-Control-Prioritätsbänder, CI-Hardening und wie produktive Inferenz-Infrastruktur aus der Nähe aussieht.

Beitrag lesen
| platform-engineering / python / data-engineering

Eine Batterie-Analytics-Plattform für 100k+ IoT-Geräte bauen, allein

Ein Entwickler, acht Repositories: eine getestete Kapazitäts-/Laufzeit-Bibliothek im internen PyPI, Dagster-Ingestion, FastAPI-Services, Dashboards und Monitoring. Wie aus einem Batterie-Vorhersageproblem eine vollständige produktive Plattform wurde.

Beitrag lesen
| ai / llm / rag

Das fehlende Deployment-Gate für AI-Anwendungen

Normale Software hat CI-Gates, Smoke Tests, Canaries und SLOs. AI-Anwendungen brauchen dieselbe Disziplin für Eval-Qualität, Tokenkosten, LLM/RAG-Verhalten, Observability und Rollback-Readiness.

Beitrag lesen
| llm / infrastruktur / prometheus

Entscheidung statt Dashboard: Readiness Gates für LLM-Inferenz-Deployments

Dashboards helfen bei der Inspektion von LLM-Inferenzsystemen. Sie entscheiden aber nicht, ob ein neuer Endpoint Traffic bekommen sollte. Ich habe das Inferenz-Profil von aipreflight gebaut, um externe Probes und Prometheus-Metriken in Deployment-Entscheidungen zu übersetzen.

Beitrag lesen
| llm / python / devtools

OpenAIs eigenes Cookbook kostet $1.884/Monat im Betrieb. Ein Modelltausch ändert das meiste.

Ich habe OpenAIs Cookbook nach LLM-API-Aufrufen gescannt und die monatlichen Kosten bei 1.000 Aufrufen pro Aufrufstelle geschätzt. Vier gpt-5-Stellen machen 68% der Gesamtkosten aus.

Beitrag lesen
| llm / go / devops

TTFT variierte 13x in meinem LLM-Provider-Benchmark-Snapshot

Stündliche Messungen an 15 Frontier-Modellen von OpenAI, Anthropic, Google, DeepSeek und xAI über OpenRouter. In diesem Snapshot reichte der Median-TTFT von 321ms bis 4.226ms. Rohdaten inklusive.

Beitrag lesen
| data-engineering / kubernetes / python

Eine Datenplattform mit dbt, Dagster und ArgoCD bauen

Wie ich eine ELT-Datenplattform für 100k+ IoT-Geräte gebaut habe: Dagster für Orchestrierung, dbt für Transformationen, Sqitch für Migrationen, ArgoCD für GitOps-Deployment und PII-sichere Extraktion aus fünf API-Shards.

Beitrag lesen
| mlops / python / data-engineering

ML-Algorithmen in Produktion evaluieren: von Felddaten zum Fleet-Rollout

Wie ich eine Evaluierungspipeline für Batterie-Vorhersagealgorithmen für 100k+ IoT-Geräte gebaut habe: Dagster-orchestrierte Datensatzerstellung aus Felddaten, Human-in-the-Loop-Review, isolierte Venv-Tests über Algorithmusversionen, MLflow-Tracking und Fleet-Rollout.

Beitrag lesen
| llm / go / devops

Ich habe 6 LLM-APIs 7 Tage lang überwacht. Das habe ich herausgefunden.

60.000 Probes über GPT-4o-mini, Claude 3.5 Haiku, Gemini 2.0 Flash, Llama 3.3 70B, DeepSeek Chat und Mistral Small. Echte Latenzzahlen aus kontinuierlichem Monitoring.

Beitrag lesen
| llm / python / devtools

Wie ich Infracost für LLM-Kosten an einem Tag gebaut habe

tokentoll, ein Infracost-ähnliches Tool für die Kostenwirkung von LLM-API-Calls, in einem Tag gebaut. Architektur, Modellnamen-Auflösung, mehrstufige Konstantenpropagation und Validierung an zwanzig realen Codebases.

Beitrag lesen