Technische Fallstudien zu produktiver ML-/AI-Infrastruktur, Datenplattformen, Observability und LLM-Betrieb.
Mehr als zehn gemergte PRs in llm-d, die Kubernetes-Inferenz-Routing-Schicht von Red Hat, IBM und Google. Flow-Control-Prioritätsbänder, CI-Hardening und wie produktive Inferenz-Infrastruktur aus der Nähe aussieht.
Ein Entwickler, acht Repositories: eine getestete Kapazitäts-/Laufzeit-Bibliothek im internen PyPI, Dagster-Ingestion, FastAPI-Services, Dashboards und Monitoring. Wie aus einem Batterie-Vorhersageproblem eine vollständige produktive Plattform wurde.
Normale Software hat CI-Gates, Smoke Tests, Canaries und SLOs. AI-Anwendungen brauchen dieselbe Disziplin für Eval-Qualität, Tokenkosten, LLM/RAG-Verhalten, Observability und Rollback-Readiness.
Dashboards helfen bei der Inspektion von LLM-Inferenzsystemen. Sie entscheiden aber nicht, ob ein neuer Endpoint Traffic bekommen sollte. Ich habe das Inferenz-Profil von aipreflight gebaut, um externe Probes und Prometheus-Metriken in Deployment-Entscheidungen zu übersetzen.
Ich habe OpenAIs Cookbook nach LLM-API-Aufrufen gescannt und die monatlichen Kosten bei 1.000 Aufrufen pro Aufrufstelle geschätzt. Vier gpt-5-Stellen machen 68% der Gesamtkosten aus.
Stündliche Messungen an 15 Frontier-Modellen von OpenAI, Anthropic, Google, DeepSeek und xAI über OpenRouter. In diesem Snapshot reichte der Median-TTFT von 321ms bis 4.226ms. Rohdaten inklusive.
Wie ich eine ELT-Datenplattform für 100k+ IoT-Geräte gebaut habe: Dagster für Orchestrierung, dbt für Transformationen, Sqitch für Migrationen, ArgoCD für GitOps-Deployment und PII-sichere Extraktion aus fünf API-Shards.
Wie ich eine Evaluierungspipeline für Batterie-Vorhersagealgorithmen für 100k+ IoT-Geräte gebaut habe: Dagster-orchestrierte Datensatzerstellung aus Felddaten, Human-in-the-Loop-Review, isolierte Venv-Tests über Algorithmusversionen, MLflow-Tracking und Fleet-Rollout.
60.000 Probes über GPT-4o-mini, Claude 3.5 Haiku, Gemini 2.0 Flash, Llama 3.3 70B, DeepSeek Chat und Mistral Small. Echte Latenzzahlen aus kontinuierlichem Monitoring.
tokentoll, ein Infracost-ähnliches Tool für die Kostenwirkung von LLM-API-Calls, in einem Tag gebaut. Architektur, Modellnamen-Auflösung, mehrstufige Konstantenpropagation und Validierung an zwanzig realen Codebases.