[Inhaltsverzeichnis]Inhaltsverzeichnis anzeigen
In unserem Portfolio: 14 KI-Projekte in Produktion, 11 laufen. Drei tot. Demo auf 300 cherry-picked, Produktion auf 50k schmutzigen. Das ist die echte Proportion, kein Marketing-Slogan über „90% der KI-Projekte sterben”. Diese 11 laufen, weil jedes denselben Filter durchlaufen hat: konkreter Prozess, konkrete Metrik, konkreter Fallback.
Bei Do More Soft haben wir KI in den letzten zwei Jahren kommerziell bei 14 Kunden ausgerollt. Die drei toten Projekte haben uns mehr Lektionen gekostet als die elf Erfolge. Unten die Methodik, die daraus entstanden ist.
Warum 90% der KI-Projekte nach dem Demo sterben
Der VP of Operations denkt, KI ersetzt einen Menschen. Realität: 70% der Fälle korrekt, 20% Human Review, 10% Eskalation. Er muss den Org Chart durchdenken, bevor er das SOW unterschreibt. Ohne das ist die Entscheidung „wir führen KI ein” eine Entscheidung über Team-Umbau, die noch niemand getroffen hat.
Zweiter Grund: Demo auf sauberen Daten, Deployment auf schmutzigen. Ein Modell mit 94% Accuracy auf dem Testset bricht bei realen Daten mit Tippfehlern, Lücken und Inkonsistenzen ein. Dritter: KI als separates System mit eigenem Login. Niemand nutzt das.
AI PoC to Production: Methodik Schritt für Schritt
Tag 1-2: Diagnose, kein Brainstorming
Erste Frage: welche Metrik bewegt sich? Zeitreduktion 50% oder Fehlerreduktion 95%? Anderes Problem. Anderes Modell. Anderes Budget. Der Kunde sagt „wir wollen KI im Customer Service” — das ist kein Problem, das ist ein Wunsch. Problem: „Anfragen aus dem Web-Formular warten im Schnitt 14h auf die erste Antwort, wir verlieren 22% der Leads durch Ghosting”. Das ist ein Projekt.
Dieses Gespräch eliminiert die Hälfte der Fehlideen am Start und erlaubt, dem PoC einen realen KPI zuzuordnen, an dem wir Go/No-Go messen.
Tag 3-5: Datenaudit und Proof of Feasibility
Nimm 200-500 reale Fälle aus der Produktion. Nicht bereinigt, nicht ausgewählt — real, mit all ihren Macken. Schick sie durchs Modell (fang mit fertigen APIs an, trainier kein eigenes). Miss Accuracy, Antwortzeit und Kosten pro Request. Ergebnis unter 70% — dieser Use Case funktioniert mit den aktuellen Daten nicht.
Tag 6-8: Integrations-Prototyp
Bau eine minimale Integration mit dem bestehenden System. Keine Landing Page mit Textfeld, sondern echte Integration. KI als Layer im bestehenden Flow: Daten kommen aus dem System, gehen durchs Modell, das Ergebnis fließt zurück. Der Nutzer muss nicht wissen, dass KI im Spiel ist.
Tag 9-10: Nutzertests und Entscheidungsbericht
Gib den Prototyp 3-5 echten Nutzern. Sammle Feedback nicht zur Technologie, sondern zum Prozess: ist es schneller? Sind die Ergebnisse glaubwürdig? Würden sie dem im Tagesgeschäft vertrauen? Daraus Go/No-Go/Pivot-Report — mit Zahlen, nicht Meinungen.
Integrationsarchitektur: KI als Layer, nicht als Ersatz
In Textio: Erste Version hatte Claude als SPOF. API-Timeout, der Editor starrt auf einen leeren Draft, der Kunde schreibt eine Mail. Heute: Cache mit Fallback aufs Template, Queue wenn die API langsam ist, der Editor hat immer einen Draft. Zwei Wochen Outage, um das sauber zu bauen. Heute generiert Gemini 2.0 Flash die erste Version, eine LangChain-+-RAG-Schicht klebt Tone-of-Voice aus dem Markenprofil ran, der Editorial Workflow erzwingt Freigabe, bevor irgendetwas auf Facebook, WooCommerce oder WordPress geht. Wenn der LLM streikt, bekommt der Editor einen Draft aus dem Cache oder ein datenstrukturiertes Template. Das Schreiben hört nie auf.
Das ist eine Architekturregel, kein Ornament. Der KI-Endpoint ist optional. Keine Antwort in 3 Sekunden, Fallback auf eine Geschäftsregel. Confidence Score unter Schwellwert, Eskalation an einen Menschen. System hält, Nutzer vertrauen.
Ein Use Case bis auf die Bestandteile zerlegt
Fünf Use Cases mit sauberen ROI-Zahlen klingen attraktiv, lehren aber nichts. Schau, wie es in der Praxis bei einem Deployment aussieht.
Rechnungsklassifizierung FMCG. 450k Rechnungen pro Jahr, manuelles Routing 2-3h pro 100 Belege. Drei Vollzeitkräfte in der Buchhaltung. GPT-4o mit Prompt Engineering auf dem Kontenschema: 87% Accuracy in der ersten Iteration. Reicht nicht — 13% Fehler in der Buchhaltung ist ein Auditor-Albtraum. Neu zugeschnitten: das Modell pre-screent und schlägt das Konto vor, der Mensch macht das finale Routing mit fertiger Empfehlung. Zeit auf 45 Min pro 100 Rechnungen gefallen. ROI +10,5 Tsd. EUR/Jahr bei 25 Tsd. EUR Implementierungskosten, Break-even nach 2,5 Jahren — der echte Gewinn ist die Reduktion von Abrechnungsfehlern und die in Richtung Controlling verschobene Buchhalterzeit.
Analoge Muster wiederholen sich in den vier weiteren Use Cases, die wir produktiv betreiben:
- Intelligenter RAG-Chatbot auf der Firmenwissensbasis: Entlastung des Service um 40-60%, Kosten 12-28 Tsd. EUR
- Churn-Prognose in SaaS mit >1000 Kunden: ROI 200-400%, Kosten 23-46 Tsd. EUR
- Computer-Vision-Qualitätskontrolle an der Produktionslinie: Ausschuss minus 30-70%, Kosten 35-80 Tsd. EUR
- Content-Generierung und -Personalisierung (Referenz: Textio): Ersparnis 15-25h pro Woche, Kosten 9-18 Tsd. EUR
Kostenmatrix
PoC (2 Wochen): 3-9 Tsd. EUR. MVP (6-8 Wochen): 14-42 Tsd. EUR. Produktivdeployment (3-6 Monate): 28-115 Tsd. EUR. Jährliche Wartung: 15-25% der Implementierungskosten. API-Kosten (OpenAI/Anthropic/Azure): 115-1.150 EUR/Monat je nach Volumen. Diese Zahlen gelten für KMU, Enterprise startet bei x3.
Typische Fallen — aus unseren toten Projekten
Wir haben ein Custom Model für einen E-Commerce-Kunden versucht. 8k Labeled Records auf der Hand, das Modell braucht 50k, damit es Sinn ergibt. Drei Wochen und 9 Tsd. EUR verloren, bevor jemand Stopp gesagt hat. Fine-Tuning OpenAI auf demselben Dataset: 2 Tage, 92% Accuracy.
Zweites totes Projekt: VP Sales wollte KI in der ganzen Firma gleichzeitig. Vier Abteilungen, vier Prozesse, ein Budget. Nach einem halben Jahr Pilot war jeder bei 60% Reife, keiner produktiv. Pivot auf einen Prozess, eine Abteilung, einen messbaren KPI — läuft bis heute.
Drittes: „die Daten klären wir später”. Der Kunde hatte ein CRM mit 12 Jahren Daten, 40% der Felder mit „ASAP”, „TBD” oder leer. Das Modell lernt Chaos. Sechs Wochen Daten putzen vor dem ersten Prompt.
Ich hab das gesehen. Der CTO entscheidet Q1: „Wir sind eine AI Company”. Q2: drei Pilots, das Team ausgebrannt, technische Schuld wächst. Q3: das Board killt alle KI-Projekte samt Budget. Wähl einen Use Case mit Zahlen. Lieferung. Dann skalieren.
FAQ
Worin unterscheidet sich ein KI-PoC vom Produktivdeployment? Ein PoC läuft 2 Wochen lang auf 200-500 cherry-picked Datensätzen. Die Produktion verarbeitet 50k+ schmutzige Datensätze pro Monat, hat SLA, Observability, Fallback und Human-in-the-Loop. Andere Architektur, andere Kosten, andere Erfolgsmetrik.
Wie lange dauert der Weg vom KI-Prototyp zur Produktion? PoC 2 Wochen, MVP 6-8 Wochen, Produktivdeployment 3-6 Monate. Insgesamt 4-9 Monate vom ersten Gespräch bis zum System, das Geld verdient. Verkürzung unter 4 Monate bedeutet meistens einen übersprungenen Datenaudit — und kostet später das Doppelte.
Was sind die Top 5 ROI-positiven KI-Use-Cases? Dokumentenklassifizierung (ROI 120-180%), RAG-Chatbot auf Wissensbasis (80-150%), Churn-Prognose (200-400%), Computer-Vision-Qualitätskontrolle (150-300%), Content-Generierung mit Editorial Workflow (100-200%). Zahlen aus unseren 11 produktiven Deployments.
Warum sterben die meisten KI-Projekte nach dem Demo? Demo auf 300 cherry-picked Datensätzen, Produktion auf 50k schmutzigen. Kein klares Geschäftsproblem, kein Integrationsplan mit dem bestehenden Stack, architektonische Entscheidung „KI statt” statt „KI als Layer”. Drei tote Projekte in unserem Portfolio sind exakt daran gescheitert.