Tokens werden zur Stückzahl

Künstliche Intelligenz bekommt eine Kostenrechnung. Nicht irgendwann. Jetzt. Jede Antwort, jede Zusammenfassung, jeder Agentenlauf, jede Codekorrektur zerfällt in Tokens. Sie wirken klein. In der Bilanz wachsen sie schnell. Aus einer technischen Einheit wird eine betriebswirtschaftliche Größe: Token pro Watt, Token pro Rack, Token pro Euro, Token pro Stunde.

Darren Cox, General Manager von KAYTUS, spricht im Interview über genau diese Verschiebung. Er redet weniger über KI als Zauberwort. Er redet über Zeit, Auslastung, Strom, Kühlung, Container, Kabel, Software-Tuning und Monetarisierung. Der Satz hinter allem lautet: Der Cluster verdient erst, sobald er produktive Tokens erzeugt.

Die alte Tokenomics platzte an der Bedienung

2018 sollte die Medienplattform Civil zeigen, wie sich Journalismus über Blockchain-Tokens finanzieren lässt. Die Idee klang attraktiv: weniger Abhängigkeit von Werbung, weniger Abhängigkeit von Plattformen, neue Zahlungslogik für publizistische Arbeit. Der Token-Verkauf verfehlte dann die Mindestmarke von acht Millionen Dollar deutlich; Civil nahm weniger als zwei Millionen Dollar von etwas mehr als 600 Käufern ein und musste Erstattungen anbieten.

Der Fehler lag tief im Modell. Menschen sollten erst Wallets einrichten, Krypto kaufen, technische Hürden überwinden und dann einem künftigen Nutzen vertrauen. Der Token war Finanzierungsversprechen, Mitgliedsausweis, Governance-Instrument und Spekulationsobjekt zugleich. Zu viel Bedeutung für zu wenig Alltag.

2026 hat das Wort Token seine Richtung gewechselt. Der Token muss nicht mehr gekauft, gehalten oder verstanden werden. Er wird verbraucht. Er misst Arbeit. Er ist die Silbe der KI-Industrie. Er ist keine neue Währung für Medienutopien. Er ist der Takt einer Rechenfabrik.

Der Cluster verdient erst beim Antworten

Cox beschreibt den Engpass, den viele Vorstände unterschätzen. KI-Infrastruktur braucht Zeit. In vielen Projekten vergehen 18 bis 24 Monate, bis ein Cluster läuft. In dieser Zeit verändert sich der Markt. Modelle werden billiger, größer oder kleiner. Kundenanforderungen drehen sich. Wettbewerber automatisieren schon, während die eigene Infrastruktur noch auf Bauteile wartet.

KAYTUS setzt deshalb auf modulare und containerisierte Rechenzentrumsbausteine. Auf der ISC 2026 präsentierte das Unternehmen eine vorgefertigte, flüssigkeitsgekühlte AI-Factory-Architektur, die von einer 3-Megawatt-Basiseinheit bis zu 1 Gigawatt skaliert. Die Module heißen IT Cube, Power Cube und Cooling Cube; KAYTUS verspricht End-to-End-Lieferung aus einer Hand in bis zu sechs Monaten.

Das ist ein Bauprinzip mit betriebswirtschaftlicher Wirkung. Die Uhr läuft ab Investitionsentscheidung. Kapital steckt im Projekt, bevor der erste produktive Token entsteht. Je kürzer die Zeit bis zum Betrieb, desto schneller beginnt die Amortisation. Aus „Time to Market“ wird „Time to Token“.

Die Steckdose wird zum Standortfaktor

Cox nennt im Interview Rack-Leistungen bis zu 250 Kilowatt. Das klingt nach Spezialproblem für Rechenzentrumsplaner. Für Unternehmen wird daraus eine Standortfrage. Klassische Rechenzentren wurden für andere Lasten gebaut. KI verdichtet Leistung, Hitze und Kapitalkosten auf engem Raum.

Der Token wird zur Stückzahl

Die Internationale Energieagentur erwartet, dass der weltweite Stromverbrauch von Rechenzentren von 485 Terawattstunden im Jahr 2025 auf rund 950 Terawattstunden im Jahr 2030 steigt; KI-fokussierte Rechenzentren sollen in diesem Zeitraum dreimal so viel Strom verbrauchen wie zuvor.

Europa spürt diese Grenze besonders. Stromanschlüsse, Netzkapazitäten, Kühlwasser, Flächen, Genehmigungen und Energiepreise bestimmen, wo KI-Infrastruktur wächst. Die EU verlangt über die Energieeffizienzrichtlinie bereits Monitoring und Reporting zur Energieperformance von Rechenzentren. Transparenz wird damit Teil der Standortpolitik.

Wer in Deutschland über KI-Souveränität spricht, muss also über Umspannwerke sprechen. Über Abwärmenutzung. Über Direktstromverträge. Über Liquid Cooling. Über Netzplanung. Über Rechenzentren als Industriebauten.

Auslastung schlägt Ankündigung

Cox nennt eine zweite Zahl, die härter wirkt als viele KI-Visionen: Große Anbieter erreichen aus seiner Sicht CPU-Auslastungen von 70 bis 80 Prozent. Kleinere Anbieter und Start-ups liegen oft bei 15 bis 30 Prozent. Das ist kein Randproblem. Ein teurer Cluster mit geringer Auslastung ist eine Kapitalvernichtungsanlage mit blinkenden GPUs.

In der alten IT konnte Überkapazität als Sicherheitspuffer gelten. In der KI-Ökonomie frisst sie Marge. Jeder nicht genutzte Beschleuniger kostet trotzdem Geld. Strom, Kühlung, Wartung, Abschreibung, Fläche und Personal laufen weiter. Wer nur auf Hardwareverfügbarkeit schaut, übersieht die operative Frage: Kommt genug produktive Arbeit auf die Maschine?

Die neue Kennzahl lautet nicht: Wie groß ist der Cluster? Sie lautet: Wie viele verwertbare Tokens erzeugt er unter realen Bedingungen?

Der Preis pro Token wird zur Einkaufsfrage

Die großen Plattformanbieter haben KI-Nutzung in eine Preisliste übersetzt. OpenAI weist API-Preise pro eine Million Tokens aus und unterscheidet Eingabe-, zwischengespeicherte Eingabe- und Ausgabe-Tokens; für regionales Processing können zusätzliche Aufschläge greifen.

Damit entsteht eine neue Einkaufsrealität. Unternehmen vergleichen nicht mehr nur Lizenzen, Seats und Cloud-Speicher. Sie rechnen mit Anfragevolumen, Antwortlänge, Cache-Quote, Modellklasse, Latenz, Datenschutzanforderungen und Fehlerrate. Ein Agent, der zehn interne Tools aufruft, Dokumente durchsucht und lange Antworten produziert, kann in der Bilanz anders aussehen als in der Demo.

Auch die Hardwarehersteller werben inzwischen mit Tokenkosten. NVIDIA nennt für GB300 NVL72 einen Inferenzwert von 0,123 Dollar pro Million Tokens in einer Benchmark-Konfiguration mit Dynamo und TensorRT-LLM. Das ist ein Hersteller- und Benchmarkwert, aber seine Botschaft zählt: Der Token ist zur Vergleichsgröße für Infrastruktur geworden.

Der Mittelstand braucht KI-Betriebswirtschaft

Für den Mittelstand beginnt die harte Arbeit nach dem ersten Chatbot. Die Geschäftsführung muss wissen, welche Prozesse den Rechenaufwand verdienen. Angebotsprüfung, technischer Service, Qualitätssicherung, Konstruktion, Wissenssuche, Einkauf, Dokumentation, Wartung, Vertrieb: Jede Anwendung kann helfen. Jede Anwendung kostet.

Ein Maschinenbauer, der Servicetechniker mit KI unterstützt, braucht andere Antworten als ein Händler mit automatisierter Kundenkommunikation. Ein Logistiker braucht Latenz und Verlässlichkeit. Eine Klinik braucht Datenschutz und Nachvollziehbarkeit. Ein Medienhaus braucht Geschwindigkeit und redaktionelle Kontrolle. Ein Versicherer braucht Rechteprüfung, Auditierbarkeit und niedrige Stückkosten pro Vorgang.

Die wichtigste Frage lautet: Welche Entscheidung verbessert die KI, und was kostet diese Verbesserung? Daraus entsteht ein neues Controlling. Unternehmen müssen Tokens je Prozess messen. Sie müssen Eingabe und Ausgabe trennen. Sie müssen Caching nutzen. Sie müssen Modelle passend wählen. Sie müssen kleine Modelle für einfache Aufgaben einsetzen und große Modelle für Fälle reservieren, in denen der zusätzliche Preis Wirkung erzeugt. Sie müssen wissen, welche Daten lokal bleiben und welche Workloads in die Cloud dürfen.

Server kehren in die Vorstandssitzung zurück

Die Cloud hat viele Jahre eine angenehme Illusion erzeugt. Infrastruktur verschwand aus dem Blick der Geschäftsleitung. Anwendungen kamen aus dem Netz. Skalierung klang elastisch. Rechenleistung wurde gebucht.

KI beendet diese Bequemlichkeit. Der Server ist zurück, nur in anderer Form. Er steht vielleicht beim Cloud-Anbieter, im Colocation-Rechenzentrum, in einem Forschungscluster, in einem Container, in einem souveränen Rechenverbund oder im eigenen Werk. Die Kosten erscheinen trotzdem im Ergebnis. Sie stecken in Tokenpreisen, Wartezeiten, Datenwegen, Energieaufschlägen, Latenzen und Abhängigkeiten.

Große Unternehmen werden daher eigene KI-Fabriken prüfen. Nicht aus Prestige. Aus Kostenkontrolle, Datenschutz, Verfügbarkeit und Integrationsdruck. Der Mittelstand wird hybride Wege gehen: Cloud für flexible Lasten, spezialisierte Anbieter für anspruchsvolle Workloads, lokale Systeme für sensible Daten und schnelle Entscheidungen.

Die alte IT-Frage lautete: Kaufen oder mieten? Die KI-Frage lautet: Welche Rechenleistung gehört in welchen Prozess, zu welchem Preis, mit welchem Risiko?

Container verkürzen die Baustelle

KAYTUS verkauft mit seinen modularen Konzepten eine Beschleunigung der physischen Welt. Vorgefertigte Einheiten sollen Fehler reduzieren, Installationszeiten kürzen und die Kontrolle über Compute, Power und Cooling verbessern. Die KAYTUS-Produktseite spricht von factory prefabrication, On-site Assembly, 3D Remote Monitoring und intelligentem Betrieb, um Bauzeit und Lebenszykluskosten zu senken.

Das Prinzip passt in die Zeit. KI-Nachfrage wächst schneller als klassische Rechenzentrumsflächen. Unternehmen brauchen Kapazitäten, bevor die nächste Modellgeneration die alte Planung entwertet. Ein Container ersetzt keine Energiepolitik. Er ersetzt keine Genehmigung. Er ersetzt keinen Netzanschluss. Er verschiebt aber Arbeit vom unberechenbaren Bauplatz in die kontrollierbare Fabrik.

Der Container macht aus Rechenzentrumsbau ein Stück Industrialisierung. Für Deutschland müsste das vertraut klingen.

Tokenomics ohne Spekulation

Die alte Tokenomics wollte Vertrauen über Blockchain organisieren. Die neue Token-Ökonomie organisiert Leistung über Infrastruktur. Civil scheiterte an einem Token, dessen Nutzen viele Käufer kaum greifen konnten. Die KI-Industrie arbeitet mit Tokens, die jeder nutzt, der ein Modell ausführt. Der Unterschied ist fundamental.

Der KI-Token ist kein Versprechen auf Teilhabe. Er ist messbarer Output. Er zwingt Unternehmen, KI aus der Sphäre des Staunens in die Welt der Stückkosten zu holen. Ein guter Prompt ist schön. Eine gute Kostenrechnung ist besser.

Cox’ Interview zeigt, worum es in den kommenden Jahren geht. Nicht um die Frage, ob Unternehmen KI einsetzen. Diese Entscheidung ist gefallen. Es geht um den Weg vom Experiment zur industriellen Nutzung. Rechenleistung muss rechtzeitig online gehen. Auslastung muss steigen. Energie muss verfügbar sein. Kühlung muss funktionieren. Software muss auf die Hardware abgestimmt werden. Tokens müssen Wert erzeugen.

Die neue Fabrik zählt anders

Die Fabrik der KI produziert keine Autos, Schrauben oder Chemikalien. Sie produziert Antworten, Empfehlungen, Zusammenfassungen, Klassifikationen, Code, Bilder, Simulationen und Entscheidungen. Ihre Stückzahl heißt Token. Ihr Material ist Strom. Ihre Maschinen sind Beschleuniger. Ihre Engpässe heißen Netzanschluss, Kühlung, Auslastung und Modellwahl.

Das verändert die Wirtschaft. Der Mittelstand muss KI-Kosten in Angebote, Serviceverträge und interne Prozesse einpreisen. Konzerne müssen KI-Infrastruktur wie Produktionskapital behandeln. Rechenzentrumsbetreiber müssen Strom und Wärme managen wie Industrieanlagen. Politik muss Genehmigungen, Netze und Energiepreise als Standortfaktoren der KI begreifen.

Die erste Tokenomics wollte eine neue Ökonomie über digitale Besitzrechte bauen. Die zweite Token-Ökonomie entsteht leiser. Sie läuft durch Racks, Kühlleitungen und Stromschienen. Sie entscheidet, wer KI profitabel nutzt und wer nur teure Antworten sammelt.