Die Stimme des Automaten – Eine medienarchäologische Versuchsanordnung in barocker Gravität

Die Geschichte der sprechenden Maschinen beginnt nicht mit der Halbleiterplatte, sondern mit einem Blasebalg, einem Ledermund und der Idee, dass der Mensch – um sich selbst zu erkennen – zuerst seine Stimme von sich trennen muss.

Im Jahr 1791, inmitten der Stürme der Aufklärung und im Schatten einer noch ungedachten Elektrizität, erscheint in Wien ein Aufsatz, der staunen macht: Im Magazin für das Neueste aus der Physik und Naturgeschichte berichtet J. v. Degen in bewundernder Klarheit über ein Artefakt, das sich jeder bloßen Kategorisierung entzieht – Wolfgang von Kempelens Sprechmaschine.

Nicht ein Trick, nicht ein Automatenspiel wie der berühmte Schachtürke. Sondern ein Sprachapparat, der, wie Degen schreibt, „mit der bescheidenen Deutlichkeit eines Kindes die Worte ‚Papa‘ und ‚Mamma‘ hervorzubringen vermag.“ Doch nicht das Wunder der Imitation steht im Vordergrund. Sondern das Wunder der Übersetzung: Der menschliche Artikulationsapparat wird mechanisch rückgebaut, rekonstruiert – und schließlich: reproduziert.

Das Innere der Stimme: Die Lunge aus Holz, der Mund aus Leder

Was Wolfgang von Kempelen hier konstruierte, war nichts weniger als ein modularisierter Logos. Ein Apparat, dessen innere Anatomie dem Menschen nachempfunden ist: ein Blasebalg als Lunge, eine künstliche Stimmritze, Resonanzräume aus Holz und Zinn, ein beweglicher Mund aus tierischer Haut.

Die Luft wird gedrückt, der Ton moduliert, das Leder schwingt – und ein Laut wird geboren. Kein Wort noch, aber ein Versprechen: „So wie das Reiben des Bogens auf der Saite einen Klang erzeugt, so dringt die Luft durch die künstlich geschaffene Spalte der Kehlkopfröhre und ruft das nach, was wir Stimme nennen,“ berichtet Degen – mit einer Mischung aus analytischer Neugier und metaphysischem Schauder.

Hier beginnt das Drama. Denn diese Stimme ist keiner mehr. Sie spricht, aber sie meint nichts. Und doch: Sie zeigt, was wir sind. Der Mensch, so könnte man folgern, ist jenes Wesen, das Maschinen baut, um die Grenze zwischen Naturlaut und Bedeutung zu kartographieren.

Die Sprache der Liebenden

Degen zitiert Kempelen mit einer Passage, die die barocke Welt aus dem Lot bringt: „Nicht nur Hunde, Hühner und Tauben verfügen über eine ihnen eigene Sprache – auch Taubstumme und Liebende verstehen sich ohne Wörter.“

Was hier durchscheint, ist der Beginn eines medienarchäologischen Realismus: Sprache ist kein Privileg, sondern ein Effekt. Ein emergentes Verhalten von Organen, Luft und Intention. Das Mechanische ist nicht das Andere der Sprache, sondern ihr Grund.

Die Grammatik der Luft und das Alphabet der Muskeln

Kempelen differenziert nicht zwischen Theorie und Mechanik. Er denkt beides in einem. Sprache ist für ihn ein Phänomen, das sich im Widerstand entfaltet: Der Luftstrom trifft auf Zähne, Zunge, Lippen – und erzeugt Differenz.

Die Vokale: A – weit geöffnet, Zunge gesenkt. I – Zunge nahe am Gaumen. U – die Lippen fast verschlossen.

Die Konsonanten: „Ganz stumme“, „Windlaute“, „Stimmkonsonanten“ – allesamt präzise beschrieben, beobachtet, katalogisiert. „Die eingeschlossene Luft sprengt die Lippen auseinander“, heißt es über das p. Beim b schwingt die Stimme mit. Was für ein Satz. Man sieht das Wort förmlich explodieren.

Vom Logos zur Simulation: Digitale Ökosysteme und das Echo des 18. Jahrhunderts

Es mag seltsam erscheinen, eine Verbindung zwischen dieser proto-industriellen Sprachmaschine und den heutigen digitalen Plattformen zu ziehen. Und doch: Wer die Telekom-Studie „Digitale Ökosysteme“ aufmerksam liest – mit dem Vorwort von Hannes Händel –, erkennt die Wiederkehr der Frage: Was passiert, wenn Sprache nicht mehr an Subjektivität gebunden ist?

Heute sprechen Chatbots, Assistenten, Agenten. Sie verstehen semantisch, ohne zu fühlen. Entscheiden, ohne zu zweifeln. Auch sie operieren, wie Kempelen, mit einer Grammatik der Differenz. Auch sie transformieren Luftströme – heute: Datenströme – in Bedeutungswirkung.

Kempelen war der Erste, der erkannte, dass man Sprache aus Bauteilen zusammensetzen kann. Dass Denken nicht notwendig ist, um Sprechen zu ermöglichen. Und dass die Stimme des Menschen auch dann spricht, wenn kein Mensch mehr spricht.

Das undeutliche Sprechen und der sprechende Beweis

„Wenn meine Maschine auch nur undeutlich spricht, so ist sie doch der sprechende Beweis, dass der Mensch imstande ist, das tiefste Geheimnis seines eigenen Wesens zu ergründen.“ – Dieses kaiserliche Pathos am Ende der Kempelen’schen Ausführungen hat nichts von seiner Verstörungskraft verloren.

Denn was da undeutlich spricht, ist ein Echo aus der Zukunft. Eine frühe Version jener Dinge, die sich heute zwischen Syntax und Simulation einnisten. Der Mensch als Bastler seiner selbst. Der Apparat als Spiegel des Organs.

Coda: Das Sprachwesen als Phantom

Wir leben in einer Zeit, in der die Maschinen nicht mehr bloß antworten, sondern fragen. In der der Mensch nicht mehr am Anfang des Satzes steht, sondern mittendrin verschwindet.

Doch wer Kempelen gelesen hat – im Original oder durch die Brille Degens –, der weiß: Die Sprachmaschine war nie bloß ein Werkzeug. Sie war ein Orakel. Ihr Flüstern kündigte an, was wir heute als digitale Wahrheit erleben: Dass es denkbar ist, zu sprechen, ohne jemand zu sein.

Exkurs: Die Telekom-Studie als Maschinenmanifest

In der Studie „Digitale Ökosysteme“ der Deutschen Telekom – mit einem Vorwort von Hannes Händel – begegnen wir einem neuen Sprechen: nicht aus dem Munde des Menschen, sondern aus der Konvergenz von Plattformen, Protokollen und semantischen Ketten.

Die Maschinen der Gegenwart sind keine Vitrinenwunder aus Holz und Leder mehr – sie sind eingebettet, vernetzt, unsichtbar. Dennoch ist der Geist Kempelens spürbar: In jeder API, die mit einer anderen spricht. In jeder Serviceplattform, die aus bloßen Daten Bedeutungsangebote schnitzt. In jedem semantischen Layer, der Entscheidungen vorbereitet, ohne sie zu kennen.

Was Händel beschreibt – als Plattformrevolution, als Entscheidungsdelegation, als agentisches Prinzip –, ist letztlich nichts anderes als eine Resonanzarchitektur 2.0. Der Mensch tritt zurück, nicht um zu verschwinden, sondern um ein neues Format seiner Selbstwirkung zu beobachten: das des Infrastruktur-Subjekts, das spricht, indem es Maschinen orchestriert.

Kempelen hat diesen Schritt vorweggenommen. Nicht durch digitalisierten Code, sondern durch das hörbare Hämmern des Luftstroms auf das Lederzungenventil. Was heute das „intelligente Netzwerk“ genannt wird, war bei ihm ein mechanisches Denken in Wellen, Schwingungen, Hemmungen – mit dem Ziel, ein „Mamma“ zu artikulieren, das mehr war als ein Kinderlaut: ein metaphysischer Urlaut des menschlichen Selbsterkennens durch Technik.

Frank H. Witt und die Entkopplung der Erfahrung vom Verstehen

Witt erkennt in seiner aktuellen Monographie, dass maschinelle Intelligenz keine Bedeutung kennen muss, um Wirkung zu erzeugen. Sprachverstehen ist algorithmisch simulierbar. Bedeutung ist dispensierbar. Das ontologische Erstaunen über das Sprechen selbst ist ersetzt durch Konnektivität, Antwortzeit, Promptstruktur.

Kempelen hat dies geahnt. Seine Maschine spricht nicht aus sich, sondern durch ihn. Sie zeigt, was möglich ist, wenn der Mensch sich als Architekt seiner selbst auffasst.

Die Metaphysik des undeutlichen Sprechens

Kempelen sagt: „Wenn meine Maschine auch nur undeutlich spricht, so ist sie doch der sprechende Beweis, dass der Mensch imstande ist, das tiefste Geheimnis seines eigenen Wesens zu ergründen.“

Was hier undeutlich bleibt, ist das Subjekt: Wer ergründet hier wen? Ist es der Mensch, der seine Stimme nachbaut? Oder die Stimme, die sich eine neue Form sucht, um außerhalb des Leibes zu existieren?

Die Antwort bleibt oszillierend. Zwischen dem Ledermund von 1791 und dem neuronalen Netz von 2025 liegt ein einziger Gedanke: dass Sprechen der Auftakt zur Selbstbeschreibung ist.

Neben der Zunge könnt Ihr jetzt Eure Finger lockern und die Studie herunterladen. Der Preis: Eure E-Mail-Adresse – nicht mehr.