
Auf dem Tafelblatt von 1792, in Kupfer gestochen, erscheint die Zukunft im Gewand der Mechanik: ein Apparat aus Trichter, Röhren, Hebeln, Ventilen, künstlichem Hals und mechanischem Mundwerk. Zu sehen ist die technische Anatomie eines Gedankens, der die Moderne bis heute nicht losgelassen hat: daß Sprache kein göttlicher Nebel, sondern ein rekonstruierbarer Mechanismus sei. Wolfgang von Kempelen, Hofrat, Erfinder und Sprachforscher, baute damit nicht bloß eine Kuriosität. Er baute ein Modell des Sprechens.
Wer diese Tafel heute betrachtet, sieht deshalb nicht nur ein schönes Objekt aus der Spätaufklärung. Er sieht einen frühen Ursprung jener langen Technikgeschichte, die von der künstlichen Stimme zur künstlichen Intelligenz führt. Am Anfang steht die Frage, wie ein Mensch Laute hervorbringt. Am Ende steht die viel schwierigere Frage, wie eine Maschine ein Gegenüber versteht.
Als 1792 nicht ein Buch, sondern eine technische Rezension die Sache auf den Punkt brachte
Entscheidend ist der historische Ort. Im „Magazin für das Neueste aus der Physik und Naturgeschichte“ wird 1792 nicht irgendein allgemeines Räsonnement über Sprachphilosophie veröffentlicht, sondern eine Besprechung von Kempelens 1791 erschienener Schrift „Mechanismus der menschlichen Sprache, nebst der Beschreibung seiner sprechenden Maschine“. Der Rezensent erkennt den Ernst dieses Unternehmens sofort. Kempelens Arbeit sei, heißt es dort, „die Frucht seiner Nebenstunden nach einer vieljährigen mühsamen Pflege“. Und vor allem sei ihr Verfasser „weit entfernt zu glauben, daß er alles, was die Theorie, oder vielmehr, den Mechanismus der menschlichen Sprache betrifft, in diesem Werke erschöpft habe“.
In diesem kleinen Zusatz, „oder vielmehr“, steckt bereits die ganze Modernität des Projekts. Sprache erscheint hier nicht mehr nur als Ausdruck des Geistes, sondern als Mechanismus. Das Wort ist entscheidend. Nicht bloß Grammatik, nicht bloß Beredsamkeit, nicht bloß Metaphysik, sondern Luft, Druck, Verengung, Öffnung, Resonanz, Zunge, Lippen, Zähne. Der Rezensent formuliert die Pointe mit einer Nüchternheit, die auch in einem heutigen Laborbericht nicht fehl am Platz wäre: „Der Mechanismus, durch welchen alle diese so verschiedenen Laute hervorgebracht werden, ist der eigentliche Gegenstand dieser Schrift.“
Damit ist die Sache klar. Kempelens Maschine will nicht einfach den Menschen nachahmen. Sie will zeigen, wie Sprechen funktioniert. Sie ist nicht bloß Imitation, sondern Erkenntnisapparat.
Die Sprachmaschine war keine Schaunummer, sondern eine Hypothese aus Holz, Leder und Metall
Gerade darin liegt die Größe des Unternehmens. Die Apparatur, die auf der Kupfertafel zu sehen ist, ist keine Dekoration des Wunderbaren. Sie ist eine gebaute Theorie. Der künstliche Hals, die regulierte Luftzufuhr, die formbaren Teile für Lippen- und Zungenstellung: All das materialisiert eine Annahme darüber, wie menschliche Sprache zustande kommt.
Die Besprechung von 1792 macht diesen Punkt fast im Stil moderner Phonetik sichtbar. „Ein wenig Luft aus der Lunge durch die enge Spalte des Luftröhrenkopfes gedrückt, giebt die Stimme“; verschiedene Hindernisse, die dieser Luft „durch die Zunge, die Zähne und Lippen in den Weg gelegt werden“, erzeugen die verschiedenen Laute. Man liest hier, in frühneuzeitlicher Orthographie, bereits das Grundschema dessen, was später als artikulatorische Lautlehre und als Quelle-Filter-Denken systematisiert werden sollte.
Besonders eindrucksvoll ist, wie präzise einzelne Lautunterschiede beschrieben werden. Der Unterschied zwischen b und p wird nicht im Vagen von weich und hart belassen. „Die ganze Sache kommt bloß darauf an, daß bei dem b immer die Stimme mitlautet, und bei dem p nicht.“ Mehr technische Klarheit ist kaum denkbar. Stimmhaftigkeit wird hier nicht als Eindruck, sondern als Funktion verstanden.
Ebenso modern mutet die Diskussion über die Stimme selbst an. Ist sie eher Saite oder eher Blasinstrument? Der Bericht zitiert die Debatte zwischen Ferrein und Dodart, vergleicht Stimmritze, Spannung und Öffnung mit Instrumentenbau und zeigt damit, wie Wissenschaft zu dieser Zeit arbeitet: Sie übersetzt Natur in Technik, um sie präziser zu begreifen. Die Stimme wird verstanden, indem man sie konstruktiv denkt.
Aber die erste sprechende Maschine kannte noch keinen Hörer
Und doch markiert dieselbe Sprachmaschine auch eine Grenze. Kempelens Apparat modelliert den Sprecher, nicht den Hörer. Er kann Laute hervorbringen, aber keine Lage erfassen. Er kennt Artikulation, aber keine Situation. Er kann sprechen, aber nicht bemerken, ob sein Gegenüber ratlos, verärgert, ironisch, traurig oder überfordert ist.
Gerade diese Grenze führt in die Gegenwart. Denn die zweite große Stufe der Technikgeschichte beginnt dort, wo nicht mehr nur der Sprechapparat, sondern das Gegenüber modelliert werden soll. Wolfgang Wahlster, einer der prägenden Köpfe der deutschen KI-Forschung, erinnert in der Session der ZP Nachgefragt Week daran, daß es vor vierzig Jahren in Deutschland „den ersten internationalen Workshop zu dem, was wir damals empathische Benutzermodellierung nannten“, gegeben habe; dieser Workshop habe „in Maria Laach bei Bonn“ stattgefunden, „also in einem Kloster“. Aus dieser Linie sei eine bis heute aktive Forschungscommunity hervorgegangen, sichtbar etwa in UMAP, also User Modeling, Adaptation and Personalization.
Der Ort hat fast symbolische Kraft. In einem Kloster beginnt jene KI-Geschichte, die nicht zuerst an Rechenleistung interessiert ist, sondern an Differenzierung: Wer sitzt dem System gegenüber? Was weiß diese Person? Wie reagiert sie? Wie muß Technik sich verhalten, damit Interaktion nicht bloß effizient, sondern passend wird?
Von der künstlichen Zunge zur künstlichen Einfühlung
Wahlster beschreibt den Weg der KI mit einer Unterscheidung, die den Abstand zu Kempelen genau markiert. Man könne Intelligenz, sagt er, in kognitive, sensorphysische, emotionale und soziale Intelligenz gliedern; gerade emotionale und soziale Intelligenz seien lange die Bereiche gewesen, in denen Maschinen den größten Rückstand hatten.
Der Schritt von der Sprachmaschine zur empathischen KI läßt sich darum in drei technischen Aufgaben fassen. Erstens müssen Systeme Emotionen beim menschlichen Gegenüber erkennen. Zweitens müssen sie ihr Verhalten adaptieren. Drittens müssen sie die Reaktion multimodal ausdrücken, also nicht nur sprachlich, sondern auch über Mimik, Gestik und andere Signale. Genau so beschreibt Wahlster das Pflichtenheft empathischer Systeme.
Damit wird sichtbar, worin die eigentliche Verschiebung besteht. Die historische Maschine beantwortete die Frage: Wie kann Sprache erzeugt werden? Die moderne KI muß zusätzlich beantworten: Für wen, in welcher Lage und mit welcher Wirkung wird gesprochen? Die Stimme allein genügt nicht mehr. Technik muß das Gegenüber mitmodellieren.
Dabei ist die Verbindung zur frühen Sprachforschung enger, als man zunächst denkt. Schon die Rezension von 1792 schildert, wie taubstumme Schüler Worte „an der Bewegung des Mundes und der Lage der Zunge“ absehen. Ein still vorgelesener Satz wird, so berichtet der Rezensent, von einem Jungen „Wort für Wort“ aufgeschrieben, allein aus den sichtbaren Artikulationsbewegungen. Das ist, lange vor allen digitalen Systemen, eine frühe Beschreibung multimodaler Sprachwahrnehmung. Die Gegenwart hat dafür neue Rechner; das Grundproblem ist älter.
Der eigentliche Sprung der Moderne heißt Personalisierung
Wo diese neue KI praktisch wird, zeigt sich ihr Unterschied zum bloßen Sprechen besonders deutlich. Im Bildungsbereich, so Wahlster, gehe es um „Losgröße 1“: Systeme sollen nicht nur sagen, daß etwas falsch ist, sondern erkennen, welche Fehlkonzepte hinter dem Fehler stehen, und darauf individuell reagieren. Tutorielles Lernen müsse viel stärker auf einzelne Personen ausgerichtet werden.
Der Ausdruck „Losgröße 1“ stammt aus der Industrie, wirkt hier aber fast philosophisch. Denn er beschreibt einen tiefen Wandel technischer Rationalität. Die Maschine soll nicht mehr bloß für alle gleich funktionieren; sie soll für den konkreten Einzelnen passend werden. Was bei Kempelen der einzelne Laut war, ist bei Wahlster die einzelne Person.
Ähnliches gilt für Beratung, Training und Kundenservice. Wahlster verweist darauf, daß sich starke Emotionalisierung in gesprochener Sprache oft schon über wenige akustische Merkmale wie Sprechtempo und Tonhöhe erkennen lasse; dann könne ein System gezielt an erfahrene Mitarbeitende weiterleiten, die deeskalieren. Hier geht es nicht um Technikromantik. Hier geht es um eine nüchterne Erweiterung des Maschinenbegriffs: Gute Systeme optimieren nicht nur Prozesse, sie erkennen, wann Prozesse an ihre menschliche Grenze geraten.
Auch die neue KI braucht wieder Mechanik
Bemerkenswert ist, daß die Geschichte bei aller Digitalisierung nicht aus der Mechanik herausführt, sondern auf höherer Stufe zu ihr zurückkehrt. Sobald Maschinen Emotionen nicht nur erkennen, sondern selbst sozial verträglich ausdrücken sollen, kehren Hebel, Aktuatoren und Stellmotoren zurück. Wahlster sagt über soziale Robotik und assistierte Systeme, „echte“ Mimik sei technisch aufwendig; für feine Gesichtsausdrücke brauche man „Mechanik, viele Stellmotoren“.
Damit erscheint Kempelens Welt in überraschender Nähe. Die Aufklärung baute künstliche Zungen und Lippen, um Lautbildung zu verstehen. Die Gegenwart baut künstliche Gesichter und Gesten, um Interaktion verständlicher zu machen. Zwischen beidem liegt keine simple Ablösung, sondern eine Vertiefung. Mechanik bleibt wichtig, aber sie wird heute in emotionale und soziale Modelle eingebettet.
Das gilt auch für die Robotik in Teams. Wahlster spricht von gemischten Gruppen aus Menschen und Robotern, die Rollen verteilen, Ausfälle kompensieren und kooperativ handeln müssen. Reines datengetriebenes Lernen reiche dort oft nicht; nötig seien strukturierende Modelle, die im Dialog angepaßt werden. Auch dies ist eine Form technischer Reife: Nicht die maximale Automatisierung steht im Zentrum, sondern die koordinierte Passung zwischen verschiedenen Akteuren.
Die reifste Maschine ist womöglich die, die begründet schweigt
Die vielleicht wichtigste Lehre dieser langen Geschichte liegt jedoch nicht im Sprechen, sondern im Verzicht. Wahlster erläutert, vertrauenswürdige KI brauche „Standards und nachvollziehbare Begründungen“. Systeme müßten nicht nur helfen, sondern auch „begründet verweigern können“.
Das ist der Punkt, an dem die Technikgeschichte ihr moralisches Niveau wechselt. Kempelens Sprachmaschine war ein Triumph der Artikulation. Die heutigen Systeme werden sich daran messen lassen müssen, ob sie nicht nur überzeugend formulieren, sondern auch wissen, wann sie zurücktreten sollen: wann sie Unsicherheit offenlegen, wann sie Menschen übergeben, wann sie eine unzulässige Bitte ablehnen.
So spannt sich ein erstaunlicher Bogen über mehr als zwei Jahrhunderte. 1792 beschreibt eine technische Zeitschrift den Mechanismus der Sprache und die „sprechende Maschine“ eines Hofrats. Im Sommer 1986 beginnt in Maria Laach bei Bonn eine deutsche Forschungslinie, die den Benutzer, seine Absichten und seine Emotionen modellieren will. Heute, im Zeitalter großer Sprachmodelle, fallen beide Geschichten ineinander. Denn die eigentliche Zukunft gehört nicht den Maschinen, die nur am elegantesten reden, sondern denen, die Sprache, Situation und Gegenüber zusammenbringen.
Kempelens Apparat konnte Töne erzeugen. Die empathische KI, von der Wahlster spricht, soll Menschen verstehen, ohne sie zu bevormunden. Zwischen beiden liegt die eigentliche Lektion der Moderne: Gute Technik beginnt nicht dort, wo sie den Menschen perfekt imitiert. Sie beginnt dort, wo sie ihn präzise genug ernst nimmt.
Den Apparat des Hofrats kann man im Deutschen Museum in München bewundern.
https://www.deutsches-museum.de/museum/sammlung/highlights/sprechapparat











