ERDSTATION 2003®

BACK TO EARTHSTATION SCIENCE/MEDICINE HOMEPAGE / ZURÜCK ZUR ERDSTATION-WISSENSCHAFT/MEDIZIN-THEMENSEITE

"Sie diktieren - "es" schreibt. Aber wie? Demnächst - mit Kamera!

Seit ungefähr fünf Jahren versucht der Autor dieser Zeilen seine Briefe und Zeitungsartikel, seine Radio- und Fernsehstories nicht in das Tastenfeld seines Computers zu tippen, wie es die meisten Autoren tun, sondern in ein Headset-Mikrofon zu sprechen. Dem Computer kommt dann jeweils die Aufgabe zu, diese Texte zu verstehen und mit mehr oder weniger Fehlern versehen auf den Bildschirm zu zaubern.

Das gelingt mit wechselndem Erfolg - in letzter Zeit aber tatsächlich mit immer besseren Ergebnissen. Das hängt damit zusammen, dass ich vor etwa zwei Jahren ein recht gutes Mikrofon gefunden habe - und dass ScanSoft, eines der beiden Unternehmen, das zur Zeit auf dem Sektor der Spracherkennung in der Welt eine führende Rolle spielt, gerade ein Programm auf den Markt brachte, dass diese Aufgabe besser als ihre Vorgänger erfüllt. IBM - ebenfalls mit jahrzehntelanger Erfahrung auf diesem Sektor, bemüht sich ebenfalls redlich, seinem guten Namen mit einem immer besseren Produkt alle Ehre zu machen.

Doch es ist nicht leicht, Diktiersoftware mit Erfolg zu vermarkten - und nicht immer liegt das an dem Hersteller. Nicht jeder ist ein perfekter Sprecher, selbst, wenn er es mit seiner Muttersprache zu tun hat. Sprechfehler und andere Einflüsse wie Müdigkeit, Frust oder gar Zahnweh können dazu führen, dass der Benutzer seine Worte eher murmelt als deutlich spricht. Computerprobleme können bewirken, dass Diktate einmal erstaunlich gut funktionieren, aber der Computer, der eben noch so fabelhaft und fehlerfrei reagierte, nur eine Stunde später in katastrophaler Weise fast nur Bahnhof versteht.

Mikrofone bringen oftmals ganz wesentliche Probleme mit sich. Die Soundkarte des Computers kann veraltet sein und nicht den Anforderungen entsprechen. Das so genannte RAM-Memory des Computers sollte mindestens 256 MB, besser aber 512 MB betragen. Die Defragmentierung der Festplatte spielt eine wichtige Rolle - und ein zusätzliches Programm zum Aufräumen, wie zum Beispiel Diskeeper, kann Wunder wirken. (Man sollte seine Festplatte mindestens einmal täglich defragmentieren, wenn man diktiert.)

All diese und noch etliche weitere technische Details können den Anwender von Diktiersoftware ärgern oder gar in totale Wut versetzen und jeglicher Software dieser Art für alle Zeit abschwören lassen. Da kommt eine Neuheit daher, die mehrere Unternehmen seit einiger Zeit erproben - und nun, wie im Falle von IBM, viel versprechende Resultate erzielen.

Wissenschaftler des IBM-Forschungszentrums im Landkreis Westchester, New York, Intel in Kalifornien und China, sowie neuerdings offenbar auch Microsoft, haben nun signalisiert, dass sie, zusätzlich zu der Diktiersoftware und dem Mikrofon, schon bald auch eine kleine Kamera liefern werden, die die Lippen des Sprechers beobachtet und mit der akustischen Information vergleicht, die über die Soundkarte in den Computer gelangt. Beide Informationen zusammen versprechen, sagen sie, eine Verbesserung der Erkennungsqualität, die angeblich bis zu 100 Prozent liegt. Da etliche Benutzer bereits jetzt davon sprechen, ihre Diktate mit einer Genauigkeit von zwischen 98 und 99 Prozent in den Computer zu diktieren, könnte man sagen, mit einer Kamera und der dazugehörigen Software müsste sich die Qualität eines per Diktate geschriebenen Textes inzwischen der Perfektion nähern.

IBM-Experten weisen daraufhin, dass auch Menschen ihre Gesprächspartner, etwa in einem lauten Restaurant, besser verstehen, wenn sie ihre Lippen beim Sprechen beobachten. Warum sollte es mit einem Computer anders sein?

Natürlich muss man dem Computer auf jeden Fall beibringen, den Beobachtungsprozess zu optimieren. Das bedeutet, dass auch der Kiefer und der untere Teil der Wange eine bestimmte Rolle spielen. Die Zunge und die Zähne tragen ihren Teil zur besseren Verständlichkeit bei.

Bei all dem kommt es natürlich auch darauf an, ob die Kamera beim Sprechen des Benutzers in jedem Augenblick wirklich optimal vor dem Mund positioniert ist. In dieser Beziehung gibt es auch mit dem Mikrofon bereits Schwierigkeiten.

Spricht der Sprecher mit Freude und Selbstvertrauen? Auch das kann zur besseren Verständlichkeit beitragen. Und schließlich bestehen etliche Anwender darauf - wer etwas lächelt, während er seinen Text in den Computer diktiert, hat bessere Chancen, dass dieser weniger Fehler macht. Das hat etwas mit der Abstrahlung der höheren Sprachfrequenzen zu tun, die beim Lächeln um einige Grade besser vom menschlichen Mund abgegeben werden.

Dass sich in letzter Zeit so auffallend viele Professoren und andere Experten für die Spracherkennung interessieren, hängt auch mit Sicherheitsüberlegungen zusammen - je schneller die Industrie lernt, eine menschliche Stimme und Sprache eindeutig zu identifizieren, desto besser werden ihre Profitchancen in der Zukunft. Einige Experten glauben, in 10 Jahren werden kaum noch Menschen dabei anzutreffen sein, wie sie Texte mühsam mit den Fingern in das Computer-Tastenfeld hineinhämmern. Zu dieser Zeit werden unsere Rechner gelernt haben, ihre Besitzer zu verstehen.

Da bleibt die Frage, ob man vielleicht sogar schon heute versuchen sollte, mit einer Diktiersoftware im Computer das Diktieren von Begriffen, Text, Bericht usw. auszuprobieren. Nun, wer ein geübter Sprecher ist und sich vor einiger Mühe nicht scheut, der sollte es zumindest nicht von vornherein ablehnen. Die Finger, Handgelenke, der Rücken und das Genick werden es ihm nach stundenlanger Schreibarbeit möglicherweise danken.

Erdstation E-Mail: astrocal@hotmail.com