Was ist HDC?

Handwriting Data Collection

Das Projekt

Stell Dir vor, Du könntest auf Deinem Smartphone oder Tablet Notizen per Hand machen. Du drückst auf einen Knopf, schon wird Deine Handschrift zu einem Word-Dokument. Das ist das Ziel des Projektes Handwriting Data Collection. Damit das Wirklichkeit wird, muss folgendes passieren.

1. Daten von Handschriften sammeln

Damit das Smartphone oder Tablet schneller eine neue Handschrift erkennt, werden erstmal fleißig Handschriften gesammelt. Wie wir alle wissen hat jeder über die Jahre seine eigene “Klaue” entwickelt, beim einen mehr, beim anderen weniger schön. Oder mehr, oder weniger, lesbar.

Nur haben wir soviele Handschriften schon gesehen, dass wir oft auch schwer leserliche Schriften rekonstruieren können.

Dem Computer geht es genau so. Je mehr Schreibweisen er für ein Wort kenn, desto besser kann er es zuordnen. Deswegen werden bei Handwriting Data Collection insgesamt 44 Schreibarten pro Sprache gesammelt. Ziel ist einen Handschriten-Fundus zu erstellen, dass von jung bis alt, von präzise bis schnell dahingefetzt reicht.

2. Kann der Computer lesen?

Natürlich nicht. Wir lesen einen Text indem wir Buchstaben identifizieren, die ein Wort bilden, dessen Bedeutung wir verstehen. Manche Wissenschaftler glauben, dass wir beim Lesen schon so geübt sind, dass wir auf Anhieb ein Wort als Ganzes erkennen und nicht mehr erst die Buchstaben und dann das Wort.

Der Computer, oder genauer: die Software, geht natürlich anders vor. Ihm bedeutet Bedeutung wenig. Ob jemand “die schwarze Glut des Himmels” schreibt, “Wenn Krokodile tanzen”, oder “Kostenfaktor-Analyse” schreibt ist ihr einerlei.

Um handgeschriebene Wörter zu erkennen nutzt die Software als kleinsten Nenner nicht den Buchstaben, wie wir, sondern den Strich. So sind ein s zum Beispiel ein Strich, der über das Blatt schlendert. L ist auch ein Strich. Ein großes B sind zwei Striche, erstmal ein ‘I’, dann etwas wie eine ‘3’. Ein A sind zwei Striche: ein umgekehrtes ‘V’, in der Mitte ein ‘-‘. Ein E sind je nach Schreiber mindestens drei Striche. Erstmal ein ‘L’, dann zwei Striche übereinander, wie beim ‘=’ Zeichen.

So ist das Wort HALLO für die Software acht Striche. Der Algorithmus lenkt die Software in den Fundus aller Wörter mit acht Strichen, und guckt welche fangen mit einem Buchstaben der aus drei Strichen besteht an. Gefolgt von einem weiteren mit drei Strichen. Gefolgt von… Ihr habt das Prinzip verstanden.

Während wir lesen und verstehen, zählt die Software Striche. Vielleicht ist es auch ganz gut. So wird die Software niemals einem sagen: Was schreibst Du denn da eigentlich für einen Schwachsinn?

3. Die Sammlung

Die 44 Handschriften pro Sprache zu sammeln geht so. Wir bitten die Probanden zu uns zu kommen und mit einem elektronischem Stift Wörter auf ein Tablet wie Zeichner es nutzen zu schreiben. Die Wörter erscheinen auf dem Bildschirm eines Laptops, der Teilnehmer*in schreibt so natürlich es geht die Wörter auf das Tablet.

Das ist absolut wichtig. Sicherlich ist ein Tablet und ein e-Stift nicht dasselbe wie Papier und Kuli, oder Füllfeder. Es fühlt sich anders an, die Empfindlichkeit ist eine ganz andere. Aber es ist doch ziemlich nah dran. Und damit die Software ncht mit Schönschrift gefüttert wird, die man in der ersten Klasse benutzt hat und dann nie wieder, ist es wichtig, so zu schreiben, wie man immer schreibt. Erst dann macht das Projekt Sinn.

Es ist auch absolut wichtig, dass nur solche Leute teilnehmen, die nach dem System der jeweiligen Sprache schreiben gelernt haben. Die kleinen Franzosen lernen anders zu schreiben als die kleinen Russen. In diesem frühen Alter setzen sich Bewegungen fest, die sich in den später erlernten Sprachen fortsetzen. So ist jemand der in England geboren ist und “auf Englisch” gelernt hat zu schreiben nicht für das Deutschschreiben geeignet. Auch wenn er sagen wir mit 12 nach Deutschland gezogen ist und so gut wie ein Muttersprachler die Sprache beherrscht. Die Feinheiten, darum geht es hier 😉

Je nach Sprache schreibt man 200 bis 300 Wörter

Insgesamt schreibt man zwischen 200 und 300 Wörter, die genaue Zahl variiert je nach Sprache. Nach den Wörtern schreibt man eine Reihe von isolierten Buchstaben, Zahlen und Satzzeichen, die den Fundus der Software ergänzen. Da der Computer ja nicht liest und versteht wie wir, wird ihm z.Bsp. ein “größer als” Zeichen mitten in einem Satz nicht etwas Spanisch vorkommen. Er wird einfach in seinem Fundus von Strichsammlungen kein entsprechendes Wort finden, und dann im Fundus der Einzelbuchstaben nachgucken. “Aha! Ein ‘größer als’ Zeichen. Keine Ahnung was das bedeutet, aber das ist auch nicht meine Rolle hier. Ich führe einfach nur Zeilen und Zeilen von Code aus…”

Na gut, ob Software wirklich Selbstgespräche führen sei dahingestellt. Aber es gibt ja Leute die meinen, jede Maschine hätte eine Form von Bewusstsein – und sei sie auch noch so bescheiden im Vergleich zu unserer.