Vistext: maßgeschneidertes maschinelles Lernmodell (Bild: Jose-Luis Olivares, mit.edu)

Für bessere, qualitativ hochwertige Beschriftungen von Diagrammen haben Forscher des Massachusetts Institute for Technology (MIT) einen Datensatz entwickelt, der automatische Beschriftungssysteme verbessert. Mit dem Tool namens "Vistext" haben die Forscher einem maschinellen Lernmodell antrainiert, den Grad der Komplexität und die Art des Inhalts in einer Diagrammunterschrift je nach Bedürfnissen der Benutzer zu variieren.

Wissenschaftlern kann der neue Datensatz künftig helfen, um automatische Systeme zu entwickeln, die aussagekräftigere Beschriftungen für Online-Diagramme erstellen. Die Forschungsergebnisse werden auf der Jahrestagung der Association for Computational Linguistics vorgestellt.

Diagrammunterschriften, die komplexe Trends und Muster erklären, sind wichtig für Leser, um die präsentierten Daten zu verstehen und zu behalten. Für Menschen mit Sehbehinderungen sind die Infos in einer Beschriftung oft die einzige Möglichkeit, ein Diagramm zu verstehen. Das Schreiben effektiver, detaillierter Beschriftungen ist jedoch arbeitsintensiv. Zwar können automatische Beschriftungstechniken diese Belastung verringern, doch oft fällt es ihnen schwer, kognitive Merkmale zu beschreiben, die zusätzlichen Kontext liefern.

Die MIT-Forscher haben ermittelt, dass maschinelle Lernmodelle, die für die automatische Beschriftung mit ihrem Datensatz trainiert wurden, durchweg Beschriftungen erzeugt haben, die präzise und semantisch reichhaltig waren und Datentrends sowie komplexe Muster beschrieben. Quantitative und qualitative Analysen zeigen, dass ihre Modelle Diagramme effektiver beschriften als andere sogenannte Autocaptioning-Systeme.

Das Team will Vistext als Werkzeug für Forscher bereitstellen, die sich mit dem Problem der automatischen Beschriftung von Diagrammen befassen. Diese automatischen Systeme könnten helfen, Beschriftungen für nicht beschriftete Online-Diagramme zur Verfügung zu stellen und die Zugänglichkeit für Menschen mit Sehbehinderungen zu verbessern, so Mitautorin Angie Boggust. "Wir haben versucht, eine Menge menschlicher Werte in unseren Datensatz einzubauen, damit wir und andere Forscher bei der Entwicklung automatischer Systeme zur Untertitelung von Diagrammen nicht mit Modellen enden, die nicht den Wünschen und Bedürfnissen der Menschen entsprechen."

Aufgrund der Unzulänglichkeiten bei der Verwendung von Bildern und Datentabellen stellt Vistext Diagramme auch als Szenegraphen dar. Szenediagramme, die aus einem Diagrammbild extrahiert werden können, enthalten alle Diagrammdaten, aber auch zusätzlichen Bildkontext. Der Datensatz beinhaltet über 12.000 Diagramme - jeweils als Datentabelle, Bild und Szenendiagramm - sowie die dazugehörigen Beschriftungen. Jedes Diagramm hat zwei separate Beschriftungen: eine einfache Beschriftung, die den Aufbau des Diagramms beschreibt (zum Beispiel die Achsenbereiche) sowie eine übergeordnete Beschriftung, die Statistiken, Beziehungen in den Daten und komplexe Trends beschreibt.

Die Forscher haben einfache Beschriftungen mithilfe eines automatisierten Systems erstellt und holten sich für anspruchsvollere Mitarbeiter. "Unsere Beschriftungen stützen sich auf zwei wichtige frühere Forschungsergebnisse: bestehende Richtlinien für barrierefreie Beschreibungen visueller Medien und ein konzeptionelles Modell unserer Gruppe zur Kategorisierung semantischer Inhalte. Dadurch wurde sichergestellt, dass unsere Beschriftungen wichtige einfache Diagrammelemente wie Achsen, Skalen und Einheiten für Leser mit Sehbehinderungen enthalten, während die menschliche Variabilität bei der Erstellung von Beschriftungen erhalten bleibt", erläutert Mitautor Benny J. Tang.