Roberta SPEAKER – Dialogassistenten einfach selbst gestalten

Intuitiv einen eigenen Dialogassistenten entwickeln – mit der visuellen, No-Code Programmieroberfläche »Open Roberta®«!

Wo bietet die KI-Anwendung den größten Nutzen?

Sprachtechnologien spielen in der Entwicklung neuer digitaler Dienste und Technologien eine wesentliche Rolle und stellen heute schon den verlässlichen Assistenten für zu Hause dar. Ob Alexa oder Siri, im privaten Alltag ist die Kommunikation per Sprache mit Computern längst angekommen: Die schnelle Frage nach der Regenwahrscheinlichkeit oder der Staugefahr auf dem Heimweg sowie die Steuerung von Musik oder Licht in den eigenen vier Wänden – immer häufiger findet Kommunikation mit Sprachassistenten statt. Aber wie lassen sich Sprachassistenten im Unternehmen oder gar in Schulen einsetzen?

Datensicher, individuell anpassbar – Roberta SPEAKER für Unternehmen und in der Bildung

Der KI.NRW-Demonstrator »Roberta SPEAKER« ermöglicht es selbst Programmierneulingen, Dialog- Funktionen einfach und intuitiv selbständig zu entwickeln. Davon können Nutzer*innen unterschiedlicher Branchen profitieren: Unternehmen erhalten mit der Technologie die Möglichkeit, eigene Dialogassistenten zu entwickeln, um zum Beispiel ihre Maschinen mit Sprachbefehlen zu steuern. Zu den Vorteilen gehört neben der autarken Ausgestaltung der Dialoge auch die Datensicherheit, denn anders als viele kommerzielle Sprachassistenten benötigt Roberta SPEAKER keinen Internetanschluss – die Daten werden lokal verarbeitet. Darüber hinaus können auch Lehrkräfte und Bildungsakteur*innen künftig Roberta SPEAKER einsetzen, um jungen Menschen den Einsatz von KI-Technologien im Alltag besser zu vermitteln und deren Digitalkompetenzen aufzubauen.

Als Programmiersprache für die Dialogsteuerung dient NEPO®, die auf der Open-Source-Plattform Open Roberta des Fraunhofer IAIS per »drag and drop« zusammengesteckt wird und so Einstiegshürden, wie z. B. Tipp- oder Syntaxfehler, vermeidet. Das Spracherkennungsmodell kann speziell auf den eigenen Bedarf angepasst und somit auf einem Mikrocomputer ausgeführt werden. Auf kostspielige und aufwändige Hardware wird damit verzichtet. Darüber hinaus sind für die Kommunikation zwischen Anwender*innen und Sprachassistenten zusätzliche Elemente, wie z. B. Mikrofon und Lautsprecher, enthalten. 

Der Demonstrator wurde im Rahmen des vom Bundesministerium für Wirtschaft und Klimaschutz (BMWK) geförderten SPEAKER-Projekts entwickelt. Ziel des SPEAKER-Projektes ist der Aufbau einer führenden Sprachassistenzplattform »made in Germany« für Business-to-Business-Anwendungen (B2B). Die Plattform soll offen, modular und skalierbar sein und Technologien, Dienste und Daten über Serviceschnittstellen bereitstellen. Konsortialführer sind die Fraunhofer-Institute IAIS und IIS.

Was sind die Qualitätsmerkmale von Roberta SPEAKER?

  • Geringer Aufwand: Der KI.NRW Demonstrator zeigt, dass KI-Sprachmodelle selbst auf einem kleinen (portablen) Prozessor funktionsfähig sind. Dadurch werden innovative Funktionsmöglichkeiten eröffnet. Ein Vorteil: Die KI-Modelle arbeiten lokal, sodass eine Internetverbindung nicht zwingend notwendig ist. Damit demonstriert die Roberta SPEAKER-Box, dass Sprachassistenten ohne großen Aufwand nahezu überall implementiert werden können, um mit Menschen zu interagieren und einfache Arbeiten zu übernehmen. 
  • Intuitiv und individuell gestaltbar: Eine intuitive Programmieroberfläche erlaubt es allen Menschen, mit einfachen Griffen funktionierende Programmabläufe zu entwickeln, sodass im Rahmen des Demonstrators gerade Schüler*innen in der Lage sind, eigene Sprachbefehle zu generieren. Bei der Programmieroberfläche handelt es sich um das Open Roberta Lab, eine frei verfügbare, datensichere wie offene Programmierplattform der Bildungsinitiative »Roberta® – Lernen mit Robotern« des Fraunhofer IAIS.  
  • Einfache Kommunikation: Durch den Einsatz von Künstlicher Intelligenz sind Nutzer*innen in der Lage, mit den Sprachassistenten über gesprochene Sprache zu kommunizieren. Der Dialogassistent versteht Fragen und Befehle, ist in der Lage Aktionen aus der Absicht der Nutzer*innen abzuleiten und kann Antworten formulieren und diese über den Lautsprecher ausgeben oder Handlungen ableiten. 
  • Leistungsstark und ressourcenschonend: Die sprachgesteuerte Box ist erst einsatzfähig, wenn die Technologien der Künstlichen Intelligenz, die KI-Modelle, auch auf einem kleinen Prozessor funktionsfähig sind. Die Entwickler*innen legen deshalb den Fokus auf eine ressourcenschonende KI-Technologie.       
»Dialogsysteme sind allgegenwärtig. Mit ›Roberta Speaker‹ ermöglichen wir es jedem,
nahezu ohne Vorkenntnisse eigene Dialoge zur Steuerung von IoT-Geräten per Drag-and-drop zu erstellen.«
Thorsten Leimbach
Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Welche KI-Technologie steckt im KI.NRW-Demonstrator?

Automated Speech Recognition (ASR)

Technische Systeme, die gesprochene Kommandos verstehen, ermöglichen eine natürliche Kommunikation zwischen Mensch und Maschine. Die Spracherkennung wandelt gesprochene Informationen zuverlässig und in Echtzeit in digitalen Text um – auch unter schwierigen Bedingungen, etwa bei Störgeräuschen, wie sie zum Beispiel im industriellen Umfeld auftreten können oder wenn regionale Dialekte gesprochen werden.

Intent Recognition

Erst das domänenspezifische Wissen macht das Sprachsystem nützlich in bestimmten Anwendungsbereichen. Hierbei spielt die Intent Recognition, die Erkennung der Absichten aus dem gesprochenen Text eine wesentliche Rolle. So erkennt ein Intent Classifier das Thema des Textes und sucht die faktische Antwort. Mithilfe von Verbalisierungstechniken sorgt das System anschließend dafür, dass die Antwort ausformuliert ausgegeben wird.

Text-to-Speech (TTS)

In der Mensch-Maschine-Interaktion ist es oftmals von Vorteil, wenn Textinformationen nicht – etwa von einem Display – abgelesen werden müssen, sondern mit natürlicher Sprache übermittelt werden. Auf Basis von Deep Learning-Technologie erzeugen State of the Art-Algorithmen sehr natürlich klingende Sprachausgaben mit hervorragender Verständlichkeit und flüssiger Betonung.

Was zeigt der KI-Demonstrator?

Der KI.NRW-Demonstrator »Roberta SPEAKER« ermöglicht es sowohl Unternehmen als auch Schüler*innen unterschiedlicher Schulformen, wie etwa der weiterführenden Schule oder der Berufsschule, mit einer einfachen Programmieroberfläche einen eigenen Sprachassistenten zu entwickeln. Hier findet der Ausdruck »do it yourself« eine neue Bedeutung und das Erlernen von KI-Technologien kann auch ohne Vorkenntnisse beginnen.

Jetzt unverbindliches Gespräch mit unseren Expert*innen anfragen!

Wo sind weitere Informationen zu finden?

Studie »Moderne Sprachtechnologien«

Erfahren Sie, an welchen Stellen moderne Sprachtechnologien uns im Alltag und Beruf begegnen und welche wirtschaftlichen Möglichkeiten damit verbunden sind.

Roberta SPEAKER für Unternehmen

Sie wollen mit Roberta SPEAKER KI-Qualifizierungsmaßnahmen in Ihrem Unternehmen durchführen oder möchten wissen, wie Sie die Fraunhofer-Sprachtechnologie in Ihre Prozesse integrieren können?

Roberta SPEAKER in der Bildung

Sie wollen Roberta SPEAKER im Bildungskontext verwenden?

Kontakt zum Entwicklerteam

Thorsten Leimbach

Geschäftsfeldleiter
Smart Coding and Learning

Fraunhofer IAIS
Schloss Birlinghoven
53757 Sankt Augustin

Telefon +49 2241 142404

E-Mail senden

Beate Jost

Technische Leiterin bei Roberta

Fraunhofer IAIS
Schloss Birlinghoven
53757 Sankt Augustin

Telefon +49 2241 142441

E-Mail senden

Dr.-Ing. Oliver Walter

Teamleiter
Real Time Speech Recognition

Fraunhofer IAIS
Schloss Birlinghoven
53757 Sankt Augustin

Telefon +49 2241 2541

E-Mail senden

Kevin Reich

Wissenschaftlicher Mitarbeiter

Fraunhofer IAIS
Schloss Birlinghoven
53757 Sankt Augustin

Telefon +49 2241 2552

E-Mail senden

Bilderkennung und -verstehen

Intelligente Dokumentenanalyse »recognAIze«

Mit der intelligenten Dokumentenanalyse von recognAIze können Daten aus Dokumenten erkannt und automatisiert ausgewertet werden.

Wo bietet die KI‐Anwendung den größten Nutzen?

Die manuelle Sichtung von Belegen, Rechnungen und anderen Dokumenten, ihre digitale Erfassung und Bereitstellung ist in vielen Unternehmen sowie Verwaltungsinstitutionen mit einem hohen Zeit- und Kostenaufwand verbunden. Die Lösung liefern intelligente Dokumentenanalysesysteme auf Basis von Optischer Zeichenerkennung (OCR), die wie »recognAIze« eine schnelle, einfache und automatisierte Analyse sowie eine Blindverarbeitung aller Arten von Dokumenten ermöglichen. Die Unterlagen werden dank Künstlicher Intelligenz automatisch erfasst, ausgelesen, zugeordnet und weiterverarbeitet. Beschädigte Originale, qualitativ minderwertige Scans von Dokumenten sowie insbesondere auch vertrauliche Unterlagen werden ohne weiteres Zutun des Menschen und nach hohen Datenschutzstandards verarbeitet.

Was sind die Qualitätsmerkmale bei solchen KI‐Anwendungen?

  • Die Grundlage der Dokumentenanalyse bilden die zu analysierenden Inputdaten. Da die Dokumente meist in schwankender Bildqualität erfasst werden, ist eine automatisierte Bildverbesserung in der KI-Anwendung sehr wichtig.
  • Die KI-basierte optische Zeichenerkennung (OCR) mittels Künstlicher Neuronaler Netze sorgt dafür, dass nicht nur einzelne Textzeichen erkannt und verarbeitet werden, sondern auch Textpassagen und die Struktur eines Dokumentes (z.B. Kopf- oder Fußzeilen).
  • Durch eine Layout-Analyse kann die KI-Anwendung auch Tabellen in einem Dokument identifizieren und die Inhalte interpretieren, um beispielsweise Rechnungen automatisiert in der Buchhaltung zu verarbeiten.
  • Insbesondere bei sensiblen Informationen müssen die angewandten KI-Verfahren sicher sein und alle Daten DSGVO-konform auf deutschen Servern oder On-Premise beim Kunden verarbeitet werden.
  • Künftig wird in den Anwendungen auch die Handschrifterkennung (ICR) eine Rolle spielen, um zusätzliche Anwendungsfelder zu erschließen und eine vollständige Überführung von Inhalten zu erreichen.

Welche KI‐Technologie steckt im KI.NRW‐Demonstrator?

Deep Learning‐OCR

Die optische Zeichenerkennung (Optical Character Recognition OCR) kombiniert mit Convolutional Neural Networks (CNN) und Long Short-Term Memory (LSTM) zwei aktuelle Ansätze im Bereich der Künstlichen Intelligenz, um aus Pixeln Zeichen zu entwickeln. Sie entnimmt den Bildern ihre Texte und generiert für jedes Dokument eine strukturierte XML Datei mit Positionsdaten der erkannten Wörter und Seitenbereiche.

Bildverbesserung

Für bestmögliche Qualität der Ergebnisse müssen negative Einflussfaktoren wie eine mangelnde Belichtung des gescannten Dokuments oder eine Wölbung bzw. Verzerrung im Bild ausgeglichen werden. Die eingesetzten Algorithmen zur Bildverbesserung führen dafür eine Umwandlung in Graustufen und eine Binarisierung durch. Außerdem werden Verfahren zur Entfernung von Wölbungen und anderen Störfaktoren genutzt.

Layouterkennung

Die Layouterkennung erkennt die Struktur von Text und hilft dabei, die erkannten Zeichen in Spalten, Textabschnitte oder Überschriften einzuteilen und eine Lesereihenfolge zu bestimmen. So können auch Tabellenstrukturen erkannt und als solche wieder ausgegeben werden, z.B. in einem csv-Format. Das Ausgabeformat wird mit entsprechenden Metadaten versehen.

»Durch die genutzten Methoden zur Bildverbesserung, Layout-
und Zeichenerkennung können selbst Dokumente in schlechter
Qualität ausgewertet werden.«
Dr. Nicolas Flores-Herr
Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Was zeigt der KI.NRW‐Demonstrator?

Der KI.NRW-Demonstrator »recognAIze« macht eine KI-gestützte Dokumentenanalyse erlebbar. Über die Anwendung können Ihre eigenen abfotografierten oder eingescannten Dokumente in das System hochgeladen werden und stehen dort zum Testen der intelligenten Dokumentenanalyse zur Verfügung. Die Animationen führen Schritt für Schritt durch die im Demonstrator genutzten KI-Technologien.

Dokumente optimieren

Häufig besitzen abfotografierte oder eingescannte Dokumente eine schwankende Bildqualität, sind teilweise verwellt, zerrissen oder verschmutzt. Bildverbesserungsverfahren sorgen dafür, dass selbst alte oder beschädigte Schriftstücke verarbeitet werden können. Der Demonstrator »recognAIze« führt anschaulich durch die Bandbreite der Optimierungsmöglichkeiten, die für eine hochwertige Dokumentenanalyse unverzichtbar sind.

Zeichen und Strukturen erkennen

Die Treffsicherheit und Geschwindigkeit der OCR-Engine zur intelligenten Zeichenerkennung von »recognAIze« ist höher als die führender Marktteilnehmer. Ohne Templates und händische Nachbereitung erkennt der Demonstrator die Layouts der Dokumente, z.B. Absenderinformationen oder Datumsangaben. Selbst komplexe Textinhalte wie Text-um-Bild-Elemente werden durch die Anwendung sicher erkannt.

Tabellen verstehen

Eine besondere Herausforderung bilden Tabellen, da sie von Dokument zu Dokument unterschiedlich aufgebaut sein können. KI-Methoden sind dafür verantwortlich, dass Tabelleninhalte nach Informationsarten unterteilt und die Segmente einzeln interpretiert werden können.

Inhalte klassifizieren

Der Demonstrator »recognAIze« ermittelt die Eigenschaften des Dokumentes, bewertet die einzelnen Elemente und ermöglicht dadurch eine ganze Reihe von anschließenden Weiterverarbeitungen. Durch die intelligente Klassifikation wird beispielweise die Blindverarbeitung von vertraulichen Dokumenten überhaupt erst möglich. Das bedeutet, dass Informationen aggregiert oder pseudonymisiert genutzt werden können, ohne dass ein Mensch Einsicht in die Dokumente erhält. Auf diese Weise können sensible, personenbezogene Daten besser geschützt werden.

Schnittstellen bilden

Die KI-gestützte Dokumentenanalyse steht häufig am Anfang einer Prozesskette, ob nun in der Buchhaltung oder in Archiven. Damit die weiteren Verarbeitungsschritte anschließen können, bietet der KI.NRW Demonstrator verschiedene Ausgabeformate wie XML oder PDF.

Neugierig geworden?
Hier geht es zum Demonstrator!

Wo sind weitere Informationen zu finden?

Studie »Moderne Sprachtechnologien«

Erfahren Sie, an welchen Stellen moderne Sprachtechnologien uns im Alltag und Beruf begegnen und welche wirtschaftlichen Möglichkeiten damit verbunden sind.

KI-Produkte »Made in NRW«

Filtern Sie unsere KI-Landkarte nach dem Schwerpunkt »Sprach- und Textverstehen«:

KI-Anbieter aus NRW

Unsere KI-Landkarte zeigt Ihnen, wer KI-Methoden rund um das Sprach- und Textverstehen in seinem Portfolio hat.

Kontakt rund um den Demonstrator

Dr. Nicolas Flores-Herr

Geschäftsfeldleiter Document Analytics

Fraunhofer IAIS
Schloss Birlinghoven
53757 Sankt Augustin

Telefon +49 2241 142532

Email schreiben

Dr. Iuliu Konya

Senior Research Engineer

Fraunhofer IAIS
Schloss Birlinghoven
53757 Sankt Augustin

Telefon +49 2241 142543

Email schreiben

 

Marius Nißlmüller

Studentische Hilfskraft Unternehmensentwicklung

Fraunhofer IAIS
Schloss Birlinghoven
53757 Sankt Augustin

Email schreiben

Chatbot mit Wissensgraph
»Covid Q&A«

Der Chatbot führt die Funktionsweise eines Online-Dialogsystems vor, welches die Stärken eines Wissensgraphen nutzt.

Wo bietet die KI-Anwendung den größten Nutzen?

Ein KI-unterstützter Chatbot bietet vielfältige Anwendungsmöglichkeiten und kann Unternehmen branchenunabhängig in jeglichen Bereichen der Kommunikation mit der Belegschaft oder Kund*innen unterstützen. Ein klassisches Beispiel sind kundenorientierte Dienstleistungsangebote, die rund um die Uhr zur Verfügung gestellt werden. Unternehmen setzen sie auf Internetseiten, in Onlineshops, auf Support-Seiten, in Apps oder in Instant-Messaging-Systemen ein, um die Navigation auf Internetseiten zu vereinfachen, konkrete Anfragen von Kunden zu beantworten oder den Zugang zu Service und Kundendienst zu strukturieren.

Doch nicht nur in der externen, auch in der internen Unternehmenskommunikation können Chatbots erfolgreich eingesetzt werden. Anwendungsbeispiele ergeben sich beim Onboarding neuer Mitarbeitender, in HR- oder Verwaltungsprozessen wie Fragen zu Urlaubsanträgen oder Lohnsteuerabrechnungen sowie auch in der Begleitung komplexer Montageanweisungen in der Produktion.

Werden Chatbots um die Komponente der akustischen Spracherkennung sowie der akustischen Sprachsynthese ergänzt, sprechen wir in dieser erweiterten Form von Sprachassistenten (Voicebot), ähnlich Siri oder Alexa.

Was sind die Qualitätsmerkmale bei solchen KI-Anwendungen?

Texte verstehen mit Natural Language Understanding (NLU)

NLU-Methoden basieren auf semantischen Repräsentationen von Texten. Diese können Zusammenhänge zwischen Wörtern verstehen und abbilden. Diese semantischen Repräsentationen übersteigen die Möglichkeiten der klassisch regelbasierten Verfahren des Text Minings.

Auf Informationen zurückgreifen und Dialoge vorbereiten mit Dialog Management (DM) und Knowledge Graph (KG)

Wissensgraphen strukturieren Daten und Wissen, ermöglichen eine semantische Verknüpfung und sind in vielen Fällen die Basis dafür, dass Anwendungen der Künstlichen Intelligenz erklärbar werden und für den Menschen nachvollziehbare Ergebnisse liefern.

Texte generieren mit Natural Language Generation (NLG)

Die Textsynthese ist das Gegenstück zum Textverstehen. Hier wird automatisiert Text generiert, der anschließend in Sprachsignale verwandelt werden kann.

„Wissensgraphen, die verschiedene Datenquellen integrieren,
bilden die Grundlage für viele KI-Anwendungen und -Assistenten.“
Prof. Dr. rer. nat Jens Lehmann
Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS

Was zeigt der KI.NRW-Demonstrator?

Ein KI-basiertes Dialogsystem (»question answering system«) gestaltet die Suche nach Informationen effizienter und komfortabler für den Nutzenden. Der KI.NRW-Demonstrator zeigt einen solchen KI-gestützten Chatbot zur Abfrage von Corona Fallzahlen weltweit. Die Animationen erläutern Ihnen schrittweise seine Funktionsweise.

Schritt 1: Natürliche Sprache verstehen

Durch den Einsatz von KI ist die Spracherkennung an realen Unterhaltungen von Menschen und der so genannten natürlichen Sprache orientiert (»natural language understanding NLU«). Die eingesetzten Verfahren extrahieren aus dem Text Informationen, die sie intern so darstellen, dass sie weiterverarbeitet werden können. Das System kann dadurch auch weniger gängige Begriffe, Dialekte oder Umgangssprache verstehen. Auch Assoziationen und Zusammenhänge zwischen Wörtern werden angemessen berücksichtigt, also beispielsweise, dass das Wort Rechnung mit dem Wort Zahlung inhaltlich verwandt ist.

Schritt 2: Daten und Wissen strukturieren

Wissensgraphen strukturieren Daten und Wissen, ermöglichen eine semantische Verknüpfung und sind in vielen Fällen die Basis dafür, dass Anwendungen der Künstlichen Intelligenz erklärbar Ein Wissensgraph (»knowledge graph«) ist in der Lage, unterschiedlichste Informationsquellen zu einer dynamischen Wissensbasis zusammen zu führen. Im Fall des KI.NRW-Demonstrators werden die Corona Fallzahlen von der Johns Hopkins University und vom Robert-Koch Institut einbezogen. Sie werden mit Stand vom Vortag über einen Wissensgraphen zugänglich gemacht.

Schritt 3: Antwort erzeugen

Zuletzt wird eine Antwort passend zur gestellten Frage erzeugt. Dadurch ist dieser Vorgang das passende Gegenstück zum ersten Schritt, dem Verstehen von Sprache. Die strukturierten Daten werden nun in Text umgewandelt und ausgegeben. Auch die Ausgabe als akustisches Signal kann hier anschließen (so beispielsweise bei den so genannten Voicebots).

Der KI-Chatbot in Aktion

Probieren Sie den KI-Chatbot selbst aus: Der Chatbot wurde beispielhaft auf Daten aufgesetzt, die die weltweiten Fallzahlen rund um die Corona-Pandemie abbilden. Wer über das Chatfenster eine entsprechende Frage auf Englisch stellt, erhält unmittelbar Antwort.

Testfragen für die Wissensabfrage können folgende sein:

  • »Are there new cases in Mexico?«
  • »How many cases were there in total in Germany until 25th October 2020?«
  • »How many new cases were found in Argentina on 10th November 2020?«
  • »Which country had the highest number of cases on 8th November 2020?«

Wo sind weitere Informationen zu finden?

KI-Anbieter aus NRW

Unsere KI-Landkarte zeigt Ihnen, wer die KI-Schwerpunkte »Wissen und Inferenz« in seinem Portfolio hat

KI-Methoden rund um Wissen und Schlussfolgerung

Viele Good-Practice-Beispiele als Inspiration für die Anwendungsmöglichkeiten dieser KI

KI-Produkte »made in NRW«

Filtern Sie unsere KI-Landkarte nach dem Schwerpunkt »Wissen und Inferenz«

Kontakt rund um den Demonstrator

Roman Teucher

Research Engineer

Fraunhofer IAIS
Zwickauer Str. 46
01069 Dresden

Telefon +49 351 85477961

E-Mail senden

Zum Seitenanfang