Mozilla macht Datensatz menschlicher Stimmen verfügbar

DPA
DPA

USA,

Mozilla, der Hersteller des Firefox-Browsers, hat den grössten Datensatz menschlicher Stimmen verfügbar gemacht, der komplett von Freiwilligen eingesprochen wurde.

Der Datensatz von Mozilla umfasst nach Angaben des Unternehmens 18 verschiedene Sprachen, darunter Englisch, Französisch, Deutsch und Mandarin (traditionell). Foto: Andrej Sokolow
Der Datensatz von Mozilla umfasst nach Angaben des Unternehmens 18 verschiedene Sprachen, darunter Englisch, Französisch, Deutsch und Mandarin (traditionell). Foto: Andrej Sokolow - dpa-infocom GmbH

Das Wichtigste in Kürze

  • Das Unternehmen in San Francisco will damit vor allem kleineren Herstellern und Crowdfunding-Projekten ohne Lizenzgebühren ermöglichen, eigene Spracherkennungssysteme zu entwickeln.

Mit dem Projekt «Common Voice» soll der weltweit vielfältigste Sprachdatensatz erstellt werden, der für die Entwicklung von Sprachtechnologien optimiert ist.

Das Unternehmen in San Francisco will damit vor allem kleineren Herstellern und Crowdfunding-Projekten ohne Lizenzgebühren ermöglichen, eigene Spracherkennungssysteme zu entwickeln.

Bislang dominieren die grossen Internetkonzerne wie Google, Microsoft, IBM, Amazon und Apple den Markt für Spracherkennung. Wichtiger Player ist ausserdem das Unternehmen Nuance, dessen Technik hinter der Spracherkennung von Apples Siri steckt.

Der Datensatz von Mozilla umfasst nach Angaben des Unternehmens 18 verschiedene Sprachen, darunter Englisch, Französisch, Deutsch und Mandarin (traditionell), aber auch beispielsweise Walisisch und Kabyle, eine algerische Berbersprache. Der Datensatz summiert sich zu fast 1.400 Stunden aufgezeichneter Sprachdaten von mehr als 42.000 Mitwirkenden.

Die von Mozilla eingesammelten Daten stehen unter der «CC0»-Lizenz zur Verfügung. Das ist die freizügigste Variante der Creative-Commons-Lizenzen («No rights reserved»). Die Projekt-Teilnehmer haben dabei freiwillig auch Metadaten wie Alter, Geschlecht und Akzent angeben.

«Damit werden gemeinsam mit ihren Aufzeichnungen weitere Informationen gespeichert, mit denen Sprach-Engines noch besser trainiert werden können», heisst es in dem Blog-Eintrag von Mozilla. Man wolle «zu einem vielfältigen und innovativen Ökosystem an Sprachtechnologien» beitragen. Ziel sei es, eigene sprachgesteuerte Produkte auf den Markt zu bringen, aber auch Forscher und kleinere Akteure zu unterstützen.

Kommentare

Weiterlesen

a
7 Interaktionen
Krise verschärft
s
1 Interaktionen
Minenräumung in Kursk

MEHR IN NEWS

Der Silberpreis steigt weiter.
Rallye
Panama
6 Interaktionen
Trend-Destinationen
Alpaka Bern Weihnachten Stricken
Das läuft auf dem Hof
andrea bauer
Apropos

MEHR AUS USA

Wake up Dead Man
Wake up Dead Man
Johnny Depp
1 Interaktionen
Comeback
brown university
Täter flüchtig
5 Interaktionen
Washington