Mozilla veröffentlicht Common Voice Corpus 10.0
Mit Common Voice stellt Mozilla den weltweit größten öffentlichen Datensatz menschlicher Stimmen bereit – kostenlos und für jeden nutzbar. Nun hat Mozilla Version 10.0 seines Datensatzes veröffentlicht.
Der Markt für Spracherkennung wird von den ganz großen Namen kommerzieller Anbieter dominiert: Amazon, Apple, Google, Microsoft. Darum hat Mozilla im Jahr 2017 das Projekt Common Voice gestartet. Mit Common Voice bietet Mozilla eine kostenlose Alternative an, zu der jeder beitragen kann und die jedem zur Verfügung steht. Damit möchte Mozilla Innovation und Wettbewerb in der Sprachtechnologie auf Basis von Maschinenlernen fördern.
Im vergangenen Jahr hat Mozilla Common Voice Investitionen von Nvidia, der Bill & Melinda Gates Foundation, der Deutschen Gesellschaft für Internationale Zusammenarbeit (GIZ) und dem britischen Außenministerium in Gesamthöhe von knapp fünf Millionen Dollar erhalten.
Mit dem nun veröffentlichten Common Voice Corpus 10.0 gibt es nun 30 Sprachen mit jeweils über 100 Stunden Sprachdaten. Was den deutschsprachigen Datensatz betrifft, ist dieser von 1.166 auf 1.211 Stunden angewachsen. Mit drei ganz neu hinzugekommenen Sprachen deckt man jetzt außerdem ingesamt 96 Sprachen ab, was Mozilla Common Voice zum vielfältigsten mehrsprachigen Sprachkorpus der Welt macht.
Weitere aktuelle Artikel aus der Kategorie „Mozilla“
- 16.12.2024Mozilla macht Rekordumsatz im Jahr 2023
- 14.12.2024Mozilla veröffentlicht Common Voice Corpus 20.0
- 08.12.2024Neue Mozilla-Marke offiziell vorgestellt
- 01.12.2024🎄🎁 Weihnachten steht vor der Tür - Produkte von Mozilla als Geschenkidee
- 15.11.2024Quellcode von Pocket für Android als Open Source veröffentlicht
Dankeschön!
Kann man diesen Corpus auch im Firefox-Reader verwenden? Die Sprachsynthese mit Festival bzw. Flite ist ja noch ziemlich dürftig.
Nach meinem Verständnis ist der Korpus für Sprachsynthese nicht geeignet. Vielmehr sind es freie(!) Trainingsdaten, um Spracherkennung zu entwickeln bzw. zu testen.
Für Mozilla war damals (meiner Erinnerung nach) wichtig, dass die Inhalte der Sprachbeispiele ebenfalls gemeinfrei sind (also z.B. nicht das Vorlesen eines noch urheberrechtlich geschützten Zeitungsartikels).