Mozilla stellt weltweit größten Sprach-Datensatz kostenlos zur Verfügung
Alexa, Siri, Google, Cortana – Spracherkennung ist in aller Munde. Und in den festen Händen kommerzieller Anbieter. Nun hat Mozilla den weltweit größten öffentlichen Datensatz menschlicher Stimmen bereitgestellt – kostenlos und für jeden nutzbar.
Mozillas Arbeit auf dem Gebiet der Spracherkennung
Mozillas Arbeit im Gebiet der Spracherkennung kann neben der Arbeit an Firefox durchaus zu einem der wichtigsten Projekte der Not-for-Profit-Organisation Mozilla gezählt werden. Immer mehr Geräte sind miteinander vernetzt und lassen sich über Sprache steuern. Was vor Jahren noch nach Science Fiction geklungen hätte, ist mittlerweile für immer mehr Menschen Realiät. Der Erfolg eines Gerätes mit Spracherkennung steht und fällt dabei natürlich vor allem mit der Qualität der Spracherkennung
Der Markt für Spracherkennung wird von den ganz großen Namen kommerzieller Anbieter dominiert: Amazon, Apple, Google, Microsoft. Darum hat Mozilla das Projekt Common Voice gestartet. Mit Common Voice versucht Mozilla, eine kostenlose Alternative zu etablieren, zu der jeder beitragen kann und die jedem zur Verfügung steht, denn nach Ansicht von Mozilla sollte diese Technologie für jeden zugänglich sein und nicht den großen Anbietern vorbehalten sein. Common Voice ergänzt damit ein weiteres Projekt von Mozilla, nämlich ein Open Source Spracherkennungsmodell, welches unter dem Namen Deep Speech von Mozilla entwickelt wird.
Mozilla veröffentlicht Sprach-Datensatz
Was Mozilla nun kostenlos und zur freien Verfügung veröffentlicht hat, ist der weltweit bislang größte öffentliche Datensatz menschlicher Stimmen. Dieser setzt sich aus 18 verschiedenen Sprachen und knapp 1.400 Stunden aufgezeichneter Sprache zusammen, zu denen mehr als 42.000 Menschen beigetragen haben. Alle Datensätze stehen unter der Creative Commons-Lizenz CC0, befinden sich also in der sogenannten Public Domain.
Download Sprach-Datensatz von der Mozilla Common Voice Webseite
Mozillas Sprachtechnologie auf dem Vormarsch
Mozilla Common Voice ist in den acht Monaten seit dem Start weiterer Sprachen als Englisch bereits auf 22 Sprachen gewachsen – und 70 weitere Sprachen stehen schon in den Startlöchern. Erwähnenswert ist dabei auch, dass bei Common Voice nicht nur die populärsten Sprachen vertreten sind, sondern teilweise auch eher kleinere Sprachen dabei sind, welche von den großen kommerziellen Anbietern häufig vernachlässigt werden.
Aber auch DeepSpeech ist auf dem besten Weg. DeepSpeech sei nach Angaben von Mozilla bereits in der Lage, „Sprache mit menschlicher Genauigkeit und in Echtzeit in Text zu konvertieren – und zwar noch während der Ton gestreamt wird.“ DeepSpeech wird bereits in den Assistenten von Mycroft und Leon sowie im Telefonvermittlungssystem FusionPBX verwendet. In Zukunft soll DeepSpeech auch in Smartphones und In-Car-Systemen zum Einsatz kommen.
Dass Mozilla nun eine erste Version des Sprachdatensatzes bereitgestellt hat, heißt natürlich nicht, dass nicht weiter beigetragen werden sollte. Unter voice.mozilla.org kann nach wie vor jeder helfen.
Weitere aktuelle Artikel aus der Kategorie „Mozilla“
- 15.11.2024Quellcode von Pocket für Android als Open Source veröffentlicht
- 14.11.2024Quellcode von Mozilla Didthis als Open Source veröffentlicht
- 06.11.2024Mozilla Foundation entlässt 30 Prozent der Mitarbeiter
- 16.10.2024Didthis: Einstellung des Projekts, Code wird Open Source
- 21.09.2024Mozilla veröffentlicht Common Voice Corpus 19.0
Weiss jemand ob bekannt ist, ob diese Projekte einzug in den Browser halten und wann? Ich meine so ähnlich wie spracheingabe beim Chrome Browser. Das fänd ich toll! Dann müsste ich chrome nicht mehr brauchen.
Mir ist diesbezüglich kein konkreter Plan für den Desktop bekannt. Ich denke, dass wir das bei Mozilla zunächst mobil sehen werden.
Aufruf zur Beteiligung am Protest gegen #Artikel13 (Uploadfilter)
Das gehört mMn auf die Startseite und nicht in die Untiefen des Forums. Auch wenn im Forum ein Banner angezeigt wird, wäre zumindest eine Notiz eine Erwägung wert, oder? 😉
Ich weiß nicht, wovon du redest. Diese Webseite hat überhaupt kein Forum. Auch weiß ich nicht, was Artikel 13 mit dem Artikel zu tun haben soll.