Utilizza Mozilla DeepSpeech per abilitare la sintesi vocale nella tua applicazione
Il riconoscimento vocale nelle applicazioni non è solo un trucco divertente ma un'importante funzionalità di accessibilità.
Una delle funzioni principali dei computer è analizzare i dati. Alcuni dati sono più facili da analizzare rispetto ad altri e l'input vocale continua a essere un lavoro in corso. Ci sono stati molti miglioramenti in quest'area negli ultimi anni, però, e uno di questi è sotto forma di DeepSpeech, un progetto di Mozilla, la fondazione che mantiene il browser web Firefox. DeepSpeech è una libreria e un comando da voce a testo, che lo rende utile per gli utenti che necessitano di trasformare l'input vocale in testo e per gli sviluppatori che desiderano fornire input vocale per le loro applicazioni.
Installa DeepSpeech
DeepSpeech è open source, rilasciato sotto la Mozilla Public License (MPL). Puoi scaricare il codice sorgente dalla sua pagina GitHub.
Per installare, crea prima un ambiente virtuale per Python:
$ python3 -m pip install deepspeech --user
DeepSpeech si basa sull'apprendimento automatico. Puoi addestrarlo tu stesso, ma è più semplice semplicemente scaricare i file del modello preaddestrato quando hai appena iniziato.
$ mkdir DeepSpeech
$ cd Deepspeech
$ curl -LO \
https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.pbmm
$ curl -LO \
https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.scorer
Applicazioni per gli utenti
Con DeepSpeech puoi trascrivere le registrazioni del parlato in testo scritto. Ottieni i migliori risultati dal parlato registrato in modo pulito in condizioni ottimali. Tuttavia, in caso di necessità, puoi provare qualsiasi registrazione e probabilmente otterrai qualcosa che puoi utilizzare come punto di partenza per la trascrizione manuale.
A scopo di test, potresti registrare un file audio contenente la semplice frase "Questo è un test. Ciao mondo, questo è un test". Salva l'audio come file .wav
denominato hello-test.wav
.
Nella tua cartella DeepSpeech, avvia una trascrizione fornendo il file del modello, il file del punteggio e il tuo audio:
$ deepspeech --model deepspeech*pbmm \
--scorer deepspeech*scorer \
--audio hello-test.wav
L'output viene fornito all'uscita standard (il tuo terminale):
this is a test hello world this is a test
Puoi ottenere l'output in formato JSON utilizzando l'opzione --json
:
$ deepspeech --model deepspeech*pbmm \
-- json
--scorer deepspeech*scorer \
--audio hello-test.wav
Questo rende ogni parola insieme a un timestamp:
{
"transcripts": [
{
"confidence": -42.7990608215332,
"words": [
{
"word": "this",
"start_time": 2.54,
"duration": 0.12
},
{
"word": "is",
"start_time": 2.74,
"duration": 0.1
},
{
"word": "a",
"start_time": 2.94,
"duration": 0.04
},
{
"word": "test",
"start_time": 3.06,
"duration": 0.74
},
[...]
Sviluppatori
DeepSpeech non è solo un comando per trascrivere l'audio preregistrato. Puoi anche usarlo per elaborare flussi audio in tempo reale. Il repository GitHub DeepSpeech-examples è pieno di JavaScript, Python, C# e Java per Android.
La maggior parte del lavoro è già stato fatto, quindi per integrare DeepSpeech di solito è solo questione di fare riferimento alla libreria DeepSpeech e sapere come ottenere l'audio dal dispositivo host (cosa che generalmente si fa tramite il file system /dev
) su Linux o un SDK su Android e altre piattaforme.)
Riconoscimento vocale
In qualità di sviluppatore, abilitare il riconoscimento vocale per la tua applicazione non è solo un trucco divertente, ma un'importante funzionalità di accessibilità che rende la tua applicazione più facile da usare da parte di persone con problemi di mobilità, ipovedenti e multitasking cronici a cui piace tenere le mani occupate . Come utente, DeepSpeech è un utile strumento di trascrizione in grado di convertire file audio in testo. Indipendentemente dal tuo caso d'uso, prova DeepSpeech e scopri cosa può fare per te.