Ricerca nel sito web

Utilizza Mozilla DeepSpeech per abilitare la sintesi vocale nella tua applicazione


Il riconoscimento vocale nelle applicazioni non è solo un trucco divertente ma un'importante funzionalità di accessibilità.

Una delle funzioni principali dei computer è analizzare i dati. Alcuni dati sono più facili da analizzare rispetto ad altri e l'input vocale continua a essere un lavoro in corso. Ci sono stati molti miglioramenti in quest'area negli ultimi anni, però, e uno di questi è sotto forma di DeepSpeech, un progetto di Mozilla, la fondazione che mantiene il browser web Firefox. DeepSpeech è una libreria e un comando da voce a testo, che lo rende utile per gli utenti che necessitano di trasformare l'input vocale in testo e per gli sviluppatori che desiderano fornire input vocale per le loro applicazioni.

Installa DeepSpeech

DeepSpeech è open source, rilasciato sotto la Mozilla Public License (MPL). Puoi scaricare il codice sorgente dalla sua pagina GitHub.

Per installare, crea prima un ambiente virtuale per Python:

$ python3 -m pip install deepspeech --user

DeepSpeech si basa sull'apprendimento automatico. Puoi addestrarlo tu stesso, ma è più semplice semplicemente scaricare i file del modello preaddestrato quando hai appena iniziato.

$ mkdir DeepSpeech
$ cd Deepspeech
$ curl -LO \
https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.pbmm
$ curl -LO \
https://github.com/mozilla/DeepSpeech/releases/download/vX.Y.Z/deepspeech-X.Y.Z-models.scorer

Applicazioni per gli utenti

Con DeepSpeech puoi trascrivere le registrazioni del parlato in testo scritto. Ottieni i migliori risultati dal parlato registrato in modo pulito in condizioni ottimali. Tuttavia, in caso di necessità, puoi provare qualsiasi registrazione e probabilmente otterrai qualcosa che puoi utilizzare come punto di partenza per la trascrizione manuale.

A scopo di test, potresti registrare un file audio contenente la semplice frase "Questo è un test. Ciao mondo, questo è un test". Salva l'audio come file .wav denominato hello-test.wav.

Nella tua cartella DeepSpeech, avvia una trascrizione fornendo il file del modello, il file del punteggio e il tuo audio:

$ deepspeech --model deepspeech*pbmm \
--scorer deepspeech*scorer \
--audio hello-test.wav

L'output viene fornito all'uscita standard (il tuo terminale):

this is a test hello world this is a test

Puoi ottenere l'output in formato JSON utilizzando l'opzione --json:

$ deepspeech --model deepspeech*pbmm \
-- json
--scorer deepspeech*scorer \
--audio hello-test.wav

Questo rende ogni parola insieme a un timestamp:

{
  "transcripts": [
    {
      "confidence": -42.7990608215332,
      "words": [
        {
          "word": "this",
          "start_time": 2.54,
          "duration": 0.12
        },
        {
          "word": "is",
          "start_time": 2.74,
          "duration": 0.1
        },
        {
          "word": "a",
          "start_time": 2.94,
          "duration": 0.04
        },
        {
          "word": "test",
          "start_time": 3.06,
          "duration": 0.74
        },
[...]

Sviluppatori

DeepSpeech non è solo un comando per trascrivere l'audio preregistrato. Puoi anche usarlo per elaborare flussi audio in tempo reale. Il repository GitHub DeepSpeech-examples è pieno di JavaScript, Python, C# e Java per Android.

La maggior parte del lavoro è già stato fatto, quindi per integrare DeepSpeech di solito è solo questione di fare riferimento alla libreria DeepSpeech e sapere come ottenere l'audio dal dispositivo host (cosa che generalmente si fa tramite il file system /dev) su Linux o un SDK su Android e altre piattaforme.)

Riconoscimento vocale

In qualità di sviluppatore, abilitare il riconoscimento vocale per la tua applicazione non è solo un trucco divertente, ma un'importante funzionalità di accessibilità che rende la tua applicazione più facile da usare da parte di persone con problemi di mobilità, ipovedenti e multitasking cronici a cui piace tenere le mani occupate . Come utente, DeepSpeech è un utile strumento di trascrizione in grado di convertire file audio in testo. Indipendentemente dal tuo caso d'uso, prova DeepSpeech e scopri cosa può fare per te.

Articoli correlati: