Cómo funciona la tecnología de reconocimiento de voz

La voz es el futuro. Los gigantes tecnológicos del mundo exigen una participación de mercado vital, ya que se predice que hasta el 50 % de todas las búsquedas se realizan por voz ya en el año 2020.
Sin embargo, los antecedentes históricos que nos han llevado a este punto son tan importantes como sorprendentes. En este artículo, emprenderemos un viaje a través de la historia de la tecnología del reconocimiento de voz antes de proporcionar una visión general completa del panorama actual y brindar consejos que todos los especialistas en marketing deben tener en cuenta para estar preparados para el futuro.
Tabla de Contenido
Qué es el reconocimiento de voz
Cómo funciona el reconocimiento de voz
El futuro del reconocimiento de voz
Características de los sistemas
Clasificación del reconocimiento del habla
Usos y aplicaciones
Reconocimiento de voz vs. reconocimiento facial
FAQ
Qué es el reconocimiento de voz
El reconocimiento de voz es un subcampo interdisciplinario de la lingüística computacional que desarrolla determinadas metodologías y tecnologías que permiten a las computadoras reconocer y traducir el lenguaje hablado en texto. Esto también se conoce como reconocimiento automático de voz, reconocimiento de voz en computadora o voz en texto. Por ello, incluye conocimientos e investigaciones en lingüística, informática e ingeniería eléctrica.
Algunos sistemas de reconocimiento de voz requieren de «aprendizaje» (también llamado «inscripción») cuando un orador individual lee un texto o un diccionario aislado en el sistema. El sistema analiza la voz específica de una persona y la utiliza para ajustar el reconocimiento de voz de esa persona, lo que resulta en una mayor precisión. Los sistemas que no utilizan el aprendizaje se denominan sistemas «independientes del altavoz», mientras que los que lo utilizan se denominan «dependientes de los altavoces».
Cómo funciona el reconocimiento de voz
El reconocimiento de audio se realiza en tres pasos:
- Las palabras se destacan. Por lo general, hay varias hipótesis de una misma palabra reconocida.
- Las hipótesis se prueban con un modelo de lenguaje. El modelo verifica cómo es de consistente una nueva palabra con aquellas reconocidas anteriormente.
- A continuación, se procesa el texto reconocido: los números se convierten en números, se colocan algunos signos de puntuación como los guiones, etc. Este texto convertido es el resultado final del reconocimiento que se envía al cuerpo de la respuesta.
El futuro del reconocimiento de voz
La idea del reconocimiento de voz parecía prometedora en todo momento, pero ya en la fase de reconocimiento de números y palabras más simples, los investigadores se encontraron con un problema. La esencia del reconocimiento se redujo a construir un modelo acústico cuando se presentó como un modelo estadístico que se comparaba con los patrones terminados. Si el modelo coincidía con el patrón, el sistema decidía si se reconocía el comando o el número. También, el crecimiento de los diccionarios que el sistema podía reconocer requería un aumento en la capacidad de los sistemas informáticos.
Características de los sistemas
Digamos que tenemos algún archivo o flujo con datos de audio. En primer lugar, debemos entender cómo funciona y cómo leerlo. Consideremos la opción más simple: un archivo WAV.
El formato implica la presencia de dos bloques en el archivo. El primero es un encabezado con información sobre el flujo de audio: tasa de bits, frecuencia, número de canales, longitud del archivo, etc. El segundo consiste en datos «crudos», la misma señal digital y un conjunto de valores de amplitud.
La lógica detrás de la lectura de datos en este caso es bastante simple. Lea el encabezado, verifique algunas restricciones (como la falta de compresión) y guarde los datos en una matriz especialmente dedicada a esta función.
En teoría, ahora podemos comparar la muestra que tenemos con alguna otra cuyo texto ya conocemos, es decir, tratar de «reconocer» el habla.
El enfoque debe ser resistente al cambio en el tono de voz (de la persona que pronuncia la palabra), el volumen y la velocidad de pronunciación. Mediante la comparación de elementos de dos señales de audio, esto, por supuesto, no se puede lograr.
Clasificación del reconocimiento del habla
Los sistemas de reconocimiento de voz se pueden clasificar según:
- Las asignaciones (los sistemas de dictado y de comando);
- El tipo de discurso (voz fusionada o dividida);
- El tamaño del diccionario (conjunto limitado de palabras o un diccionario de gran tamaño);
- El altavoz (sistemas dependientes de la voz);
- El mecanismo de funcionamiento (detectores simples o correlacionados, sistemas expertos con diferentes formas de configurar y procesar la base del conocimiento y modelos de toma de decisiones probabilísticas y de red, incluidas las redes neuronales);
- El algoritmo utilizado (redes neuronales, modelos ocultos de Markov o programación dinámica);
- El tipo de unidad estructural (frases, palabras, fonemas, difonos y alófonos);
- El principio de selección de unidades estructurales (reconocimiento de patrones y selección de elementos léxicos).
Usos y aplicaciones
El reconocimiento de voz se puede usar en múltiples circunstancias, por ejemplo, cuando se quiera escribir un texto haciéndolo mediante un dictado a la computadora o móvil. También se puede implementar como defensa de la información o los datos del usuario, los cuales se pueden codificar y bloquear mediante una clave de voz. Además, se puede aplicar para el control total del computador, abriendo aplicaciones con la voz y manejando completamente el equipo.
Reconocimiento de voz vs. reconocimiento facial
Tanto los sistemas de reconocimiento de voz como los sistemas de reconocimiento facial son muy útiles en lo que se refiere a la defensa de la información, ya que pueden ser utilizados como una clave que codifica la información y da permiso de entrada solo a los usuarios que son aptos para ver estos datos.
Comparando estas dos opciones de reconocimiento, ambas tienen tanto sus puntos positivos como negativos; así, el reconocimiento de voz no puede ser utilizado en lugares muy ruidosos, ya que el sistema o software no podrá reconocer al usuario, mientras que el reconocimiento facial no podrá identificar a una persona que lleva una máscara o está en la oscuridad. Conociendo esto, se puede optar por usar cualquiera de las dos opciones, teniendo en cuenta las ventajas y desventajas de cada una de ellas.
FAQ
En los sistemas de reconocimiento de voz hay preguntas que siempre son relevantes, por lo que aquí se han recogido aquellas más actuales y frecuentes para dar respuesta a todas ellas.
¿Cómo activar el reconocimiento de voz?
Para usar el reconocimiento de voz, debe habilitar la opción «Familiarizarse con usted» (la opción de privacidad que se encuentra en «Personalización de escritura a mano y entrada de teclado»), ya que los servicios de voz existen tanto en la nube como en su dispositivo. La información que Microsoft recopila a través de ellos les permite mejorar, pero los servicios de voz que no se transmiten a la nube y solo están presentes en su dispositivo, como Locutor y Reconocimiento de voz de Windows, seguirán funcionando si esta opción está desactivada, aunque Microsoft ya no recopilará datos.
¿Qué es el reconocimiento de voz de Windows?
El programa de reconocimiento de voz utiliza un perfil de voz único para reconocer su voz y los comandos hablados. A medida que se va usando, su perfil se vuelve más detallado, lo que debería mejorar la capacidad de la computadora para comprenderlo.
¿Cómo usar el reconocimiento de voz en Word?
Las funciones de voz se pueden utilizar para introducir texto a través de modalidades de voz. Además, su sistema operativo puede tener soluciones integradas para voz adicionales y de control de reconocimiento de voz.
¿Cómo quitar el reconocimiento de voz?
- Abra la aplicación «Opciones».
- Vaya a «Privacidad» → «Funciones de voz».
- A la derecha, desactive la opción «Reconocimiento de voz en red» moviendo el control deslizante del interruptor a la posición «Desactivado».
- Windows deshabilitará el reconocimiento de voz en la red.