Cómo funcionan los asistentes de voz
Es probable que tú, como todos, estés un poco hasta la punta del iceberg de Siri y sus días tontos, en los que da igual lo que le digas, siempre te responde lo que no es, o no te entiende, o ahora no puedo atenderte, inténtalo de nuevo más tarde.
Para intentar ponernos en su lugar (y en el Alexa, y en el de Google) y poner algo de compasión en nuestra opinión sobre Apple, Amazon y Google, hemos hablado con Pedro Vivancos, director de estrategia en innovación de Vocali, una empresa murciana, especializada en reconocimiento natural de voz, con una gran presencia en el sector médico.
Únete a nosotros en esta interesante charla donde recorremos todas las tecnologías que son necesarias para que nuestros dispositivos hagan (o no) lo que les decimos cuando les invocamos, y por qué su progreso es tan lento.
Comprender las dinámicas del mercado, y el posicionamiento que cada empresa ha elegido para sus productos es fundamental para tener las claves que explican por qué llevamos tantos años decepcionados con las capacidades de cualquiera de los interfaces hablados que tienen nuestros dispositivos.
Transcripción automática de la conversación
Alf
Saludos cordiales a todos los que os reunís una y otra vez en estas charlas de FAQ Mac, donde tratamos de abordar temas de innovación de tecnología y de temas que no estén habitualmente en los otros medios, en las otras canales que podéis estar escuchando, leyendo, pero que de alguna manera estén presentes en la conversación y que condicionen nuestro día a día tecnológico.
Hoy viene a hablar con nosotros Pedro Vivancos, que es el director de Estrategia en Innovación de la Empresa Vócali y una empresa española que está en Murcia y que viene a hablarnos de los asistentes de voz y de todos los problemas que supone entender cuando una persona habla y qué es lo que está diciendo, no solo entender lo que está diciendo, sino saber qué es lo que quiere que haga.
Hola Pedro, buenos días. Buenas tardes, buenas noches. Gracias por dejarte atracar por fa cuac.
Pedro Vivancos
Hola, muchas gracias a vosotros. Al contrario, un placer estar aquí.
Alf
Como os digo, yo conocí Vócali hace unos años por los temas que tenían de el mundo médico, su programa de es que lo va a contar él, entonces lo quiero adelantar. El caso es que yo conocía a Vócali y había hablado alguna vez con Pedro y cuando se me ocurrió que podíamos hablar de los asistentes de voz de los Siri del mundo, dije vamos a llamar a Pedro, porque seguro que él nos puede contar cosas que a nosotros, pobres mortales, ni se nos ocurren.
Entonces Pedro, para que la gente sepa por qué te llamo a ti, cuéntanos qué es lo que hace Vócali
Pedro Vivancos
Muy bien, pues muy resumidamente, nosotros somos una empresa especializada en el desarrollo de soluciones de procesamiento en lenguaje natural. Es una de las áreas de la inteligencia artificial que tiene como fin el intentar llevar las capacidades que tenemos los seres humanos de comprender el lenguaje, llevarlo a las máquinas. De acuerdo. Y dentro de esa área de procesamiento, lenguaje natural está, por supuesto, todo lo que tiene que ver con las tecnologías del habla, es decir, ser capaz de reconocer la voz, en nuestro caso en Vócali, y estamos muy especializados en desarrollar soluciones de reconocimiento de voz, sobre todo para sector médico en concreto, tenemos una solución que se llama Invox Medical, que permite a los médicos introducir la información, rellenar informe y completar formularios mediante la voz y que es la solución que tenemos implantada ya en cerca de 500 hospitales y clínicas en 19 países de habla hispana o portuguesa.
Alf
Entonces fíjate ya sólo con eso, antes de llegar a dar nombres sobre la situación de los asistentes de voz que nos ponen las empresas tecnológicas entiendo que lógica ya si no nos movemos de España, ya tenemos un repertorio de distintas maneras de vocalizar, de de hablar absolutamente generoso desde Galicia, Cataluña, Andalucía, Canarias, Castilla e incluso dentro de las propias de las propias comunidades hay distintas, distintas maneras de hablar.
Me imagino que ese es uno de los grandes problemas a los que se enfrenta todo aquel que quiera que tener un programa que entienda lo que le está diciendo un usuario.
Pedro Vivancos
Efectivamente, uno de los grandes retos que afrontamos los que nos dedicamos a desarrollar soluciones de reconocimiento de voz es distinguir entre los diferentes acentos y forma de hablar el mismo idioma. Digamos que por hablar de una forma muy resumida, los sistemas de reconocimiento de voz trabajan en función, tienen como tres componentes el componente en base en lo que llamaríamos el motor de reconocimiento de voz, que es el algoritmo.
La matemática que hay detrás del reconocimiento de voz. Y ese algoritmo, ese motor, es el mismo. Si quieres reconocer castellano, que sí, que es reconocer inglés, que se quiere reconocer japonés, pero es la misma lógica, la misma matemática que hay por debajo. Sin embargo, cuando ya vamos a un idioma en concreto, por ejemplo en español, nos encontramos que necesitamos más información.
Necesitamos que cada idioma tiene unos sonidos diferentes, unos fonemas distintos, es decir, no pronunciamos de la misma manera un fonema un inglés que un español. Entonces digamos que cada cada idioma tiene su sonido y para eso lo que hacemos es desarrollar un modelo acústico. Es modelo acústico Eso es lo que le dice al motor cuáles son los diferentes sonidos que se dan en un idioma determinado para que él sea luego capaz de reconocer esos sonidos, porque encima le añadimos la dificultad de que no todos hablamos un español o un castellano canónico.
De acuerdo. Luego tenemos ahí una variedad de acentos que difieren mucho dentro de un propio país, como es el caso de España, y tenemos acentos muy dispares. Pero imagina también otros países hispanohablantes que tenemos en Latinoamérica. De acuerdo que tiene otro acento diferente. Entonces, lo que se suele hacer para este tipo de sistema para hacer estos modelos es entrenar.
Estos sistemas son máquinas, sistema de inteligencia artificial que se basan en tecnologías de machine learning de acuerdo al aprendizaje computacional, y lo que hacemos es básicamente entrenar a la máquina facilitándole multitud de horas de audio real transcrito de diferentes voces. Y además, ya no solo nos centramos o no, sólo hay que fijarse en el acento propiamente de la región sino también la voz de un hombre es diferente a la voz de una mujer y y también en función de la edad, la voz cambia y tiene variaciones.
Entonces, como te puedes imaginar, es un problema muy complejo desarrollar un reconocimiento voz para un idioma en particular es muy complejo porque como ya has visto, tiene una serie de tener en cuenta que lo hacen realmente complicado. Y además de esto queda la tercera pata, que es no tan poco sencilla. Y es que los sistemas de reconocimiento de voz, a pesar de estar dentro de la etiqueta artificial, por lo general no son inteligentes, es decir, sólo son capaces de comprender las palabras que previamente conocen.
Entonces, no sólo hay que decirle al sistema cuáles son los sonidos que tiene un determinado idioma y la forma que tiene cada región o acento de pronunciarlos, sino que encima hay que enseñarle al sistema todas las palabras que tiene idioma, porque si no, el sistema es incapaz de comprenderlo. Claro, el vocabulario que se sale, el vocabulario que tiene ese idioma.
Porque a diferencia de los seres humanos, que a lo mejor a mí un médico me dice una palabra un tanto particular que yo no he escuchado nunca, a lo mejor por la regla fonética del castellano, yo soy capaz de transmitirlo correctamente, porque una máquina es incapaz, tiene que conocer previamente esa palabra para ser capaz de transcribir correctamente. Si no se va a equivocar, va a coger la palabra que más se le parezca, según él.
Por eso, cuando hablamos, por ejemplo, en el caso de Vocali y decíamos que estamos muy especializados en el área médica, es que realmente nosotros desarrollamos nuestro producto InVox Medical de una forma vertical para cada disciplina médica para cada especialidad médica etc. Tenemos un sistema reconocimiento, conocimiento para radiología, un sistema reconocimiento, voz para oncología, etc. o que digamos que lo que hacemos es acotar el vocabulario a lo que entendemos que un médico puede decir en una consulta o cuando está haciendo un informe de un informe médico.
Esto en el caso de los asistentes virtuales, es mucho más abierto porque claro, un setenta virtual le puede decir casi cualquier cosa que se me ocurra, de acuerdo? Por lo tanto, tienen que tener un lenguaje en este caso, por decirlo mal, y pronto sería casi como introducir el diccionario del español al sistema para que el sistema sepa todas las palabras que el usuario a priori puede decir.
Alf
Es él mismo logaritmo a esto algoritmo de voz a texto que de la voz que te responde es decir lo que te tiene que responder. El asistente tiene por detrás la misma matemática, por así decirlo.
Pedro Vivancos
Bueno, muy buena pregunta que efectivamente los androides virtuales no sólo tienen la parte de reconocimiento de voz, sino que tienen otros componentes como como tú comentas, que es la parte de síntesis de voz encima de la asistente virtual que responde hablando, también se comunica contigo hablando. Entonces, además de reconocimiento de voz, se le añade una nueva tecnología. Eso es lo que se denomina la síntesis de voz del texto speech.
De acuerdo que es si hubiese tecnología de inteligencia artificial y también está dentro del área de procesamiento. El lenguaje natural son técnicas similares, pero ya estamos hablando de un motor diferente. El motor de reconocimiento de voz nos sirve para hacer síntesis de voz, ni viceversa. Entonces, cuando se tiene que añadir una nueva área que es la parte del motor de síntesis de voz que encima ha avanzado también en los últimos años una barbaridad ahora.
Y son capaces incluso de entonar y se nota claramente cuando el sistema te está preguntando algo. Incluso pueden simular ese sistema. Está contento o triste al darle emoción a la voz. Todo eso se ha conseguido en los últimos años gracias a la gran avance que ha habido en técnicas de inteligencia artificial, en todo lo que tiene relación con lo que se llama deep learning.
El aprendizaje profundo es una subespecialidad dentro del aprendizaje computacional. Entonces, efectivamente, como bien comentas, además de reconocimiento de voz, ahí está la parte de síntesis de voz. Y encima una cosa que todavía no he comentado, que es lo que tú has adelantado al principio, que es esa parte de la semántica que nos vale solo con hacer un reconocimiento de voz y hace una transcripción, lo que luego el sistema tiene que ser capaz de asistente virtual, hay que ser capaz de comprender lo que el usuario le está pidiendo para actuar en consecuencia.
De acuerdo, entonces se añade otro nuevo componente de procesamiento del lenguaje natural, que es ahora entender lo que el usuario le está pidiendo y, por supuesto, ejecutar la acción en el campo. Tampoco algo sencillo.
Alf
Vale. De todas formas, todos los asistentes de voz llevan una jartá de años. No es una cosa no es una tecnología de ayer.
Pues Siri, pues fíjate, desde que desde que llevamos a vueltas con Siri, por qué Alexa las páginas escritas en internet sobre lo malas que es Alexa o lo mal que entiende, o la cantidad de órdenes inútiles que tiene, son infinitas o casi infinitas. Sobre Google, sobre Google. La verdad es que la gente escribe poco porque yo creo que sólo se usa para la música y para dar las luces, esas cosas no?
Pero por qué se avanza tan despacio en el tema de los asistentes de voz? Porque en su momento la promesa de Siri era Este es el nuevo interfaz. Vamos a pasar del ratón y el teclado a poder decirle todo al ordenador o al dispositivo y que él nos entienda y que nos haga las cosas. Sin embargo, pasan las décadas y a lo más que ha llegado es a entender casi los equipos de fútbol o quién ha ganado las olimpiadas.
Entonces, por qué se avanza tan, tan despacio en este tema de la inteligencia artificial en asistentes de voz?
Pedro Vivancos
Muy buena cuestión Bueno, creo que hace unos años, en la década de 2010, se ha producido un avance muy importante en esta tecnología de deep learning que comentaba antes y la aplicación de estas tecnologías al reconocimiento de voz. Creo que en el reconocimiento voz se ha avanzado una barbaridad en lo que es la parte de transcripción. De acuerdo.
Yo recuerdo cuando yo empecé a trabajar en Vócali y en la radio había chistes, había bromas de cómo reconocían los típicos asistentes de voz. Cuando llegábamos a El típico teléfono que te contestaba un robot que no daba pie con bola, no entendía apenas nada. Y sin embargo, ahora es común ver a la gente dictando WhatsApp, dictando correos. Allí esa parte de transcripción esa parte de pasar de la voz humana al texto escrito, creo que ha mejorado mucho y funciona muy bien, de acuerdo.
Pero claro que lo que hablábamos antes de que el asistente virtual tiene un componente extra de dificultad que no es, no es sencillo, es la parte de comprender ahora lo que has dicho. Si no me vale. No estamos hablando de dictar un WhatsApp, estamos hablando de que yo le estoy dando una orden a un sistema y este asistente tiene que ser capaz de ejecutar esa orden.
Y aquí, claro, las posibilidades son, como podéis imaginar, que es casi infinita. Es decir, la complejidad del problema crece exponencialmente. Porque si yo ahora, por ejemplo, quiero manejar una serie de aplicaciones por bots imagínate el típico reproductor de música tipo Spotify, un reproductor de vídeo y lo YouTube, las herramientas seminales, no habrá casi tanta forma de darle órdenes al sistema como usuarios potenciales.
Allá etc. Entonces, claro, al final que qué hacen los desarrolladores, lingüistas y otros otros? Hay otras personas que trabajan en este tipo de desarrollos? Pues al final intentan contemplar los diferentes escenarios, los diferentes casos de uso y qué acciones hay para cada uno de esos casos de uso? Claro, es muy sencillo que se le escapen forma de decir de cómo un usuario puede decir las cosas.
Y luego lo que hablabas antes posiblemente hablemos. A pesar de que hablamos el mismo idioma, hablaremos de forma diferente si estamos hablando de España que de México, por ejemplo, posiblemente una orden de voz la pueda decir diferente para manejar un reproductor de música o para decirle que me ponga una lista de canciones. Seguramente la vida de una forma diferente un español como yo que un mexicano, por ejemplo. Entonces estamos hablando de un problema complicado y aquí, en este caso todavía la tecnología, aunque ha avanzado un montón y empresas como Facebook, Google propio, Amazon, Apple, por supuesto, está investigando y trabajando en este tipo de red. Todavía no se ha dado el salto cualitativo que se dio con la parte de reconocimiento de voz.
Yo creo en generoso con ellos. Creo que si cogemos la tecnología a principio del año, 2000 y viésemos un asistente virtual hecho en el 2000 poco y viésemos lo que tenemos ahora en 2022 nos llevaríamos las manos a la cabeza porque realmente ha avanzado mucho, pero todavía, claro, no ha llegado esa como esa promesa de olvídate del teclado y ratón, que a partir de ahora te vas a poder comunicar con los sistema mediante la voz en un lenguaje natural todavía no se ha cumplido.
Se ha quedado en las típicas acciones de una lista de música enciende una luz y alguna cosilla que son dentro que cabe algo simples, de acuerdo. Y luego también aquí hay una parte de responsabilidad por los que hacen las aplicaciones. Es decir, yo entiendo que cuando uno quiere uno es desarrollador. Imagínate el desarrollador de Spotify o de Blablacar o de cualquier otra aplicación que tengamos disponible en un dispositivo móvil o en un asistente virtual que se pueda manejar mediante la voz.
Al fin y al cabo, es responsabilidad del propio desarrollador de esa aplicación el trasmitirle config o esa configuración a Siri o Alexa o al o al asistente para que el usuario se pueda comunicar con su aplicación mediante la voz. Y yo creo sinceramente que son los propios desarrolladores de la aplicación de las aplicaciones lo que no están. A lo mejor dedicándole el tiempo y el esfuerzo necesario para que luego esa aplicación se pueda manejar por vos.
Porque en parte a los que nos dedicamos al desarrollo de soluciones y estamos un poco al tanto de herramientas, nos da Amazon, Apolo o Google para para trabajar con estos asistentes, ellos te van a crear un SDK para que tú lo incluyas dentro de tu aplicación. Y de alguna manera, cuando un usuario se instala esa aplicación en el asistente o en el dispositivo móvil, pues el asistente de voz que lleva ese dispositivo sepa como comunicarse con esa aplicación mediante órdenes de voz y de alguna manera la aplicación.
Imagínate un Spotify le está diciendo a Siri Oye, mira, a mí me puedes decir estas cosas de esta forma? Qué pasa aquí? Tenemos imágenes y les Potifar y se desarrolla decir en Suecia, un país de Europa picado. Estos desarrolladores ahora tienen que integrar estos comandos de voz para multitud de idiomas, porque el problema de esto que tienen que hacer ese desarrollo para cada idioma que existe.
Y además, si lo haces bien, incluso deberías entender este desarrollo para casi cada país o cada localización diferente, porque no habla de, como decía antes, el español no lo habla igual un argentino con mexicano que un español de acuerdo acá es tan complicado que no creo yo que a día de hoy los propios desarrolladores de aplicaciones le estén dedicando o ejemplo todo el esfuerzo.
A lo mejor en que el propio sistema funcione de la mejor manera, de la mejor manera con sus aplicaciones, posiblemente también porque quizás ellos mismos círculo vicioso, ellos mismos tampoco estén convencidos de que el usuario vaya, vaya a manejar intensivamente su aplicación mediante la voz y que al final van a recurrir a las típicas pantallas táctiles, teclado, ratón o lo que o lo que toque dependiendo del dispositivo.
No sé si me he explicado correctamente.
Alf
Si lo que pasa es que sin entrar en las aplicaciones, yo como usuario de Apple, lógicamente esa es la realidad que más vivo y a lo mejor Amazon tiene otra distinta, pero también ha fracasado en su intento de que la gente compre a través de Alexa y tal. Tampoco ha funcionado muy bien o en el Google no se sabe.
Yo no voy a decir lo que está haciendo Google con su asistente porque no lo sé, no sé. Tampoco consigue muchos titulares de hemos avanzado mucho, entonces simplemente lo que sea, por centrarnos en Siri, que es lo que más sufro yo en las cosas propias de Apple, me llama la atención que en estos veinte años he avanzado tan poco en las propias.
Es decir, que le pueda decir Siri quién era yo que sé, Gandhi, Mahatma Gandhi, y que lo único que te puedo responder es esto es lo que encontró en internet y te saca un montón de resultados de webs. Pero tío, sabes que si te lo pregunto no es para que me sé, es una cosa escrita para ya lo busco yo.
Entonces eso es lo que yo no entiendo. Y lo he dicho muchas veces en mis artículos en FAQ. Mac. Por qué esto va tan despacio? Porque estamos Siri es capaz de encontrar la información en Internet, pero luego no es capaz de leértelo. Simplemente te señala la pantalla, con lo cual al final anula todo lo que sin embargo, en otras cosas, cuando le dices que te busque un sitio así que te va diciendo sitios y te pregunta Este es lo que querías? Y le dices “no”, te lee el siguiente. Entonces son estas incoherencias que es lo que. Explícame un poco al salvarles un poco el culo. Por qué? Por qué? Por qué está tan difícil?
Pedro Vivancos
Bueno, es difícil Mirad, es que aquí ya yo sigo a Alexa. En su momento le dan el nombre de skills, es decir, habilidades que tiene el propio dispositivo que existe entre los hacen de las aplicaciones de una manera. Si tú quieres que tu dispositivo tenga una habilidad para manejar una aplicación o un algo determinado, pues en parte es responsabilidad del propio desarrollador de esa aplicación.
Que Alexa tenga es skills esas habilidades para poder manejar la aplicación. Luego hay una cosa genérica como tú bien comentas que ya no estamos hablando una aplicación, sino que yo cualquier dispositivo le pregunto quién es Candy? De alguna manera lo que quiero que me responde no que me mande, no que me haga una búsqueda en Google, no, que eso ya no podría ser yo me acuerdo y aquí efectivamente hay una serie de limitaciones que por alguna razón Apple, por haber sido Apolo, cualquiera de los asistentes para decir no apostar.
Y es que también es un problema complejo y es como en este caso. Es decir, mira el para lo que tú comentas se requiere crear una base de conocimiento de acuerdo con ingenio, como si fuese una especie de enciclopedia que tuviese que tuviese estructurada, en este caso Apple. Lo mismo para Alexa, de forma que cuando el sistema pregunte estamos hablando de nuevo con una aplicación que es a base de conocimientos, una aplicación lo único que va a desarrollar el propio Apple, el propio fabricante, el dispositivo del asistente, para que cuando yo pregunte algo sea esa aplicación la que le diga esa base de conocimiento, la que diga mira a Gandhi es cuando te pregunta alguien quién es, contéstale este párrafo, léele este párrafo porque ya tuve una respuesta, pero entiendo que aquí habrá cuestiones de mercado de decir que de alguna manera Apple o todavía no tienen la tecnología o todavía no ha tenido una serie de prioridades previas a esto, porque por alguna razón considera que no es algo, no es algo importante para el usuario.
Como digo, no que sea un problema fácil de lo que sería concentrar la Wikipedia por poner una enciclopedia que todos conocemos en la Wikipedia en un formato que un asistente virtual puede consultar y utilizar para contestarte. De hecho, cuando estabas comentando esto me acuerdo de una de una especie de ahí no me acuerdo de no sé si era Wolfram como se llamaba, que era una especie de buscador donde tú le preguntabas cosas y ya no te mandaba enlaces sino que te daba una respuesta concreta a lo que le estaban preguntando Wolfram.
Creo que era verdad, claro, pues sería un ejemplo. Ese sería un ejemplo de integración que yo mira, voy a integrar Wolfram con el asistente para que cuando yo le pregunte quién es Ghandi, ya no me dé una agenda, sino que también la respuesta al leerme la respuesta agregando este motor. Pero por alguna razón eso no ha triunfado. Igual que Wolfram, creo que tampoco triunfo por alguna razón.
Parece que este tipo de cosas. Supongo que ellos tendrán una serie de analistas para determinar qué es lo que la gente suele preguntar y hacer y y o bien la tecnología. Todavía es muy complicado crear una base de conocimiento que sea con su tablet de esta manera o directamente es que no le ven mercado, no le ven negocio a día de hoy esto piensa que al final los asistentes virtuales, desde mi humilde opinión y por el tipo de empresas que los trabajan, al final lo que están buscando es algún tipo de de mercado al que quieren acceder.
Alf
Claro. Sin embargo, todas las películas del futuro se basan en que tú vas por donde sea y le dices a una pantalla Oye, búscame el nosequé más cercano y ya está y ya te entiende, te dice cómo vas y y si te apuras hasta te lleva Y sin embargo, efectivamente, no parece que sea tú crees que ese arroz se va a quedar seco en la olla que parecía que iba a ser el plato fuerte, pero que al final no lo van a sacar o no?
Pedro Vivancos
Yo sinceramente, yo sinceramente creo que si. Lo único que es verdad que la tecnología no avanza siempre yendo al ritmo que nos gustaría, sino muchas veces, como pasa con el camino que nos gustaría, no es lineal, no se ha veces una cosa que tiene mucha razón. Fíjate que estamos trabajando con interfaces de usuario como el teclado y el ratón, que tienen cuarenta años.
Bueno, el ratón tiene cuarenta años, el teclado seguramente tendrá mucho más de acuerdo, el propio reconocimiento de voz. Creo que el primer sistema de reconocimiento de voz que se inventó creo que era de los años 60. Me acuerdo que era sólo capaz de reconocer números del uno al diez o del cero al diez. No me acuerdo Y fijaros todo lo que ha evolucionado es decir, o sea que realmente se van dando pasos?
Yo creo que sí vamos a llegar a esa capacidad de que yo le diga cosas a un asistente y esta capaz de responderme en los términos que estábamos hablando hace o no hace un momento. Ahora bien, posiblemente como a finales toca en manos de empresas privadas, con todo el derecho del mundo, lógicamente que al final requieren un retorno de inversión, de invertir en esas tecnologías porque claro, yo creo que inicialmente se habían enfocado a cosas que tengan que ver con algo que le de ese retorno de inversión de la manera lo más rápido posible.
En el caso de Amazon, por ejemplo, como tú bien apuntabas, supongo, lo primero que se centrarán en resolver es en culturizar o educarnos a todos los usuarios para que seamos capaces de comprar por por Alexa. De acuerdo, en el caso de eso, porque te dan a lo mejor otras prioridades diferentes y en el caso de Google a lo mejor se quiere potenciar como ellos.
Ya en su día invirtieron mucho en empresas que tienen relación con domótica, con las casas inteligentes. Lo mejor quieren posicionar su dispositivo como la mejor mejor asistente virtual para todo el tema domótica, porque tienen empresas que fabrican dispositivos domótica. Y ahí tienen en su retorno de inversión Entonces, conforme vayan creciendo las necesidades y crezca la propia competencia, de acuerdo.
Pues mira, iremos ampliando ese abanico de posibilidades que permiten los asistentes virtuales, porque efectivamente la tecnología es un limitante de la tecnología. Reconocimiento de voz por hablar de una de ellas, de una de las tecnologías que dirigen los asistentes a día de hoy no tienen un 100% de tasa de acierto. Estamos por encima del 95%, pero todavía queda para llegar a ese 100%.
Y para que se entienda perfectamente lo que dices, pero luego si entramos en la parte de semántica, hay todavía el problema mucho más complejo por lo que hablábamos antes. Entonces, a lo mejor incluso la propia tecnología todavía tiene que avanzar algo para que realmente lo que vemos en las películas sea posible. Bueno, quizá no, seguro que tiene que avanzar algo para que al llegar a ese escenario que veíamos en la película que.
Alf
Era la del 2001 que tenía un ordenador. Si el que te pregunta es cómo te encuentras hoy? Si faltan un par de hervores.
Pedro Vivancos
Nos faltan un par de hervores que tenga más de película. Esta vez lo mismo que con el micro, que era todavía queda mucho para tener un 9000. Bueno, viendo la película casi casi mejor que no la llevamos a cabo nunca. Pero sí, efectivamente, todavía le queda todavía le queda esto. Pero bueno, yo creo que que conecte de nuevo esa nueva tecnología de aprendizaje profundo que comentábamos antes.
Esa se ha avanzado se ha avanzado mucho y seguro al ritmo que está, que avanza la tecnología, que es casi exponencial es cuestión, vamos, que tiene tiempo que lo veamos ya.
Alf
Yo leí hace un unos días un artículo que hablaba que una vez que alguien se compra un producto con un asistente de voz, por ejemplo con Alexa o con Google, lo que aprende lo aprende en los primeros 3/4 de hora y eso es lo que va a usar, no va a expandir, no es una, no es una tecnología que pique la curiosidad de a ver qué otras cosas podría hacer.
Es decir, si yo me compro un Alexa para que me maneje las luces o para comprar en Amazon, esa voy a aprender cómo compro en Amazon y no lo voy a usar para encender las luces y viceversa. Hoy lo mismo con Google. Me imagino que vosotros es un problema que también os enfrentáis, porque supongo que el vuestro sistema se decide implantar en hospitales o va médico a médico en la práctica privada o cómo va.
Pedro Vivancos
Muy buena cuestión mira, nosotros en este caso. Bueno, aquí todas estas empresas que desarrollan una serie de pistolas se enfrentan a un problema y es como cómo educo al usuario de como enseña al usuario que puede que puede hacer con el dispositivo o con el asistente para sacarle el máximo provecho, porque este tipo de sistema no sólo médicos con instrucciones y aunque nadie se dedica.
Claro que hay una parte de educación o formación al usuario lo tienen muy complicado y es una cosa que imagino que en los equipos que tengan de experiencia de usuario todas estas empresas estará siempre sobre la mesa de cómo consigue que el usuario le saque el máximo provecho. Por lo tanto, la utilidad o no un valor a que el usuario utilice y se compren mucho más dispositivo y nos dice en un área que a nosotros nos va a dar un beneficio directo.
En nuestro caso, la verdad es que lo tenemos. Es más sencillo porque nosotros como nos dedicamos a la comercialización de este tipo de soluciones a empresas que nosotros persona dedicamos al día viernes, no? Entonces al fondo le vendemos un hospital. Normalmente incluimos una formación a los usuarios que tenemos formadores, que sea por videoconferencia o ya sea de forma presencial, están con los usuarios y le explican toda la funcionalidad del sistema y cómo sacarle el máximo provecho.
Incluso le hacemos un seguimiento a sus usuarios durante un tiempo para asegurarnos de que aprenden a utilizarlo y saben sacarle y saben sacarle provecho a todas las funcionalidades que tiene. Claro cuando uno se compra un cacharro, si me permite la expresión como Alexa o como un iPhone o un iPad eso nos lo lleva y lo utiliza algo muy intuitivo.
Y la verdad que sinceramente no tengo claro cómo cómo van a conseguir que nosotros le saquemos el máximo provecho a este tipo de dispositivo? Porque como te decía al final yo sé manejar cuatro cosas del asistente y no me preocupo de aprender otras nuevas cosas. De acuerdo, entonces eso supongo que con el tiempo también imagino que antes que hacemos menciona películas.
Pues supongo que conforme veamos a gente haciendo cosas, ya sea en televisión o siendo otros usuarios que veamos como manejan ellos, iremos aprendiendo a que otras cosas le podemos decir a los asistentes, pero es un problema complejo que desde luego es seguro que está sobre la mesa de todos los equipos de experiencia de usuario que tendrán estas empresas.
Seguro ya te digo que yo uso soy usuario habitual de Siri y para algunas cosas me resultaba muy cómodo. Y el día que porque me estaba haciendo la pregunta y el día que descubrí que efectivamente le podía decir así y que descolgaba la llamada, que atendía el teléfono sin que yo tuviera que tocar el teléfono, bueno, aquel día dije oh, qué bien!
Fíjate claro que se podía hacer. Y la cantidad de veces que he dejado de estar haciendo lo que estaba haciendo porque tenía que responder. Entonces es una cosa que sin duda es uno de los retos que tiene. Y por eso te quería preguntar por la curva de aprendizaje, porque aún así me imagino que cuando llega vuestro producto a un hospital estará de todo, desde el joven médico que lo abraza y está encantado y se pone desde el primer día como un máquina a dictarse lo todo y aprender todos los trucos, que luego al final será el que se quede para enseñar a los demás.
Alf
Y estará el que lleva 25 años de práctica, que está acostumbra a escribir con su caligrafía y con no sé qué, que dice sí hombre, me voy a poner yo aquí a hablar, me siento estúpida hablándole a la habitación. Yo no puedo estar dando voces por mi despacho dictando un informe.
Pedro Vivancos
Pues mira, es muy curioso, porque como tú bien comentas, todo apuntaría a ese escenario pero luego te das cuenta de que son precisamente las personas más mayores los que mejor adoptan este tipo de tecnología, porque son precisamente a los que más les cuesta teclear a un joven que se maneja muy bien con el teclado. Pero sin embargo, la persona mayor que se ha digitalizado más tarde, pero escriben con dos dedos o teclado, mejor dicho, con dos dedos.
Entonces, claro, cómo se tienen que poner a rellenar un informe que estamos hablando de varias páginas o que sea una página le cuesta mucho, pierden mucho tiempo, le supone mucho esfuerzo hacer, hacer teclear el informe de Claro cuando le muestras el reconocimiento de voz, como hablando y en tiempo real, todo lo que van diciendo se va transcribiendo y van rellenando ese informe son son los primeros que abrazan precisamente este tipo de tecnologías, porque son lo que realmente más lo necesitan.
O sea que te llevas una sorpresa del tipo de usuarios que que primero adoptan. Yo tengo niños pequeños y en el caso de los asistentes virtuales, los que más partido le sacan al asistente son los solo los chavales, porque esos sí que no tienen, no sé si porque no tienen límite en su imaginación o no tienen vergüenza o yo que sé, pero le preguntan de todo a la asistente, incluso casi, casi le habla como si fuese una persona.
Le dan las gracias cuando cuando cuando Alexa o Siri ejecuta una acción y le preguntan, le preguntan cosas como estas son cómo te encuentras y cosas por el estilo, pero ellos son los que no dudan. Oye, si quiero esto primero que preguntarle a la asistente y la hacen, no se cansan, le pueden hacer, a diferencia de los adultos, que a lo mejor le preguntamos tres veces algo hace línea y a la tercera cómo no me responde?
Le digo mira, te digo por perdido. El niño se puede tirar cinco minutos delante de Siri preguntándole lo mismo de veinte maneras diferentes hasta que Siri acierta o directamente si se se le ocurre otra cosa y cambia de tercio. Entonces, claro, es un usuario que está mucho más consciente. Va esa parte que hablamos antes de educación, de formación.
Va a ser autodidacta, porque como va a estar desde muy pequeñito y de una forma casi incansable, hablando con el cacharro hasta que el cacharro hace lo que él quiere, pues posiblemente se va, va, va a saber sacarle mucho más provecho a este tipo de asistente que a lo mejor los adultos, que mira que al tercer intento lo abandonamos y mirad, yo sé que me vale para poner música de luces y ya está. Con esto me quedo y lo demás me da igual.
Alf
Te iba a preguntar la pregunta del ignorante. O sea, una vez que tenéis un software súper especializado en temas médicos por distintas especialidades, ya no es aplicar la misma mecánica. Y ahora vamos a por los abogados y luego a por los fontaneros y luego a por los mecánicos. De manera que ACABEIS tiene o tiene retos. Aparte del vocabulario especializado es diferente, es difícil saltar a otra especialidad.
Pedro Vivancos
No se escribe tan pregunta y efectivamente es algo como como lo que tú comentas se hace mucho más fácil que una que tienes. Hablamos antes al inicio de que los temas de reconocimiento voz tienen tres componentes principales uno que es el propio motor que vale para cualquier idioma el modelo acústico que sea lo tiene desarrollado para médicos de hispanohablantes y a priori ese de vale para fontaneros, como tú has dicho, para abogados o para cualquier otra área.
Y luego está la parte de vocabulario que lo gente sí que la tienes que desarrollar para cada dominio y para cada área, porque lógicamente lo que va a dictar un abogado diferirá mucho de lo que va a dictar un oncólogo o lo que tiene que entrenar esos sistemas a partir del vocabulario que emplean estos abogados, que jamás serán diferentes.
Si son abogados mercantiles y son penales, etc. de acuerdo, pero ya tienes muy mucho recorrido. Es mucho más fácil coger ahora el producto, por ejemplo, que tenemos para hospitales, pasarlo a abogados que empezar de cero, de acuerdo. Sin embargo, hay una cosita que no hay que perder en cuenta y que va un poco relacionado a lo que hablábamos antes, del fracaso entre comillas, de los asistentes virtuales que es lo que los informáticos llamamos el caso de uso, no?
O ahora se habla mucho de la experiencia de usuario, es decir, cómo lo va a utilizar el usuario? Porque bueno, el contexto de donde lo va a utilizar el propio usuario influye mucho en que luego esa tecnología la adopte el usuario. Imagínate, por ejemplo, un caso que nos pasa a nosotros. Y es que el reconocimiento de voz está muy afectado por médicos en una serie de ambientes.
Por ejemplo, cuando están en su despacho haciendo un informe sin embargo, cuando están en consulta, apenas lo utilizan muchos de ellos. Por qué? Porque les da pereza, no quieren dictar delante del paciente, de acuerdo, porque no quieren que escuche ciertas cosas de acuerdo. Entonces, claro, te encuentras que a pesar de que la tecnología es útil, les ayuda realmente se puede utilizar perfectamente.
En ese contexto, el usuario es reacio utilizarlo porque no está cómodo utilizando el producto y eso le podemos añadir otros escenarios, por ejemplo, en el sitio donde haya mucho ruido, que por ejemplo en este controlado o no hayamos sido capaces de filtrar esos ruidos y por lo tanto el reconocimiento no sea correcto. Entonces hay que analizar muy bien cómo el usuario lo va a utilizar, porque si no, a pesar de que la tecnología es perfectamente válida para llevar abogados a fontaneros o cualquier otra área que se nos pueda ocurrir si no analizamos el contexto, el caso de uso vale, pues puede que no consigamos una experiencia de usuario suficientemente buena, de acuerdo?
Para que el usuario la utilice o no estemos dando valor directamente al usuario. Entonces, no es sólo la propia tecnología en sí lo que tenemos que tener en cuenta, sino cómo se va utilizar después, que es un poco lo que tú comentabas antes de que parece que no acaban de cuajar, no acaban de no acabamos de sacarle el todo, toda la utilidad posibles asistentes son cosas que los que no dedicamos a desarrollar soluciones software, en este caso relacionadas con este tipo de tecnología, tenemos que evaluar muy bien, porque si no, por muy bien que funcione la tecnología, puede que tengamos un fracaso por no analizar bien como trabaja, cómo funciona el usuario o qué valor espera obtener el usuario de ese producto.
Alf
Si estamos, por ejemplo en por ejemplo en México o en o en Cuba hay una gran mezcla del español y el inglés en la manera de hablar o se incorporan muchos anglicismos y ya no hablemos si se castellanizar los anglicismos no Pero como he dicho antes, trolear si eso. Esa vía me imagino que ya hace que te explote en la cabeza como desarrollador no Pues ahora, además de hacer el spanglish, tienes que encontrar que alguien que te está hablando en un idioma, el 80% o el 90%, de repente introduzca una palabra en inglés con su pronunciación de nativo hispano.
Y además la tienes que entender sobre la marcha Eso me imagino que sí es lo que te quieras ligar.
Pedro Vivancos
Efectivamente, eso es un nuevo componente de complejidad a todo el problema que estamos mencionando. Y es que, efectivamente, el usuario puede decir palabras en otro idioma diferente al que se le espera encima con una pronunciación que tampoco es la canónica, por decirlo buena manera, de un idioma desconocido. Entonces, por ejemplo, en el caso de los asistentes virtuales por ejemplo, para que te reproduzcas una película, música o a lo mejor le dices el nombre de un autor o de un disco, se lo dices en inglés.
De acuerdo, entonces eso la gente supone problemas. Aquí lo que hacemos todos, en parte es una pequeña trampa. De acuerdo, porque tú habéis comentado muy bien, normalmente si un español como yo dice una frase, por ejemplo, como el título de una película o de un disco de música, lo digo en inglés a pesar de que yo lo digo en inglés.
Digamos que los fonemas que voy a utilizar son más parecidos a los del castellano que a los del propio inglés, porque yo seguramente incluso cuando lo hablo, aunque yo en inglés muy bien, la mayoría de gente lo que hacemos es como por la propia enseñanza nuestra de educar, de que al no ser un idioma nativo, al final lo castellanizar a muchos y los sonidos son muy parecidos a lo que utilizamos en castellano.
Me acuerdo entonces que pasa. Lo que yo estoy haciendo realmente es engañar al asistente virtual. Para él, como es un sistema a pesar de ser de internet artificial, como decía antes, es tonto. De acuerdo, si yo le cojo una palabra en inglés, de acuerdo? Así no, yo se la castellanizar. En fin, yo le digo que es una palabra en español está out, se escribe h o s de acuerdo y se pronuncia de esta manera.
Imagínate como un aquí toma j u s house. Así es como se la va a pronunciar. Y para él, como es tonto, no sabe que House es una palabra en inglés o está para es una palabra en español porque tú le has dicho que el modelo que tiene es un modelo en español. Pero de alguna manera, sea lo que lo que hacemos es meterle mucho vocabulario en inglés.
De alguna manera, Castellani o españolizado de acuerdo a para que cuando un castellanoparlante le hable y le diga algo en inglés, él realmente lo trata como si fuese una palabra en español, porque es educado y si no que House es una palabra más en español. No sé si me estoy explicando bien o posiblemente va a funcionar mejor. O sea, si le digo yo hablando con mi inglés españolizado va a funcionar mejor que si le hablas a lo mejor un inglés propiamente hablando en un inglés perfecto, porque como él está esperando que yo le hable en español, si le habla un inglés perfecto utilizando los sonidos propios del idioma inglés, es más propio del idioma que no están en el castellano, a lo mejor tiene más tasa de error que si le habla un español diciendo una frase en inglés.
Alf
Y claro, para hacerme una idea y coger y decir vamos a meter todas las bibliotecas de todos los idiomas aquí. Y de manera que da igual si hablas, le hablas primero en alemán y luego en inglés, el automáticamente va a detectar la palabra. Eso se puede hacer o es, o eso le haría una monstruosidad de programa que haría que fuera muy lento.
Pedro Vivancos
Posiblemente se podría hacer, pero el problema que tendrías aquí es que estos sistemas al final los modelos, el modelo que generaría sería inmenso, sería muy grande. Entonces ya requeriría capacidad de computación para tener, para gestionar ese tipo de modelos. Piensa que es algo potencial? Cuantas más palabras introduces en el modelo, más, más posibles relaciones tienen esas palabras entre sí.
Por tanto, que es exponencial MENTE De acuerdo, son modelos mucho más grandes y luego como son modelos que al final funcionan de una manera probabilística, pues sería erróneo. Pero bueno, cuanto más aumente la capacidad de perdón en vocabulario, más capacidad o sea, más posibilidad de error existe. Es más fácil que el sistema se equivoque y escoja otra palabra que se parece en pronunciación, pero que no era la que tú dijiste.
Cuanto mayor sea el vocabulario, más posibilidades de éxito tienes la transcripción más pasada, cierto? Vas a tener entonces, en este caso, claro, yo creo que juntar un sistema que fuese capaz de reconocer cualquier frase de dicha en cualquier idioma sería algo muy complicado y bueno. Y en este caso yo aquí no aplicaría lo que he comentado antes de engañar al sistema y meterle palabras en otro idioma castellanizada o canalizadas siguiendo nuestro ejemplo, sino que aquí lo que añadiría sería tener modelos en diferentes idiomas de acuerdo correctos, cada uno con su vocabulario, con su pronunciación de cada idioma etc..
Y lo que hay es una fase previa de acuerdo a la selección de ese modelo, que es lo que llamamos aquí la detección del idioma es que se trabaja también mucho. Es un área de trabajo dentro de lenguaje natural y es que antes de pasarlo por el modelo poner motor de reconocimiento de voz, hay una fase previa que intenta determinar en qué idioma le está hablando el usuario Entonces, en función de primero detecto en qué idioma me estás hablando y ahora aplico el motor con los modelos correspondientes para hacer una traducción lo más precisa posible.
De acuerdo? No, no es lo que se estaba comentando antes que decir bueno, yo al modelo del español le añado una serie de vocabulario en inglés castellanizado, por decirlo de una forma para que luego sea capaz de reconocer nombres de películas, nombres de discos, de música etc..
Alf
Esta noticia que hizo Apple o o este alarde de vuestra titular queda Apple de que ahora su altavoz en el home post mini es capaz de reconocer las voces de de quien le está hablando. De manera que lógicamente, lo que pide uno va a saber que ya es Ramón en vez de Juan o María en vez de Loli.
Pues ya va a su listas de preferencias y le guarda que si le gusta esa canción etc. eso es un gran chisme o es que claro, para los que no estamos en este tema de los reconocimientos de voz, lo vemos y digo bueno, pues vale, pues fenomenal, pero no lo sé, si es que realmente es algo muy meritorio o no tiene tanta chicha la cosa como como el marketing de Apple quiere hacer pensar.
Pedro Vivancos
Bueno, es una característica que a lo mejor nos diferencia de otros asistentes virtuales y ellos han decidido posicionarse por esa vía, no para distinguirse en de otros asistentes. No es algo trivial, ni mucho menos. Lo que estamos hablando aquí es que añaden a su asistente virtual un nuevo componente que es la antesala de reconocimiento de voz, la síntesis de voz, la parte de procesamiento semántico, no de la orden, añadiendo un sistema de biometría de voz.
Es decir, ya no solo es capaz de reconocer la voz, sino que es capaz de reconocer al hablante o de identificar al hablante. Entonces, claro puesto, es una nueva un nuevo motor más o un nuevo algoritmo software que está metido dentro de esa asistente. La biometría de voz es algo que está bastante avanzado y muy trabajado. No es que haya inventado nada especial, a lo mejor o alguna, o que hayan hecho algún vamos a donde yo conozco, que puede que me equivoque pero no creo que haya hecho ningún avance especial en el sentido de que la innovación está en incorporarse tecnología dentro del propio existente, porque a lo mejor se lo diferencia de una Alexa o de un Google Home.
De acuerdo, no, porque es capaz de reconocer quien le está hablando, pero no porque esa tecnología estuviese inmadura o no existiese. Y de repente la consiguió madurar o crear. No es tecnología, existe, se utiliza desde hace un montón de tiempo. Ayer, por ejemplo, me estaba hablando con una empresa que me decía que estaban aplicando para el tema de los contratos o las transacciones bancarias que se hacen por teléfono.
De acuerdo, como un nuevo, un nuevo elemento de de validación de o de confirmación de por parte de esa persona a hacer la transacción, ya que es una tecnología que existe. Como digo, la innovación en este caso es incorporarlo dentro del propio existente como una funcionalidad más, una característica que o los asistentes a día de hoy no tiene seguro en en poco tiempo.
No me atrevo a decir que será algo muy común que todos los asistentes virtuales se identifiquen que les están dando ya.
Alf
En el caso de Vócali, la transcripción se hace en el propio dispositivo o en el propio ordenador, o es o viaja al servidor de Vócali y vuelve transcrita.
Pedro Vivancos
Nosotros tenemos la opción de hacerlo en ambos, en ambos escenarios, de acuerdo, porque tenemos mucha variedad de tipos diferentes de clientes en función del hospital cómo quiere trabajar eso, ya que prefieren tenerlo todo incorporado en servidores propios y que nada viaje fuera de sus instalaciones, porque al final estamos hablando de datos que no son sensibles. Me acuerdo mientras que hay otros, otros hospitales donde a lo mejor lo que quieren es la infraestructura hardware y por tanto yo quiero un servicio en la nube.
En cualquier caso, ya sean servidores propios del del hospital, o sea, en la nube, nosotros permitimos que reconocimiento de voz se haga dentro del propio dispositivo del usuario, sea del PC o del dispositivo de turno o se haga contra un servidor, ya sea del hospital o ya sea nuestro en la nube. Esto es una es un reto realmente que nosotros hemos enfrentado y de lo que estamos bastante orgullosos, si me permites, porque estamos utilizando una tecnología que esta tecnología acabado antes de Deep Learning, es un trabajo de unos modelos muy muy grandes que entonces ese capaz de optimizar los grandes reconocimiento de voz para funcionar en un simple PC de acuerdo, como ocurre en los hospitales porque no tienen grandes un médico no tiene un jefe que sea la última generación con un gran proceso de escala, sino que son bastante limitados.
El conseguir que eso funcione, esta tecnología funciona en ese tipo de dispositivos ha supuesto un reto muy importante para nosotros y es algo de lo que nos sentimos muy orgullosos el haber conseguido que funcione.
Entonces en nuestro caso, como te decía, puede funcionar de ambas maneras. Depende un poco del hospital, aunque nosotros te recomendamos siempre que el reconocimiento de voz se haga en el propio dispositivo del cliente del usuario, por unas pocas razones que te explico a continuación. Y es que la primera vez que el sistema es mucho más escalable, es decir, tú imagínate que tuviésemos 400 usuarios, 400 médicos dictando al mismo tiempo informes, si todo eso lo tienen que procesar un único o una serie de servidores.
Claro, estamos hablando de 400 voces que viajan en tiempo real al servidor y que tienen servidores y tienen que hacer la transcripción en tiempo hay que volver la transcripción. Estás hablando de una capacidad de computación enorme, acuerdo? Estás hablando de un coste importante en infraestructura de servidores para poder hacer eso en tiempo real. Sin embargo, si tú lo tienes distribuido entre cada uno de los peajes de los usuarios, cada usuario que en su PC tiene 400 usuarios y 400 PCs haciendo el trabajo.
Por tanto, el coste económico de esa infraestructura es mínima porque existe un servidor. Verdad que utilizamos nosotros en el caso de nuestra solución para gestionar una serie de cosas como son los modelos, como son los propios usuarios? Etc. Porque claro, el servidor es simplemente una base de datos. Si me permites, para para gestionar esos recursos que utiliza el propio motor de reconocimiento de voz.
Pero no, no requiere capacidad de cómputo apenas porque el reconocimiento no se está haciendo en cada dispositivo. Entonces claro, la capacidad de escalar. Si mañana el hospital te dice que quieres tener esos 400 usuarios que ampliar a mil, no hay que tocar nada. Es decir, el servidor casi seguramente se puede mantener el mismo servidor mientras lo único que está haciendo pasa de 400 usuarios a mil, pues hará la distribución del cómputo de reconocimiento por lo distribuyó de 400 PCs a mil veces.
De acuerdo, pero no hay que asignar recursos extra o el hospital no tiene que añadir recursos o infraestructura. Está entonces es la el despliegue que nosotros recomendamos, que es precisamente el contrario que utilizan la mayoría de dispositivos o internet de la que estamos hablando. Cuando habla, habla, hablamos, le hablamos a Siri Alexa, a Google Home. Lo que está haciendo nuestra voz es viajar a un servidor de estas empresas para hacer esa transcripción, procesar y sacar la semántica y decirle al dispositivo casi, casi lo que tiene que hacer.
Ya, de acuerdo. Entonces claro, porque precisamente estas empresas lo que tienen es mucha infraestructura. Imagínate un Google o un Amazon. La capacidad de la infraestructura que tiene, no la capacidad de cómputo que tiene.
Alf
En el caso de Apple, ya no, ya lo hace Siri en el local pero sí es verdad que hasta hace nada estaban enviando los mensajes por todo el mundo para que se puede y te tengo que preguntar, aunque me temo la respuesta es tenéis una aplicación para Mac, para iPhone.
Pedro Vivancos
Tenemos el sistema de reconocimiento de voz nuestro para para que sea utilizable en Mac. De acuerdo, pero para dispositivos móviles de momento no hemos desarrollado la función porque como trabajamos directamente con hospitales digamos que el uso de dispositivos móviles en hospitales está bien. Muy se está apenas utiliza los médicos. Cuando hay que hacer los informes lo hacen en su vejez.
Entonces nos encontramos que en los hospitales el 99% de lo que hay son peces Windows. De acuerdo, pero es cierto que ahora se lleva mucho que el médico pueda teletrabajar y lo que nos encontramos es que cuando el médico está en casa suele pasar lo contrario, sigue en casa. Muchos de ellos tienen Mac, por eso tenemos la solución lista para poder funcionar.
En ordenadores. MAC Acuerdo. Sin embargo, la parte de dispositivo móvil de estilo iPad, iPhone Etc. eso realmente todavía no se nos ha dado el escenario donde retiramos o los usuarios nos demandan que esté disponible la aplicación. Si bien sí que estamos desarrollando aplicaciones complementarias para el uso de reconocimiento, por ejemplo, tenemos una aplicación para iPhone que permite usar el dispositivo del iPhone como micrófono.
Es decir, yo tengo, por ejemplo, mi aplicación, imagínate que soy el médico, voy a hacer el informe en mi PC o en mi Mac, pero claro, no tengo micrófono, un micrófono de cierta calidad y no un micrófono lo que llevan incorporado lo portátiles y lo bueno, yo y los Mac en este caso, pues no, a lo mejor no tienen la calidad más adecuada para hacer un reconocimiento de voz detrás estamos hablando de que necesitamos alcanzar tasas de acierto cercanas al 100% y a más no de una orden concreta, sino que estamos hablando de dictarle minutos y que sistematizando la transcripción correctamente.
Entonces, en estos casos lo que hacemos es que el usuario puede instalar una aplicación que convierte el iPhone en un micrófono para trabajar con nuestra aplicación entonces ahí con un utilizando la difunta tiene un micrófono bastante bueno y además que sabemos que el médico se está acercando el micrófono a la boca. Todo que tenemos bien dirigido el audio, claro que tendemos a tener una buena acústica, entonces, en ese caso conseguimos aumentar la tasa de acierto, de reconocimiento de voz que pueda funcionar el usuario, como trabajar en el hospital muy bien.
Alf
Y entonces Vócali qué es lo que va a hacer? Abrirse a otros a otras especialidades, pasarse a otros idiomas, por ejemplo el inglés, porque aquí el la bomba es donde está la pasta de verdad, la pasta gansa está en tener la aplicación para que lo puedan usar los ingleses, los angloparlantes, por así decirlo.
Pedro Vivancos
Sí, lo he dicho muy bien. Yo creo que ambas líneas están sobre la mesa. De hecho, ya hemos hecho cosas para el tema de legal y jurídico, cuando hemos hecho ya proyectos y con algún partner y un cliente. Si bien es cierto que estamos muy centrados en soluciones producto para sanidad y en este caso de sanidad, estamos desarrollando nuevos idiomas.
El año pasado lanzamos el portugués tanto para Portugal como para Brasil, porque lo tratamos como si fuesen dos idiomas diferentes, porque tienen sus particularidades, acento como de vocabulario y estamos trabajando en el catalán y queremos seguir trabajando en nuevos idiomas para seguir creciendo en el área de sanidad. Pero por supuesto no descartamos y tenemos sobre la mesa el crecer en otros dominios diferentes, además de sanidad.
Alf
Hasta de poder leer.
Pedro Vivancos
Si llega hasta aquí puedo leer y hasta aquí se sabe, porque muchas veces las decisiones es como no somos una multinacional que hacemos como planes estratégicos a cinco años, casi casi el plan de estratégico que hacemos a tres años a veces tiene variaciones de un año para otro. O sea que tampoco estoy seguro de lo que vamos a hacer el año que viene.
Alf
Y cuánta gente trabaja en Vócali.
Pedro Vivancos
Ahora mismo somos 23 personas y esperamos a lo largo de este año 2022 crecer a superar los 25. No creo que lleguemos a treinta, pero estaremos por ahí por encima de 25 a lo largo de este año 2022.
Alf
Y por qué Murcia Sois murcianos todos?
Pedro Vivancos
somos murcianos y Tenemos la tierra muy arraigada, somos muy amantes de nuestra tierra y.
Alf
se puede entender perfectamente para todo el que haya ido a Murcia.
Pedro Vivancos
Sé y y la verdad es que tenemos un ecosistema aquí en Murcia bastante interesante porque contamos con bastantes. Hay varias universidades que están produciendo. Se me permite la expresión muy buenos ingenieros anualmente, entonces, de hecho hay mucha grandes empresas que montan lo que llaman factoría de software, las montan en Murcia porque están sacando profesionales altamente cualificados y además en un volumen elevado.
Aquí hay personal, de acuerdo. Hay gente para contratar, muy válida para trabajar en Casares, ya en parte de la Universidad de Murcia, en la parte de producción de lenguaje natural tiene un equipo bastante bueno. Por tanto, salen ya muchos recién titulados que han recibido formación en este tipo de tecnologías, que no son tecnologías, que se ven habitualmente en los que estudian una carrera de informática.
De acuerdo, entonces, bueno, nos viene muy bien. Y si te digo la verdad, la principal razón fue porque los fundadores, yo entre ellos, somos de Murcia principalmente.
Alf
Pues me gusta eso, ahí apoyando la tierra a la que uno le hace muy bien. Bueno, Pedro, pues yo no sé si nos hemos dejado algún aspecto que tú consideres que sea importante mencionar cuando se habla de todos estos y sistemas de reconocimiento de voz. Transcripción de voz Síntesis de voz etc. vuestro software tiene también le ofrece al al usuario inputs a través de voz o sólo reconocimiento de voz y transcripción de texto.
Pedro Vivancos
Nosotros en este caso, lo que estamos haciendo es la transcripción de voz a texto de acuerdo o de texto lo que llamamos el discurso libre. Y también lo que hacemos es que, por ejemplo, en el caso de ahora, que se lleva mucho la captura de información estructurada por parte de los médicos, es decir, que pasan del típico campo de estos libros, puedes escribir lo que quieras a tener que rellenar formularios con datos concretos, datos estructurados.
No hay que hacer eso también por voz, porque lo que es muy incómodo para el médico, sobre todo los efectos que, como digo, se han digitalizado más tarde, es que si te pones un formulario hay diez campos. Se tiene que con el ratón hago clic en un campo al asunto ratón ahora me dedico al teclado y escribo 120 a ahora otra vez ratón teclado.
Yo lo llamo el partido de tenis. Están como teclado, ratón, ratón, teclado, no? Pues que eso lo pueden hacer por vos, porque imagínate lo fácil que es el tiempo que se gana diciendo tensión arterial 120 ochenta, temperatura 37 grados, peso 85 kilos y que eso ya no hago una transcripción literal de lo que hice, sino que vaya al campo correspondiente y escriba 120 barra ochenta, salta al campo temperatura y esquiva 37 etc. rellena el formulario en cuestión de segundos.
Alf
¿con independencia del orden en que los diga?
Pedro Vivancos
Claro, con indiferencia del orden que lo digan, porque ya el sistema está actuando de una manera más inteligente y ya lo que está entendiendo es que yo le estoy dando órdenes para completar un formulario. De acuerdo? Entonces, claro, ahora que es la tendencia de los sistemas de información en hospitales, es hacia el lado estructurado, porque permite explotar esos datos de acuerdo, permite sacar información, sacar estadística.
Ahora que está todo esto del colon a virus? Pues claro, el médico escribe en texto libre. Es muy difícil luego sacar gráfico, sacar consultas y sacar estadísticas, no? Entonces la tendencia hacia esa información estructurada, pero eso volvemos al hecho de que estamos, esa información estructurada es complicado de introducir para el usuario estamos complicando l la vida al usuario.
Entonces el reconocimiento se erige como una herramienta que puede ayudar mucho a los usuarios a que adopten esa información estructurada, a que puedan rellenar esa estructurada.
Alf
Yo te tengo que preguntar, estaba mirando ahora, intentando acordarme de si el reconocimiento a Cortana en Windows se llama Cortana. Cortana, pobrecito Cortana. Perdonanos que no nos hemos acordado de ti. Lo importante que eres estar en el mundo con la cantidad de gente que usa Cortana. Hay alguien ahí que use Cortana? Bueno, Cortana, perdonanos. Oye, se puede abrir la aplicación de Vocali usando la voz?
Alf
Se le puede decir a Cortana Oye, Cortana, abre Vocali que voy a dictar un informe…
Pedro Vivancos
No lo sé. Me has pillado.
Alf
Gol!! Gol!!.
Pedro Vivancos
como tú bien dices. Creo que soy uno de esos muchos usuarios que no utiliza Cortana y nunca lo he probado.
Alf
Es que mientras hablabas de lo de los campos que se auto rellenaban, estabas pensando hacerte la pregunta de si aun así, para iniciar el informe primero había que hacer un clic para decidir empiezo el informe o si ya se podía decir que.
Pedro Vivancos
En nuestro caso tenía un comando de voz y le puede decir que inicie el informe sin tener que tocar nada.
Alf
Bueno, vale, pero ahora hay que investigar, a ver si uno se pone delante del ordenador y dice a ver, Cortana o Siri abre Vocali porque la aplicación se llama, como me has dicho, que se llama, InVox medical o algo así.
Pedro Vivancos
Invox Medical se llama.
Alf
Invox Medical es verdad. Pues eso, Cortana abre un Invox medical que vamos a currar un poquito.
Bueno Pedro, pues yo creo que aquí lo dejamos. Yo creo que hemos dado un vistazo general al mundo de los asistentes de voz. Por qué avanzan tan despacio todas las tecnologías que implica desarrollar uno que no es fácil? Aparte de todo, yo creo que a nuestros oyentes les va a encantar saber que hay una empresa puntera en Murcia ahí, dando la batalla por el reconocimiento de voz en el mundo médico.
Y te agradezco profundamente que hayas encontrado este rato para venir a contarnos un poco todo esta alquimia que hay detrás de que un cacharro inerte entienda lo que le decimos y haga lo que le decimos. Algunas veces más que otras. Pero pero bueno, muchas gracias por venir.
Pedro Vivancos
Muchas gracias a vosotros y es un placer compartir este rato y vez que me lo he pasado muy bien. Y nada, estoy a vuestra disposición para cualquier cosa en la que pueda ayudaros.
Alf
De acuerdo, pues muchas gracias de nuevo. Y a los que estáis ahí detrás, en los auriculares y en los altavoces. A ver, que yo también estoy. Necesito un Cortana que hable por mí. Agradeceros una vez más que estéis ahí, que escuchéis estas historias que os traemos en Facebook y esperamos teneros pronto de nuevo ahí, con nuevas historias. Sed felices, ser buenas personas y hasta pronto.