24 de octubre de 2011

Los celulares ahora escuchan, entienden y responden las preguntas de sus dueños


"¿Dónde puedo almorzar mariscos?", dice un conductor al volante. Su teléfono responde con voz robótica: "Tres cuadras adelante está el restaurante Caleta Urbina".
El conductor ahora le ordena a su celular: "Llamar a Caleta Urbina". El teléfono establece la comunicación. "Una mesa para tres, por favor", solicita el conductor al encargado del local.
Lo que antes parecía la escena de una película futurista, ahora es una tecnología que está al alcance de todos. Los teléfonos ya son lo suficientemente "inteligentes" como para reconocer y entender las palabras de una persona y dar una respuesta satisfactoria.
Desde hace varios años que los usuarios de celulares pueden utilizar "comandos de voz", incluso en teléfonos de la gama media. La funcionalidad más básica consiste en decirle al teléfono "Llamar a Juan Pérez", y el equipo lo hace.
"Pero ahora los mecanismos de reconocimiento de voz son cada vez más precisos y fáciles. Esto nos permite operar el teléfono cuando no estamos atentos a la pantalla", dice Matías de la Cruz, gerente de ventas de BlackBerry.
La revolución Siri
"Estamos transitando de lo touch a las interacciones verbales, ya que es la forma natural de relación humana", dice Juan Carlos Camus, experto en usabilidad.
En el lanzamiento del iPhone 4S, a principios de octubre, Apple también presentó su apuesta en este plano: Siri, una especie de asistente personal que no sólo reconoce lo que el usuario dice, sino que también le da muy buenas respuestas.
En las demostraciones, Siri puede responder a preguntas de conocimiento, entregar el informe del tiempo, hacer búsquedas en la red o ejecutar programas. Hasta le han ofrecido matrimonio, a lo que el software responde: "Mi licencia de usuario no contempla el matrimonio. Mis disculpas".
La aplicación trabaja en inglés, alemán y francés. En 2012, estará disponible en español.
Los que la han usado dicen que funciona muy bien dentro de EE.UU., pero sus respuestas no son tan buenas en otras zonas geográficas. Esto se debe a que su base de datos de respuesta está optimizada para ese país.
Si bien Siri es la más revolucionaria, no es la única aplicación del tipo.
Desde hace un tiempo, Google permite hacer búsquedas por voz a través de la aplicación "Google Voice Search", disponible para Android, BlackBerry y algunos teléfonos Nokia.
Funciona bien en español y considera los distintos acentos latinoamericanos. El usuario puede hacer búsquedas por voz, como por ejemplo decirle al celular: "Servicentro en Vitacura", y éste entrega los resultados en el mapa tomando la posición del GPS.
Según Ricardo Blanco, gerente de Comunicaciones Globales de Google, el trabajo duro no lo hace el celular sino los servidores de la empresa, los que procesan las órdenes verbales y dan la respuesta más acertada. "Es un sistema en constante aprendizaje de acentos, modismos y las mejores respuestas".
BlackBerry tiene aplicaciones que hacen cosas similares. Una de ellas es "Drive Save", que lee los e-mails que llegan al dispositivo, pero además permite que el usuario diga "responder" y comience a dictar el nuevo mensaje. También está "iSpeech", que escribe a partir de un dictado, y además lo traduce a otros idiomas.
El nuevo sistema operativo Windows Phone 7.5 (Mango) también contempla comandos de voz. Según Hernán Lardiez, director de Comunicación Móvil de Microsoft, "es capaz de leer un mensaje de texto entrante y el usuario puede ordenarle al dispositivo que responda y dictarle el mensaje".
La más usada
Vlingo es una de las aplicaciones de reconocimiento de órdenes verbales más populares que existen. Está disponible para iPhone, Android, BlackBerry, Nokia y Windows.
En el tercer trimestre de este año tuvo 2,5 millones de usuarios nuevos y ya alcanzó 550 millones de acciones de voz ejecutadas por quienes los usan.
Según sus estadísticas, el momento del día en que más se utiliza es a las 18:00 horas.
Cómo trabaja la tecnología
El sistema que hace posible los servicios de voz mezcla tres tecnologías. Primero la capacidad para reconocer la voz humana, separarla de los ruidos ambientales y convertir sonidos en palabras de un idioma.
Luego, hay que darle sentido a esa frase, es decir, que la máquina entienda que lo que se dijo se trata de una pregunta o de una petición para hacer una llamada, por ejemplo. Finalmente, está la calidad de la respuesta. Y ahí comienza a operar la inteligencia artificial del software , que usa bases de datos y algoritmos para determinar la acción más apropiada a la solicitud del usuario.
Por lo general, estas últimas dos fases se realizan en servidores que operan con la información enviada por el celular y funcionan si el usuario tiene un plan de datos.