Categorías
Ciencia de la información

¿Cómo lo supo Youtube? Buscando canciones que no recuerdas bien

Conversando con mis estudiantes de Competencias en el uso de la información, hablamos de recuperación de información no textual y llegamos a Robin Hood de Disney. También les pregunté ¿Cómo podría recuperar una canción que tiene en su letra la frase «Con el pecho y el corazón»?

La respuesta fue buscarlo en Youtube y así lo hice: Busqué «Con el pecho y el corazón» en Youtube. El primer resultado de la búsqueda era la canción que quería encontrar: Bachata merengue de Wilfrido Vargas. Al revisar el título de la canción no encontré la palabra de búsqueda. La letra la contiene, pero en ninguno de los descriptores se encontraba esta frase.

¿Cómo pudo Youtube saber que esa frase pertenecía a esa canción? Imagino que deberá existir algún mecanismo para analizar la voz en los videos. Buscando en el blog de Youtube en español encontré que es una funcionalidad que está disponible en videos en español desde el 2012 y hace parte de la tecnología de reconocimiento de voz para las búsquedas de Google. Este servicio ya estaba funcionando en el 2009 para videos en inglés, pero Google tardó tres años en adaptarlo al español.

Lo curioso es que si Youtube reconoce la voz de un video, aparece la opción de subtítulos. En el video que aparecía en el primer puesto de resultados no se encuentra la opción de subtítulos. ¿Tendría algo que ver los enlaces de otros sitios al video con la frase de búsqueda? Imagino que la respuesta es la tecnología de reconocimiento de voz, pero si no es ¿Cómo lo hizo Youtube?

¿Qué mejor forma que cerrar este post que con la versión en vivo de Bachata merengue de Wilfrido Vargas en el Show de las Estrellas?

La imagen de este post la tomé del Flickr de Enmanuel M

Categorías
Ciencia de la información

Realidad aumentada y búsqueda de información multimedia

¿Cuántas veces ha tenido una canción en mente y no conoce ni el título de la obra, ni su autor, o tan siquiera alguna referencia que le permita identificar esa obra? ¿Alguna vez ha ido a lugares históricos y no recuerda exactamente qué sucedió allí? Algo que puede ser muy útil para esto es la realidad aumentada y la recuperación de información multimedia.

Vamos por partes: la información puede representarse en múltiples formatos; la información textual, que es la que está leyendo justo ahora, la misma que usa para realizar búsquedas en motores de búsquedas como Google o Bing y la información multimedia. Ésta última incluye imágenes, sonidos, videos, animaciones y cosas por el estilo. La información multimedia usa simultáneamente sonidos, imagenes y hasta texto como lo menciona la Real Academia Española.

¿Cómo se recupera este tipo de información?

La forma más común de recuperar informacón multimedia es hacer una búsqueda textual; ésto es particularmente útil cuando tiene información extra sobre lo que quiere recuperar, pero lo ideal sería hacer una búsqueda multimedia a partir de información multimedia, como buscar las imágenes que se parecen a una imagen que usted tiene o tararear una canción para realizar una búsqueda de información a partir de los sonidos que las máquinas interpretan de su voz.

Las máquinas deben encontrar patrones similares. En el caso de imágenes las formas, colores o texturas deben coincidir (como podía hacerlo www.like.com, adquirido por Google en el 2006 y servicio únicamente disponible en Estados Unidos). En los sonidos las notas son un factor determinante para reconocer una tonada y poder compararla con otra (como lo hace www.shazam.com).

Otro ingrediente: Realidad aumentada.

La realidad aumentada es una capa digital que está sobre la realidad que nosotros percibimos por nuestros sentidos, según Realidadaumentada.info es “combinar el mundo real con el virtual”. La hemos visto infinidad de veces en películas de ciencia ficción, o de aventuras. ¿Recuerda cuando El Exterminador buscaba a Sarah Connor en la primer película de la saga Terminator? El robot interpretado por Arnold Schwarzenegger veía todo de color rojo y a medida que los objetos aparecían,letras y símbolos le daban información sobre lo que observaba a su paso. En películas o videojuegos de aviones, cuando el piloto viaja observa, además del horizonte, un montón de indicadores como altitud, velocidad, coordenadas de su ubicación, etc. Todas esas cosas que no vemos sólo con nuestros ojos son realidad aumentada.

[youtube:http://www.youtube.com/watch?v=9MeaaCwBW28]
Así ve El Exterminador, los datos extra son realidad aumentada. Video por izirizibizi (vía Youtube).

¿Ciencia ficción o actualidad?

Actualmente existen aplicaciones que nos permiten ver esas capas digitales que recubren nuestra realidad. Necesitamos dispositivos con cámaras de video o micrófonos para captar el entorno y que las máquinas puedan mostrarnos lo que nuestros ojos y oidos no pueden. Por ejemplo, esta aplicación para iPhone muestra la ruta más cercana al transporte público con flechas, información extra como distancia en millas o kilómetros y lo hace reconociendo su ubicación mediante el sistema de posicionamiento global (GPS)

[youtube:http://www.youtube.com/watch?v=U2uH-jrsSxs]
Aplicación de realidad aumentada para iPhone probada en una calle. Video por acrossair (vía Youtube).

Google Goggles es la respuesta del gigante de las búsquedas a esta tendencia. Mediante fotografías tomadas por un dispositivo móvil, el buscador realizará una búsqueda, sin necesidad de escribir texto. En su sitio oficial (http://www.google.com/mobile/goggles) muestra cómo goggles puede reconocer texto (muy útil por ejemplo para reconocer escritos en otro idioma), lugares, libros, obras de arte, vinos y logos entre otros.

El ejemplo de Goggles con reconocimiento de una imagen y de texto:

[youtube:http://www.youtube.com/watch?v=ck6Ez7u7HNU]
Reconocimiento de El David, de Miguel Ángel a través de Google Goggles. Video por maggblog (vía Youtube).

Shazam por su parte toma melodías y reconoce canciones. Hice la prueba con el tema «Isle of Her» de Klaxons y lo reconoció sin problema, con bajo volumen y a una distancia de 3 metros. Aquí lo vemos en acción:

[youtube:http://www.youtube.com/watch?v=eogz4Gozj-Y]
Shazam reconociendo la canción “Have Fun Go Mad” de Blair. Video por VonKlinkerhofen (vía Youtube)

Así, lo único que resta es que nuestros contenidos locales aparezcan en la red, necesitamos compartir multimedia, acceder a dispositivos móviles y a conexión a internet en cualquier lugar para poder beneficiarnos de estos avances y empezar a entender nuestros espacios como espacios digitales, donde internet no está sólo en los computadores de escritorio sino en cualquier esquina.