Recuperación de información Distribuida y en Paralelo

No resultó fácil encontrar información sobre estos temas. Recomendación: Leer Modern Information Retrieval de Ricardo Baeza-Yates y Berthier Ribeiro-Neto. Capítulo 9.

Para hacer recuperación de información en paralelo se toman grandes colecciones de documentos, se indexan para poder recuperar cada partición del documento y almacenan en varios dispositivos, es decir, pueden existir un documento de 3 Gb almacenado en tres discos de 1Gb que se reconstruye a partir del index. Así, si tenemos una gran cantidad de documentos podemos realizar varias búsquedas simultáneas para recuperar diversos documentos almacenados en diferentes discos, no es necesario esperar a que un proceso termine para empezar el siguiente. Para esto Google usa la indexación de la web.

Mapas conceptuales de las redes sociales que conforman el ecosistema económico en Cleveland y Silicon Valley.
Mapas conceptuales de las redes sociales que conforman el ecosistema económico en Cleveland y Silicon Valley.

Descentralizado Vs. Distribuido

En cuanto a la recuperación de información distribuida un buen ejemplo es la blogósfera: Muchos nodos son capaces de producir, consumir e intercambiar información.  Se crean redes distribuidas que a diferencia de las redes centralizadas o las descentralizadas nunca van a estar incomunicadas dado que siempre habrá un camino que las una. El problema de la recuperación de información distribuida es su heterogeneidad: No sabemos qué formato nos vamos a enfrentar, su idioma o la calidad de su contenido. Para esto se usa el pagerank, para valorar la información y darle prioridad a la hora de recuperarla.

La diferencia entre Cleveland y Silicon Valley que mencionan en Nomada hablan sobre la paradoja del declive de Cleveland, ya que está altamente jerarquizada mientras que Silicon Valey presentan una topología de red distribuida que no necesariamente obedece a las jerarquías de sus nodos. Puede verse en la imágen que si un nodo central de Cleveland se desconecta dejará por fuera de la red a varios nodos que dependen de él.

[Actualización del 2008-10-28 con comentarios de clase del profesor Leonardo Machett]

Los militares usaron una tipología de red distribuida para comunicarse, dicha red evolucionó a Internet, la red de redes. Imagínese las búsquedas en una red centralizada, que además respondía a sus usuarios de manera secuencial, es decir, hasta que no se haya recuperado una solicitud de información no se puede realizar la siguiente bísqueda. Ahora imagínese que Google no podrá completar su solicitud hasta que se hayan respondido todas las solicitudes anteriores. ¿Cuánto tardaría?

Para poder responder varias consultas al tiempo se realiza la recuperación de información en paralelo.

Entre las características de la recuperación de información distribuida encontramos que la información almacenada puede ser heterogénea. Es decir, puede buscar cierta información que no se encuentra en texto como el usuario lo espera, sino que su formato está en audio.

Otra característica emergente de la recuperación de información distribuida son las difernecias entre el idioma en que se recupera la información y la profundidad de los contenidos recuperados. Quien escribe puede ser un experto en un tema o un principiante, inclusive un embustero (como ya lo comentaré en un post siguiente)


Referencias

ARCHITECTURE & LANGUAGE IMPLEMENTATION. Distributed and parallel information retrieval. [en línea]. [consultado 21 de oct. De 2008]. Disponible en  <http://www-ali.cs.umass.edu/Darch/>

BANCHERO, Santiago. Propuesta de plan de tesis [versión entregada]. [en línea]. [consultado 21 de oct. De 2008]. Disponible en <http://camaronbitmap.blogspot.com/2007/02/propuesta-de-plan-de-tesis-versin.html>

EXPLORADORES ELECTRÓNICOS. Topologías de red. [en línea]. [consultado 21 de oct. De 2008]. Disponible en <http://www.exploradoreselectronicos.net/e4pedia/Imagen:Topolog%C3%ADas_de_red.gif>

GARCIA-MOLINA, Hector y TOMASIC, Anthony. Issues in parallel information retrieval.[en línea]. [consultado 21 de oct. De 2008]. Disponible en <http://www.cs.cmu.edu/~tomasic/doc/1994/TomasicGarciaDEB1994.pdf>

La web social en las bibliotecas

Para cerrar esta serie de posts relacionados con el encuentro de estudiantes dejo la presentación de una colega española: Natalia Arroyo, quien hizo su videoconferencia sobre la web social en las bibliotecas de España y algunas notas que me parecen pertinentes.

Para empezar, en España tenían una bibliogósfera consolidada en el 2006. En Colombia no se siente como una “comunidad”. Si ocurre con la blogósfera, pero en ésta los temas son bastante variados, no hablan específicamente de bibliotecas o temas estrechamente relacionados.

Casa de bloggers, iniciativa de Programator

[HTML4]

¿Existen pioneros de la biblioteca 2.0 en Colombia? No conozco (y disculpen mi ignorancia si existe  alguna y no la nombro) una biblioteca 2.0 en Colombia.

Las bibliotecas no se están preocupando por adoptar el cambio, al menos no se han escuchado convocatorias para trabajar en una biblioteca 2.0 en Colombia, he visto gran cantidad de ofertas laborales para trabajar en los cargos comunes, pero nada que apunte a la biblioteca 2.0. ¿Será que los encargados de planear estas transformaciones le temen al cambio? ¿Serán los usuarios los que no están preparados para modificar su manera de ver la biblioteca? ¿Será que nadie quiere cambiar?

Como conclusión de mi trabajo para el encuentro sé que tenemos todas las herramientas para implantar una biblioteca 2.0 en Colombia, diariamente trabajo para adoptar diversas tecnologías 2.0 que se centran en el usuario. Éste trabajo junto al de todo el equipo de e-Sanitas hizo que nos nominaran a “Mejor sitio de educación virtual en línea” en los premios Colombia en línea 2008 y no es un esfuerzo de unos pocos como pudo verse en la cantidad de postulados a los premios. Esto demuestra que hay mucha gente interesada en abrir espacios digitales en Colombia, acortar la brecha digital y migrar a nuevos lugares.