Archivo de la etiqueta: recuperación de información distribuida

Marketing viral // Buzz marketing, Social Media Optimization (SMO) y Cibermetría

Luego de una práctica de la Comunidad 2.0 del SEDIC, me dispuse a ver qué tanto afecta el acceso que se tiene a este blog luego de hacer parte de varias redes sociales, comentar en blogs y dedicarle mucho tiempo a mi microblog, comparado luego de un año donde disminuí considerablemente mi actividad. Esto es lo que muestra Google Analytics sobre las visitas a mi sitio:

Estadísticas de Hiperterminal.com Mayo 2008 vs Mayo 2009
Estadísticas de Hiperterminal.com Mayo 2008 vs Mayo 2009 Click para ampliar

Puede verse que efectivamente el participar en la blogósfera, twitósfera y demás esferas de la web social influyen las referencias que se hace a un sitio web. Pero ¿Es cierto el dicho “no importa que bien o mal pero que hablen de mi”? Hace un tiempo escuché de un buzz negativo, donde Empleados de Dominos Pizza publicaron un nada agradable video en Youtube para sus consumidores y cómo la marca se defendió. Más allá de eso existe la necesidad de medir si efectivamente la impresión que tienen nuestros “usuarios” afecta las visitas que tenemos y la visibilidad que podemos obtener.

Pero vamos por partes: La cibermetría sirve para medir cualquier tipo de información que existe en la red

¿Qué es Social Media Optimization (SMO)? En el blog de Rohit Bhargava se pueden encontrar las 5 reglas de la SMO. En resúmen:

  1. Aumenten su “linkeabilidad”
  2. Hagan que sea simple taggear y guardar los contenidos
  3. Recompensen los links entrantes
  4. Ayuden a que su contenido viaje por la red
  5. Fomenten los mashups

Vía DenkenUber (en español).

Ahora bien, hace falta realizar un estudio cibermétrico de cómo las personas de una determinada comunidad reaccionan, consumen y producen información a partir de la información que nosotros producimos, comentamos o reutilizamos. Es muy fácil hablar de marketing viral, pero una forma de optimizarlo es conocer las tendencias y exactamente en qué lugares se está produciendo información referente a un determinado tema. En mi caso puedo medir el impacto que tuvo el uso de redes sociales en las referencias a mi blog, gracias a Google Analytics puedo ver fechas, lugares de consulta y sitios de referencia pero ¿Qué hay de la gente que comenta cierto tema y no enlaza a mi blog sino a otro que trate un tema similar o incluso a otra fuente? Este método garantizaría la exahustividad en la búsqueda de información para recuperación de información en sistemas distribuidos. Dicha recuperación de información se hace especialmente útil si la comunidad que consume y produce información es una comunidad científica.

Luego de revisar mis estadísticas puedo ver que el porcentaje de accesos por sitios de referencia es mayor en el 2008, aunque el número de visitas aumentó en el 2009 gracias al etiquetado y el aumento en la cantidad de los contenidos.

Encontré la International Journal of Scientometrics, Informetrics and Bibliometrics por si les interesa el tema. Además Álvaro Cabezas escribió “Desarrollando indicadores basados en la web“.

Actualización: Encontré este video vía read/write.

Recuperación de información Distribuida y en Paralelo

No resultó fácil encontrar información sobre estos temas. Recomendación: Leer Modern Information Retrieval de Ricardo Baeza-Yates y Berthier Ribeiro-Neto. Capítulo 9.

Para hacer recuperación de información en paralelo se toman grandes colecciones de documentos, se indexan para poder recuperar cada partición del documento y almacenan en varios dispositivos, es decir, pueden existir un documento de 3 Gb almacenado en tres discos de 1Gb que se reconstruye a partir del index. Así, si tenemos una gran cantidad de documentos podemos realizar varias búsquedas simultáneas para recuperar diversos documentos almacenados en diferentes discos, no es necesario esperar a que un proceso termine para empezar el siguiente. Para esto Google usa la indexación de la web.

Mapas conceptuales de las redes sociales que conforman el ecosistema económico en Cleveland y Silicon Valley.
Mapas conceptuales de las redes sociales que conforman el ecosistema económico en Cleveland y Silicon Valley.

Descentralizado Vs. Distribuido

En cuanto a la recuperación de información distribuida un buen ejemplo es la blogósfera: Muchos nodos son capaces de producir, consumir e intercambiar información.  Se crean redes distribuidas que a diferencia de las redes centralizadas o las descentralizadas nunca van a estar incomunicadas dado que siempre habrá un camino que las una. El problema de la recuperación de información distribuida es su heterogeneidad: No sabemos qué formato nos vamos a enfrentar, su idioma o la calidad de su contenido. Para esto se usa el pagerank, para valorar la información y darle prioridad a la hora de recuperarla.

La diferencia entre Cleveland y Silicon Valley que mencionan en Nomada hablan sobre la paradoja del declive de Cleveland, ya que está altamente jerarquizada mientras que Silicon Valey presentan una topología de red distribuida que no necesariamente obedece a las jerarquías de sus nodos. Puede verse en la imágen que si un nodo central de Cleveland se desconecta dejará por fuera de la red a varios nodos que dependen de él.

[Actualización del 2008-10-28 con comentarios de clase del profesor Leonardo Machett]

Los militares usaron una tipología de red distribuida para comunicarse, dicha red evolucionó a Internet, la red de redes. Imagínese las búsquedas en una red centralizada, que además respondía a sus usuarios de manera secuencial, es decir, hasta que no se haya recuperado una solicitud de información no se puede realizar la siguiente bísqueda. Ahora imagínese que Google no podrá completar su solicitud hasta que se hayan respondido todas las solicitudes anteriores. ¿Cuánto tardaría?

Para poder responder varias consultas al tiempo se realiza la recuperación de información en paralelo.

Entre las características de la recuperación de información distribuida encontramos que la información almacenada puede ser heterogénea. Es decir, puede buscar cierta información que no se encuentra en texto como el usuario lo espera, sino que su formato está en audio.

Otra característica emergente de la recuperación de información distribuida son las difernecias entre el idioma en que se recupera la información y la profundidad de los contenidos recuperados. Quien escribe puede ser un experto en un tema o un principiante, inclusive un embustero (como ya lo comentaré en un post siguiente)


Referencias

ARCHITECTURE & LANGUAGE IMPLEMENTATION. Distributed and parallel information retrieval. [en línea]. [consultado 21 de oct. De 2008]. Disponible en  <http://www-ali.cs.umass.edu/Darch/>

BANCHERO, Santiago. Propuesta de plan de tesis [versión entregada]. [en línea]. [consultado 21 de oct. De 2008]. Disponible en <http://camaronbitmap.blogspot.com/2007/02/propuesta-de-plan-de-tesis-versin.html>

EXPLORADORES ELECTRÓNICOS. Topologías de red. [en línea]. [consultado 21 de oct. De 2008]. Disponible en <http://www.exploradoreselectronicos.net/e4pedia/Imagen:Topolog%C3%ADas_de_red.gif>

GARCIA-MOLINA, Hector y TOMASIC, Anthony. Issues in parallel information retrieval.[en línea]. [consultado 21 de oct. De 2008]. Disponible en <http://www.cs.cmu.edu/~tomasic/doc/1994/TomasicGarciaDEB1994.pdf>