Introducción a los Sistemas Avanzados de Recuperción de Información: En busca de la información oculta

INTRODUCCIÓN

El desarrollo de Internet ha venido asociado con el incremento exponencial de la cantidad de información circulante que existe en este medio. Para hacernos una idea, según un informe de la consultora internacional IDC y el fabricante de sistemas de almacenamiento EMC[1], la cantidad de información digitalizada sólo en 2006 fue 3 millones de veces mayor que la de todos los libros escritos, la cantidad de información digital creada, capturada y replicada fue de 161 billones de gigabytes, aproximadamente el equivalente a toda la información generada en los 5000 años anteriores por el hombre, y todo esto sólo en un año. Cualquier estudio o referencia que se encuentre sobre el desarrollo de Internet y la cantidad de información que contiene muestra proporciones de aumento casi inimaginables que se multiplican a cada instante.

Este mismo informe arroja algunos datos en lo referente a la cantidad de información que existe en la red, por ejemplo se envían mundialmente 60 mil millones de e-mails por día (10 veces la población mundial), en cuanto al vídeo, portales como YouTube aumentan 65.000 vídeos nuevos al día, otros tipos de vídeo en red, como las conexiones WebCam crecen un 21% y existen datos que hablan de un aumento del 200% del vídeo empresarial (tráfico IP) de manera anual. En 2007 el número de páginas web aumentó un 48%, 50 millones de sitios Web nuevos en un solo año, es decir unos 155 millones de páginas Web en total donde los blogs son los que más crecieron en ese año siendo los tres máximos proveedores MySpace, Live Spaces y Blogger que registraron la mitad del total de nuevos registros del año 2007. Con respecto a los blogs, según la cuenta que lleva el sistema BlogPulse[2], de Nielsen, hay aproximadamente 80 millones de blogs en el mundo. Unos 100 mil nuevos cada 24 horas. Y unos 800 mil "posts", o artículos, publicados en el mismo período.

Se podría continuar dando un gran número de datos para terminar de poner de manifiesto la monumental cantidad de información que existe en el universo Web, pero es de considerar que no puede quedar duda de esta realidad con los datos ya expuestos que arrojan estos estudios[3].

En este mar de datos, existen los denominados “buscadores” o “motores de búsqueda” que son, simplificándolo mucho, unos sistemas informáticos que localizan los archivos almacenados en servidores web gracias a sus “spiders” (o web crawler) y los indexan según unos parámetros, para su posterior localización. Existen un gran número de ellos y diversas clasificaciones atendiendo a sus características, pero sin embargo, el máximo representante actual de este “negocio” es la compañía Google.

Google es capaz de indexar 20.000 terabytes de información en tan sólo 24 horas. Este tremendo potencial es la principal causa, según el sitio TechCrunch[4], de la absoluta dominancia de Google en el mercado de las búsquedas.

Pero, dejando a un lado las polémicas que puedan suscitar (y que han suscitado) las posibilidades y prácticas de Google, en este marco de explosión informativa incontrolada y abrumadora y la necesidad por recuperar la información, se ha manifestado un fenómeno relacionado con esta asociación, la denominada Web profunda o Web invisible.

LA WEB PROFUNDA

La información que permanece oculta en la Web se estima quinientas veces superior a toda la información capaz de ser indexada por los buscadores generalistas, a esta información que se escapa de la búsqueda convencional es a la que se le ha denominado “deep web” o Web profunda.

Tres tipos diferentes de Internet pueden ser definidas para una mejor comprensión de este fenómeno[5]:

· Internet global: Red libre y gratuita, a través de la interconexión de ordenadores. Se accede mediante los browsers o navegadores, tales como Explorer, Chrome y Mozilla, destaca la mensajería y el intercambio FTP o P2P.

· Internet invisible: Información disponible en la Web pero cuyo acceso solo está disponible a través de un acceso dinámico a una base de datos. Podemos acceder a ella mediante los navegadores, pero es muy difícil de indexar su contenido.

· Internet oscura: Servidores o host totalmente inaccesibles desde nuestra computadora. Generalmente suelen ser zonas restringidas o protegidas para su acceso.

Luego la Web oscura, está constituida por toda esa información accesible vía Web, pero a la que no es posible llegar mediante una consulta a los buscadores tradicionales por diversos motivos[6]:

1. Ficheros no textuales (no HTML)

§ Maquetación especial (por ejemplo páginas en Flash)

§ Ficheros Multimedia

2. Recursos generados en ese momento

§ Plantillas de resultados de BB. DD.

§ Páginas volátiles

3. Consultas a BB.DD.

§ Los robots (spiders) no pueden interrogar

§ Menús desplegables (navegación)

4. Recursos protegidos con claves

§ Exigen registro o pago

5. Páginas huérfanas

§ No enlazadas o enlazadas median formulario

Para seguir con esta visión general de la situación en la que probablemente se encuentra nuestra gran Red con respecto a la información que contiene, es bastante clarificador el gráfico creado por Ricardo Baeza Yates[7] :

La cantidad de Web que puede ser indexada es bastante inferior al total de la Web existente, esa es la información a la que tienen acceso actualmente los buscadores generalistas. También muestra un número muy reducido de Webs con información semántica y un gran número de información dinámica que escapa de los buscadores. Luego, según Baeza, queda claro que los buscadores no muestran más que un pequeño segmento del total de los datos accesibles en red.

EN BUSCA DE LA INFORMACIÓN OCULTA

Toda esta información se revela como una gran oportunidad para la nueva generación de buscadores. El acceso a este gran “dorado” se proyecta como el desafío de las compañías especializadas en la recuperación de la información, sin embargo, el esfuerzo económico[8] que debe suponer este megalítico proyecto tan sólo es soportable por grandes multinacionales.

Es cierto que existen un número considerable de buscadores que han decidido enfocar sus esfuerzos hacia la búsqueda de información en la Web oculta, como por ejemplo los mostrados y analizados por Isidro Aguillo en su trabajo Internet invisible[9] y de los que desafortunadamente muy pocos[10], desde que hiciera su estudio, han conseguido permanecer en funcionamiento o han adquirido popularidad.

La inversión necesaria y el esfuerzo realizado que deben hacer para que su objetivo se realice es un proyecto muy arriesgado, y que no debe reportar de momento los beneficios necesarios como para prosperar.

Por otro lado, algunas compañías ya se han percatado de este fenómeno y aguardan la oportunidad de convertir la situación en algo rentable, así por ejemplo Google que diversifica sus servicios a cada instante, y que según publican en su portal[11], ha comenzado ya a indizar la Web invisible, prepara una nueva generación de robots (Googlebot) capaz de interactuar con las bases de datos e incluso acceder a contenidos públicos restringidos previo registro[12], así como de leer e indizar información contenida en javascript, flash y etiquetas alt para formato de imágenes.

Sin embargo, aun son numerosas las alternativas que se han especializado en este tipo de búsqueda[13] y que se mantienen ofreciendo unas búsquedas de calidad, aun poco atractivas para las grandes multinacionales de la información por el escaso beneficio que les pueden reportar.

CONCLUSIONES

Es evidente que nos encontramos ante una situación a la que no se tardará demasiado en dar respuesta. Toda esa cantidad de información que permanece en la Web profunda, aun no supone una necesidad imperiosa del usuario generalista de los medios digitales, hecho que hace que los grandes buscadores no viertan sus ingresos en investigación y desarrollo en esta vía de negocio de manera destacable.

Es impensable que empresas como Google o Yahoo + Microsoft (Bing) no tengan recursos tecnológicos y financieros como para ofrecer una solución más que digna a la problemática descrita con la Web invisible, sin embargo, es obvio que el esfuerzo que puede suponer, aun no tiene expectativas de reportar los beneficios deseados, por lo que se espera al momento idóneo para comenzar a regularizar esta situación.

El aumento de la información en Internet y las necesidades que generan, están comenzando a llamar la atención sobre los buscadores generalistas, que deberán buscar soluciones para ofrecer nuevos servicios y mejores, pero que a su vez puedan suponer una oportunidad de negocio rentable.

Por otro lado, cada vez son más las instituciones o empresas generadoras de contenido se dan cuenta de la necesidad no sólo de estar en la red “lo que no existe en Internet, sencillamente no existe…”, si no que también de ser localizadas en los buscadores generalistas, “si no se puede encontrar es que merece la pena ser encontrado” de ahí el auge de las empresas dedicadas al posicionamiento o SEO. El “hacerlo bien y hacerlo saber” es cada día más uno de las premisas básicas del generador de contenidos en la red. De poco o nada sirve el esfuerzo de llevar contenidos al mundo virtual, si estos no pueden ser localizados.

En mi opinión, de la mezcla de las necesidades de los generadores de información y del deseo de los buscadores por indizar estos contenidos, surgirán las respuestas para los problemas generados por la incapacidad de la red de gestionar de manera efectiva sus contenidos.

[1] http://www.emc.com/collateral/analyst-reports/expanding-digital-idc-white-paper.pdf (20/02/2010)

[2] http://www.blogpulse.com/ (18/03/2010)

[3] Un hecho inquietante son los datos digitales que se generan sobre cada persona: un tercio lo produce ella directamente y los otros dos escapan a su control. Es la llamada “sombra digital”: la información sobre una persona, almacenada en archivos financieros, listas de correo, historiales de navegación web o en imágenes obtenidas por las cámaras de seguridad. (Informe IDC y EMC)

[4] http://techcrunch.com/2008/01/09/google-processing-20000-terabytes-a-day-and-growing/ (20/03/2010)

[5] FORNAS CARRASCO, Ricardo. "La cara oculta de Internet". Hipertext.net, núm. 1, 2003 http://www.hipertext.net/ [Volver]

[6] http://internetlab.cindoc.csic.es/cursos/Internet_Invisible2003.pdf (18/03/2010)

[7] BAEZA YATES, Ricardo. "Excavando la Web". El profesional de la información, v 13, num. 1, enero-febrero 2004. http://www.dcc.uchile.cl/~rbaeza/inf/EPIexcavando.pdf

[8] No olvidemos que la indización diaria de información “convencional” supone más de un millón de dólares a Google.

[9] http://internetlab.cindoc.csic.es/cursos/Internet_Invisible2003.pdf

[10] De los cinco primeros buscadores expuestos en su trabajo sólo tres funcionan y ninguno goza de un número de usuarios considerable.

[11] http://googlesystem.blogspot.com/2008/04/google-starts-to-index-invisible-web.html (20/03/2010)

[12] http://googlewebmastercentral.blogspot.com/2008/04/crawling-through-html-forms.html (20/03/2010)

[13] Aquí hay algunos ejemplos http://www.internetinvisible.com/ii/; www.science.gov.ar; http://www.intute.ac.uk/; http://infomine.ucr.edu/

Introducción a los Sistemas Avanzados de Recuperción de Información

miércoles, 30 de junio de 2010

En busca de la información oculta

No hay comentarios:

Publicar un comentario

La recuperación de la información.

Normalización automática de términos.

Almacenamiento y representación de la información.

Indexado automático.

Clasificación: Clustering.

Trabajos de actualidad.

Algunos sistemas de recuperación en internet.