miércoles, 17 de agosto de 2016

Web Superficial y Web Profunda





Los motores de búsqueda tradicionales ( Google , YahooBing , etc.) sólo ofrecen acceso a una pequeña parte de lo que existe online, lo que se ha comenzado a llamar la Web superficial o visible.

Lo que resta, la Web profunda, es un amplío banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito), entre otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.

 



Diferencias entre Web visible (superficial) y Web invisible ( profunda)

La Web visible comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda. 

Características principales  



  • Su información no está contenida en bases de datos
  • Son de libre acceso 
  • No hay que registrarse para acceder
  • Están formadas por páginas Web estáticas ,páginas o archivos con una URL fija y accesibles desde otro enlace. 



La Web invisible, en cambio , comprende toda la información disponible en Internet que no es recuperada interrogando a los buscadores convencionales. Generalmente es información almacenada y accesible mediante bases de datos, que Si bien el 90% de estas bases de datos están públicamente disponibles en Internet, los robots de los buscadores solamente pueden indicar su página de entrada (homepage). La información almacenada es por consiguiente "invisible" a estos.

Para poder acceder a la información disponible en las bases de datos hay que hacer consultas a través de páginas dinámicas ( ASP , PHP ,...) es decir páginas que no tienen una URL fija y que se construyen en el mismo instante (temporales) desapareciendo una vez cerrada la consulta.

Según Lluis Codina:" Internet invisible esun nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indizar los motores de búsqueda de uso público. Debería denominarse, en realidad, la web "no indizable", lo cual es un término mucho más adecuado".


 
Chris Sherman y Gary Price en su libro La Web Invisible (2001)  identifican cuatro tipos de contenidos invisibles en la Web.

  • Web opaca
  • Web privada
  • Web propietaria
  • Web realmente invisible
                                 
La Web opaca: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:

  •  Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.
  • Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.
  • Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a veces un gran número de resultados de búsqueda, generalmente limitan el número de documentos que se muestran (entre 200 y 1000 documentos).
  • URL’s desconectados: las generaciones más recientes de buscadores, como Google presentan los documentos por relevancia basada en el número de veces que aparecen referenciados o ligados en otros. Si un documento no tiene una liga en otro documento será imposible que la página sea descubierta, pues no habrá sido indizada.

La web privada: Se compone de archivos que no están incluidos en los motores de búsqueda por alguna de estas razones:
  • Las páginas están protegidas por contraseñas (passwords).
  • Contienen un archivo “robots.txt” para evitar ser indizadas.
  • Contienen un campo “noindex” para evitar que el buscador indice la parte correspondiente al cuerpo de la página.
Este segmento de la web no representa una gran pérdida en términos de valor de la información que contiene, ya que se trata, en general, de documentos excluidos deliberadamente por su falta de utilidad.

La Web propietaria: Incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o de pago. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito.


La Web realmente invisible: Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:
  • Páginas web que incluyen formatos como PDF , PostScript , FlashShockwave, programas ejecutables y archivos comprimidos.
  • Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario.
  • Información almacenada en bases de datos relacionales. 

Hay que tener en cuenta que:
  • Algunos buscadores recuperan archivos PDF y páginas con imágenes, aunque de forma limitada.
  • Es relativamente sencillo llegar hasta la “puerta” de las bases de datos con contenido importante.
  • Existen motores avanzados capaces de realizar búsquedas directas simultáneas en varias bases de datos a la vez; y aunque la mayoría requieren de pago, también ofrecen versiones gratuitas.
  • El contenido que se genera en tiempo real pierde validez con mucha velocidad, salvo para análisis históricos; es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen información en tiempo real.
  • El contenido que se genera dinámicamente interesa únicamente a ciertos usuarios con características específicas.
  • Es relativamente sencillo llegar hasta la “puerta” de los servicios que ofrecen contenido generado dinámicamente.

Herramientas de búsqueda en la web profunda


 
Buscadores

En general han mejorado su desempeño en los últimos años, permitiendo un mayor nivel de precisión en las búsquedas y ofreciendo los resultados en formas cada vez más convenientes para el usuario.
Pero por ahora, los buscadores comunes sólo pueden recuperar directamente la información que se encuentra disponible en la web y no aquella que se ofrece a través de la web.
Desde que se empezó a hablar de la web invisible los buscadores comunes han añadido funcionalidades adicionales para la búsqueda en la llamada web profunda y han surgido buscadores especializados en ese segmento de la web. 

Ejemplo: Scirus, WebSearch.

Metabuscadores

Los metabuscadores pueden presentar limitaciones respecto a las posibilidades de búsqueda de cada buscador por separado. Por ejemplo, cuando la búsqueda es sobre materiales o formatos especiales, resulta más práctico sacar provecho de las opciones avanzadas de búsqueda de los buscadores y, si es necesario, realizar búsquedas sucesivas en varios de ellos. En este sentido, son más recomendables los directorios concentradores de buscadores.

Ejemplo: iBoogie, Fazzle, Ixquick, Search.Com

Directorios

La mayoría de los mecanismos que se usan para localizar recursos en la web profunda consisten en directorios de recursos especializados, principalmente bases de datos disponibles de forma gratuita en la red. El patrocinio de las instituciones académicas en la elaboración de los directorios, particularmente de los que son anotados, garantiza la cobertura y calidad de los recursos compilados.


Directorios
CompletePlanet, Direct Search, HotSheet, IncyWincy, InternetInvisible, Librarians Index, Master Link List On the Internet, RefDesk.com, Webfile.com, Where to Do Research

Directorios anotados
AcademicInfo, Resource Discovery Network

Directorios de bases de datos
WebData.com



Guías

Las guías de recursos especializados generalmente están elaboradas por bibliotecarios y son una excelente herramienta de búsqueda y localización de recursos, además de constituir un buen instrumento de aprendizaje en el uso de la información.

Ejemplo:  About, LibrarySpot

Tutoriales

Las páginas  How to Choose a Search Engine or Directory de la Universidad de Albany en Estados Unidos y las guías de SearchAbility  y de la Universidad de Leiden en Holanda A Collection of Special Search Engines incluyen los recursos de información y búsqueda en la web profunda.

Motores avanzados

Los recientes motores de pregunta dirigida, tienen la capacidad de realizar búsquedas simultáneas en varias bases de datos en la web. Lexibot y su sucesor, Deep Query Manager, así como Distributed Explorer (Warnick y otros, 2001) y FeedPoint, Search4science, Strategic Finder son ejemplos de estos motores avanzados de búsqueda.



Como realizar una búsqueda en la web profunda



1- Información especializada

·         Usar las herramientas de búsqueda en la web profunda si buscamos información académica de calidad. 
·         Usar buscadores regionales especializados para localizar información originada fuera de los Estados Unidos o en idiomas diferentes al inglés.
·         Usar metabuscadores para realizar búsquedas en varios buscadores especializados a la vez.

2- Búsquedas avanzadas

·         Usar las opciones avanzadas de los buscadores para localizar imágenes o archivos PDF o PostScript.
·         Usar directorios concentradores de buscadores para realizar búsquedas avanzadas sucesivas en varios de ellos.
 
3- Evaluación de la información

·         Usar directorios anotados para evaluar si los recursos disponibles en la web profunda son útiles  para la búsqueda que estamos realizando.
·         Usar directorios de bases de datos para conocer cuáles de ellas pueden ofrecernos información útil para nuestras búsquedas.
 
4- Información en bases de datos

·         Usar guías, directorios o motores avanzados si la información que buscamos puede estar en una base de datos.


 









No hay comentarios:

Publicar un comentario