jueves, 18 de junio de 2015

Web visible e invisible

En el post de hoy trataremos el tema de la Web visible o superficial y la Web invisible o profunda.

De forma sencilla, podemos definir la Web Visible como aquella parte de la red cuyo contenido puede ser indizado, y por tanto recuperado, por los motores de búsqueda, mientras que la Web invisible correspondería a toda esa información presente en Internet pero que no puede ser indizada ni recuperada por los motores de búsqueda tradicionales.

La Web visible posee una serie de características: 
  • su información no está contenida en bases de datos.
  • es de libre acceso.
  • no se requiere la realización de registro para acceder a la información. 
  • mayoritariamente está formada por páginas web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.
Con respecto a la Web invisible, Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisible Web).

Web visible e invisible


La Web opaca: está compuesta por archivos que, si bien podrían estar incluidos en los índices de los buscadores, no lo están por alguno de los siguientes motivos:
  • Extensión de la indización.
  • Frecuencia de la indización.
  • Número máximo de resultados visibles.
  • URL desconectadas.
La Web privada: consiste en las páginas Web que podrían estar indizadas en los buscadores pero son excluidas deliberadamente por alguno de estos motivos: 
  • Las páginas están protegidas por contraseñas. 
  • Contienen un archivo “robots.txt” para evitar ser indizadas. 
  • Contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.
La Web propietaria: incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o arancelada.

La Web realmente invisible: se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.







3 comentarios: