En el post de hoy trataremos el tema de la Web visible o superficial y la Web invisible o profunda.
De forma sencilla, podemos definir la Web Visible como aquella parte de la red cuyo
contenido puede ser indizado, y por tanto recuperado, por los motores de búsqueda,
mientras que la Web invisible correspondería a toda esa información presente en Internet
pero que no puede ser indizada ni recuperada por los motores de búsqueda tradicionales.
La Web visible posee una serie de características:
- su información no está contenida en bases de datos.
- es de libre acceso.
- no se requiere la realización de registro para acceder a la información.
- mayoritariamente está formada por páginas web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.
Con respecto a la Web invisible, Sherman y Price identifican cuatro tipos de contenidos invisibles en la Web: la Web opaca (the
opaque Web), la Web privada (the private Web), la Web propietaria (the proprietary Web) y la
Web realmente invisible (the truly invisible Web).
Web visible e invisible |
La Web opaca: está compuesta por archivos que, si bien podrían estar incluidos en los
índices de los buscadores, no lo están por alguno de los siguientes motivos:
- Extensión de la indización.
- Frecuencia de la indización.
- Número máximo de resultados visibles.
- URL desconectadas.
La Web privada: consiste en las páginas Web que podrían estar indizadas en los
buscadores pero son excluidas deliberadamente por alguno de estos motivos:
- Las páginas están protegidas por contraseñas.
- Contienen un archivo “robots.txt” para evitar ser indizadas.
- Contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.
La Web propietaria: incluye aquellas páginas en las que es necesario registrarse para tener
acceso al contenido, ya sea de forma gratuita o arancelada.
La Web realmente invisible: se compone de páginas que no pueden ser indizadas por
limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos,
páginas generadas dinámicamente, es decir, que se generan a partir de datos que
introduce el usuario, información almacenada en bases de datos relacionales, que no
puede ser extraída a menos que se realice una petición específica.