Le "web invisible" (deep web, hidden web) désigne la partie du web non accessible aux moteurs de recherche classiques. Le web invisible comprend des bases, banques de données et bibliothèques en ligne gratuites ou payantes...Voici une sélection de définitions et de ressources permettant de comprendre et d'accéder à ce web invisible , le web "mal" ou non indexé par les moteurs.
Des moteurs comme Google, MSN/Live Search, Yahoo! Search ou des répertoires tels que Yahoo! Directory ne vous donnent accès qu'à une petite partie (inférieure à 10%) du web, le Web Visible. La technologie de ces moteurs conventionnels ne permet pas d'accéder à une zone immense du web, le Web Invisible, espace beaucoup plus important que le web visible. Lors d'une navigation en Antarctique pour prélever des échantillons de glace sur des icebergs, si vous vous limitez à leur partie émergée, vous vous privez de la surface immergée, en moyenne 50 fois plus importante. Sur le web, c'est la même chose ! Se contenter du web visible revient à ne pas explorer une zone invisible environ 500 fois plus volumineuse, comportant des centaines de milliers de ressources de grande valeur. Les ressources du Web Invisible sont en effet en moyenne de plus grande qualité, plus pertinentes que celles du web de surface. Pourquoi ? Parce qu'elles sont élaborées ou validées par des experts, faisant autorité dans leurs domaines.
> Une partie du web est non accessible aux moteurs parce que :
Les documents, pages et sites web ou bases de données sont trop volumineux pour être entièrement indexés. Exemple : L'Internet Movie Database, une base de donnée en libre accès consacrée au cinéma répertorie plus de 7 millions de pages descriptives consacrées aux films et acteurs, représentant chacune une page web. Soit plus de 7 millions de pages. Les moteurs conventionnels n'indexent pas la totalité de ce contenu (son indexation varie entre 5 et 60 % selon les moteurs).
des pages sont protégées par l'auteur (balise meta qui stoppe le robot). Certains sites sont protégés par leur créateur ou gestionnaire (webmaster), qui, grâce à un fichier robot.txt inséré dans le code des pages, interdit leur accès aux robots des moteurs. Ex : le site du journal Le Monde interdit aux robots des moteurs de recherche l'accès à ses pages payantes.
des pages sont générées seulement dynamiquement, lors d'une requête par exemple De nombreux sites web génèrent des pages dynamiquement, c'est-à-dire uniquement en réponse à une requête sur leur moteur interne. Il n'existe pas alors d'URL (adresse) statique des pages que les moteurs pourraient parcourir puisque les robots des moteurs n'ont pas la faculté de taper des requêtes. Ex : http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=search&DB=Genome
les pages sont protégées avec une authentification par identifiant (login) et mot de passe. De nombreux sites, qu'ils soient payants ou gratuits, protègent tout ou partie de leur contenu par mot de passe. Les robots de moteurs n'ayant pas la faculté de taper des mots dans des formulaires complexes, ces pages ne leur sont pas accessibles.
le format des documents n'est pas reconnu par les moteurs (de moins en moins vrai aujourd'hui). Il y a quelques années, on incluait dans le Web Invisible toutes les pages aux formats autres que le html, seul format reconnu et indexé par les moteurs. Aujourd'hui, les moteurs indexent les docuements Word, Excel, Power Point, PDF....Seul le Flash restent assez mal indexé de par sa nature.
Les 4 types de web distingués par Chris Sherman et Gary Price > Chris Sherman et Gary Price, "search engines' US experts", proposent dans leur ouvrage "The Invisible Web" de distinguer 4 types de web Le web invisible est vaste puisque selon les estimations, très variables et difficiles, les meilleurs moteurs n'indexent que 3 à 10% du web. Voir à ce sujet les différentes études sur la taille du web
- The Opaque Web : les pages qui pourraient être indexées par les moteurs mais qui ne le sont pas (limitation d'indexation du nombre de pages d'un site, fréquence d'indexation, liens absents vers des pages ne permettant donc pas un crawling) - The Private Web : les pages webs disponibles mais volontairement exclues par les webmasters (mot de passe, metatags ou fichiers dans la page pour que le robot du moteur ne l'indexe pas). - The Proprietary web : pages seulement accessibles pour les personnes qui s'identifient. Le robot ne peut donc pas y accéder. - The Truly Invisible Web : contenu qui ne peut être indexé pour des raisons techniques. Ex : format inconnu par le moteur (Google est l'un des rares moteurs à reconnaître autant de formats), pages générées dynamiquement (incluent des caractères comme ? et &).
Cliquez pour agrandir...
Plutôt que le web visible et invisible, l'étude de BrightPlanet préfère évoquer, le surface web et deep web (web profond). En effet, pour cette société, le problème n'est pas tant la visibilité que l'accessibilité par les moteurs. Il y a un web de surface que les moteurs parviennent à indexer et un web profond que leur technologie ne parvient pas à encore à explorer mais qui est visible à partir d'autres types d'outils (répertoires sélectifs, bases de données..). On pourrait donc comparer le web à un gigantesque iceberg (en perpétuelle expansion) avec un volume de ressources immergées beaucoup plus important que les ressources de surface. En se basant sur les études Bright Planet et Cyveillance, on pourrait imaginer que le web visible dépassait fin décembre 2002 les 64 milliards de pages (dans l'hypothèse d'un doublement de taille tous les 6 mois) ou "seulement" les 15 milliards de pages (dans l'hypothèse d'une stabilisation de sa croissance). Ces mêmes études permettent également de dire que le web invisible serait 260 fois plus vaste que le web visible. Ces chiffres ne sont évidement que des hypothèses. Mais l'étude Bright Planet apporte une information intéressante plus précise : les 60 sites les plus importants représentent à eux seuls plus de 40 fois le volume du web visible. Ce sont des sites scientifiques (NASA), des bases de données (Lexis Nexis, Dialog), des sites universitaires (Berkeley), de médias et presse (USAToday), de commerce en ligne (e-bay), des sites internes de grosses sociétés (UPS, Fedex)...[Voir schéma ci-dessus. Liste complète des 60 sites pages 6 de l'étude Bright Planet au format PDF.]