Intelligence Center
Chercher sur Intelligence Center
La recherche d'informations sur le net Invisible Web

1
COMMENT TROUVER DES

Weblogs
Outils de traduction
Actualités, News
Infos sociétés bilans
MP3, DivX

Images, Photos
Cartes Plans Itinéraires

OUTILS DE RECHERCHE
L'ULTRABAR
Barres d'outils
Navigateurs

Moteurs de recherche
Nouveaux moteurs

Moteurs disparus
Annuaires
Métamoteurs
Cartographie du web
Agents intelligents
---------- G O O G L E -----------

Google Toolbar
Astuces, fonctions...
Langues et pays

Stratégie de Google Inc.
Google en Chiffres

ACTUALITÉS des moteurs

Faits marquants
International news

WEB INVISIBLE

Définitions
Bases de données
Outils de recherche
Répertoires spécialisés
Bibliothèques en ligne
Bibliographie

CHIFFRES+ETUDES DE MARCHÉ

Etudes de marché
Données économiques
Le web en chiffres

fd
RESSOURCES SPÉCIALISÉES

Forums, Newsgroups
Mailing lists
Droit des NTIC

INTELLIGENCE ÉCONOMIQUE

Newsletter, conférences
Livres, thèses

Netchercheur
Désinformation Rumeurs



Web invisible, web caché,
web profond

Le "web invisible" (deep web, hidden web) désigne la partie du web non accessible aux moteurs de recherche classiques. Le web invisible comprend des bases, banques de données et bibliothèques en ligne gratuites ou payantes...Voici une sélection de définitions et de ressources permettant de comprendre et d'accéder à ce web invisible , le web "mal" ou non indexé par les moteurs.

 
Les bases de données gratuites et payantes
Les répertoires sélectifs et portails verticaux (vortails)
Les outils et moteurs de recherche sur le web invisible
Bibliothèques en ligne
Actualités et presse : moteurs de recherche et portails
Bibliographie : les livres et revues sur le web invisible et les bases de données
 

Des moteurs comme Google, MSN/Live Search, Yahoo! Search ou des répertoires tels que Yahoo! Directory ne vous donnent accès qu'à une petite partie (inférieure à 10%) du web, le Web Visible. La technologie de ces moteurs conventionnels ne permet pas d'accéder à une zone immense du web, le Web Invisible, espace beaucoup plus important que le web visible.
Lors d'une navigation en Antarctique pour prélever des échantillons de glace sur des icebergs, si vous vous limitez à leur partie émergée, vous vous privez de la surface immergée, en moyenne 50 fois plus importante.
Sur le web, c'est la même chose ! Se contenter du web visible revient à ne pas explorer une zone invisible environ 500 fois plus volumineuse, comportant des centaines de milliers de ressources de grande valeur.
Les ressources du Web Invisible sont en effet en moyenne de plus grande qualité, plus pertinentes que celles du web de surface. Pourquoi ? Parce qu'elles sont élaborées ou validées par des experts, faisant autorité dans leurs domaines.

> Une partie du web est non accessible aux moteurs parce que :

Les documents, pages et sites web ou bases de données sont trop volumineux pour être entièrement indexés.
Exemple : L'Internet Movie Database, une base de donnée en libre accès consacrée au cinéma répertorie plus de 7 millions de pages descriptives consacrées aux films et acteurs, représentant chacune une page web. Soit plus de 7 millions de pages. Les moteurs conventionnels n'indexent pas la totalité de ce contenu (son indexation varie entre 5 et 60 % selon les moteurs).

des pages sont protégées par l'auteur (balise meta qui stoppe le robot).
Certains sites sont protégés par leur créateur ou gestionnaire (webmaster), qui, grâce à un fichier robot.txt inséré dans le code des pages, interdit leur accès aux
robots des moteurs.
Ex : le site du journal Le Monde interdit aux robots des moteurs de recherche l'accès à ses pages payantes.

des pages sont générées seulement dynamiquement, lors d'une requête par exemple
De nombreux sites web génèrent des pages dynamiquement, c'est-à-dire uniquement en réponse à une requête sur leur moteur interne. Il n'existe pas alors d'URL (adresse) statique des pages que les moteurs pourraient parcourir puisque les robots des moteurs n'ont pas la faculté de taper des requêtes.
Ex : http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=search&DB=Genome

les pages sont protégées avec une authentification par identifiant (login) et mot de passe. De nombreux sites, qu'ils soient payants ou gratuits, protègent tout ou partie de leur contenu par mot de passe. Les robots de moteurs n'ayant pas la faculté de taper des mots dans des formulaires complexes, ces pages ne leur sont pas accessibles.

le format des documents n'est pas reconnu par les moteurs (de moins en moins vrai aujourd'hui).
Il y a quelques années, on incluait dans le Web Invisible toutes les pages aux formats autres que le html, seul format reconnu et indexé par les moteurs. Aujourd'hui, les moteurs indexent les docuements Word, Excel, Power Point, PDF....Seul le Flash restent assez mal indexé de par sa nature.

Les 4 types de web distingués par Chris Sherman et Gary Price
> Chris Sherman et Gary Price, "search engines' US experts", proposent dans leur ouvrage "The Invisible Web" de distinguer 4 types de web
Le web invisible est vaste puisque selon les estimations, très variables et difficiles, les meilleurs moteurs n'indexent que 3 à 10% du web.
Voir à ce sujet les différentes études sur la taille du web

- The Opaque Web : les pages qui pourraient être indexées par les moteurs mais qui ne le sont pas (limitation d'indexation du nombre de pages d'un site, fréquence d'indexation, liens absents vers des pages ne permettant donc pas un crawling)
- The Private Web : les pages webs disponibles mais volontairement exclues par les webmasters (mot de passe, metatags ou fichiers dans la page pour que le robot du moteur ne l'indexe pas).
- The Proprietary web : pages seulement accessibles pour les personnes qui s'identifient. Le robot ne peut donc pas y accéder.
- The Truly Invisible Web : contenu qui ne peut être indexé pour des raisons techniques. Ex : format inconnu par le moteur (Google est l'un des rares moteurs à reconnaître autant de formats), pages générées dynamiquement (incluent des caractères comme ? et &).

Cliquez pour agrandir...
 Cliquez pour agrandir...

Plutôt que le web visible et invisible, l'étude de BrightPlanet préfère évoquer, le surface web et deep web (web profond). En effet, pour cette société, le problème n'est pas tant la visibilité que l'accessibilité par les moteurs. Il y a un web de surface que les moteurs parviennent à indexer et un web profond que leur technologie ne parvient pas à encore à explorer mais qui est visible à partir d'autres types d'outils (répertoires sélectifs, bases de données..). On pourrait donc comparer le web à un gigantesque iceberg (en perpétuelle expansion) avec un volume de ressources immergées beaucoup plus important que les ressources de surface. En se basant sur les études Bright Planet et Cyveillance, on pourrait imaginer que le web visible dépassait fin décembre 2002 les 64 milliards de pages (dans l'hypothèse d'un doublement de taille tous les 6 mois) ou "seulement" les 15 milliards de pages (dans l'hypothèse d'une stabilisation de sa croissance). Ces mêmes études permettent également de dire que le web invisible serait 260 fois plus vaste que le web visible. Ces chiffres ne sont évidement que des hypothèses. Mais l'étude Bright Planet apporte une information intéressante plus précise : les 60 sites les plus importants représentent à eux seuls plus de 40 fois le volume du web visible. Ce sont des sites scientifiques (NASA), des bases de données (Lexis Nexis, Dialog), des sites universitaires (Berkeley), de médias et presse (USAToday), de commerce en ligne (e-bay), des sites internes de grosses sociétés (UPS, Fedex)...[Voir schéma ci-dessus. Liste complète des 60 sites pages 6 de l'étude Bright Planet au format PDF.]

 

 

Rechercher sur le web :
Google
 

Index|Accueil |Moteur! |Annuaires| Métamoteurs |Cartographie |CV |Mailing lists|Juridique
Etudes de marché|Données Economiques|Astuces sur Google|Pays & Langues Google|Pages Jaunes
Web en chiffres|MP3||Informations sociétés |Actualité outils de recherche |Cartes Plans|
Chercher dans l'actualité
|Web Invisible|Lettre Intelligence Economique et Stratégique|Images
Contact|Plan du site