Plonger dans le Web invisible

De Wiki Accès Public.
Aller à : Navigation, rechercher

Le Web visible paraît gigantesque, mais le Web invisible [1] l’est cent ou cinq cents fois plus encore (par définition, il est difficile de cerner précisément sa taille) ! Et, plus grave, le Web invisible est plus riche qualitativement que le Web visible, car il recelle une information plus fine et renouvelée.

Le Web invisible n’est pas accessible directement par les moteurs de recherche, soit :

  • parce que l’accès à ces sites est payant ou protégé par un mot de passe (par exemple les encyclopédies Encarta, Universalis, etc.),
  • parce que les webmestres demandent que leur site ne soit pas référencé,
  • parce que les pages sont extraites d’une base de données à partir de données saisies par l’internaute dans un formulaire,
  • parce que des formats de page Web ne sont pas reconnus par les moteurs (mais Google sait maintenant presque tout identifier [2]),
  • parce qu’un site contient un nombre énorme de pages. Seule une partie d’entre elles est alors visitée par les robots des moteurs de recherche [3].

Selon les analystes, le Web invisible croît plus vite que le Web visible.

Cela signifie que des évolutions liées au Web 2.0 concernant la production et la recherche d’information ne concernent donc finalement qu’une petite partie du Web existant... Car si Del.icio.us, Netvibes, Technorati et les autres nouveaux outils permettent de mieux fouiller Internet, ils ne touchent essentiellement que le Web visible.

Cela signifie aussi que les grands progrès à attendre des outils de recherche sur Internet ne concernent pas tant les moteurs comme Google que ceux qui sont ou seront capables d’investiguer le Web profond.


Les sites en accès protégé

Les sites "invisibles" ne sont donc pas forcément des sites dont le contenu est dangereux ou très confidentiel. Il peut s’agir, par exemple, de sites de formation qui recèlent des ressources très riches mais réservées aux stagiaires inscrits. Il peut s’agir aussi, tout simplement, de sites qui souhaitent connaître les internautes qui viennent les visiter et leur demandent de s’identifier à l’entrée par un nom (ou pseudo) et une adresse e-mail.

Dès lors qu’il faut s’identifier, un moteur de recherche ne peut pas pénétrer à l’intérieur de tels sites, bien que leur contenu puisse parfois être accessible gratuitement. Le seul moyen de connaître leur existence et un descriptif de leur contenu est d’en prendre connaissance depuis un site qui le répertorie ou grâce à un internaute [4]. Mais ces informations resteront sans doute bien pauvres par rapport à la richesse des contenus cachés.


Les bases de données

Certains sites qui sont en réalité des bases de données nécessitent que l’internaute saisisse un ou plusieurs termes de sa recherche. C’est le fonctionnement typique d’un site annuaire comme www.copainsdavant.com ou des sites de réseaux sociaux (voir l’article Pratiques communautaires des jeunes sur Internet) : si vous ne saisissez pas le nom de la personne recherchée, aucune page de résultat ne s’affichera. C’est aussi le fonctionnement d’une masse illimitée de ressources mises en ligne que sont les archives de la presse : pour trouver un article de Libération traitant du réchauffement climatique, vous devez saisir "réchauffement climatique" dans l’outil de recherche du site de Libération...

Là encore, Google ou un moteur de recherche traditionnel refuse de jouer à ce petit jeu pour interroger la base de données (mais c’est certainement dans les projets de Google...).

Des outils de recherche comme Complete Planet (http://aip.completeplanet.com, en anglais) ou Goshme (www.goshme.com, en anglais) s’attaquent au Web invisible. Leur fonctionnement est en gros le suivant : lorsque vous effectuez une recherche à partir de mots saisis dans Complete Planet ou Goshme, celui-ci transmet ces mots tels quels aux outils de recherche dans des bases de données sélectionnées.

Si certaines de ces bases de données sont payantes (comme, en partie, Copains d’avant et comme Libération), Complete Planet estime que 95% sont gratuites [5].


Connaissez-vous Archive.org ?

Un exemple trop peu connu de Web invisible (encore une base de données !) est le site www.archive.org qui archive les sites Internet depuis 1996. Lorsque vous saisissez l’adresse d’un site sur archive.org et que vous sélectionnez une année, la page d’accueil du site de l’époque s’affiche. Les liens sont cliquables. Vous pouvez donc visiter le site tel qu’il se présentait à l’époque choisie.

Ressources :


[1] Certains préfèrent dire "profond" ou "caché", car on peut le découvrir en partie à l’aide d’outils adaptés.

[2] Pour connaître les formats reconnus par Google : http://c.asselin.free.fr/french/astuces_google.htm#filetype.

[3] Afin de résoudre en partie ce problème, Google a mis au point en 2005 Sitemap - voir http://fr.wikipedia.org/wiki/Sitemap -, un protocole qui permet au webmaster d’indiquer aux moteurs de recherche quelle est la structure de son site.

[4] On peut supposer que les réseaux sociaux d’échanges de favoris tels que del.icio.us vont aider à éclairer certains pans du Web caché.

[5] Voir http://aip.completeplanet.com/aip-engines/help/help_deepwebfaqs.jsp - toujours en anglais.

Mis en ligne le vendredi 1er décembre 2006 sur http://www.generationcyb.net.

Outils personnels
Espaces de noms
Variantes
Actions
Navigation
Boîte à outils
Imprimer / exporter