Question d'origine :
Google est l'un des moteurs de recherche qui a indexé le plus grand nombre de pages web (combien ?).
Mais a t-on une idée de la proportion de ce qui est indexé par rapport à ce qui reste "caché".
Comme pour un iceberg, la partie immergée (cachée) de l'Internet est-elle dix fois supérieure à la partie émergée (visible) ?
Soit que les concepteurs de site aient mis une alerte interdisant aux robots d'indexer ce site, soit que les pages soient enfouies dans des liens si profonds que Google, ou un autre moteur ne parvienne pas à les indexer.
Réponse du Guichet
bml_ecm
- Département : Espace numérique
Le 08/12/2007 à 15h06
Votre question comporte deux points, à savoir le système d’indexation de Google et le web invisible. Nous avons déjà répondu à de nombreuses questions sur le moteur de recherche Google, notamment Sur l'indexation et sur les méthodes de recherche.
Vous retrouverez dans nos réponses de nombreuses ressources essentielles sur les moteurs de recherche, notamment Abondance spécialisé sur les moteurs de recherche. Le blog d’Abondance a récemment publié un article sur le référencement. Webrankinfo est également un site dédié au référencement sur Internet (cf. une réponse sur le nombre de pages indexées par Google même si le nombre lui-même est difficile à identifier).
Nous avons également répondu à des questions sur le web invisible et ses implications.
De nombreux articles de la revue Netsources référencent des ressources de recherche spécialisées dans le web invisible comme Digimind finder, Internet invisible (site en espagnol) ou Search.
Dans un article intitulé Web invisible : 550 milliards de documents du numéro de juillet-août 2000 de la revue, Béatrice Foenix Riou citait de nombreux supports de recherche et rappelait ce rapport entre visible et invisible: "On savait le Web invisible nettement plus important en volume que le Web visible (le seul serveur Dialog annonce héberger plus de 6 milliards de pages), mais les résultats surprennent malgré tout."
Le fonds de la Bibliothèque municipale de Lyon propose un grand nombre d’ouvrages traitant du web invisible et de Google dont l’essentiel Google hacking : mettez vos données sensibles à l'abri des moteurs de recherche de Johnny Long qui vous explique justement comment ne pas être indexé par les robots des moteurs de recherche.
DANS NOS COLLECTIONS :
Ça pourrait vous intéresser :
Commentaires 0
Connectez-vous pour pouvoir commenter.
Se connecter