Robots.txt ou comment se couper du web

Je rencontre de plus en plus un phénomène qui m’irrite beaucoup, celui de bloquer l’accès à tout son site à tous les robots, via son fichier robots.txt.

[Photo d'un robot rouge]

L’intérêt des règles de ce fichier est de bloquer l’accès à des ressources sensibles (personnelles, d’administration, de statistiques, que l’on ne souhaite indexer nulle part, etc.) par les robots qui suivent le protocole. On spécifie alors quel chemin bloquer pour quel robot.

User-agent: *
Disallow: /

Ces lignes-là en revanche bloquent l’ensemble du site à tous les robots. Y compris aux moteurs de recherche. Y compris aux pings, aux trackbacks. Y compris (en théorie seulement) aux lecteurs de fils de syndication. Y compris aux futures applications qui naîtront du web.

Il est agaçant de voir qu’on ne peut pas utiliser un moteur de recherche externe quand le moteur interne d’un site n’est pas assez performant, voire inexistant. Agaçant également de ne pas pouvoir revenir en arrière dans les versions précédentes du site. Agaçant enfin de voir sa conduite imposée par les créateurs du site. Par exemple, cela m’interdit de faire un script qui récupère tout seul les dernières versions du site pour les lire hors-ligne.

Karl par exemple, que j’admire énormément par ailleurs, interdit l’accès à tout son site par tous les robots. Il se justifie par « l’esclavage 2.0 » des données mais milite d’autre part pour que le web devienne sémantique, pour que le sens de ce qu’on publie sur internet soit lisible… par des robots.

Certes il faut se méfier des dérives, du vol d’informations, du partage sans retour, etc. Mais tout de même, sans Google, sans Archive.org, sans les services pour rechercher, archiver et simplifier nos vies, internet ne serait pas un aussi chouette endroit.

1 wasted :

On a le droit de pisser à la raie du politiquement correct. Un site web est à la base un espace privé.

2 NaPs :

Wasted !
Bourdail ça fesais un moment qu’on t’avait pas vu :-)
Passe vite nous voir sur IRC si tu peux (on a juste bougé de serveur, on est sur freenode maintenant) !

3 Sunny :

Wasted : Tant qu’à pisser à la raie du politiquement correct oublions les standards, faisons du contenu en flash dans des tableaux vu que notre site privé ne s’adresse qu’à nos amis qui n’ont aucun trouble physique et qui utilisent tous IE sous Windows. C’est un espace privé après tout.

Non, l’accessibilité passe aussi par l’accessibilité de la page aux robots. Des robots dont vont se servir les utilisateurs auquels se destine un site.

4 wasted :

Tu vas trop loin. Même moi qui me fous en définitive pas mal du web je fais gaffe à ça.
Un site n’est pas forcément destiné aux utilisateurs. Je ne vois pas pourquoi on est obligé d’accepter l’indexage. Mon propos ne va pas plus loin que ça. Après standard ou pas c’est une autre chose.

5 Sunny :

« Un site n’est pas forcément destiné aux utilisateurs. » Là, je ne vois pas.

6 docLegi :

Un site web, un espace privé? ça va pas la tête? Déjà qu’on a plus de vie privée de toute façon (cartes bancaires, vidéo-surveillance omniprésente, …), alors en plus prendre une chose publique par essence pour quelque chose de privé, faut pas pousser…

7 karl :

;)

Mes explications chez Michel. :)
http://www.micheldumais.com/archives/2007/03/14/je-nexiste-plus-pour-lui/

Le robot.txt ne coupe pas du Web. Il change l’opacité, c’est tout à fait différent.
Un .htaccess avec un login et un mot de passe couperait vraiment du Web.

8 Sunny :

Merci Karl, ces explications j’aurais toujours pu essayer de les rechercher ;)

Je suis d’accord avec tous tes points. Mais la syntaxe et le système bien obsolète de robots.txt empêchent de bloquer « juste » l’indexation et pas les autres fonctions de robots. Et d’autre part je reste encore énormément attaché aux moteurs de recherche.

(De plus tu es tombé sur ce billet via la recherche de bloglines, si je ne m’abuse. :-« )

Sunfox

Robots.txt ou comment se couper du web

8 Commentaires

Sunny Ripert