Sunfox


Journal

Archives du 28 février 2007

Robots.txt ou comment se couper du web

28 février 2007 8 commentaires, , , , ,

Je rencontre de plus en plus un phénomène qui m’irrite beaucoup, celui de bloquer l’accès à tout son site à tous les robots, via son fichier robots.txt.

[Photo d'un robot rouge]

L’intérêt des règles de ce fichier est de bloquer l’accès à des ressources sensibles (personnelles, d’administration, de statistiques, que l’on ne souhaite indexer nulle part, etc.) par les robots qui suivent le protocole. On spécifie alors quel chemin bloquer pour quel robot.

User-agent: *
Disallow: /

Ces lignes-là en revanche bloquent l’ensemble du site à tous les robots. Y compris aux moteurs de recherche. Y compris aux pings, aux trackbacks. Y compris (en théorie seulement) aux lecteurs de fils de syndication. Y compris aux futures applications qui naîtront du web.

Il est agaçant de voir qu’on ne peut pas utiliser un moteur de recherche externe quand le moteur interne d’un site n’est pas assez performant, voire inexistant. Agaçant également de ne pas pouvoir revenir en arrière dans les versions précédentes du site. Agaçant enfin de voir sa conduite imposée par les créateurs du site. Par exemple, cela m’interdit de faire un script qui récupère tout seul les dernières versions du site pour les lire hors-ligne.

Karl par exemple, que j’admire énormément par ailleurs, interdit l’accès à tout son site par tous les robots. Il se justifie par « l’esclavage 2.0 » des données mais milite d’autre part pour que le web devienne sémantique, pour que le sens de ce qu’on publie sur internet soit lisible… par des robots.

Certes il faut se méfier des dérives, du vol d’informations, du partage sans retour, etc. Mais tout de même, sans Google, sans Archive.org, sans les services pour rechercher, archiver et simplifier nos vies, internet ne serait pas un aussi chouette endroit.

Gouttes

👨🏻‍🦰 Sunny Ripert

est un développeur web vivant à ParisContactArchives

Textes et contenus sous licence Creative Commons.