23 juillet 2014 — rack, rails, robots, ruby, web, webdev
Ces derniers jours je recevait une trentaine d’emails par jour m’indiquant qu’une erreur avait éclatée sur cults3d.com. Ces exceptions provenaient toutes d’un robot chinois, EasouSpider, qui parcoure le Web pour remplir son moteur de recherche.
Ce robot ne sait pas parler l’unicode comme tout le monde et envoie dans les formulaires des valeurs mal encodées, ce qui fâche Ruby on Rails. Le problème est surtout que Rails ne traite l’erreur que bien trop tard, lorsqu’on essaie de lire les paramètres de la requête. Et là l’erreur est une incompréhensible ArgumentError
:
invalid %-encoding (Q/B0*ÜHܘ0ÅÅ1 0 U GB1 0 U.…
28 février 2007 8 commentaires — accessibilité, idéaux, robots, standards du web, w3c, web
Je rencontre de plus en plus un phénomène qui m’irrite beaucoup, celui de bloquer l’accès à tout son site à tous les robots, via son fichier robots.txt.
L’intérêt des règles de ce fichier est de bloquer l’accès à des ressources sensibles (personnelles, d’administration, de statistiques, que l’on ne souhaite indexer nulle part, etc.) par les robots qui suivent le protocole. On spécifie alors quel chemin bloquer pour quel robot.
User-agent: * Disallow: /
Ces lignes-là en revanche bloquent l’ensemble du site à tous les robots. Y compris aux moteurs de recherche. Y compris aux pings, aux trackbacks. Y compris (en théorie seulement) aux lecteurs de fils de syndication. Y compris aux futures applications qui naîtront du web.
Il est agaçant de voir qu’on ne peut pas utiliser un moteur de recherche externe quand le moteur interne d’un site n’est pas assez performant, voire inexistant. Agaçant également de ne pas pouvoir revenir en arrière dans les versions précédentes du site. Agaçant enfin de voir sa conduite imposée par les créateurs du site. Par exemple, cela m’interdit de faire un script qui récupère tout seul les dernières versions du site pour les lire hors-ligne.
Karl par exemple, que j’admire énormément par ailleurs, interdit l’accès à tout son site par tous les robots. Il se justifie par « l’esclavage 2.0 » des données mais milite d’autre part pour que le web devienne sémantique, pour que le sens de ce qu’on publie sur internet soit lisible… par des robots.
Certes il faut se méfier des dérives, du vol d’informations, du partage sans retour, etc. Mais tout de même, sans Google, sans Archive.org, sans les services pour rechercher, archiver et simplifier nos vies, internet ne serait pas un aussi chouette endroit.
est un développeur web vivant à Paris — Contact — Archives
Textes et contenus sous licence Creative Commons.