Exclure une page web ou un site à partir de moteurs de recherche en utilisant un fichier texte robots

Vous pouvez utiliser un fichier texte robots pour bloquer une araignée moteur de recherche à partir de l'exploration de votre site Web ou une partie de votre site. Par exemple, vous pouvez avoir une version de développement de votre site Web où vous travaillez sur les changements et les ajouts de les tester avant qu'ils ne deviennent une partie de votre site Web en direct. Vous ne voulez pas que les moteurs de recherche d'indexer cette “ en cours ” copie de votre site Web parce que ce serait provoquer un conflit double-contenu avec votre site Web réel. Vous voudriez également pas aux utilisateurs de trouver vos pages en cours. Donc, vous devez bloquer les moteurs de recherche de voir ces pages.

La texte des robots la tâche du fichier est de donner les moteurs de recherche des instructions sur ce pas à l'araignée au sein de votre site Web. Ceci est un simple fichier texte que vous pouvez créer en utilisant un programme comme Bloc-notes, puis enregistrez le fichier robots.txt. Placez le fichier à la racine de votre site Web (tel que votredomaine.com / robots.txt), qui est l'endroit où les araignées attendent à trouver. En fait, chaque fois que les robots des moteurs de recherche viennent sur votre site, la première chose qu'ils recherchent est votre fichier texte robots. C'est pourquoi vous devriez toujours avoir un fichier texte robots sur votre site, même si elle est vide. Vous ne voulez pas la première impression de votre site par les araignées d'être un 404 erreur (l'erreur qui vient quand un fichier ne peut pas être situé).

Avec un fichier texte robots, vous pouvez choisir d'exclure des pages particulières, répertoires ou l'ensemble du site. Vous devez écrire le code HTML tellement, ou les araignées ignorer. La syntaxe de commande vous devez utiliser provient du protocole d'exclusion des robots (REP), qui est un protocole standard pour tous les sites Web. Et il est très exacte- seules commandes spécifiques sont autorisés, et ils doivent être écrites correctement avec le placement spécifique, majuscules / minuscules, la ponctuation et l'espacement. Ce fichier est un endroit où vous ne voulez pas que votre Webmaster faire preuve de créativité.

Un fichier texte robots très simple pourrait ressembler à ceci:

User-agent: * Disallow: / personnel /

Ce fichier texte robots raconte tous les robots des moteurs de recherche qu'ils sont invités à ramper partout sur votre site Web sauf pour le répertoire nommé / / personnelle.

Avant d'écrire une ligne de commande (comme Disallow: / personnel /), vous devez d'abord déterminer quel robot (s) que vous abordez. Dans ce cas, la ligne User-agent: * traite de tous les robots, car il utilise un astérisque, qui est connu comme le joker caractère, car il représente tout caractère. Si vous voulez donner des instructions différentes à différents moteurs de recherche, comme le font de nombreux sites, écrire des lignes User-Agent distincts suivis par leurs lignes de commande spécifiques. Dans chaque User-agent: en ligne, vous devez remplacer le caractère astérisque (*) avec le nom d'un robot spécifique:

User-agent: Googlebot serait d'attirer l'attention de Google.

User-agent: Slurp Yahoo !. répondrait

User-agent: MSNBot répondrait Microsoft Live Search.




Notez que si le fichier de texte de vos robots a User-agent: * instructions ainsi qu'une autre User-agent: spécifiant ligne un robot spécifique, le robot spécifique suit les commandes que vous lui a donné individuellement au lieu des instructions plus générales.

Vous pouvez taper quelques commandes différentes dans un fichier robots.txt:

  • Hors l'ensemble du site. Pour exclure le robot à partir de l'ensemble du serveur, vous utilisez la commande:

    Disallow: /

    Cette commande supprime effectivement toutes les pages Web de votre site à partir de l'index de recherche, donc soyez prudent pas pour ce faire moins que ce soit ce que vous voulez vraiment.

  • Hors un répertoire. (. Un mot d'avertissement - le plus souvent, vous voulez être beaucoup plus sélectif que d'exclure un répertoire entier) Pour exclure un répertoire (y compris l'ensemble de ses contenus et sous-répertoires), le mettre à l'intérieur des barres obliques:

    Disallow: / personnel /
  • Hors une page. Vous pouvez écrire une commande d'exclure simplement une page particulière. Vous utilisez uniquement une barre oblique au début et devez inclure l'extension de fichier à la fin. Voici un exemple:

    Interdire: /private-file.htm
  • Diriger les araignées à votre plan de site. En plus de Interdire :, une autre commande utile pour vos efforts de référencement précise où le robot peut trouver votre plan du site - la page contenant des liens à travers votre organisation du site, comme une table des matières:

Plan du site: http://yourdomain.com/sitemap.xml 

Il convient de souligner que, outre les commandes précédemment énumérés, Google reconnaît Laisser ainsi. Ceci est applicable à Google et ne peut confondre les autres moteurs, donc vous devriez éviter de l'utiliser.

Vous devez toujours inclure à la fin de votre texte de robots déposer un plan Sitemap: ligne de commande. Cela garantit que les robots trouver votre plan de site, qui leur permet de naviguer plus pleinement à travers votre site de sorte que plus de votre site est indexé.

Quelques notes sur la syntaxe robots de fichier texte:

  • Les commandes sont sensibles à la casse, si vous avez besoin d'un D majuscule dans Disallow.

  • Il devrait toujours y avoir un espace après les deux points après la commande.

  • Pour exclure un répertoire entier, mettre une barre oblique après aussi bien que avant le nom du répertoire.

  • Si vous exécutez sur une machine UNIX, tout est sensible à la casse.

  • Tous les fichiers ne sont pas spécifiquement exclus sont disponibles pour L'indexation.

Pour voir une liste complète des commandes, les noms de robot, et des instructions sur l'écriture robots des fichiers texte, aller au robot de pages Web.

Comme mesure de protection supplémentaire, faire partie de votre entretien hebdomadaire du site pour vérifier vos robots fichier texte. Il est un tel interrupteur on / off puissant pour les efforts de référencement de votre site qu'il mérite un coup d'oeil régulièrement pour vous assurer qu'il est toujours “ sur ” et fonctionne correctement.


» » » » Exclure une page web ou un site à partir de moteurs de recherche en utilisant un fichier texte robots