Correcto robots.txt

El archivo robots.txt — este es el archivo principal que describe las reglas para la manipulación de las páginas de búsqueda de los robots. Este archivo se usa para designar el nombre de un sitio, el mapa del sitio (sitemap.xml), abiertas y cerradas de las secciones del sitio.
El archivo robots.txt incluye las siguientes directivas:

  • User-agent — directiva especifica para qué tipo de robot, las siguientes reglas
    • * - todos los robots
    • Yandex es el principal robot Yandex
    • Googlebot es el principal robot de Google
    • StackRambler — robot de búsqueda Rambler
    • Aport — robot de búsqueda Aport
    • Slurp — robot de Yahoo
    • MSNBot — robot de MSN
  • Disallow — la directiva de restricción de parte del sitio
  • Allow — la directiva de permisos del sitio
  • Host — directiva designar el nombre de un sitio
  • Sitemap— directiva indicaciones de un mapa del sitio (sitemap.xml)
  • Crawl-delay — directiva especifica el número de segundos que el robot puede esperar la respuesta de sitio (se necesita en muy cargados de recursos para que el robot no consideró el sitio no está disponible)
  • Clean-param — directiva describe los parámetros dinámicos no influyen en el contenido de la web

Помимо директив в robots.txt используются спец символы:

  • * - любай (incluyendo el blanco, la secuencia de caracteres
  • $ — es una limitación de la regla

Para la elaboración de robots.txt se utilizan estos directiva y de la спет caracteres de la siguiente manera:

  • Especifica el nombre del robot para el que se escribe la lista de reglas
    El usuario (User-agent: * la regla de que todos los robots)
  • Se escribe una lista de prohibidas de las secciones del sitio para el robot
    ( Disallow: / - la prohibición de la indexación de todo el sitio)
  • Se escribe la lista de permitidos de las secciones del sitio
    (Allow: /home/ — se permite la partición home)
  • Especifica el nombre del sitio
    (Host: crazysquirrel.ru — el nombre principal de sitio crazysquirrel.ru)
  • Especifica la ruta de acceso absoluta a un archivo de sitemap.xml
    (Sitemap: https:// crazysquirrel.ru/sitemap.xml)

Si el sitio no prohibidos por las secciones, robots.txt debe constar de un mínimo de 4 líneas:

User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml

Comprobar robots.txt y cómo afecta a la indexación del sitio a través de las herramientas de yandex

Mostrar y dejar sus comentarios