¿Qué es el Crawl Budget?

Por definición el Crawl Budget es la combinación de la carga del host (este concepto se puede manejar y manipular) junto con la programación y ordenación de las URLS (definimos que URLS son importantes rastrear y la frecuencia de rastreo de las mismas).

Por lo tanto la definición de Crawl Budget quedaría de la siguiente forma:

Crawl Budget = Host Load + URL Scheduling

Uno de los factores más relevantes a la hora de elevar una campaña de SEO al éxito sin lugar a duda es el crawl budget. Con este término queremos optimizar el tiempo que el robot o araña de cualquier buscador destina a visitar nuestro sitio web, una buena optimización del tiempo del robot puede ayudarnos muchísimo a la hora de posicionar nuestro proyecto.

Debes tener este termino muy claro y así me lo hizo saber cuando mi compañero de trabajo y amigo Luis Villanueva cuando me comentó que nosotros podíamos manipular y marcarle el camino al crawler Googlebot o cualquier otro robot de los buscadores por donde tiene que ir y que quieres rastrear en cada momento.

¿Qué es un crawler?

Un crawler es ni más ni menos que un rastreador web, este se dedica a navegar por toda la red  visitando nuevos sitios webs a través de los enlaces que se va encontrando el rastreador.

Toda esta información es recopilada y guardada en los grandes servidores de los buscadores, previamente esta información debe pasar por un sistema de clasificación de la información por los cuales luego nos ofrecen a nosotros los resultados de búsqueda al hacer queries (búsquedas) en los buscadores.

crawl budget googlebot

En este artículo mencionaremos mucho al término crawl budget en referencia a Googlebot, al ser este el robot del buscador líder en España y la mayoría de países de habla hispana (Colombia, Argentina, Perú, México…).

Tipos de Crawlers

En la documentación oficial de Google podremos ver una tabla bien explicada y con todo lujo de detalles con toda la información referente a los múltiples crawlers que utiliza para captar contenido de la red. El buscador de Google utiliza distintos rastreadores para obtener información, teniendo algunos específicos para noticias, imágenes, vídeos o dispositivos móviles entre otros…

araña googlebotCon esta breve introducción al mundo de las arañas de los buscadores nos introduciremos de lleno en el término específico del crawl budget y como optimizar el tiempo dedicado a nuestro sitio.

Google, en este caso propone un cierto tiempo al robot para rastrear y navegar por un sitio web. Y dependiendo de la accesibilidad, velocidad y autoridad del sitio web Google le dará un tiempo mayor o menor para rastrear el máximo posible de páginas del sitio.

Se conoce que el crawl budget está basado en el PageRank de esta página, esto fueron las palabras del propio Matt Cutts cuando nos mencionó que el presupuesto de rastreo aumentaba en función de la autoridad (Pagerank) del sitio web. Además también intervienen otros factores como la frecuencia de rastreo y la profundidad donde llegará el robot.

Por este motivo también es muy importante tener una arquitectura clara y bien definida a la hora de ejecutar cualquier proyecto web.

¿Que diferencias existen entre el Index Budget y el Crawl budget?

El Index Budget determinará el número máximo de URL de un proyecto que se puedan indexar. Por esta misma razón es muy importante no presentar errores 404 en nuestro sitio web, consumiremos cierto tiempo limitado del presupuesto de rastreo que Google ordenó al robot o araña el presupuesto de indexación se verá limitado por esto mismo.

El uso de la meta etiqueta noindex es un aspecto a tener muy en cuanta cuando queremos que el rastreador entre a nuestra página y no llegue a ser incluida en los resultados de Google esa página porque nosotros hemos determinado que no es un resultado relevante para mostrar a los usuarios de nuestro sitio web. Es muy importante no bloquear esta página con el fichero robots.txt, el rastreador o araña no podrá acceder a la página y no podrá ver la meta etiqueta noindex.

Si se enlaza a una página bloqueada por robots.txt desde otras páginas internas de nuestro sitio web esta podrá seguir apareciendo en los resultados de búsqueda al no poder acceder el robot de Google a comprobar la meta etiqueta noindex.

Importancia de la etiqueta nofollow para el Crawl Budget

El uso de la etiqueta nofollow indica a las arañas que los enlaces de esa página no deben ser seguidos y una de las propuestas para mejorar el Crawl Budget de nuestra web pasaría por bloquear todas aquellas URL que no queramos indexar y con alguna herramienta como Screaming Frog optimizar todos los enlaces internos (también conocidos como Inlinks) con el atributo rel=”nofollow” y que la araña no siga esos enlaces y pierda un presupuesto del tiempo destinado en ello.

La opción de desindexar con un noindex las páginas que no nos interesan es una opción válida (no obstante, de esta forma el rastreador entrará en la página y perderá tiempo en ella), pero si queremos optimizar nuestro presupuesto del tiempo de rastreo deberíamos  hacer uso adecuado y preciso de las etiquetas de enlazado con el atributo nofollow.

¿Que importancia tiene el Crawl Budget en el posicionamiento Web?

Su importancia es muy elevada cuando nos encontramos un sitio web muy grande con muchísimas páginas donde se da el caso que el robot o araña del buscador no tiene suficiente tiempo para llegar al nuevo contenido que hemos ofrecido en nuestra web. De esta forma las páginas que no tengan un tiempo de crawl adecuado no posicionarán de forma tan sencilla como una página que está recibiendo visitas del robot diariamente.

Se cumple una premisa muy evidente, las páginas más visitadas por el robot son aquellas que reciben más tráfico procedente de los buscadores. Una forma de manipular el tiempo del robot hacia una página concreta seria a través del enlazado interno de nuestra propia web, la página que reciba más enlaces entrantes deberá ser la página con mayor frecuencia de rastreo de nuestro sitio web.

¿Cuando cobra importancia la carga del host?

Este aspecto está más relacionado a la capacidad de tu servidor que a un aspecto SEO como tal, no obstante cobra relevancia cuando estás trabajando en un portal o un sitio web muy grande (véase Amazon o Ebay).

Si estás trabajando con un sitio web muy grande y con mucho volumen de tráfico se recomienda hacer uso de CDN (Content Delivery Network).

Si quieres llegar a un público el ámbito internacional, la CDN te facilita y te ayuda a acelerar la carga de las páginas y mejorar todos los tiempos de respuesta y por ende mejorar la experiencia de usuario, además de proteger los datos. Esto nos ayudará de forma proporcional a mejorar el posicionamiento de nuestro sitio web y reducir el consumo de ancho de banda de nuestros usuarios geolocalizados en todos los países.

Imagina que tu sitio es muy grande y consume muchos recursos y estás compartiendo recursos en un hosting compartido… Estamos perdiendo recursos al compartir la capacidad de nuestro servidor con otros portales. De esta misma forma se vería afectado el compartir espacio con subdominios que ocupen muchos recursos de nuestro servidor.

Puedes hacer pruebas de rastreo en el servidor y ver los tiempos de respuesta o hacer sitios de prueba para analizar el rendimiento del host.

Otro aspecto fundamental en la carga del host son los bucles infinitos y las trampas para los crawlers o también conocidas como ‘spider traps’.

Uno los aspectos negativos de un host es mostrar errores de servidor durante el proceso de rastreo que llevan a cabo los crawlers o arañas. En la medida de lo posible debemos evitar los errores de servidor, estos normalmente están asociados a caídas o micro-cortes temporales.

Por lo tanto si estás limitado por compartir recursos con otros sitios, portales o subdominios deberás buscar ayuda en un servidor dedicado únicamente para el proyecto.

Consejos para mejorar nuestra frecuencia de rastreo

  • Tener una arquitectura web bien definida de forma clara y concisa.
  • Hacer uso de los enlaces internos de nuestro sitio web para ofrecerle una buena experiencia al robot que visite nuestro sitio web.
  • Evitar mostrar errores 404.
  • Excluir las páginas que no queremos rastrear a través del fichero robots.txt (estas pueden ser páginas de contacto, imágenes o landings de captación de mails entre otras…)
  • Hacer uso adecuado de los metadatos y los atributos noindex & nofollow.
  • Obligatorio tener un mapa web en formato XML con toda la lista de URL que queremos indexar y las más importantes.
  • No tener contenido duplicado, el robot detecta si se está ofreciendo el mismo contenido en otras páginas de nuestro sitio y darnos una frecuencia de rastreo inferior al detectar el mismo contenido en varias páginas dentro de nuestro sitio.

El bloquear una página a través del fichero robots.txt puede ser un tiempo muy preciado que la araña del buscador no perderá en entrar en esa página y rastrearla.

Links con información interesante sobre el crawl budget:

Información oficial de Google – https://support.google.com/webmasters/topic/4589290?hl=es&ref_topic=4558844%C3%A7

Leave a Reply