Todo lo relacionado a Internet, Programación y Tecnología

Bloquear Googlebot solo en algunas páginas mediante .HTACCESS

Google es un buscador muy eficiente, y día a día trabaja indexando nuestros sitios web, para ofrecerle paginas y contenido relevante a los visitantes que buscan constantemente cosas de interés personal.

El problema que vengo a solucionar es cuando Google decide indexar ciertas páginas que nosotros no queremos que indexe o rastree, incluso ignorando el archivo robots.txt; en las mismas notas de ayuda que ofrece Google advierte que incluso si alguien enlaza desde su web un contenido que está bloqueado por robots.txt, existen posibilidades de que aun así lo rastree e indexe en el buscador, ignorando lo que nosotros deseamos.

Para evitar el rastreo de Google mediante .htaccess en un servidor Apache y así hacer que su Googlebot deje de pasar por algunas páginas o todas las páginas de nuestro Sitio Web (opción de cada quien), tenemos que editar nuestro .htaccess por FTP en nuestro servidor web, y agregamos el siguiente código, pero personalizándolo según sea nuestro caso:

# Esto bloquea el acceso a las siguientes rutas:
# /ejemplo.html
# /login
# /login/
# /directorio
# /directorio/

<Files ~ "^(ejemplo.html|login|directorio)$">

# User-agent's
SetEnvIfNoCase User-Agent "^Googlebot" block_bot

Order Allow,Deny
Allow from All
Deny from env=block_bot

</Files>

Con esto ya no tenemos que utilizar el robots.txt, aunque puede ser un complemento para evitar el rastreo de ciertas páginas o secciones de un sitio web.

Para bloquear por ejemplo las etiquetas en el CMS WordPress:

"^(tag/*)$"

La ventaja de este código es que funciona con varios bots y el tipo de bloqueo es por la fuerza, y la única manera en que puede acceder estos bots a las paginas determinadas, es cambiando de User-Agent (practica común con los bots maliciosos).

Escrito por Alan en 2018-02-11 00:12:34 UTC

Enlace permanente - categorías: Herramientas para webmasters, Software y Apps, SEO (Search Engine Optimization) - etiqueta: google

« HTOP estadísticas avanzadas de monitoreo en Debian - ¿Qué podría hacer en un hospedaje web compartido? »