November 26, 2024

Robots.txt for eltiempo.com

        # Specific robot directives / Directivas específicas para robots:
# Casa Editorial El Tiempo content is made available under our terms and conditions; for personal, non-commercial use / El contenido de Casa Editorial El Tiempo está disponible bajo nuestros términos y condiciones; para uso personal, no comercial;
# To our Terms of Service here: https://www.eltiempo.com/terminos-condiciones/ / Consultar nuestros Términos y Condiciones de Servicio aquí: https://www.eltiempo.com/terminos-condicioneshttps://www.eltiempo.com/terminos-condiciones/
# Use of any device, tool, or process designed to data mine or scrape the content, using automated means, it is prohibited without prior written permission from Casa Editorial El Tiempo / El uso de cualquier dispositivo, herramienta o proceso diseñado para extraer datos o raspar el contenido, utilizando medios automatizados, está prohibido sin el permiso previo por escrito de Casa Editorial El Tiempo.
# Prohibited uses include but are not limited to: / Los usos prohibidos del contenido incluyen, entre otros:
# (1) text and data mining activities; / (1) actividades de minería de textos y datos;
# (2) the development of any software, machine learning, artificial intelligence (AI), and/or large language models (LLMs); / (2) el desarrollo de cualquier software, aprendizaje automático, inteligencia artificial (IA) y/o grandes modelos de lenguaje (LLM);
# (3) creating or providing archived or cached data sets containing our content to others; and/or / (3) crear o proporcionar conjuntos de datos archivados o en caché que contengan nuestro contenido a otros; y/o
# (4) any commercial purposes / (4) cualquier propósito comercial.
# Contact for assistance: notificaciones@eltiempo.com / Contacto para asistencia: notificaciones@eltiempo.com

User-Agent: *
Disallow: /media/
Disallow: /colombia/notasfantasmas/
Disallow: /buscador/
Disallow: /especiales-td/
Disallow: /buscar/
Disallow: /search-results/
Disallow: /buscar?
Disallow: /articulo-recomendados/
Disallow: /track/ 
Disallow: /dictum/
Disallow: /club-vivamos/
Disallow: /files/
Disallow: /uploads/
Disallow: /custom-listing-tag/
Disallow: /get-ads-by-id/
Disallow: /javascripts/
User-agent: sitecheck.internetseer.com
Disallow: /
User-agent: Zealbot
Disallow: /
User-agent: MSIECrawler
Disallow: /
User-agent: SiteSnagger
Disallow: /
User-agent: WebStripper
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: Fetch
Disallow: /
User-agent: Offline Explorer
Disallow: /
User-agent: Teleport
Disallow: /
User-agent: TeleportPro
Disallow: /
User-agent: WebZIP
Disallow: /
User-agent: linko
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: Xenu
Disallow: /
User-agent: larbin
Disallow: /
User-agent: libwww
Disallow: /
User-agent: ZyBORG
Disallow: /
User-agent: Download Ninja
Disallow: /
User-agent: UbiCrawler
Disallow: /
User-agent: DOC
Disallow: /
User-agent: Zao
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: Maxthon
Disallow: /
User-agent: CNCDialer
Disallow: /
User-agent: newsproxy.app
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: anthropic-ai
Disallow: /

#sitemaps
Sitemap: https://www.eltiempo.com/sitemap-default.xml
Sitemap: https://www.eltiempo.com/sitemap-index.xml
Sitemap: https://www.eltiempo.com/sitemap-google-news.xml
Sitemap: https://www.eltiempo.com/sitemap-articles-current.xml
Sitemap: https://www.eltiempo.com/sitemap-images-index.xml
Sitemap: https://www.eltiempo.com/sitemap-videos-index.xml
Sitemap: https://www.eltiempo.com/rss-news/eltiempo.xml
Sitemap: https://www.eltiempo.com/rss/eltiempo.xml
Sitemap: https://www.eltiempo.com/showcase-feed

User-agent: PerplexityBot
Disallow: /
User-agent: TurnitinBot
Disallow: /
User-agent: magpie-crawler
Disallow: /
User-agent: omgili
Disallow: /
User-agent: omgilibot
Disallow: /
User-agent: DataForSeoBot
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: news-please
Disallow: /
User-agent: AwarioRssBot
Disallow: /
User-agent: AwarioSmartBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: FacebookBot
Disallow: /