“一份经过优化的 robots.txt 文件对于网站的 SEO 至关重要。它相当于给搜索引擎蜘蛛提供了一份导航指南,告知它们哪些页面可以抓取,哪些页面应该忽略。”
通常,建站系统默认的 robots.txt 都比较简单,为了更好地进行 SEO 优化,我们需要一个更全面、更精确的 robots.txt 文件,这将:
允许抓取重要或核心内容,确保关键信息被索引: 这包括产品页面、文章详情页、服务介绍页等对网站业务和用户有高价值的内容。通过显式允许(或者默认),可以确保这些关键信息能够被搜索引擎发现、抓取并索引,从而提高它们在搜索结果中的可见度。
阻止不必要的抓取,避免资源浪费并提升效率: 限制搜索引擎抓取后台管理路径、用户特定页面(如个人资料、购物车等)、搜索结果页等。这些页面通常对用户没有直接价值,或包含大量重复内容,阻止抓取可以避免搜索引擎在这些页面上浪费抓取配额,从而更有效地抓取有价值的内容。
允许必要资源抓取,确保页面正确渲染和理解: 允许搜索引擎抓取网站所需的 CSS、JS 和图片文件。这些文件对于页面的正确渲染至关重要,如果搜索引擎无法访问它们,可能会导致页面显示不完整或布局错乱,从而影响其对页面内容的理解和评估。
包含站点地图路径,加速内容发现和索引: 在 robots.txt 中包含站点地图(Sitemap)的路径。告知搜索引擎可以帮助它们更好地发现和索引网站内容,尤其对于大型网站或内容更新频繁的网站来说,这能显著提高新内容的收录速度。
下面针对不同的建站系统如PbootCMS和Wordpress分别做详细的操作说明:
PbootCMS默认的robots.txt 文件:
User-agent: *
Allow: /
Disallow: /ad*
优化后的 robots.txt 文件:
User-agent: *
# 允许所有主要搜索引擎抓取网站内容
# PBootCMS特有的不需抓取路径,保护系统文件和非内容目录
Disallow: /ad* # 比如PBootCMS默认登录地址-admin.php
Disallow: /apps/ # PBootCMS应用目录
Disallow: /config/ # 配置目录,敏感信息
Disallow: /data/ # 数据目录,敏感信息
Disallow: /cache/ # 缓存文件
Disallow: /template/ # 模板文件
# 允许抓取CSS、JS、图片等静态资源,这有助于搜索引擎正确渲染页面,从而更好地理解内容
Allow: /*.css$
Allow: /*.js$
Allow: /*.jpg$
Allow: /*.jpeg$
Allow: /*.png$
Allow: /*.gif$
Allow: /*.svg$
Allow: /*.webp$
# 告知搜索引擎站点地图的位置,强烈建议确保这个URL是正确的,以便搜索引擎更全面地索引您的网站内容。
Sitemap: https://www.domain.com/sitemap.xml
WordPress默认的robots.txt 文件:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.domain.com/sitemap.xml
优化后的 robots.txt 文件
User-agent: *
# 允许所有搜索引擎爬虫
# 阻止WordPress常见的管理后台、用户相关、插件、主题文件以及低价值路径
Disallow: /wp-admin/ # WordPress管理后台
Allow: /wp-admin/admin-ajax.php # 允许AJAX文件,因为许多插件和主题依赖它正常工作
Disallow: /wp-includes/ # WordPress核心文件,通常不需索引
Disallow: /wp-content/plugins/ # 插件目录,通常不需索引插件文件
Disallow: /wp-content/themes/*/functions.php # 特定主题的函数文件
Disallow: /wp-content/themes/*/screenshot.png # 主题截图
Disallow: /xmlrpc.php # 用于远程发布的接口,可能存在安全风险且不需索引
Disallow: /feed/ # 全站RSS订阅(如果存在且不需要索引RSS流)
Disallow: /comments/feed/ # 评论RSS订阅(如果存在)
Disallow: /login/ # 自定义登录页面(如果存在)
Disallow: /register/ # 自定义注册页面(如果存在)
Disallow: /*? # 阻止带问号参数的URL(如筛选、排序),避免重复内容
# 允许抓取CSS、JS、图片等静态资源,这有助于搜索引擎正确渲染页面
Allow: /*.css$
Allow: /*.js$
Allow: /*.jpg$
Allow: /*.jpeg$
Allow: /*.png$
Allow: /*.gif$
Allow: /*.svg$
Allow: /*.webp$
# 告知搜索引擎站点地图的位置,强烈建议确保这个URL是正确的,以便搜索引擎更全面地索引您的网站内容。
Sitemap: https://www.domain.com/sitemap.xml
注意事项:
- 最大化核心内容抓取:通过明确阻止不必要的路径,确保搜索引擎的“爬虫预算”能够集中在网站最有价值的公共内容上,比如博客类文章中的博文,企业网站中的产品,案例,新闻等,电商网站中商品等内容。
- 全面排除敏感/重复内容:比如保留对带参数 URL (/*?) 的阻止,以有效解决重复内容问题,提升网站内容质量在搜索引擎眼中的评价。
- 针对不同建站系统差异化改进优化:比如PBootCMS 或者Wordpress等。
- 确保资源可被渲染:显式 Allow 了所有常见类型的静态资源(CSS, JS, 图片),这对于搜索引擎理解页面布局、样式和功能至关重要,有助于提升页面体验信号。
- 写规则的时候注意顺序是从上往下执行,比如将允许抓取CSS、JS、图片放到禁止内容之后,那么即使图片在被禁止的目录里面,依然可以被允许抓取,这也是为什么开头写过允许所有被抓取之后要额外在后面再写一个允许规则。
- 重视站点地图:Sitemap 指令是告知搜索引擎您网站所有重要页面的最佳方式,务必确保 https://www.domain.com/sitemap.xml指向的是您网站实际的站点地图文件。
部署前的最后核查:
- 路径匹配:在部署前,请务必仔细检查您的网站中是否存在这些 Disallow 或者 Allow 规则中提及的路径,如果没有的话就去掉。
- 站点地图:再次确认您的站点地图 URL 是准确无误的。
如何部署?
将上述代码复制并保存为名为 robots.txt 的纯文本文件。然后上传到您网站的根目录下即可。同时确保它的可访问路径是
https://www.domain.com/robots.txt
总结:这份 robots.txt 文件将成为您网站 SEO 策略的重要组成部分,帮助搜索引擎更高效、更智能地理解和索引您的网站内容。
此外,在实际的操作中还需要结合自己网站的实际情况,比如建站系统,网站结构,内容特点等方面进行调整,切忌盲目照搬。
暂无评论内容