如何屏蔽wordpress以/shop/page/5/?stock_status=onsale&per_row=2&per_page=12&shop_view=grid 结尾的相关谷歌收录
要屏蔽以 /shop/page/5/?stock_status=onsale&per_row=2&per_page=12&shop_view=grid
结尾的 WordPress 页面被 Google 收录,可以通过以下步骤来操作:
1. 使用 robots.txt
文件
robots.txt
文件是一个告诉搜索引擎爬虫哪些页面可以抓取,哪些页面不可以抓取的文件。你可以通过在 robots.txt
文件中添加以下内容来屏蔽这些特定的 URL 模式:
这种方式会阻止所有以 /shop/page/
开头的页面被收录。如果只想屏蔽特定参数的页面,你可以这样:
2. 使用 noindex
元标记
如果只想阻止特定的页面而不是整个路径,你可以在页面的 <head>
中添加 noindex
元标记。这需要通过主题文件或者使用插件来实现。你可以手动编辑模板文件或者使用 SEO 插件(如 Yoast SEO 或 Rank Math),为这些页面设置 noindex
标记。
代码示例:
3. 使用 Yoast SEO
插件
如果你使用的是 Yoast SEO 插件,可以按以下步骤来阻止这些页面被收录:
- 安装并激活 Yoast SEO 插件。
- 转到 SEO > 搜索外观 > 分类页面。
- 在分类页面下,找到需要设置为
noindex
的页面或自定义 URL,然后将其设置为不收录(noindex
)。
4. 使用 htaccess
文件(Apache 服务器)
如果你使用 Apache 服务器,可以在 .htaccess
文件中添加规则来阻止这些页面被访问:
这将返回一个 403 禁止访问的错误,阻止这些特定带参数的页面被爬虫抓取。
总结
- robots.txt 文件 可以用于阻止爬虫访问特定路径。
- noindex 元标记 可以在页面级别控制收录。
- SEO 插件(如 Yoast SEO)可以提供更直观的界面来管理这些设置。
- htaccess 文件 可以在服务器端控制访问。
根据你的需求,可以选择合适的方法屏蔽这些页面。
Disallow: /shop/page/ 需要加*?
在 robots.txt
中,是否需要添加 *
取决于你想要阻止的 URL 范围。
- 不加
*
: 如果你使用Disallow: /shop/page/
,那么它会阻止所有以/shop/page/
开头的路径被爬虫抓取。这意味着/shop/page/1/
、/shop/page/2/
等都会被阻止,无需额外的通配符。也就是说,所有/shop/page/
开头的 URL(无论后面是否有数字、参数等)都会被屏蔽。示例:
加 *
: 在某些情况下,使用通配符 *
可以更加灵活,但在 robots.txt
中,*
其实不一定需要,因为大多数爬虫会自动理解路径后续的所有内容。例如,如果你想确保阻止包含任何其他内容的路径,也可以这样写,但效果与不加 *
是相同的。
示例:
结论
一般情况下,直接使用 Disallow: /shop/page/
就足够了,爬虫会阻止访问所有以 /shop/page/
开头的页面。加不加 *
在这种情况下不会有太大区别。