首页 » 博文 » wpbeginner » 初学指南 » 防止 WordPress 中博客内容抓取的初学者指南

防止 WordPress 中博客内容抓取的初学者指南

您是否正在寻找一种方法来防止垃圾邮件发送者和诈骗者使用内容抓取工具窃取您的 WordPress 博客文章?

作为网站所有者,看到有人未经许可窃取您的内容,将其货币化,在 Google 中排名超过您,并窃取您的受众,这是非常令人沮丧的。

在本文中,我们将介绍什么是博客内容抓取、如何减少和防止内容抓取,甚至如何利用内容抓取器为自己谋取利益。

防止 WordPress 中博客内容抓取的初学者指南

什么是 WordPress 中的博客内容抓取?

博客内容抓取是指从多个来源获取内容并在另一个网站上重新发布。通常,这是通过博客的 RSS feed自动完成的。

不幸的是,您的WordPress 博客内容以这种方式被盗是非常容易且非常常见的。如果它发生在你身上,那么你就会明白它是多么的压力和令人沮丧。

有时,您的内容将被简单地复制并直接粘贴到另一个网站,包括您的格式、图像、视频等。

其他时候,您的内容将在未经您许可的情况下重新发布,并注明出处和返回您网站的链接。虽然这可以帮助您的 搜索引擎优化,但您可能只想将原始内容保留在您的网站上。

为什么内容抓取者会窃取内容?

我们的一些用户问我们为什么抓取工具会窃取内容。通常,内容盗窃的主要动机是从您的辛勤工作中获利:

  • 联盟佣金:不诚实的联盟营销人员可能会使用您的内容通过搜索引擎为他们的网站带来流量,以推广他们的利基产品。
  • 潜在客户开发:律师和房地产经纪人可能会花钱请人添加内容并在社区中获得权威,但没有意识到这些内容正在从其他来源被窃取。
  • 广告收入:博客所有者可能会抓取内容,以“为了社区的利益”在某个特定领域创建知识中心,然后在网站上贴上广告。

是否可以完全防止内容抓取?

在本文中,我们将向您展示可以采取的一些步骤来减少和防止内容抓取。但不幸的是,没有办法完全阻止顽固的小偷。

这就是为什么我们在这篇文章的最后一节介绍了如何利用内容抓取工具。虽然您无法始终阻止小偷,但您也许可以通过他们从您那里窃取的内容获得一些流量和收入。

当您发现有人抄袭您的内容时该怎么办?

由于不可能完全阻止抓取工具,因此有一天您可能会发现有人正在使用他们从您的博客中窃取的内容。您可能想知道发生这种情况时该怎么办。

以下是人们在处理内容抓取工具时采取的一些方法:

  • 什么也不做:您可能会花费大量时间与爬虫作斗争,因此一些受欢迎的博主决定什么也不做。谷歌已经将知名网站视为权威,但对于较小的网站而言并非如此。因此,我们认为这种方法并不总是最好的。
  • 删除:您可以联系抓取者并要求他们删除内容。如果他们拒绝,那么您将提交删除通知。您可以在我们的指南中了解如何轻松查找和删除 WordPress 中被盗的内容
  • 利用优势:虽然我们积极致力于将从 WPBeginner 抓取的内容撤下,但我们也使用一些技术来获取流量并从抓取工具中赚钱。您可以在下面的“利用内容抓取器”部分了解如何操作。

话虽如此,让我们来看看如何防止 WordPress 中的博客抓取。由于这是一本综合指南,我们提供了一个目录以便于导航:

  1. 您的博客名称和徽标的版权或商标
  2. 让您的 RSS 提要更难抓取
  3. 禁用 Trackback 和 Pingback
  4. 阻止爬虫访问您的 WordPress 网站
  5. 防止 WordPress 中的图像被盗
  6. 阻止手动复制您的内容
  7. 利用内容抓取器

商标和版权法保护您的知识产权、品牌和业务免受许多法律挑战。这包括非法使用您的受版权保护的材料或您的品牌名称和徽标。

您应该在您的网站上清楚地显示版权声明。虽然您的内容自动受版权法保护,但显示通知会让您知道您的内容受版权保护,并且他们不能将您受保护的财产用于商业目的。

在您的网站上显示版权声明

例如,您可以将带有动态日期的版权声明添加到 WordPress 页脚。这将使您的版权声明保持最新。

这可能会阻止某些用户窃取它。如果您确实需要发送停止函或提交 DCMA 投诉以删除被盗内容,它也会有所帮助。

您还可以在线申请版权登记。这个过程可能很复杂,但幸运的是,有低成本的法律服务可以帮助小企业和个人。

在我们的指南中了解如何为您的博客名称和徽标注册商标和版权

2. 让你的 RSS Feed 更难抓取

由于博客内容抓取通常是通过博客的 RSS 源自动完成的,因此让我们看一下可以对源进行的一些有用的更改。

不要在 WordPress RSS 源中包含完整的帖子内容

您可以在 RSS 源中仅包含每篇文章的摘要,而不是完整内容。这包括摘录以及帖子元数据,例如日期、作者和类别。

博客社区中肯定存在关于是否拥有完整 RSS 提要或摘要提要的争论。我们现在不会讨论这个问题,只是想说,只有摘要的优点之一是它有助于防止内容抓取。

您可以通过转到WordPress 管理面板中的设置 » 阅读来更改设置 。您需要选择“摘录”选项,然后单击“保存更改”按钮。

RSS 源可以包含全文或每篇文章的摘录

现在,RSS 源将仅显示您文章的摘录。如果有人通过您的 RSS 源窃取您的内容,那么他​​们只会获得摘要,而不是完整的帖子。

如果您想调整摘要,那么您可以查看我们关于如何自定义 WordPress 摘录的指南。

优化您的 RSS 提要以防止抓取

您还可以通过其他方法来优化 WordPress RSS 源,以保护您的内容、获得更多反向链接、增加网络流量等等。最好的方法之一是延迟帖子出现在 RSS 提要中。

这样做的好处是,当您延迟帖子出现在 RSS 提要中时,您可以让搜索引擎有时间在您的内容出现在其他地方(例如爬虫网站)之前对您的内容进行爬网和索引。然后搜索引擎会将您的网站视为权威网站。

最安全、最简单的方法是使用WPCode  ,因为它有一个方法可以自动将正确的自定义代码添加到 WordPress 中

使用 WPCode 添加代码片段

有关详细说明,请参阅有关如何延迟帖子出现在 WordPress RSS 源中的指南。

3. 禁用 Trackbacks、Pingbacks 和 REST API

在博客的早期, 引用引用和 pingback 是博客相互通知链接的一种方式。当有人链接到您博客上的帖子时,他们的网站会自动向您的网站发送 ping。

然后,此 pingback 将出现在您博客的 评论审核 队列中,并带有指向其网站的链接。如果您批准,他们就会从您的网站获得反向链接和提及。

这会激励垃圾邮件发送者抓取您的网站并发送引用。幸运的是,您可以禁用 trackback 和 pingback,从而减少抓取者窃取您内容的理由。

在 WordPress 中禁用 Trackbacks 和 Pingbacks

有关更多信息,请查看我们关于禁用所有未来帖子的引用的指南。您可能还想了解如何禁用现有 WordPress 帖子的引用和 ping

禁用 WordPress REST API

除了 trackback 和 pingback 之外,我们还建议禁用 WordPress REST API,因为它可以让垃圾邮件发送者更轻松地抓取您的内容。

我们有关于如何禁用 WordPress REST API 的详细指南。

您所需要做的就是安装并激活免费的 WPCode 插件,并使用其预制片段来禁用 REST API。

4.阻止爬虫访问您的 WordPress 网站

阻止抓取工具窃取您的内容的一种方法是取消他们对您网站的访问权限。您可以通过阻止其 IP 地址来手动执行此操作,但大多数用户会发现使用安全插件(例如 Web 应用程序防火墙)更容易。

使用安全插件阻止抓取工具(推荐)

手动阻止刮刀非常棘手且需要大量工作。特别是因为许多黑客尝试和攻击都是使用来自世界各地的各种随机 IP 地址进行的。要跟上所有这些随机 IP 地址几乎是不可能的。

这就是您需要Web 应用程序防火墙(WAF)(例如Wordfence 或 Securi)的原因。它们通过监控您的网站流量并在常见的安全威胁到达您的 WordPress 网站之前阻止它们,充当您的网站和所有传入流量之间的屏障。

对于 WPBeginner 网站,我们使用 Sucuri。它是一种网站安全服务,可使用网站应用程序防火墙保护您的网站免受此类攻击。

基本上,您的所有网站流量都会经过安全服务的服务器,并在其中检查是否存在可疑活动。它们会自动阻止可疑 IP 地址完全访问您的网站。了解 Sucuri 如何 帮助我们 在 3 个月内阻止 450,000 次 WordPress 攻击。

手动阻止或重定向抓取工具的 IP 地址

高级用户可能还希望手动阻止抓取工具的 IP 地址。这需要更多工作,但是一旦您了解了抓取工具的地址,您就可以专门针对它。Web 开发人员Jeff Star在撰写有关如何处理内容抓取工具的文章时建议采用这种方法。

注意: 向网站文件添加代码可能很危险。即使是一个小错误也可能会导致您的网站出现重大错误。这就是为什么我们只向高级用户推荐此方法。

您可以通过访问WordPress 托管帐户的 cPanel 仪表板中的“原始访问日志”来查找抓取工具的 IP 地址  。您需要查找请求数量异常高的 IP 地址并记录它们,例如将它们复制到单独的文本文件中。

阻止抓取工具的IP地址

提示:您需要确保最终不会阻止您自己、合法用户或搜索引擎访问您的网站。复制看起来可疑的 IP 地址并使用在线 IP 查找工具 来了解更多信息。

一旦您确信该 IP 地址属于抓取工具,您就可以使用 cPanel“IP Blocker”工具或通过在根.htaccess文件中添加如下代码来阻止它:

1Deny from 123.456.789

确保将代码中的 IP 地址替换为您要阻止的 IP 地址。您可以通过在同一行中输入多个 IP 地址来阻止多个 IP 地址,并用空格分隔。

有关详细说明,请参阅有关如何在 WordPress 中阻止 IP 地址的指南。

Jeff 建议您不要简单地阻止抓取工具,而是向它们发送虚拟 RSS 提要。您可以创建充满 Lorem Ipsum 和烦人图像的提要,甚至将它们直接发送回他们自己的网站,从而导致无限循环并导致服务器崩溃。

要将它们重定向到虚拟提要,您需要将如下代码添加到 .htaccess 文件中:

12RewriteCond %{REMOTE_ADDR} 123\.456\.789\.RewriteRule .* http://dummyfeed.com/feed [R,L]

5. 防止 WordPress 中的图片被盗

您需要保护的不仅仅是您的书面内容。您还应该防止 WordPress 中的图像被盗。

与文本一样,没有办法完全阻止人们窃取您的图像,但有很多方法可以阻止 WordPress 网站上的图像被盗。

例如,您可以禁用 WordPress 图像的热链接。这意味着如果有人抓取您的内容,他们的图像将不会加载到他们的网站上。

它还将减少您的服务器负载和带宽使用,提高您的 WordPress 速度和性能

或者,您可以在图像中添加水印以表示您的认可。这将清楚地表明抓取工具窃取了您的内容。

您可以在我们的WordPress 中防止图像盗窃的指南中了解这两种技术以及保护图像的其他方法。

6. 阻止手动复制您的内容

虽然大多数抓取工具使用自动工具,但某些内容窃贼可能会尝试手动复制您的全部或部分内容。

让这变得更加困难的一种方法是阻止他们复制和粘贴您的文本。您可以通过让他们更难选择您网站上的文本来做到这一点。

要了解如何停止手动复制内容,请参阅我们有关如何防止在 WordPress 中选择文本和复制/粘贴的分步指南。

但是,这并不能完全保护您的内容。请记住,精通技术的用户仍然可以查看源代码或使用 检查工具 复制他们想要的任何内容。此外,此方法不适用于所有网络浏览器。

另外,请记住,并非每个复制您文本的人都会成为内容窃贼。例如,有些人可能想复制标题以 在社交媒体上分享您的帖子

这就是为什么我们建议您仅在您认为您的网站确实需要此方法时才使用此方法。

7.利用内容抓取器

随着您的博客变得越来越大,几乎不可能停止或跟踪所有内容抓取工具。我们仍然发送 DMCA 投诉。然而,我们知道有大量其他网站正在窃取我们的内容,而我们却无法跟上。

相反,我们的方法是尝试利用内容传播者。当您看到自己通过被盗内容赚钱或从爬虫网站获得大量流量时,这还算不错。

使内部链接成为一种习惯,以从抓取工具中获取流量和反向链接

在我们的SEO 终极指南中,我们建议您养成内部链接的习惯。通过在博客文章中放置指向其他内容的链接,您可以增加自己网站的综合浏览量并降低跳出率

但刮擦还有第二个好处。内部链接将为您提供来自窃取您内容的人的宝贵反向链接。像 Google 这样的搜索引擎使用反向链接作为排名信号,因此额外的反向链接对您的 SEO 有好处。

最后,这些内部链接可以让您窃取爬虫的受众。有才华的博主会在有趣的关键字上放置链接,从而吸引用户点击。抓取工具网站的访问者也会点击链接,这将引导他们直接返回您自己的网站。

自动链接关键字与附属链接以通过抓取工具赚钱

如果您通过联属网络营销在网站上赚钱,那么我们建议您在 RSS 源中启用自动链接。这将帮助您最大限度地提高仅通过 RSS 阅读器阅读您网站的读者的收入。

更好的是,它可以帮助您从窃取您内容的网站中赚钱。

只需使用像ThirstyAffiliates这样的插件  ,它就会自动用附属链接替换指定的关键字。我们在有关如何在 WordPress 中自动将关键字与联属链接链接的指南中向您展示了如何操作。

在 RSS 页脚中推广您的网站

您可以使用 多合一 SEO 插件将自定义项目添加到 RSS 页脚。

例如,您可以添加宣传您自己的产品、服务或内容的横幅。

AIOSEO RSS feed 页脚保存

最好的部分是这些横幅也会出现在抓取工具的网站上。

在我们的例子中,我们总是在 RSS 源的帖子底部添加一些免责声明。通过这样做,我们可以从爬虫网站获得原始文章的反向链接。

这让谷歌和其他搜索引擎知道我们是权威。它还让他们的用户知道该网站正在窃取我们的内容。

有关更多提示,请查看我们有关 如何在 WordPress 中控制 RSS 源页脚的指南。

我们希望本教程能帮助您了解如何防止 WordPress 中的博客内容被抓取。您可能还想查看我们的终极 WordPress 安全指南或专家精选的WordPress 最佳分析解决方案

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

Scroll to Top