处理网站上的重复内容是一项非常艰苦的工作。随着网站的发展,必需不断增加、转变或删除各种功效;与此同时,不同的网站内容来了又往。一段时间后,很多网站都会有以多个URL网址情势存在的系统化垃圾代码,这些URL都返回同样的内容。在一般情况下,除了会增加搜索引擎的抓取和索引内容的难度以外,你的网站上存在重复内容并不构成标题。此外,通过导进链接而得到的PageRank以及类似信息可能会在我们尚未断定为重复内容的网页间扩散,导致你的首选网页在谷歌中的排名下降。
处理你的网站内部重复内容的步骤
辨认网站上的重复内容。
辨认你网站上的重复内容是处理重复内容的第一步,也是最重要的一步。应用一种简略的方法可以实现这个目标,即从网页中选取一段奇特的文本代码,然后搜索这段文本,并应用谷歌的site:query将搜索成果限制为自己网站上的网页。如此以来,搜索出的含有同样内容的多个成果就是你需要处理的重复内容。
断定你需要的首选URL网址。
在处理重复内容之前,必需确保你的首选URL网址结构。对于这段内容,你盼看应用哪一个URL网址?
保持网站内部的同一性。
选择首选网址之后,确保在你的网站内所有可能的地位上应用他们(包含你的Sitemap文件)。
在必要和可能的情况下应用301永久重定向。
可能的话,可以应用301代码将重复网址重新定向为你选择的网址。此举能够帮助用户和搜索引擎在拜访重复URL网址时找到你的首选URL网址。假如你的网站有数个域名,可选择一个域名,应用将其他域名301重定向到这个域名,同时还要确保其转向准确的特定网页,而不仅是域根目录。假如网站同时支撑www和非www主机名,可选择其中一种,应用Google网站站长工具中的首选域设置,再进行适当的重定向。
在可能的情况下,在你网页上应用rel=“canonical”。
在无法应用301重定向的情况下,可以应用rel=“canonical”,以方便搜索引擎更好地懂得你的网站和首选URL网址。Ask.com、Bing和Yahoo!等重要搜索引擎都支撑这种链接标签的应用。
可能的情况下,在Google网站站长工具中应用URL参数处理工具
假如部分或全部网站重复内容来自带有查询参数的URL网址,则此工具将帮助你将URL内的重要参数和不相干参数通知我们。有关此工具的具体信息可参网站治理员新参数处理工具助您减少重复内容 。
怎样处理robots.txt文件?
应用robots.txt文件来禁止对重复内容进行抓取不在我们推荐的方法之内。我们建议你不要应用robots.txt文件或其他方法来禁止对你网站上的重复内容的拜访。你可以应用rel=“canonical” 链接标签、URL参数处理工具或301重定向。假如完整禁止了对重复内容的拜访,搜索引擎必需将这些URL作为独立的不同网页处理,由于它们无法分辨出这些URL实在只是指向雷同内容的不同网址。更好的解决方法是答应对其进行抓取,同时用我们推荐的方法将这些URL网址明白标记为重复内容。假如你答应我们拜访这些URL网址,Google抓取机器人将学会通过查看URL断定其是否为重复内容,在各种情况下都能很好地避免不必要的重复爬行抓取。为了防止重复内容仍然领导我们过多地爬行搜索你的网站,你还可以调剂Google网站站长工具里的抓取速度。
我们盼看这些方法能够帮助把持你的网站上的重复内容。