by Route Hiker on 2010/06/30
网站地图(Sitemap)能够突出网站的重要内容,从而使得搜索引擎的爬虫能够迅速发现新内容并抓取收录。以前,绝大部分网站都仅仅是把网站的页面地址添加到网站地图中。随着网络内容的不断丰富,图片、视频、地理坐标信息等等成为一些网站不可忽视的内容,这些网站同样希望以上文件能够通过提交网站地图的方式被搜索引擎快速收录。Google 注意到了这一点,并于近日开始支持包含多种文件格式的 Sitemap 提交。
包含多种文件格式的网站地图结构和标准的网站地图类似,网站只要按照以下格式组织网站地图,然后提交给搜索引擎便可。
<?xml version=”1.0″ encoding=”UTF-8″?>
<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″
xmlns=”http://www.sitemaps.org/schemas/sitemap-image/1.1″
xmlns=”http://www.sitemaps.org/schemas/sitemap-video/1.1″>
<url>
<loc>http://www.example.com/foo.html</loc>
<image:image>
<image:loc>http://example.com/image.jpg</image:loc>
</image:image>
<video:video>
<video:content_loc>http://www.example.com/videoABC.flv</video:content_loc>
<video:title>Grilling tofu for summer</video:title>
</video>
</url>
</urlset>
注:上面例子中,image.jpg 和 videoABC.flv 应是页面 foo.html 引用过的图片和视频文件。
当把包含多种文件格式的网站地图在 Google 网站管理员工具中提交后,会显示网站地图包含的文件格式。

by Route Hiker on 2010/06/08
Google 管理员工具开始在“抓取错误”页面显示网站的“软404”错误页面。

404是 HTTP 状态码中的一种,表示服务器在响应客户端的请求时文件或目录未找到:网站无法在所请求的端口访问。网站因为网站的改版、资源的整合等原因,导致很多旧的URL被删除,而用户或者其他网站上引用的这些URL并没有及时更新,就导致用户访问这些失效 URL 时候被引导到404页面。很多站长选择自定义404错误页面来尽可能引导这些流量到对应的页面,或首页、或内页。
利用404页面本来是没有任何问题的,但404页面实际上是分为”硬404″(Hard 404)和”软404″(Soft 404)。对一个不存在的页面,”软404″页面的网站不是返回一个404响应代码,而是返回一个200响应代码。这里有一个“软404页面”的模型:这个网站对一个不存在的 URL 返回一个“200代码”以及这个网站的首页。

“软404页面”会给用户带来困惑,而且搜索引擎也会花很多时间在网站上爬行和索引一些并不存在、而且经常重复的 URL。这会给网站的索引覆盖率造成负面影响——由于搜索引擎的蜘蛛被这种代码误导并花了大量时间爬行一些并不存在的网页,网站一部分含有独特内容的网页反而有可能无法被及时发现,或者不能被经常性访问。
现在,网站管理员可以通过 Google 网站管理员工具找到网站中的“软404”错误页面。并按照 Google 的建议,对错误的 URL 返回一个404响应代码,向用户清晰地说明这个文件无法找到。这样做将使搜索引擎和用户都得到更愉快的体验。
by Route Hiker on 2010/05/19
当一个网站内部因网址规范化的问题出现重复页面时,我们可以使用 Canonical 标签进行处理,从而引导搜索引擎收录规范化网址。目前支持站内 Canonical 标签的搜索引擎有 Google,Yahoo 和 Bing。今天,Google 率先支持跨站使用 Canonial 标签处理重复页面。
Google 称,某些网站会遇到多个网站间出现重复页面的情况。例如,一个要启用新域名而又无法建立服务器端重定向的网站,就会出现网站间的重复页面。针对类似情况,Google 提出了以下建议:
选择首选域
当网站内出现重复页面时,搜索引擎会通过一定的算法进行判断,选择其中一套页面进行收录,而其他形式的相似页面,则被列入补充材料甚至不收录。在网站间出现重复页面时,搜索引擎也采用类似的方法。虽然搜索引擎已经能比较准确地判断网页的规范化网址,但有时还是会有偏差。因此,当碰到网站间出现重复页面时,站长应首先确定一个首选域。
减少网站内部的相似页面
在开始解决网站间的相似页面问题前,应首先减少网站内部的相似页面。
尽可能地使用301跳转
在处理网站间的重复页面时,尽可能地使用301跳转,这样可以引导网站流量和搜索引擎爬虫到站长选择的首选域。
跨站使用 Canonial 标签
当不能建立301跳转的情况下,建议跨站使用 Canonial 标签。Google 还强调,Canonical 标签只是对搜索引擎的一个暗示而不是完全的指令,Google 会尽力遵循网站设置的 Canonical 标签并进行索引,但其他搜索引擎能够可能会做不同的处理。
Google 还对如何正确地使用 Canonical 标签进行了解答
问:使用 Canonical 标签所指向的页面必须完全一致吗?
Google:页面间并不需要完全一致,相似即可,细小的差别是允许的。(PS:如果页面间的差别较大,可能 Google 就不会遵循网站设置的 Canonical 标签了)
问:由于某些原因,不能准确地将某些页面进行完全的对应,可以将这些页面用 Canonical 页面指向首选域的首页吗?
Google:不行,这样恐怕会引起问题,最好的方法是将相似的页面对应起来。
问:站长可以在不要收录的页面中 meta 标签中加入 noindex 属性吗?
Google:不行,那样的话 Google 的爬虫无法发现该页面中的 Canonical 标签。
by Route Hiker on 2010/05/18
Yahoo 今天宣布将 Twitter 实时信息(Tweets)整合进 Yahoo 搜索结果页。试着搜索近期大热绯闻男 Tiger Woods,果然出现 Tweets 的搜索结果。

Yahoo 的搜索结果顶部出现 Twitter 的 Tab 页,包含两条有关 Tiger Woods 的 Tweets。与 Google 的实时搜索相比,Yahoo 搜索结果页的 Twitter Tab 没有动态刷新效果,及时性稍差。
而据国外 SEO 观察,Twitter 实时信息也曾出现在搜索结果页底部,并会显著标志是 “Twitter Results”,如图:
Yahoo 针对收录 Twitter 实时信息,透露了以下几点:
- 与 Google 的作法不同,Yahoo 并未与 Twitter 签约,以便存取 Twitter feed,Yahoo 的作法是利用 Twitter 的公共API,再加入自己的算法,找出哪些 Tweets 与搜索关键词最有关联。
- Yahoo 是否为某个搜索词页面显示 Tweets,取决于该搜索词在 Yahoo 搜索上是否热门,而与其在 Twitter 上的热门程度无关。即如果某个词在 Yahoo 上的搜索量特别大,那么在搜索结果页中很可能会出现来自 Twitter 的实时信息。
- 取决于 Tweets 与搜索词的相关度,Tweets 在 Yahoo 搜索结果页停留的时间短则一分钟,多则数小时。
- Tweets 通常出现在搜索结果页底部,但也有可能出现在顶部,这也取决于 Tweets 与搜索词的相关度。
- 目前,只有 Twitter 的实时信息会出现在 Yahoo 搜索结果页面中,未来还会加入其他实时信息来源。
by Route Hiker on 2010/05/18
自从 Google 宣布会将网页加载速度作为排名因素之一,并在网站管理员工具中加入网页加速的建议后,站长对提升网页加载速度表现出极大的关注。
最初,有站长质疑 Google Analytics 降低了网页的加载速度,会影响网页的搜索引擎排名。Google 刚将此事摆平,又有站长对 Google AdSense 发难。
Google AdSense Advisor 对此作了回复:
网站管理员工具“网站性能”显示的网页加载时间是来源于使用 Google 工具条并开启 PageRank 功能的用户,但网页加速建议是基于 Google 爬虫抓取的网页内容。
投放 Google AdSense 广告的网页,会调用 AdSense 脚本。AdSense 服务器发送给 Google 爬虫的是未经压缩的脚本;而普通用户浏览网页时,服务器会对脚本做压缩处理再发送给浏览器。因此,Google AdSense 对网页加载速度影响不大,但网页加速建议会提示该脚本是未经压缩处理的。
Google AdSense 团队正在致力于将脚本压缩后再发送给 Google 爬虫,以便在网站管理员工具中能真实反映 Google AdSense 广告在客户端的展示情况。