Google针对PDF文件在SEO中的作用做出回答
Google近日在其官方博客中就很多人关心的PDF文件在SEO中的作用做出详细的回答,这篇Q&A里面罗列了大家经常会问到的一些关于PDF的问题,很有参考价值!关于在SEO过程中使用PDF文件,网络上流传了一些比较通用的说法,比较流行的是原创PDF天生PR3,比HTML页面更容易获得信任与高的排名等等,具体情况怎样也没个定论,还是看看Google官方的说法吧:
Q:Google是否能够收录任何类型的PDF文件?
A:通常情况下,我们能够收录任何文字内容,没用密码保护或者加密处理的PDF文件。如果文件中的文字是图片格式,我们会用OCR算法来处理这些文字。简单点说只要你有办法把一个PDF文件里的文字 “弄” 出来做成普通文档,我们就能收录这个PDF文件。
Q:Google怎么处理PDF文件里的图片?
A:目前PDF里的图片还不会被索引,你最好是用HTML页面来展示你的图片。如何让你的图片获取更好的排名,可以参考Google帮助中心的相关文档。
Q:Google如何看待PDF文件里的链接?
A:通常情况下,PDF文档里的链接和HTML文件里的链接效果一样:可以传递PR以及其他一些链接效应,Google在爬行到这些链接的时候会做同等的“跟随记录(我瞎编的词,你懂就行)”处理。目前PDF文档还不支持 “nofollow” 属性标签!
Q:如何阻止Google收录我的PDF文档;或者文档已经收录了,怎么删除索引?
A:防止PDF文件被索引最简单的方法就是在HTTP头部添加X-Robots标签:Noindex。(关于X-Robots,大家可以参考文档:谷歌发布Robots.txt和抓取以及索引关键文档,以及Google官方的Robots meta tag and X-Robots-Tag HTTP header specifications)。对于已经收录的PDF文档,在你添加Noindex标签后,Google会在下次更新时予以删除,如果想更快的删除,可以到Google站长工具后台去操作。
Q:PDF文件能获得高排名吗?
A:当然,PDF的排名和其他网页类似。这里有三个例子 [mortgage market review], [irs form 2011] 以及 [paracetamol expert report] 等,在Google搜索时,PDF文档的排名都很高,非常感谢这些PDF文档里的高质量内容以及从其他页面过来的链接。
Q:如果我的页面同时提供HTML和PDF两种格式,是不是会出现重复内容的问题?
A:通常情况下,我们都建议你对同一份内容只提供一份Copy。如果因为一些特殊原因必须提供多份Copy(包括页面表现形式,文档格式等等)时,你可以采用指定标准化URL的方法来防止这个问题,你可以通过在网站地图中指定,以及一些常规的URL标准化指定方法来设置。(关于标准化的问题,大家可以参考文档:URL标准化,以及Google官方相应的文档。)
Q:我能不能控制PDF文档在搜索引擎中展现的标题?
A:我们采用两个元素来确定一个PDF文档的标题,一是PDF自身元标签中的标题设置(Metadata,这些在PDF制作软件中都有相应设置的),一个是从起来页面链接过来的锚文本。要想搜索引擎能更好的确定你的PDF文档标题,最好这两个方面都规范一下。
原文:PDFs in Google search results
以上的QA我们关注两个问题:
1:关于PDF文件中的链接,这个大家应该都知道,是外链的一种形式,所以PDF文档共享也是增加外链的一种方式。
2:关于PDF排名的,Google并没有强调其先天优越性,其排名参考因素和其他类型的网页一样,并没有什么特殊。
问题是很多人都在问,为什么Google搜索的时候,经常会出现PDF排在前面。
这个问题,我们如果按照这个QA排除掉其特殊性,就个人经验来说,在国外PDF文档的引用和传播比较频繁,而且很多是权威站点才提供相应的PDF格式文档,这其中包括一些政府报告,教育、健康信息等等一些高质量的长篇的完整的文档…国内似乎在这方面并不感冒!所以你会经常看到Google首页出现PDF的情况。
附:Matt Cutts关于PDF文件优化的视频
需翻墙,自己去看吧,基本也就是说Google在试图展示更高的更符合要求的结果blah,blah。
另附:几个国外常用的PDF上传分享网站:
Scribd.com
Slideshare.com
Docstoc.com
Yudu.com
Doxtop.com
Authorstream.com
Esnips.com
Issuu.com
Gazhoo.com
Edocr.com
Doocu.com – 不过的PDF搜索引擎,可以一试!
再附:BHW上一个超牛的分享
Amazon上经常会卖一些比较有价值的SEO或者Marketing书籍,都是PDF文档的,买不起?不想买?直接Google搜吧,语法:
site:*.s3.amazonaws.com keyword(你要搜的关键词)
site:.cloudfront.net keyword(你要搜的关键词)
比我还懒?直接点下面图片去下载你心仪的PDF文档去: