v1:关于百度快照问题的若干说明 一直以来,部分站长对百度快照的更新时间都存在一些误解,认为网站的快照更新时间与网站的权重状态存在一定关系,快照更新越频繁,网站的权重越高,反之,越低。 而实际上,网站快照的更新频率与权重并不存在任何直接的关系。 百度快照为什么会更新? 首先,需要澄清一下网页的抓取频率和快照的更新频率是完全不同的两个概念。 每一个被百度收录的网站,baiduspider都会根据其网站内容更新的频率不断的检查有无新网页产生,通常情况下,Baiduspider的抓取频率会和网站产生新内容的速度相符,通常说的更新,是指Baiduspider对网页内容的抓取。 每个新抓取或者新检查过的网页,我们都会根据其重要程度以及其时效性价值以不同的速度去创建索引,通常所说的快照更新时间是指索引时间,一些经常有重要内容更新的网页,我们会以更快的速度创建索引。如果一个网页只是一般的文字变更或者内容没有时效性的价值,并不一定会被搜索引擎认为有快速更新索引的价值,即便百度蜘蛛重新抓取了该网页内容,其快照也不一定会快速更新,但这并不意味着它不重要或者百度更新的速度很慢。 快照时间为什么会倒退? 一个重要网页的快照往往会在搜索引擎数据库中保存有多份网页快照,这些快照的抓取时间并不相同。在一些极特殊情况下,搜索引擎系统可能会选择不同于当前搜索结果中的快照版本,导致出现快照时间倒退的情况。这对网站在搜索引擎中的表现无任何影响,也并不代表搜索引擎对该网站做了降权处理。 综上,快照的更新与页面中是否出现重要新增内容有直接关联,而与网站本身的“权重”、是否“被K”并无直接关联。站长不必过多关注网站的快照时间,我们建议站长将精力集中在网站的内容建设中,只有提高网站的内容价值和检索体验,方可受到用户和搜索引擎的信赖。v2:关于SEO的建议 搜索引擎优化(SearchEngine Optimization,简称SEO),指为了从搜索引擎中获得更多的免费流量,从网站结构、内容建设方案、用户互动传播等角度进行合理规划,使网站更适合搜索引擎的检索原则的行为。 SEO可以帮助将网站中的高质量内容更好的呈现给搜索引擎,SEO和搜索引擎,是良性的共生关系。 SEO自从1997年左右出现以来,逐渐分化成两类SEO行为: 1、一类被称为“白帽SEO”,这类SEO起到了改良和规范网站设计的作用,使之对搜索引擎和用户更加友好,并从中获取更多合理的流量。 搜索引擎鼓励和支持“白帽SEO”,为了帮助网站更好的进行白帽SEO,我们发布了《百度搜索引擎优化指南》,建议按照指南来优化网站,可以获得更好的效果。 2、另一类被称为“黑帽SEO”,这类SEO行为利用和放大搜索引擎的策略缺陷(实际上完美的系统是不存在的)获取更多用户访问量,而这些更多的访问量,是以伤害用户体验为代价的,所以,面对黑帽SEO行为,搜索引擎会通过一些策略进行遏制。 如果您的网站使用了一些黑帽SEO的手段,反而会影响网站在搜索引擎中的表现,严重的甚至会从百度中消失。 SEO是一项重要且复杂的工作,聘请正规的白帽SEO顾问或者SEO公司可以帮助更好的优化您的网站。但是,有一些不道德的 SEO会采用一些夸大的宣传欺骗站长,或者使用黑帽SEO手段获取流量,最终导致优化达不到预期效果甚至因为黑帽SEO而带来负面影响。 如果您正准备或者已经聘请SEO公司,请注意以下问题: 1、考查对方是否有稳定的成功案例; 2、确认对方对你网站的更改都遵循《百度搜索引擎优化指南》; 3、制定衡量SEO成果的指标,方便衡量SEO效果; 4、没有人可以保证网站在百度搜索结果排名第一。 SEO可以帮你将网站中的高质量内容更好的呈现给搜索引擎,获取更多流量,但没有人可以保证你的网站排在第一位。v3:Web2.0反垃圾详细攻略 一、web2.0站点与垃圾内容 由于大多数web2.0建站系统存在漏洞,攻克技术成本较低,且群发软件价格低廉,容易被作弊者利用,近期我们发现大量web2.0站点被群发的垃圾信息困扰。这些垃圾群发内容无孔不入,除论坛、博客等传统的web2.0站点受到困扰外,现已蔓延到微博、SNS、B2B商情页、公司黄页、分类信息、视频站、网盘等更多领域内,甚至连新兴的分享社区也受到了影响。从以前的论坛帖子、博客日志,扩展到供求信息页、视频页、用户资料页,这些任何由用户填写和生成内容的地方,都会被作弊者发掘利用,形成大量的web2.0性质的垃圾页面。 搜索引擎在发现web2.0性质的垃圾页面后必将做出相应应对,但对真正操作群发的作弊者很难有效的打击,所以作弊者容易利用web2.0站点极低成本且自身安全这些特点,做出更多危害网站、危害用户、危害搜索引擎的行为。若网站自身管理不严控制不力,很容易成为垃圾内容的温床;有些网站为了短期流量而对垃圾内容置之不理,这无异于饮鸩止渴。网站不应仅仅是平台的提供者,更应该是内容的管理者,积极维护网站自身质量非常重要。若网站任由垃圾内容滋长,不仅会影响网站的用户体验,同时也会破坏网站口碑和自身品牌建设,造成正常用户流失,严重时,还会使搜索引擎降低对网站的评价。 对于作弊者来说,在web2.0站点上发布垃圾内容的目的就是被搜索引擎收录,如果不能让垃圾页面在网站和搜索引擎上消失,他们依然会持续不断地产生更多垃圾内容。百度站长平台希望和站长一起打击垃圾页面,帮助网站良性发展,共同维护互联网生态环境。 二、哪些内容会被百度判别为垃圾内容 一切对用户无意义,且会伤害用户的内容,就是垃圾内容。我们总结了以下几种比较典型的案例,以示说明: 1、与网站或论坛版块主题不符的内容 群发者通常都是大面积群发内容,多数情况下不会注意站点及版块主题,有时我们会在视频网站中见到“XXX医院治疗白癫风效果好”的内容,会在化妆品论坛发现航空公司的虚假电话,会在音乐网站中找到商品推销信息(当然不是卖CD的)等等。对于这些主题明确的站点或论坛,清理垃圾内容的意义不仅在于保证网站体验,也是从自身发展考虑维护用户忠诚度,提高核心竞争力的事情。举例: 网站主题为化妆品,出现“找小姐”等不良内容广告 网站主题为视频,出现明显商业广告性质的医疗信息 2、欺骗搜索引擎用户的内容 1)垃圾信息为了在众多搜索结果中脱颖而出、吸引用户注意,通常会使用诱人的标题,或在内容中添加大量关键词,有别于真实用户发帖时使用自然语言表达的情况。举例: “优酷土豆%守望的天空29集”--有悖于普通用户发布信息的习惯。 2)有些帖子内容是一段没有任何意义的文字,或者随意采集来一篇文章,而中间穿插了一些热门关键词。举例: ; 3)有些文章看标题以为在说A事,而主要内容却在讲B,且与A毫无关系。举例: 4)对于视频音频网站来说,无论内容上传者是否为恶意,只要视频或音频文件不能满足用户需求或者与标题所述不符都应该清除掉。举例: ,实际视频平均不足1分钟 视频内嵌入了联系方式,名为介绍武艺,实际是在推广另一艺人,视频站点成为其免费的推广平台。 3、欺骗网站诈取分帐式广告收益的内容 部分web2.0站点为了鼓励用户上传内容,会设计一套现金鼓励机制,比如视频网站,根据视频前面的广告展现量来计算用户收益,少数分成用户会采取一些不正当的手段从搜索引擎骗取流量,从站方诈取分成收益。如大量上传短小视频,并在视频网页上堆积诱人的关键词。 4、恶意利用web2.0网站为自己做推广、谋福利的内容。举例: ; 视频内嵌入了联系方式,名为介绍武艺,实际是在推广另一艺人,视频站点成为其免费的推广平台。 5、有违法律法规的不良信息,如诈骗中奖联系方式、虚假联系电话、不良信息。举例: 三、网站管理员面对垃圾内容,如何应对 出于对网站自身发展的考虑,为了使搜索引擎能够提供更加公平的结果,为了维护互联网生态环境,以及给网民提供更好的上网体验,我们认为web2.0站点或论坛版块里存在上述内容是非常不合适的,网站管理员应对垃圾内容进行重点清理,可以采取以下措施: 1、删除垃圾内容,并将这些页面设置为404页面后,及时通过百度站长平台的死链工具提交死链列表。不仅令百度对站点的自我清理行为及时响应,更方便站点主动控制网站内容在搜索引擎的呈现情况。 2、提高注册用户门槛,限制机器注册 1)群发软件通常使用自动的程序探测论坛默认的注册文件名、发帖文件名。管理员可以不定期的修改注册用户文件名、发帖文件名;注册、发帖按钮使用图片;与程序默认的不同,可以防止被自动程序搜索到。 2)发帖机通常是机器注册,行为模式单一。管理员可添加一些需要人工操作的步骤,有助于限制机器注册。 如:使用验证码;限制同一邮箱注册ID的数量,同时启用邮箱验证;使用更为复杂的验证机制;经常更换注册问答。 3)除了在注册处设置门槛外,还可以控制新用户权限。如要求完成上传头像、完善用户信息等人工操作步骤后才开放发帖功能;在一定时间内限制新用户发帖;限制新用户发布带链接的帖子,待达到一定级别后再放开。 3、严控机器发帖行为,如使用验证码、限制短时间内连续发帖等。 4、建立黑名单机制,将群发常用词、广告电话和网址等加入黑名单,对含有黑名单内容的帖子进行限制或清除。黑名单应该不断维护,以堵截原有垃圾词汇发生变形和新生垃圾词汇。 5、对站内的异常进行监控。发现注册量、帖子数,甚至站点流量爆增后,及时发现和查找原因。 6、对站点内用户的行为进行监控 1)部分异常用户的ID结构有别于普通用户,如使用无意义的字母数字、或几个单个汉字的无序组合,如:gtu4gn6dy1、蝶淑琴;使用商业词作为ID,如:轴承天地7、hangkongfuwu123。 2)发布内容间隔过短 3)发布的内容绝大部分非常类似 4)发布的大部分内容里含有类似的特征,如某个网址、电话、QQ号码等联系方式 7、不允许发布带有可执行代码的内容,避免弹窗、跳转等严重影响用户体验的情况发生。 8、对部分web2.0位置提及的链接,使用“nofollow”进行标记,如:bbs签名内的链接、BLOG回复ID自置的链接 9、论坛中的广告、灌水版块,建议加上权限限制,或者禁止搜索引擎收录。 10、关注建站程序的安全更新,及时安装补丁程序。保障用户账号安全,避免发生盗用正常用户账号或历史沉寂用户账号发布垃圾内容的情况发生。v4:被黑和站点安全 网站安全是重中之重 网站服务是否稳定,对用户、站方和搜索引擎来说都非常重要。目前国内网站的安全问题十分严峻,众多网站由第三方代建,维护人员缺乏足够的知识,大量的网站都存在不同程度的安全和管理漏洞。 我们发现在百度收录的网站中,每天数以万计的网站存在被黑的问题,而黑客攻击网站的手段越来越隐蔽,当被站长发现时,问题往往已经发生了很久。一旦网站的漏洞被黑客利用,网站就会完全处在黑客的掌控之下:网站内容可能会被篡改得面目全非,或被植入恶意代码危害用户安全,或被增加大量的垃圾页面。这对网站的正常服务、声誉、搜索引擎中的表现都存在一定程度的负面影响,甚至可能由于篡改内容涉嫌违法行为,给您带来不必要的监管风险。 如何判断网站被黑 如果存在下列问题,则您的网站可能已经被黑客攻击: 1、通过Site语法查询站点,显示搜索引擎收录了大量非本站应有的页面。 2、从百度搜索结果中点击站点的页面,跳转到了其他站点。 3、站点内容在搜索结果中被提示存在风险。 4、从搜索引擎带来的流量短时间内异常暴增。 注:site查询结合一些常见的色情、游戏、境外博彩类关键字,可帮助站长更快的找到异常页面,例如“site:www.abcxyz.com 博彩” 一旦发现上述异常,我们建议您立即对网站进行排查。包括: 1、分析系统和服务器日志,检查自己站点的页面数量、用户访问流量等是否有异常波动,是否存在异常访问或操作日志; 2、检查网站文件是否有不正常的修改,尤其是首页等重点页面; 3、网站页面是否引用了未知站点的资源(图片、JS等),是否被放置了异常链接; 4、检查网站是否有不正常增加的文件或目录; 5、检查网站目录中是否有非管理员打包的网站源码、未知txt文件等。 温馨提示:若直接访问网站时一切正常,但在百度的搜索结果展现了异常的快照内容,这可能是黑客做了特殊处理,只让百度蜘蛛抓取到异常的页面,以此来增加隐蔽性,让站长难以发现;同理,若直接访问网站正常,但从百度搜索结果页进行访问时,出现了异常页面,这是黑客针对百度来源(refer)做了特殊处理。 如何应对网站被黑 如果排查确认您的网站存在异常,此时您需要立即做出处理,包括: 1、立即停止网站服务,避免用户继续受影响,防止继续影响其他站点(建议使用503返回码)。 2、如果同一主机提供商同期内有多个站点被黑,您可以联系主机提供商,敦促对方做出应对。 3、清理已发现的异常,排查出可能的被黑时间,和服务器上的文件修改时间相比对,处理掉黑客上传、修改过的文件;检查服务器中的用户管理设置,确认是否存在异常的变化;更改服务器的用户访问密码。 注:可以从访问日志中,确定可能的被黑时间。不过黑客可能也修改服务器的访问日志。 4、做好安全工作,排查网站存在的漏洞,防止再次被黑。 如何防止网站被黑 为避免您的网站被黑客攻击,您需要在平时做大量的工作,例如 1、定期检查服务器日志,检查是否有可疑的针对非前台页面的访问。 2、经常检查网站文件是否有不正常的修改或者增加。 3、关注操作系统,以及所使用程序的官方网站。如果有安全更新补丁出现,应立即部署,不使用官方已不再积极维护的版本,如果条件允许,建议直接更新至最新版;关注建站程序方发布的的安全设置准则。 4、系统漏洞可能出自第三方应用程序,如果网站使用了这些应用程序,建议仔细评估其安全性。 5、修改开源程序关键文件的默认文件名,黑客通常通过自动扫描某些特定文件是否存在的方式来判断是否使用了某套程序。 6、修改默认管理员用户名,提高管理后台的密码强度,使用字母、数字以及特殊符号多种组合的密码,并严格控制不同级别用户的访问权限。 7、选择有实力保障的主机服务提供商。 8、关闭不必要的服务,以及端口。 9、关闭或者限制不必要的上传功能。 10、设置防火墙等安全措施。 11、若被黑问题反复出现,建议重新安装服务器操作系统,并重新上传备份的网站文件。 12、对于缺乏专业维护人员的网站,建议向专业安全公司咨询。v5:买卖链接的危害 众所周知,搜索引擎会对站点获得链接的数量和质量进行分析,从而做出对网站的评价,最终影响站点在搜索结果中的表现。在搜索引擎看来,站点的链接质量比数量更为重要,然而愈演愈烈的链接买卖风潮,已经开始威胁到搜索引擎的公正性。 搜索引擎认为站点每发出一个链接指向另一个站点,都是一次投票行为,请您珍惜每一次投票的权力,而不是将这个权力出售,更不应该打包卖给链接中介公司。如果搜索引索发现站点有出售链接的行为,则会影响到站点在搜索引擎系统中的整体表现。 对于广告类的链接,请您使用nofollow属性进行设置。除不出售链接外,您还应该关注建站程序的安全更新,及时安装补丁程序;经常对网站发出的链接进行检查,看是否有多余的、非主观意愿存在的链接,以免站点在不知情的情况下被黑帽SEO添加链接。详细请参考被黑和站点安全。 建议您不要企图求助于黑帽SEO和链接中介公司,他们很有可能使用极不正当的手段令站点在短时间内获得一定效果,但是搜索引擎有专门的程序去识别各种手段和行为,一旦被发现,站点会无法得到预期的效果,甚至被搜索引擎惩罚处理。 最后,希望各位站长放眼于长远的未来,不要为眼前的蝇头小利所迷惑。将精力放在在自身内容和品牌建设上,拓展更多良性发展的盈利模式。v6:时效性资源收录问题 为满足用户对互联网中新增有价值资源的需求,百度搜索对网站中具有时效性的新增资源有快速收录机制。如果您的网站中经常发布突发事件的新闻报道、最新一集的电视剧、连载小说最新章节、最新版软件等内容,且百度搜索引擎认为网站不存在作弊或不良优化行为,则这些具有时效性的资源可能会被搜索引擎快速定位,最快可以在几分钟内完成收录。时效性资源的出处包括但不限于新闻、论坛、视频、博客、小说、下载、分类信息等内容。 百度搜索引擎对时效性收录的基本要求一共有三点: 1、新增资源 通常来说,只有新增内容才会具有时效性,因此必须是基于内容的新资源,而不是简单地对旧文章、旧资源的转载。 2、高价值的资源 基本标准例如文本具有可读性,或资源可正常使用。更进一步的要求是,文字内容排版合理,便于阅读;或广告少,视频清晰;资源下载速度快。高价值的资源不仅对搜索引擎友好,更重要的是对用户体验的提升。 3、具有一定的受众群体 您的网站需要有一定的受众群体,忠实受众群体的数量可以反应网站的价值程度,搜索引擎会参考网站的受众情况,并依此作为网站价值的评判标准之一,总的来说,忠实的受众群体越大,网站越受搜索引擎的重视。 v7:知名站点SEO注意事项 知名站点,是指已经有较高用户知名度的网站。站点越是知名,就越应从长远考虑,以用户体验为重,积极、合理的进行网站优化,远离作弊和恶意SEO行为。 我们经常可以看到一些知名站点使用了不够合理的内容建设方式,比如:
类似的方式,都会使搜索引擎对网站内容的理解造成困难,最终影响网站在搜索引擎中的表现。我们建议您采取对搜索引擎友好的方式进行网站建设,具体内容可参考《百度搜索引擎优化指南》。 知名站点应远离作弊行为 知名站点对搜索引擎,乃至整个互联网欢迎的影响通常是巨大的,若使用恶意的作弊行为,其产生的影响也就越坏。例如: 1、出售首页的友情链接。 2、大量采集其他网站的内容,原创内容比例极低,甚至大量采集网站主题无关的内容,或机器批量生成没有价值的页面。 3、网站被大量广告内容占领。 这些知名的站点,一旦有恶意的作弊行为,所产生的恶劣影响将是巨大的,有可能会受到搜索引擎更为严格的惩罚。知名站点更应从长远考虑,提升用户口碑,用高质量的内容赢得用户青睐。不应为了短期的流量,不顾用户的体验,做有损品牌形象的事情。 此外,知名站点也是各路作弊者的“众矢之的”,容易被恶意利用。站点越知名,被利用的价值就越大。我们建议您建立防范意识,避免由于被作弊者利用引起的不必要风险。 您的站点是否足够安全?当网站被黑客攻击时,是否有足够的应对机制? 由用户贡献内容的功能,是否做好了应对作弊的措施? 对于不想让搜索引擎收录的内容,是否在robot.txt中清晰指明? 利用引导产品做优化 百度的“搜索框提示”和“相关搜索”,可以显示近期用户的热门搜索关键词。您可以依据搜索提示中的关键字,了解用户常使用的关键字,作为网站优化的参考。 但如果通过不正当的手法,蓄意影响百度的“搜索框提示”和“相关搜索”,则是一种非常恶劣的作弊行为。对于这类恶意行为,百度将从严处理。 蓄意影响百度的“搜索框提示”和“相关搜索”,会严重干扰正常用户,会引起用户的反感。由于系统防范策略的作用,网站的正常名称可能会被“搜索框提示”和“相关搜索”清除,特别恶劣者,可能会影响网站在百度搜索的表现。s1:网站分析白皮书《网站分析白皮书》是百度统计产品团队针对当前国内的互联网环境,参考国内外互联网专家的经验,总结了先进的网站分析方法论,其中内容并不着眼于高大全的百科全书式说教,而是针对中国互联网特殊环境,从流程、思路到分析手段介绍基础网站分析方法论,辅以实战案例说明,力求把这些来源于实战的方法让广大网站运营分析者再应用到实际网站运营中去。目前本网站分析白皮书已是V2.0版。本网站分析白皮书主要包括以下几大部分内容: 1、网站分析是什么 2、网站分析意义 3、流量统计原理 4、网站分析指标 5、网站分析流程 6、网站分析思路 7、网站分析方法 8、百度统计介绍 本白皮书在前期调研过程中听取了大量站长和网站分析师的意见,但实事求是地说仍有较大提高空间,也欢迎大家多提建议,我们将继续扩充网站分析白皮书,帮助站长们更好地了解网站分析知识,合理建设并优化网站。 :百度spider介绍 1. 什么是Baiduspider Baiduspider是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。 2. Baiduspider的user-agent是什么? 百度各个产品使用不同的user-agent: 产品名称 对应user-agent 无线搜索 Baiduspider 图片搜索 Baiduspider-image 视频搜索 Baiduspider-video 新闻搜索 Baiduspider-news 百度搜藏 Baiduspider-favo 百度联盟 Baiduspider-cpro 商务搜索 Baiduspider-ads 网页以及其他搜索 Baiduspider 3. Baiduspider对一个网站服务器造成的访问压力如何? 为了达到对目标资源较好的检索效果,Baiduspider需要对您的网站保持一定量的抓取。我们尽量不给网站带来不合理的负担,并会根据服务器承 受能力,网站质量,网站更新等综合因素来进行调整。如果您觉得baiduspider的访问行为有任何不合理的情况,您可以反馈至反馈中心。 4. 为什么Baiduspider不停的抓取我的网站? 对于您网站上新产生的或者持续更新的页面,Baiduspider会持续抓取。此外,您也可以检查网站访问日志中Baiduspider的访问是否正常,以防止有人恶意冒充Baiduspider来频繁抓取您的网站。 如果您发现Baiduspider非正常抓取您的网站,请通过反馈中心反馈给我们,并请尽量给出Baiduspider对贵站的访问日志,以便于我们跟踪处理。 5. 如何判断是否冒充Baiduspider的抓取? 建议您使用DNS反查方式来确定抓取来源的ip是否属于百度,根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下: 5.1 在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。 $ host 123.125.66.120 120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com. host 119.63.195.254 254.195.63.119.in-addr.arpa domain name pointer BaiduMobaider-119-63-195-254.crawl.baidu.jp. 5.2 在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。 5.3 在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip,来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。 6. 我不想我的网站被Baiduspider访问,我该怎么做? Baiduspider遵守互联网robots协议。您可以利用robots.txt文件完全禁止Baiduspider访问您的网站,或者禁止 Baiduspider访问您网站上的部分文件。 注意:禁止Baiduspider访问您的网站,将使您的网站上的网页,在百度搜索引擎以及所有百度提供搜索引擎服务的搜索引擎中无法被搜索到。关于 robots.txt的写作方法,请参看我们的介绍:robots.txt写作方法 您可以根据各产品不同的user-agent设置不同的抓取规则,如果您想完全禁止百度所有的产品收录,可以直接对Baiduspider设置禁止抓取。 以下robots实现禁止所有来自百度的抓取: User-agent: Baiduspider Disallow: / 以下robots实现禁止所有来自百度的抓取但允许图片搜索抓取/image/目录: User-agent: Baiduspider Disallow: / User-agent: Baiduspider-image Allow: /image/ 请注意:Baiduspider-cpro抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,如果Baiduspider-cpro给您造成了困扰,请联系union1@baidu.com。 Baiduspider-ads抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,如果Baiduspider-ads给您造成了困扰,请联系您的客户服务专员。 7. 为什么我的网站已经加了robots.txt,还能在百度搜索出来? 因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。另外也请检查您的robots配置是否正确。 如果您的拒绝被收录需求非常急迫,也可以通过反馈中心反馈请求处理。 8. 我希望我的网站内容被百度索引但不被保存快照,我该怎么做? Baiduspider遵守互联网meta robots协议。您可以利用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。 和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。 9. Baiduspider抓取造成的带宽堵塞? Baiduspider的正常抓取并不会造成您网站的带宽堵塞,造成此现象可能是由于有人冒充Baiduspider恶意抓取。如果您发现有名为Baiduspider的agent抓取并且造成带宽堵塞,请尽快和我们联系。您可以将信息反馈至反馈中心,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。s3:网站改版及301设置说明 根据调研发现,部分网站在改版时由于改版的情况不同,会遇到新旧网站收录的问题,对网站的流量带来一定的损失,在目前情况下建议网站不要频繁的进行改版,若需改版建议在改版时采用新旧内容并存一段时间之后再设置301跳转的方式,尽可能多的降低网站因改版带来的流量损失。且为了解决这类问题,百度站长平台在12月下旬即将推出改版工具,之后通过工具与设置301两种方式相结合的形式将能够做到网站接近无损失的新旧交换。以下为详细说明。 一、在现有情况若进行网站改版,建议按照以下方法进行: 1、网站改版完成,先将新版上线,在线上保持一段时间新旧内容共存。 2、新旧内容同时存在一段时间,且新版内容已开始收录后,对新旧内容设置301跳转,将 旧版内容指向新版对应内容。 按照上述操作方式在现有情况下能够尽可能的降低网站因改版带来的流量损失,建议网站若需要进行改版,在现有情况下均采用该方法。 二、为了更好的解决站长在改版中出现的问题,百度站长平台即将推出网站改版工具: 为了改变目前改版中存在的问题,百度站长平台在12月份下旬即将推出网站改版工具,使用该工具设置301两种方式相结合的形式可以做到网站接近无损失的新旧交换,建议网站管理员在之后进行改版时都使用该改版工具,并按照以下方法进行改版: 1、网站改版完成,先将新版上线,在线上保持一段时间新旧内容共存。 2、新旧内容同时存在一段时间,且新版内容已开始收录后,对新旧内容设置301跳转,将旧版内容指向新版对应内容。 3、设置301之后,立刻在网站改版工具中将改版规则进行提交(详细的提交规则将在改版工具推出后进行介绍)。 通过301设置及百度网站改版工具相结合的方式将改版信息向百度进行提交将能够极大的降低网站因改版带来的流量损失,实现网站接近无损失的新旧交换。S4:未建好页面应返回503状态码,防止被删除近期,百度站长平台发现有一些网站把未建好的页面放到线上,并且这些页面在被百度抓取的时候返回码是404,于是页面被百度抓取后,会被当成死链直接删除。但是这个页面在第二天或者过几天就会建好,并上线到网站内展现出来,但是由于之前已经被百度当做死链删除,所以要再次等这些链接被发现,然后抓取,才能展现,这样的操作最终会导致一些页面在一段时间内不会在百度出现。 比如某个大型门户网站爆出大量新闻时效性很强的专题未被百度及时收录的问题,经检查验证后发现就是因为页面未建成就放置在线上,并返回404状态码,被百度当成死链删除,造成收录和流量损失。 对于这样的问题,百度官方建议网站合理使用返回码,即使用503返回码,这样百度的抓取器接到503返回码后,会在隔一段时间再去访问这个地址,在您的页面建好上线后,就又能被重新抓取,保证页面及时被抓取和索引,避免未建好的内容设为404后带来不必要的收录和流量损失。 以下详细介绍几种百度支持的常用返回码: 1、404:404返回码的含义是“NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内spider再次发现这条url也不会抓取。 2、301:301返回码的含义是“Moved Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长,但我们还是推荐大家这么做。 网站改版详细介绍请查看:。 3、503:503返回码的含义是“Service Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503,百度spider不会把这条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这个url仍会被百度认为是失效链接,从搜索结果中删除。 百度站长平台的建议和总结: 1、如果百度spider对您的站点抓取压力过大,请尽量不要使用404,同样建议返回503。这样百度spider会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了 2、如果站点临时关闭或者页面暂未建好上线,当网页不能打开时以及没有建好时,不要立即返回404,建议使用503状态。503可以告知百度spider该页面临时不可访问,请过段时间再重试。S5:建站指南:百度认为什么样的网站更有抓取和收录价值 百度认为什么样的网站更有抓取和收录价值呢?我们从下面几个方面简单介绍.鉴于技术保密以及网站运营的差异等其他原因,以下内容仅供站长参考,具体的收录策略包括但不仅限于所述内容。 第一方面:网站创造高品质的内容,能为用户提供独特的价值。 百度作为搜索引擎,最终的目的是满足用户的搜索需求,所以要求网站内容首先能满足用户的需求,现今互联网上充斥了大量同质的内容,在同样能满足用户需求的前提下,如果您网站提供的内容是独一无二的或者是具有一定独特价值的,那么百度会更希望收录您的网站。 温馨提示:百度希望收录这样的网站:
相反的,很多网站内容是“一般或低质”的,甚至某些网站利用欺骗手段来获取更好的收录或排名,下面列举一些常见的情况,虽然无法对各种情况一一列举。但请不要抱有侥幸心理百度有完善的技术支持发现并处理这些行为。
某些网站在设计时不是从用户角度出发考虑的,而是为了从搜索引擎骗取更多的流量。比如提交给搜索引擎一种内容而显示给用户另一种。这些行为包括但不仅限于:在网页中加入隐藏文字或隐藏链接;在网页中加入与网页内容不相关的关键词;具有欺骗性跳转或重定向;专门针对搜索引擎制作桥页;针对搜索引擎利用程序生成的内容。
百度会尽量收录提供不同信息的网页,如果您的网站包含了大量重复的内容,那么搜索引擎会减少相同内容的收录,同时认为该网站提供的内容价值偏低。 当然如果网站上相同的内容是通过不同形式展现(如论坛的简版页面、打印页),可以使用禁止spider抓取网站不想向用户展现的形式,这也有助于节省带宽。
第二方面:网站提供的内容得到了用户、站长的认可和支持 一个网站上的内容如果得到了用户和站长的认可,那么对百度·来说也是非常值得收录的。百度会通过分析真实用户的搜索行为、访问行为、网站之间的关系等综合给一个网站的认可度的评价。但是值得说明的是,这种认可必须是建立在网站为用户提供了优质内容的基础上,是真实、有效的。下面仅以网站之间的关系为例,来说明百度是如何看待其他站长对您网站的认可的:通常网站之间的链接可帮助百度的抓取工具找到您的网站,并提高您的网站的认可度。百度将从网页A至网页B的链接解释为网页A向网页B的投票。通过网页投票表决可以体现网页本身的“认可度”更具分量,并且有助于提高其他网页的“认可度”。链接的数量、质量以及相关性都会影响到“认可度”的计算。 但请注意,不是所有的链接都能参与认可度的计算,只有那些自然的链接才是有效的。(自然链接是指当其他网站发现您的内容具有价值并认为其可能对访问者有所帮助时,在网络的动态生成过程中形成的。) 要使其他网站创建与您网站相关的链接,最好的方式是创建可在互联网内赢得人气的独特且相关的内容。您的内容越实用,其他站长越容易发现您的内容对其用户有价值,因而也就越容易链接到您的网站。在做出是否要增加链接的决定之前,您应当先考虑:这样做对我网站的访问者是否真的有益? 然而,某些网站站长时常不顾链接质量和链接来源而进行链接交换,并单纯地为了认可度而人为的建立链接关系,这些都会对其网站产生长期影响。 温馨提示:会对网站产生不良影响的链接包括但不仅限于:
第三方面:网站有良好的浏览体验 一个网站有良好的浏览体验,那么对用户来说是非常有益的,百度也会认为这样的网站是有更好的收录价值的。良好的浏览体验是指:
为用户提供包含指向网站重要部分的链接的站点地图和导航。使用户能够清晰、简单的浏览网站,快速的找到其所要的信息。
网站速度快可以提高用户满意度,还可改善网页的整体质量(尤其对于互联网连接速度慢的用户)。 确保网站的内容在不同的浏览器中均能正确显示,防止某些用户不能正常访问。
广告是网站的重要收入来源,网站包含广告是非常合理的现象,但是如果广告过多会影响了用户的浏览;或者网站有太多不相关的弹窗、飘窗广告都可能会使用户反感。 百度的目标是向用户提供相关度最高的搜索结果以及最佳用户体验,如果广告对用户体验造成伤害,那么这样的站点是百度抓取是需要减少的。
从输入关键词,到百度给出搜索结果的过程,往往仅需几毫秒即可完成。百度是如何在浩如烟海的互联网资源中,以如此之快的速度将您的网站内容展现给用户?这背后蕴藏着什么样的工作流程和运算逻辑?事实上,百度搜索引擎的工作并非仅仅如同首页搜索框一样简单。 搜索引擎为用户展现的每一条搜索结果,都对应着互联网上的一个页面。每一条搜索结果从产生到被搜索引擎展现给用户,都需要经过四个过程:抓取、过滤、建立索引和输出结果。 抓取 Baiduspider,或称百度蜘蛛,会通过搜索引擎系统的计算,来决定对哪些网站施行抓取,以及抓取的内容和频率值。搜索引擎的计算过程会参考您的网站在历史中的表现,比如内容是否足够优质,是否存在对用户不友好的设置,是否存在过度的搜索引擎优化行为等等。 当您的网站产生新内容时,Baiduspider会通过互联网中某个指向该页面的链接进行访问和抓取,如果您没有设置任何外部链接指向网站中的新增内容,则Baiduspider是无法对其进行抓取的。对于已被抓取过的内容,搜索引擎会对抓取的页面进行记录,并依据这些页面对用户的重要程度安排不同频次的抓取更新工作。 需您要注意的是,有一些抓取软件,为了各种目的,会伪装成Baiduspider对您的网站进行抓取,这可能是不受控制的抓取行为,严重时会影响到网站的正常运作。。 过滤 互联网中并非所有的网页都对用户有意义,比如一些明显的欺骗用户的网页,死链接,空白内容页面等。这些网页对用户、站长和百度来说,都没有足够的价值,因此百度会自动对这些内容进行过滤,以避免为用户和您的网站带来不必要的麻烦。 建立索引 百度对抓取回来的内容会逐一进行标记和识别,并将这些标记进行储存为结构化的数据,比如网页的tagtitle、metadescripiton、网页外链及描述、抓取记录。同时,也会将网页中的关键词信息进行识别和储存,以便与用户搜索的内容进行匹配。 输出结果 用户输入的关键词,百度会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列,展现给用户。 综上,您若希望通过搜索引擎为用户带来更好的体验,需要对进行您的网站严格的内容建设,使之更符合用户的浏览需求。需要您注意的是,网站的内容建设始终需要考虑的一个问题是,这对用户是否有价值。以上内容是本人觉得对站长朋友略有帮助的!更多大家还是可以去关注不同的站长平台 文章来源:“热情推荐”,未经允许不得转载。 文章代表作者观点,版权归原作者所有,热传平台仅提供信息存储空间服务。 |
2024-11-05
2024-09-29
2024-09-26
2024-09-26
2024-09-24
2024-09-24
2024-09-24
2024-09-24