摘要
哪些网页在最初环节就被过滤掉了呢?
1: 重复内容的网页:
2:主体内容空短的网页:
1)有些内容使用了百度spider无法解析的技术;
2)加载速度过慢的网页。
3)很多主体不突出的网页。
3:部分作弊网页;
上述讲解了优质网页进入索引库的原则,那其实互联网上大部分网站根本没有被百度收录。并非是百度没有发现他们,而是在建库前的筛选环节被过滤掉了。
那么:
哪些网页在最初环节就被过滤掉了呢?
1, 重复内容的网页:
互联网上已有的内容,百度必然没有必要再收录。
2, 主体内容空短的网页
1)有些内容使用了百度spider无法解析的技术,如JS、AJAX等,虽然用户访问能看到丰富的内容,依然会被搜索引擎抛弃;
2)加载速度过慢的网页,也有可能被当作空短页面处理,注意广告加载时间算在网页整体加载时间内的。
3)很多主体不突出的网页即使被抓取回来也会在这个环节被抛弃。