8：哪些网页无法建入百度索引库？

摘要

哪些网页在最初环节就被过滤掉了呢？
1：重复内容的网页：
2：主体内容空短的网页：
1）有些内容使用了百度spider无法解析的技术；
2）加载速度过慢的网页。
3）很多主体不突出的网页。
3：部分作弊网页；

上述讲解了优质网页进入索引库的原则，那其实互联网上大部分网站根本没有被百度收录。并非是百度没有发现他们，而是在建库前的筛选环节被过滤掉了。

那么：

哪些网页在最初环节就被过滤掉了呢？

互联网上已有的内容，百度必然没有必要再收录。

1）有些内容使用了百度spider无法解析的技术，如JS、AJAX等，虽然用户访问能看到丰富的内容，依然会被搜索引擎抛弃；

2）加载速度过慢的网页，也有可能被当作空短页面处理，注意广告加载时间算在网页整体加载时间内的。

3）很多主体不突出的网页即使被抓取回来也会在这个环节被抛弃。