提到搜索引擎,必然提到一个动物名词:蜘蛛。搜索引擎蜘蛛是搜索引擎中必不可少的自动程序,它的作用是访问网络中的网站、网页、图片、视频等信息。我们如何才能知道某搜索引擎是否来抓取过你的网站呢?登录服务器管理页面,下载访问日志,搜索引擎蜘蛛的一般用法为:“spider+URL”,其中URL是搜索引擎访问的具体页面,同时还可以查看访问的具体时间、频率等。蜘蛛主要是通过在网站页面上爬行来发现新的页面,一般有两种策略来执行,一是深度优先爬行,二是广度优先爬行。
搜索引擎蜘蛛爬行以后,网页都被抓取回来了,接下来的工作就是“取其精华,去其糟粕”,对这些数据进行预处理,包括:关键词提取,去JS、CSS、DIV标签,建立正排索引和倒排索引,链接关系计算,特殊文件处理等。和爬行一样,预处理也是在后台提前完成的。
经过爬行和预处理以后,搜索引擎服务器已经存储了一定的数据并记录了重要关键词的集合。每个关键词赋予特殊的编码形成了一个倒排文件,输入一个关键词就能从相关文档编号中找到相关信息。输出的结果采用列表的形式,比如GOOGLE采用了预加载网页可视图来增强用户体验,用户不用点击链接就能看到整个网页的布局及分布情况,对用户更友好。
上一篇:seo是一种方式
下一篇:seo优化的技术手段和技巧