搜索引擎程序工作机制-全文搜索引擎原理

搜索引擎程序工作机制-全文搜索引擎原理

搜索引擎程序工作机制就是采用高效的蜘蛛程序,从指定URL开始顺着网页上的超链接,采用深度优先算法或广度优先算法对整个Internet进行遍历,将网页信息抓取到本地数据库。

然后使用索引器对数据库中的重要信息单元,如标题,关键字及摘要等或者全文进行索引,以供查询导航。最后,检索器将用户通过浏览器提交的查询请求与索引数据库中的信息以某种检索技术进行匹配,再将检索结果按某种排序方法返回给用户。搜索引擎程序工作机制-全文搜索引擎原理

什么是全文搜索引擎

全文搜索引擎就是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。

全文检索技术以各类数据如文本、声音、图像等为对象,提供按数据的内容而不是外在特征来进行的信息检索,其特点是能对海量的数据进行有效管理和快速检索。它是搜索引擎的核心技术,同时也是电子商务网站的支撑技术。全文检索技术可应用于企业信息网站、媒体网站、政府站点、商业网站、数字图书馆和搜索引擎中。

全文检索技术,尤其是中文全文检索技术的研究始于1987年左右,已经有一些商品化的软件。Internet的普及使得全文检索技术日益成熟起来,其应用已突破传统的情报部门和信息中心的局限性,使该技术的最广大用户变成互联网的用户和桌面用户,而不再仅局限于情报检索专家。什么是全文搜索引擎?

全文搜索引擎原理

全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其他程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。

全文搜索引擎组成

全文搜索引擎组成主要由四大系统构成。
(1)下载系统,用于从Web上采集各种类型的网页信息,并保持对Web变化的同步。
(2)分析系统,用于对下载系统采集的信息进行PageRank和分词计算。
(3)索引系统,用于将分析系统处理后的网页对象索引入库。
(4)查询系统,用于分析用户提交的查询请求,然后从索引库中检索出相关网页并将网页排序后,以查询结果的形式返回给用户。

点赞

发表评论

电子邮件地址不会被公开。必填项已用 * 标注!昵称可为公司名称哦!SEO优化、网站诊断分析方案请联系微信/QQ:2690502116。