客戶推廣
當前位置:SEO165 > se基礎
搜索引擎技術及趨勢1
來源:搜索引擎直通車 時間:2005-9-28 瀏覽:
    隨著因特網的迅猛發展、WEB信息的增加,用戶要在信息海洋里查找信息,就象大海撈針一樣,搜索引擎技術恰好解決了這一難題(它可以為用戶提供信息檢索服務)。目前,搜索引擎技術正成為計算機工業界和學術界爭相研究、開發的對象。

 搜索引擎(Search Engine)是隨著WEB信息的迅速增加,從1995年開始逐漸發展起來的技術。據發表在《科學》雜志1999年7月的文章《WEB信息的可訪問性》估計,全球目前的網頁超過8億,有效數據超過9T,并且仍以每4個月翻一番的速度增長。用戶要在如此浩瀚的信息海洋里尋找信息,必然會“大海撈針”無功而返。

 搜索引擎正是為了解決這個“迷航”問題而出現的技術。搜索引擎以一定的策略在互聯網中搜集、發現信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務,從而起到信息導航的目的。搜索引擎提供的導航服務已經成為互聯網上非常重要的網絡服務,搜索引擎站點也被美譽為“網絡門戶”。搜索引擎技術因而成為計算機工業界和學術界爭相研究、開發的對象。本文旨在對搜索引擎的關鍵技術進行簡單的介紹,以起到拋磚引玉的作用。

一、分類

 按照信息搜集方法和服務提供方式的不同,搜索引擎系統可以分為三大類:

 1.目錄式搜索引擎:以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網站,提供目錄瀏覽服務和直接檢索服務。該類搜索引擎因為加入了人的智能,所以信息準確、導航質量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。

 2.機器人搜索引擎:由一個稱為蜘蛛(Spider)的機器人程序以某種策略自動地在互聯網中搜集和發現信息,由索引器為搜集到的信息建立索引,由檢索器根據用戶的查詢輸入檢索索引庫,并將查詢結果返回給用戶。服務方式是面向網頁的全文檢索服務。該類搜索引擎的優點是信息量大、更新及時、毋需人工干預,缺點是返回信息過多,有很多無關信息,用戶必須從結果中進行篩選。這類搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國內代表為:“天網”、悠游、OpenFind等。

 3.元搜索引擎:這類搜索引擎沒有自己的數據,而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結果進行重復排除、重新排序等處理后,作為自己的結果返回給用戶。服務方式為面向網頁的全文檢索。這類搜索引擎的優點是返回結果的信息量更大、更全,缺點是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引擎的代表是WebCrawler、InfoMarket等。

二、性能指標

  我們可以將WEB信息的搜索看作一個信息檢索問題,即在由WEB網頁組成的文檔庫中檢索出與用戶查詢相關的文檔。所以我們可以用衡量傳統信息檢索系統的性能參數-召回率(Recall)和精度(Pricision)衡量一個搜索引擎的性能。

  召回率是檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率,衡量的是檢索系統(搜索引擎)的查全率;精度是檢索出的相關文檔數與檢索出的文檔總數的比率,衡量的是檢索系統(搜索引擎)的查準率。對于一個檢索系統來講,召回率和精度不可能兩全其美:召回率高時,精度低,精度高時,召回率低。所以常常用11種召回率下11種精度的平均值(即11點平均精度)來衡量一個檢索系統的精度。對于搜索引擎系統來講,因為沒有一個搜索引擎系統能夠搜集到所有的WEB網頁,所以召回率很難計算。目前的搜索引擎系統都非常關心精度。

  影響一個搜索引擎系統的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相關度反饋的機制

三、主要技術

 一個搜索引擎由搜索器、索引器、檢索器和用戶接口等四個部分組成。

1.搜索器

  搜索器的功能是在互聯網中漫游,發現和搜集信息。它常常是一個計算機程序,日夜不停地運行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時因為互聯網上的信息更新很快,所以還要定期更新已經搜集過的舊信息,以避免死連接和無效連接。目前有兩種搜集信息的策略:

 ● 從一個起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優先、深度優先或啟發式方式循環地在互聯網中發現信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(如Yahoo。。

 ● 將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負責一個子空間的窮盡搜索。

 搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息。

 搜索器的實現常常用分布式、并行計算技術,以提高信息發現和更新的速度。商業搜索引擎的信息發現可以達到每天幾百萬網頁。

2.索引器

 索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表。
  索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,如作者名、URL、更新時間、編碼、長度、鏈接流行度(Link Popularity)等等;內容索引項是用來反映文檔內容的,如關鍵詞及其權重、短語、單字等等。內容索引項可以分為單索引項和多索引項(或稱短語索引項)兩種。單索引項對于英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格);對于中文等連續書寫的語言,必須進行詞語的切分。

  在搜索引擎中,一般要給單索引項賦與一個權值,以表示該索引項對文檔的區分度,同時用來計算查詢結果的相關度。使用的方法一般有統計法、信息論法和概率法。短語索引項的提取方法有統計法、概率法和語言學法。

 索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應的文檔。索引表也可能要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰或接近關系(proximity)。

 索引器可以使用集中式索引算法或分布式索引算法。當數據量很大時,必須實現即時索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引算法對索引器的性能(如大規模峰值查詢時的響應速度)有很大的影響。一個搜索引擎的有效性在很大程度上取決于索引的質量

3.檢索器

  檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并實現某種用戶相關性反饋機制。

 檢索器常用的信息檢索模型有集合理論模型、代數模型、概率模型和混合模型四種。

4.用戶接口

 用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用戶接口的設計和實現使用人機交互的理論和方法,以充分適應人類的思維習慣。

 用戶輸入接口可以分為簡單接口和復雜接口兩種。

 簡單接口只提供用戶輸入查詢串的文本框;復雜接口可以讓用戶對查詢進行限制,如邏輯運算(與、或、非; 、-)、相近關系(相鄰、NEAR)、域名范圍(如.edu、.com)、出現位置(如標題、內容)、信息時間、長度等等。目前一些公司和機構正在考慮制定查詢選項的標準。

下一頁


【聲明】:
  以上搜索引擎優化文章或資料除注明為SEO165.COM自創或編輯整理外,均為各方收集或網友推薦所得。其中摘錄的內容以共享、研究為目的,不存在任何商業考慮。
  目前網站上有些文章未注明作者或出處,甚至標注錯誤,此類情況出現并非不尊重作者及出處網站,而是因為有些資料來源的不規范。如果有了解作者或出處的原作者或網友,請告知,本網站將立即更正注明,并向作者或出處單位道歉。
  被摘錄的對象如有任何異議,請與本站聯系,本站確認后將立即撤下。謝謝您的支持與理解!
公司介紹 - 聯系我們 - 留言 - 地圖 - 免費登錄 - Google排名 - Google優化 - 搜索引擎大全 - 網站優化 - 網站推廣 - 工具條 -

抢红包客服 体彩6+1和值走势图 淘宝网赚论坛 fax系列番号 至尊斗地主怎么样 体彩6十1开奖结果 北京汽车pk10开 黄色片三级色 天津11选五任四推荐 舟山体彩飞鱼开奖结果查询 幸运28单双预测软件 山东11选五5开奖 沈阳按摩那里好 贵阳捉鸡什么叫做叫嘴 青海11选5的开奖结果走势图 个人投资理财入门 腾讯分分彩开奖规定