客戶推廣
當前位置:SEO165 > se基礎
談搜索引擎工作流程
來源:SEO165.COM 時間:2005-9-27 瀏覽:

  互聯網是一個寶庫,搜索引擎是打開寶庫的一把鑰匙。然而,絕大多數網民在搜索引擎的相關知識及使用技巧上能力不足。國外的一次調查結果顯示,約有71%的人對搜索的結果感到不同程度的失望。作為互聯網的第二大服務,這種狀況應該改變。 互聯網的迅速發展,導致了網上信息的爆炸性增長。全球目前的網頁超過20億,每天新增加730萬網頁。要在如此浩瀚的信息海洋里尋找信息,就像“大海撈針”一樣困難。搜索引擎正是為了解決這個“迷航”問題而出現的技術。 搜索引擎的工作包括如下三個過程:

1.在互聯中發現、搜集網頁信息;
2.對信息進行提取和組織建立索引庫;
3.再由檢索器根據用戶輸入的查詢關字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并將查詢結果返回給用戶。

發現、搜集網頁信息

需要有高性能的“網絡蜘蛛”程序(Spider)去自動地在互聯網中搜索信息。一個典型的網絡蜘蛛工作的方式,是查看一個頁面,并從中找到相關信息, 然后它再從該頁面的所有鏈接中出發,繼續尋找相關的信息,以此類推,直至窮盡。網絡蜘蛛要求能夠快速、全面。網絡蜘蛛為實現其快速地瀏覽整個互聯網,通常在技術上采用搶先式多線程技術實現在網上聚集信息。通過搶先式多線程的使用,你能索引一個基于URL鏈接的Web頁面,啟動一個新的線程跟隨每個新的URL鏈接,索引一個新的URL起點。當然在服務器上所開的線程也不能無限膨脹,需要在服務器的正常運轉和快速收集網頁之間找一個平衡點。在算法上各個搜索引擎技術公司可能不盡相同,但目的都是快速瀏覽Web頁和后續過程相配合。目前國內的搜索引擎技術公司中,比如百度公司的網絡蜘蛛采用了可定制、高擴展性的調度算法使得搜索器能在極短的時間內收集到最大數量的互聯網信息,并把所 獲得的信息保存下來以備建立索引庫和用戶檢索。

索引庫的建立

關系到用戶能否最迅速地找到最準確、最廣泛的信息,同時索引庫的建立也必須迅速,對網絡蜘蛛抓來的網頁信息極快地建立索引,保證信息的及時性。對網頁采用基于網頁內容分析和基于超鏈分析相結合的方法進行相關度評價,能夠客觀地對網頁進行排序,從而極大限度地保證搜索出的結果與用戶的查詢串相一致。新浪搜索引擎對網站數據建立索引的過程中采取了按照關鍵詞在網站標題、網站描述、網站URL等不同位置的出現或網站的質量等級等建立索引庫,從而保證搜索出的結果與用戶的查詢串相一致。新浪搜索引擎在索引庫建立的過程中,對所有數據采用多進程并行的方式,對新的信息采取增量式的方法建立索引庫,從而保證能夠迅速建立索引,使數據能夠得到及時的更新。新浪搜索引擎在建立索引庫的過程中還對用戶搜索的查詢串進行跟蹤,并對查詢頻率高的查詢串建立Cache頁。

用戶檢索的過程

這是對前兩個過程的檢驗,檢驗該搜索引擎能否給出最準確、最廣泛的信息,檢驗該搜索引擎能否迅速地給出用戶最想得到的信息。對于網站數據的檢索,新浪搜索引擎采用Client/Server結構、多進程的方式在索引庫中檢索,大大減少了用戶的等待時間,并且在用戶查詢高峰時服務器的負擔不會過高(平均的檢索時間在0.3秒左右)。對于網頁信息的檢索,作為國內眾多門戶網站的網頁檢索技術提供商的百度公司其搜索引擎運用了先進的多線程技術,采用高效的搜索算法和穩定的UNIX平臺,因此可大大縮短對用戶搜索請求的響應時間。作為慧聰I系列應用軟件產品之一的I-Search2000采用的超大規模動態緩存技術,使一級響應的覆蓋率達到75%以上,獨有的自學習能力可自動將二級響應的覆蓋率擴充到20%以上。


【聲明】:
  以上搜索引擎優化文章或資料除注明為SEO165.COM自創或編輯整理外,均為各方收集或網友推薦所得。其中摘錄的內容以共享、研究為目的,不存在任何商業考慮。
  目前網站上有些文章未注明作者或出處,甚至標注錯誤,此類情況出現并非不尊重作者及出處網站,而是因為有些資料來源的不規范。如果有了解作者或出處的原作者或網友,請告知,本網站將立即更正注明,并向作者或出處單位道歉。
  被摘錄的對象如有任何異議,請與本站聯系,本站確認后將立即撤下。謝謝您的支持與理解!
公司介紹 - 聯系我們 - 留言 - 地圖 - 免費登錄 - Google排名 - Google優化 - 搜索引擎大全 - 網站優化 - 網站推廣 - 工具條 -

抢红包客服 海南天天爱上麻将 北京11选五预测软件 麻将血战 一级a做爰片就_线在看 捕鱼无限内购破解安卓 友博国际棋牌 山西十一选五彩票控 欧美a片女星 鼎捷软件股票 大地棋牌安卓版立即下载 全天秒速快三计划 大透乐是什么时候开奖 免费好友房的麻将软件 股票发行量 怎么找不到开元棋牌app 上海快3最新开奖结果今天