搜尋引擎原理(三)?

在許多場合,也稱Yahoo!之類的入口網站提供的資訊查 找功能為搜尋引擎。但從技術上講,這樣的門戶中提供的搜尋服務和前述搜尋引 擎是很不同的。這樣的門戶依賴的是人工整理的網站分類目錄,一方面,使用者可 以直接沿著目錄導航,定位到他所關心的資訊;另一方面,使用者也可以提交查詢 詞,讓系統將他直接引導到和該查詢詞最匹配的網站。圖 1-2 就是我們在搜狐上 查詢“伊拉克戰爭”的結果。和圖 1-1 相比,不難看到其風格是很不相同的。在 需要區別的場合,我們可以分別稱“自動搜尋引擎”和“目錄搜尋引擎”,或者“網 頁搜尋引擎”和“網站搜尋引擎”。一般來講,前者的資訊搜尋會更全面些,後者 則會準確些。在沒有特殊說明的情況下,本書中所討論的“搜尋引擎”不包括Yahoo! 和搜狐這樣的搜尋方式。 隨著網上資訊越來越多,單純靠人工整理網站目錄取得較高精度查詢結果的 優勢逐漸退化——對海量的資訊進行高質量的人工分類已經不太現實。目前有兩 個發展方向。一是利用文字自動分類技術,在搜尋引擎上提供對每篇網頁的自動 分類,這方面最先看到的例子是Google 的“網頁分類”選項,但它分類的物件只 是英文網頁。在中文方面,文字自動分類的研究工作有很多,但我們知道的第一 個在網上提供較大規模網頁自動分類服務的是北大網路實驗室馮是聰和龔筆巨集等 人的工作[馮是聰,2003],他們於2002 年 10 月在天網搜尋上掛接了一個300 萬網 頁的分類目錄。另一個發展方向是將自動網頁爬取和一定的人工分類目錄相結合, 希望形成一個既有高資訊覆蓋率,也有高查詢準確性的服務。 網際網路上資訊量在不斷增加,資訊的種類也在不斷增加。例如除了我們前面 提到的網頁和檔案,還有新聞組,論壇,專業資料庫等。同時上網的人數也在不 斷增加,網民的成分也在發生變化。一個搜尋引擎要覆蓋所有的網上資訊查詢需 求已出現困難,因此各種主題搜尋引擎,個性化搜尋引擎,問答式搜尋引擎等紛 紛興起。這些搜尋引擎雖然還沒有實現如通用搜索引擎那樣的大規模應用,但隨 著網際網路的發展,我們相信它們的生命力會越來越旺盛。另外,即使通用搜索引 擎的執行現在也開始出現分工協作,有了專業的搜尋引擎技術和搜尋資料庫服務 提供商。例如美國的Inktomi,它本身並不是直接面向用戶的搜尋引擎,但向包括 Overture (原GoTo)、LookSmart、MSN、HotBot 等在內的其他搜尋引擎提供全文 網頁蒐集服務。從這個意義上說,它是搜尋引擎資料的來源。 搜尋引擎出現雖然只有 10 年左右的歷史,但在Web上已經有了確定不移的地 位。據CNNIC統計,它已經成為繼電子郵件之後的第二大Web應用。雖然它的基 本工作原理已經相當穩定,但在其質量、效能和服務方式等方面的提高空間依然 很大,研究成果層出不窮,是每年WWW學術年會1 的重要論題之一。

相關問題答案