網頁爬蟲是什麼?

General 更新 2024年4月15日

請問什麼是網絡爬蟲啊?是幹什麼的呢?

網絡爬蟲是一種程序,主要用於搜索引擎,它將一個網站的所有內容與鏈接進行閱讀,並建立相關的全文索引到數據庫中,然後跳到另一個網站.樣子好像一隻大蜘蛛.

當人們在網絡上(如google)搜索關鍵字時,其實就是比對數據庫中的內容,找出與用戶相符合的.網絡爬蟲程序的質量決定了搜索引擎的能力,如google的搜索引擎明顯要比百度好,就是因為它的網絡爬蟲程序高效,編程結構好.

什麼是網絡爬蟲

1 爬蟲技術研究綜述

引言?

隨著網絡的迅速發展,萬維網成為大量信息的載體,如何有效地提取並利用這些信息成為一個巨大的挑戰。搜索引擎(Search Engine),例如傳統的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網的入口和指南。但是,這些通用性搜索引擎也存在著一定的侷限性,如:?

(1) 不同領域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結果包含大量用戶不關心的網頁。?

(2) 通用搜索引擎的目標是儘可能大的網絡覆蓋率,有限的搜索引擎服務器資源與無限的網絡數據資源之間的矛盾將進一步加深。?

(3) 萬維網數據形式的豐富和網絡技術的不斷髮展,圖片稜數據庫、音頻/視頻多媒體等不同數據大量出現,通用搜索引擎往往對這些信息含量密集且具有一定結構的數據無能為力,不能很好地發現和獲取。?

(4) 通用搜索引擎大多提供基於關鍵字的檢索,難以支持根據語義信息提出的查詢。?

為了解決上述問題,定向抓取相關網頁資源的聚焦爬蟲應運而生。聚焦爬蟲是一個自動下載網頁的程序,它根據既定的抓取目標,有選擇的訪問萬維網上的網頁與相關的鏈接,獲取所需要的信息。與通用爬蟲(general?purpose web crawler)不同,聚焦爬蟲並不追求大的覆蓋,而將目標定為抓取與某一特定主題內容相關的網頁,為面向主題的用戶查詢準備數據資源。?

1 聚焦爬蟲工作原理及關鍵技術概述?

網絡爬蟲是一個自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件,如圖1(a)流程圖所示。聚焦爬蟲的工作流程較為複雜,需要根據一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接並將其放入等待抓取的URL隊列。然後,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,並重覆上述過程,直到達到系統的某一條件時停止,如圖1(b)所示。另外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,並建立索引,以便之後的查詢和檢索;對於聚焦爬蟲來說,這一過程所得到的分析結果還可能對以後的抓取過程給出反饋和指導。?

相對於通用網絡爬蟲,聚焦爬蟲還需要解決三個主要問題:?

(1) 對抓取目標的描述或定義;?

(2) 對網頁%B

參考資料:baike.baidu.com/view/284853.htm

網絡爬蟲是什麼意思

網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本。

什麼叫做Web爬蟲?

[離散數學是當代數學的一個重要分支,也是計算機科學的數學基礎。它包括數理邏輯、集合論、圖論和近世代數四個分支。數理邏輯基於布爾運算,我們已經介紹過了。這裡我們介紹圖論和互聯網自動下載工具網絡爬蟲 (Web Crawlers) 之間的關係。順便提一句,我們用 Google Trends 來搜索一下“離散數學”這個詞,可以發現不少有趣的現象。比如,武漢、哈爾濱、合肥和長沙市對這一數學題目最有興趣的城市。]

我們上回談到了如何建立搜索引擎的索引,那麼如何自動下載互聯網所有的網頁呢,它要用到圖論中的遍歷(Traverse) 算法。

圖論的起源可追溯到大數學家歐拉(Leonhard Euler)。1736 年歐拉來到德國的哥尼斯堡(Konigsberg,大哲學家康德的故鄉,現在是俄羅斯的加里寧格勒),發現當地市民們有一項消遣活動,就是試圖將下圖中的每座橋恰好走過一遍並回到原出發點,從來沒有人成功過。歐拉證明了這件事是不可能的,並寫了一篇論文,一般認為這是圖論的開始。

圖論中所討論的的圖由一些節點和連接這些節點的弧組成。如果我們把中國的城市當成節點,連接城市的國道當成弧,那麼全國的公路幹線網就是圖論中所說的圖。關於圖的算法有很多,但最重要的是圖的遍歷算法,也就是如何通過弧訪問圖的各個節點。以中國公路網為例,我們從北京出發,看一看北京和哪些城市直接相連,比如說和天津、濟南、石家莊、南京、瀋陽、大同直接相連。我們可以依次訪問這些城市,然後我們看看都有哪些城市和這些已經訪問過的城市相連,比如說北戴河、秦皇島與天津相連,青島、煙臺和濟南相連,太原、鄭州和石家莊相連等等,我們再一次訪問北戴河這些城市,直到中國所有的城市都訪問過一遍為止。這種圖的遍歷算法稱為“廣度優先算法”(BFS),因為它先要儘可能廣地訪問每個節點所直接連接的其他節點。另外還有一種策略是從北京出發,隨便找到下一個要訪問的城市,比如是濟南,然後從濟南出發到下一個城市,比如說南京,再訪問從南京出發的城市,一直走到頭。然後再往回找,看看中間是否有尚未訪問的城市。這種方法叫“深度優先算法”(DFS),因為它是一條路走到黑。這兩種方法都可以保證訪問到全部的城市。當然,不論採用哪種方法,我們都應該用一個小本本,記錄已經訪問過的城市,以防同一個城市訪問多次或者漏掉哪個城市。

現在我們看看圖論的遍歷算法和搜索引擎的關係。互聯網其實就是一張大圖,我們可以把每一個網頁當作一個節點,把那些超鏈接(Hyperlinks)當作連接網頁的弧。很多讀者可能已經注意到,網頁中那些藍色的、帶有下劃線的文字背後其實藏著對應的網址,當你點下去的的時候,瀏覽器是通過這些隱含的網址轉到相應的網頁中的。這些隱含在文字背後的網址稱為“超鏈接”。有了超鏈接,我們可以從任何一個網頁出發,用圖的遍歷算法,自動地訪問到每一個網頁並把它們存起來。完成這個功能的程序叫做網絡爬蟲,或者在一些文獻中稱為"機器人" (Robot)。世界上第一個網絡爬蟲是由麻省理工學院 (MIT)的學生馬休.格雷(Matthew Gray)在 1993 年寫成的。他給他的程序起了個名字叫“互聯網漫遊者”("www wanderer")。以後的網絡爬蟲越寫越複雜,但原理是一樣的。

我們來看看網絡爬蟲如何下載整個互聯網。假定我們從一家門戶網站的首頁出發,先下載這個網頁,然後通過分析這個網頁,可以找到藏在它裡面的所有超鏈接,也就等於知道了這家門戶網站首頁所直接連接的全部網頁,諸如雅虎郵件、雅虎財經、雅虎新聞等......

網絡爬蟲是什麼,有很大的作用嗎?

【網絡爬蟲】又被稱為網頁蜘蛛,聚焦爬蟲,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

網絡爬蟲是一個自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成搐傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。聚焦爬蟲的工作流程較為複雜,需要根據一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接並將其放入等待抓取的URL隊列。然後,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL,並重覆上述過程,直到達到系統的某一條件時停止。另外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,並建立索引,以便之後的查詢和檢索;對於聚焦爬蟲來說,這一過程所得到的分析結果還可能對以後的抓取過程給出反饋和指導。

什麼是網絡爬蟲,網絡爬蟲的職能是什麼

自動檢索工具(automatic indexer),或者(在FOAF軟件概念中)網絡疾走(WEB scutter),是一種“自動化瀏覽網絡”的程序,或者說是一種網絡機器人。它們被廣泛用於互聯網搜索引擎或其他類似網站,以獲取或更新這些網站的內容和檢索方式。它們可以自動採集所有其能夠訪問到的頁面內容,以供搜索引擎做進一步處理(分檢整理下載的頁面),而使得用戶能更快的檢索到他們需要的信息。

參考自知乎網友回答

什麼是網絡爬蟲,簡單點說,網上的看不懂

網絡爬蟲,你可以把互聯網理解為一張由代碼編製成大的網,網上有很多爬蟲,在上面行走,但每個爬蟲都有個家,每天外出,但時間就會回家,等於把蒐集到的數據帶回數據庫

網絡爬蟲 這個是什麼意思

百度蜘蛛,這只是比喻他們在網上爬行。他們主要是負責收錄網站,以便用戶將來能搜索到更多更好的網站

爬蟲是什麼意思?

網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。

注意:另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

什麼是網絡爬蟲以及怎麼做它?

網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動索引,模擬程序或者蠕蟲。

看看百科 上邊挺詳細的

參考資料:baike.baidu.com/view/284853.htm#4

相關問題答案
網頁爬蟲是什麼?
網絡爬蟲是什麼意思?
網頁空間是什麼?
網頁跳轉是什麼原因?
網頁切圖是什麼?
新詞網蟲是什麼意思?
網絡的網蟲是什麼?
網絡運營是什麼意思?
七星瓢蟲是什麼?
網頁根目錄什麼意思?