robots.txt檔案放置於網站根目錄下,搜尋引擎蜘蛛訪問一個網站後最先檢視的就是robots檔案,它就相當於你網站的“門衛”,如果“門衛”拒絕搜尋引擎蜘蛛進入,則搜尋引擎無法收錄你網站的任何介面。
方法/步驟
在“百度搜索幫助中心”中,
對如何禁止百度蜘蛛訪問是這樣定義的 :
User-agent: Baiduspider
Disallow: /
僅允許百度蜘蛛的訪問:
User-agent: Baiduspider
Disallow:
禁止百度蜘蛛訪問特定目錄:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
下面我們以舉例子的方法逐步介紹,例1
例2
例3
例4
例5
例6
例7
例8
例9
例10
例11
例12
新舊頁面的處理方法:
新舊頁面的處理即網站改版,舊的內容頁面和新的內容頁面重複,只是URL不同的情況下則需要以robots.txt把舊頁面遮蔽掉,只充許搜尋引擎收錄新的頁面。