初學者可以先看看這編 Google 出品的教學 使用 robots.txt 封鎖網址
這次要來分享一些進階點較不為人知的使用方法。一般人不曉得,容易遺漏的設定….
也教你不要誤用了 Robots.txt!
如果有網址不小心被 Google 收錄了,你也可以參考這篇文章
本文目錄:
Robots.txt 的基本使用方式
最常使用的幾種 robots.txt
禁止所有搜尋引擎收錄
請小心使用
User-agent: *
Disallow: /
准許所有搜尋引擎, 收錄所有內容
一般沒什麼特別原因,建議都使用這個
User-agent: *
Disallow:
禁止特定搜尋引擎收錄
e.g. 禁止百度
User-agent: Baiduspider
Disallow: /
阻擋特定目錄與及所有內容
Disallow: /tmp/
Disallow: /admin/
阻擋特定檔案類型
不收錄所有 gif 檔
Disallow: /*.gif$
Robots.txt 進階使用方式
可以先看看幾個網站的 robots.txt 做為參考
Apple
http://www.apple.com/robots.txt
打開看看,可以看出 Apple 對 Baiduspider(百度) 不太友善 XD
比較特別的是 Sitemap ,我們可以在 robots.txt 裡面指定了多個 sitemap.xml 網址,告訴爬蟲,請爬蟲一塊處理
可以好好利用~~
Sitemap: http://www.apple.com/shop/sitemap.xml
Sitemap: http://www.apple.com/sitemap.xml
CNN
http://edition.cnn.com/robots.txt
可以看出 CNN 提出了不少份 sitemap 請求處理
Sitemap: http://www.cnn.com/sitemaps/sitemap-index.xml
Sitemap: http://www.cnn.com/sitemaps/sitemap-news.xml
Sitemap: http://www.cnn.com/sitemaps/sitemap-video-index.xml
Sitemap: http://www.cnn.com/sitemaps/sitemap-section.xml
Sitemap: http://www.cnn.com/sitemaps/sitemap-interactive.xml
User-agent: *
Allow: /partners/ipad/live-video.json
Disallow: /editionssi
.
.
.
蘋果日報
http://www.appledaily.com.tw/robots.txt
其實這樣的設定沒什麼意義, 不過也沒有壞影響就是了
User-agent: *
Allow: /
User-agent: Googlebot
Allow: /
User-agent: bingbot
Allow: /
注意事項
首先,注意大小寫與空白
/Cola 與 /cola 是不同的網址
/cola image 等於 /colaimage
如果想阻擋特定網址
例如:
cola.workxplay.net/cola
你可能會在 robots.txt 裡加入
Disallow: /cola
(嚴格來說,這樣是不對的)
這樣的做法會讓
cola.workxplay.net/colaphoto
cola.workxplay.net/colaimage
cola.workxplay.net/colapicture
所以開頭符合 cola 的全被阻擋
正確的設定應該是…
Disallow: /cola$
利用 $ 字號做為結尾。
是的!robots.txt 裡用的是正則表示式
Google 的說明裡稱為 模式媒合規則
一般人不需要瞭解這個,請交給工程師處理吧 XD
擔心設定錯誤的話,也可以使用 Google 提供的檢查工具
所有工具都在 Google Search Console
可以看見有幾個錯誤、警告,告訴你 robots.txt 是否正常
你也可以用 Google 模擬器 /Goolge Bot Fetch 來測試網址是否能被正常收錄
(利用模擬器這個方式更加保險)
ps : 想要阻擋特定網址比較好的方式還是使用 meta tag (中繼標記) 處理
例如: html <head> 中加入
<meta name="robots" content="noindex">
總之 Robots.txt 的阻擋不是一個 100% 防範和保險的方式
如果你的網址真的非常保密或是不希望被收錄(例如測試機),還是乖乖設定密碼吧
(簡單的密碼防護)
https://en.wikipedia.org/wiki/Basic_access_authentication
因為 Robots.txt 是一個開放檔案,所有人都可以看見
所以有興趣可以到處看看,各家網站的設定做為參考
GOOD!!!
先收起來
我那天一定會用到