[SEO] Robots.txt 不為人知的設定，你不曉得的 Robots.txt 設定

Robots.txt 封鎖網址大家都知道，也曉得怎麼用。
初學者可以先看看這編 Google 出品的教學使用 robots.txt 封鎖網址
這次要來分享一些進階點較不為人知的使用方法。一般人不曉得，容易遺漏的設定….
也教你不要誤用了 Robots.txt！

如果有網址不小心被 Google 收錄了，你也可以參考這篇文章

反向 SEO，移除網址把過期廢棄的網址從 Google 上移除！

本文目錄：

Robots.txt 的基本使用方式
Robots.txt 進階使用方式
注意事項

Robots.txt 的基本使用方式

最常使用的幾種 robots.txt

禁止所有搜尋引擎收錄
請小心使用

User-agent: * 
Disallow: /

准許所有搜尋引擎, 收錄所有內容
一般沒什麼特別原因，建議都使用這個

User-agent: *
Disallow:

禁止特定搜尋引擎收錄
e.g. 禁止百度

User-agent: Baiduspider
Disallow: /

阻擋特定目錄與及所有內容

Disallow: /tmp/
Disallow: /admin/

阻擋特定檔案類型
不收錄所有 gif 檔

Disallow: /*.gif$

Robots.txt 進階使用方式

可以先看看幾個網站的 robots.txt 做為參考

Apple
http://www.apple.com/robots.txt
打開看看，可以看出 Apple 對 Baiduspider(百度) 不太友善 XD
比較特別的是 Sitemap ，我們可以在 robots.txt 裡面指定了多個 sitemap.xml 網址，告訴爬蟲，請爬蟲一塊處理
可以好好利用~~

Sitemap: http://www.apple.com/shop/sitemap.xml
Sitemap: http://www.apple.com/sitemap.xml

CNN
http://edition.cnn.com/robots.txt
可以看出 CNN 提出了不少份 sitemap 請求處理

Sitemap: http://www.cnn.com/sitemaps/sitemap-index.xml
Sitemap: http://www.cnn.com/sitemaps/sitemap-news.xml
Sitemap: http://www.cnn.com/sitemaps/sitemap-video-index.xml
Sitemap: http://www.cnn.com/sitemaps/sitemap-section.xml
Sitemap: http://www.cnn.com/sitemaps/sitemap-interactive.xml
User-agent: *
Allow: /partners/ipad/live-video.json
Disallow: /editionssi
.
.
.

蘋果日報
http://www.appledaily.com.tw/robots.txt
其實這樣的設定沒什麼意義, 不過也沒有壞影響就是了

User-agent: *
Allow: /
User-agent: Googlebot
Allow: /
User-agent: bingbot
Allow: /

注意事項

首先，注意大小寫與空白
/Cola 與 /cola 是不同的網址
/cola image 等於 /colaimage

如果想阻擋特定網址
例如：

cola.workxplay.net/cola

你可能會在 robots.txt 裡加入

Disallow: /cola

(嚴格來說，這樣是不對的)

這樣的做法會讓

cola.workxplay.net/colaphoto
cola.workxplay.net/colaimage
cola.workxplay.net/colapicture

所以開頭符合 cola 的全被阻擋
正確的設定應該是…

Disallow: /cola$

利用 $ 字號做為結尾。
是的！robots.txt 裡用的是正則表示式
 Google 的說明裡稱為模式媒合規則

一般人不需要瞭解這個，請交給工程師處理吧 XD

擔心設定錯誤的話，也可以使用 Google 提供的檢查工具
所有工具都在 Google Search Console

可以看見有幾個錯誤、警告，告訴你 robots.txt 是否正常

你也可以用 Google 模擬器 /Goolge Bot Fetch 來測試網址是否能被正常收錄

(利用模擬器這個方式更加保險)

ps : 想要阻擋特定網址比較好的方式還是使用 meta tag (中繼標記) 處理
例如： html <head> 中加入

<meta name="robots" content="noindex">

總之 Robots.txt 的阻擋不是一個 100% 防範和保險的方式
如果你的網址真的非常保密或是不希望被收錄(例如測試機)，還是乖乖設定密碼吧

(簡單的密碼防護)

https://en.wikipedia.org/wiki/Basic_access_authentication

因為 Robots.txt 是一個開放檔案，所有人都可以看見
所以有興趣可以到處看看，各家網站的設定做為參考

工作玩樂實驗室

[SEO] Robots.txt 不為人知的設定，你不曉得的 Robots.txt 設定

Robots.txt 的基本使用方式

Robots.txt 進階使用方式

注意事項

Related

About The Author

可樂

One Comment

Leave a Reply Cancel reply

Robots.txt 的基本使用方式

Robots.txt 進階使用方式

注意事項

分享此文：

Related

You may also like

About The Author

One Comment

Leave a Reply Cancel reply