Growth, SEO, 什麼是?, 工具

[SEO] Robots.txt 不為人知的設定,你不曉得的 Robots.txt 設定

Robots.txt 封鎖網址大家都知道,也曉得怎麼用。
初學者可以先看看這編 Google 出品的教學 使用 robots.txt 封鎖網址
這次要來分享一些進階點較不為人知的使用方法。一般人不曉得,容易遺漏的設定….
也教你不要誤用了 Robots.txt!

 

如果有網址不小心被 Google 收錄了,你也可以參考這篇文章

反向 SEO,移除網址把過期廢棄的網址從 Google 上移除!

 

本文目錄:

 

Robots.txt 的基本使用方式

最常使用的幾種 robots.txt

禁止所有搜尋引擎收錄
 請小心使用

User-agent: * 
Disallow: /

 

准許所有搜尋引擎, 收錄所有內容
一般沒什麼特別原因,建議都使用這個

User-agent: *
Disallow:

 

禁止特定搜尋引擎收錄
e.g. 禁止百度

User-agent: Baiduspider
Disallow: /

 

阻擋特定目錄與及所有內容

Disallow: /tmp/
Disallow: /admin/

 

阻擋特定檔案類型
不收錄所有 gif 檔

Disallow: /*.gif$

 

 

Robots.txt 進階使用方式

可以先看看幾個網站的 robots.txt 做為參考

Apple
http://www.apple.com/robots.txt
打開看看,可以看出 Apple 對 Baiduspider(百度) 不太友善 XD
比較特別的是 Sitemap ,我們可以在 robots.txt 裡面指定了多個 sitemap.xml 網址,告訴爬蟲,請爬蟲一塊處理
可以好好利用~~

Sitemap: http://www.apple.com/shop/sitemap.xml
Sitemap: http://www.apple.com/sitemap.xml

 

CNN
http://edition.cnn.com/robots.txt
可以看出 CNN 提出了不少份 sitemap 請求處理

Sitemap: http://www.cnn.com/sitemaps/sitemap-index.xml
Sitemap: http://www.cnn.com/sitemaps/sitemap-news.xml
Sitemap: http://www.cnn.com/sitemaps/sitemap-video-index.xml
Sitemap: http://www.cnn.com/sitemaps/sitemap-section.xml
Sitemap: http://www.cnn.com/sitemaps/sitemap-interactive.xml
User-agent: *
Allow: /partners/ipad/live-video.json
Disallow: /editionssi
.
.
.

 

蘋果日報
http://www.appledaily.com.tw/robots.txt
其實這樣的設定沒什麼意義, 不過也沒有壞影響就是了

User-agent: *
Allow: /
User-agent: Googlebot
Allow: /
User-agent: bingbot
Allow: /

 

 

注意事項

首先,注意大小寫與空白
/Cola 與 /cola 是不同的網址
/cola image 等於 /colaimage


如果想阻擋特定網址
例如:

cola.workxplay.net/cola

你可能會在 robots.txt 裡加入

Disallow: /cola

(嚴格來說,這樣是不對的)

 

這樣的做法會讓

cola.workxplay.net/colaphoto
cola.workxplay.net/colaimage
cola.workxplay.net/colapicture

所以開頭符合 cola 的全被阻擋
正確的設定應該是…

Disallow: /cola$

利用 $ 字號做為結尾。
是的!robots.txt 裡用的是正則表示式
Google 的說明裡稱為 模式媒合規則

一般人不需要瞭解這個,請交給工程師處理吧 XD

 

擔心設定錯誤的話,也可以使用 Google 提供的檢查工具
所有工具都在 Google Search Console
robots-txt-search-console
可以看見有幾個錯誤、警告,告訴你 robots.txt 是否正常

你也可以用 Google 模擬器 /Goolge Bot Fetch 來測試網址是否能被正常收錄
robots-txt-search-console-googlebot-fetch
(利用模擬器這個方式更加保險)

 

ps : 想要阻擋特定網址比較好的方式還是使用 meta tag (中繼標記) 處理
例如: html  <head> 中加入

<meta name="robots" content="noindex">

 

總之 Robots.txt 的阻擋不是一個 100% 防範和保險的方式
如果你的網址真的非常保密或是不希望被收錄(例如測試機),還是乖乖設定密碼吧
robots-txt-base-auth-header
(簡單的密碼防護)

https://en.wikipedia.org/wiki/Basic_access_authentication

 

 

因為 Robots.txt 是一個開放檔案,所有人都可以看見
所以有興趣可以到處看看,各家網站的設定做為參考

 

 

 

One Comment

Leave a Reply