robots.txt 使用

之前在網誌中寫過兩篇ㄑㄧˊㄎㄜㄉㄧㄢˋㄋㄠˇ的相關文章，google和yahoo的搜尋引擎也很老實的把結果輸出在第一頁，雖然說我覺得我寫的內容很坦然，而且更覺得褒多於貶，但是搜尋結果對ㄑㄧˊㄎㄜ而言對招生會造成影響。昨天他們資深的紅牌櫃台小小的跟我抱怨哩一下，說常常有學生都會說起我部落格內的文章，想也知道造成甚麼影響。我能清楚知道我寫過什麼，但是我不能預期別人看到文章後怎樣解讀，影響到別人招生當然不好，更何況我也是從那裏出來的。

就因如此，我要首次體驗一下robots.txt到底是怎樣使用囉，機器人來我家已經來過太多太多次，每個月都撈走上G的資料，到底有啥好撈我也不太清楚，四月的機器人紀錄如下:

31 個漫遊器*	點擊數	位元組	最近參觀日期
Yahoo Slurp	41151	3.83 GB	2007年 4月 30日 23:59
Unknown robot (identified by 'spider')	23502	2.18 GB	2007年 4月 30日 23:59
EchO!	22340	328.09 MB	2007年 4月 30日 23:58
Googlebot	16395	1.31 GB	2007年 4月 30日 23:51
Google AdSense	10314	1022.38 MB	2007年 4月 30日 23:57
MSNBot	7575	526.70 MB	2007年 4月 30日 23:59
BaiDuSpider	1932	174.28 MB	2007年 4月 30日 22:42
Unknown robot (identified by 'crawl')	1175	107.19 MB	2007年 4月 25日 22:45
Feedfetcher-Google	827	61.79 MB	2007年 4月 30日 23:41
Bloglines	478	27.12 MB	2007年 4月 30日 22:53
其他	2285	125.51 MB

既然都看到哩機器人會來，那就試著寫一個robots.txt來爭對ㄑㄧˊㄎㄜ的文章做一個排除搜尋的動作，效果到底會怎樣我也不太能確定。

目前的寫入的robots.txt如下
User-agent: *
Disallow: /700
Disallow: /311

目前讓我疑慮的是他是否會把我兩個Disallow當成是目錄，一般來說目錄應該要再加一個/；在來就是已經上榜的搜尋，是否又會因此而下架呢?

提供我所參考robots.txt的資料:
http://www.robotstxt.org/wc/norobots.html#examples
http://blog.sklin.tw/2006/08/26/16/
http://www.seo.list.tw/2007/04/13/sitemap/
http://www.baidu.com/search/robots.html
http://www.kseo.cn/post/robotstxt.html
還有一個最重要得當然就是google的網站管理員
裡面也提供哩測試robots.txt的工具
雖然我得知哩測試結果，但是我也不太確定我是否能達成目的

URL 結果

URL	Googlebot
https://wawa3c.com/	允許的偵測到目錄，特定檔案有不同的限制

阿這個到底是啥意思@@

最後，再提出一點，應該是robots.txt而非robot.txt，搜尋robot.txt還是可以看到很多資訊，但是在我的判斷之下，robots.txt似乎才是目前正確的使用。

robotstxt 使用

哇哇

2007-05-18

All Posts

資訊安全 - administrator密碼現身吧!!

robotstxt 使用相關文章

糟糕！怎麼會沒有～會努力加油的！

參考內容推薦

百度用户服务中心

非技術人員也能看懂的《meta robots、robots.txt》

2016年6月7日 - 這篇文章我假設你已經能夠區分抓取與索引的差別了，並且我將告訴你如何使用meta robots以及robots.txt來優化Google抓取與索引，若沒概念我 ...

透過robots.txt 測試工具來測試robots.txt

舉例來說，如果您不希望某張圖片出現在Google 的圖片搜尋結果中，即可使用這項工具測試Googlebot-Image 檢索器是否能夠檢索該圖片的網址。開啟robots.txt 測試 ...

如何撰寫 Robots.txt 檔案

重要：本文是以 Microsoft 機器翻譯軟體翻譯而成，而非使用人工翻譯而成。Microsoft 同時提供使用者人工翻譯及機器翻譯兩個版本的文章，讓使用者可以依其使用語言使用知識庫中的所有文章。但是，機器翻譯的文章可能不盡完美

robots.txt - 維基百科，自由的百科全書

如果想單獨定義搜尋引擎的漫遊器造訪子目錄時的行為，那麼可以將自定的設定合併到根目錄下的robots.txt，或者使用robots後設資料（Metadata，又稱元資料）。

Learn about robots.txt files

A robots.txt file is a file at the root of your site that indicates those parts of your site you don’t want accessed by search engine crawlers. The file uses the Robots Exclusion St

Robots.txt 不為人知的設定

跳到 Robots.txt 的基本使用方式 - 最常使用的幾種robots.txt. 禁止所有搜尋引擎收錄請小心使用. User-agent: * Disallow: /. 准許所有搜尋引擎, 收錄 ...

使用robots.txt教學、防止目錄內資料被登錄

使用robots.txt教學、防止目錄內資料被登錄現今的搜尋引擎(如：Google、Bing、百度等等）不會只是登錄網頁，透過網頁內部的連結，會深入每一個目錄內搜尋資料，常常我們會在網路上搜尋到pdf、doc、ppt檔案，如果要避免這些檔案被搜尋到，就必須使用 ...

用Robots.txt來和搜尋機器人打交道

Google網站管理員說明中心：使用 robots.txt 檔案來控制對您網站的存取 cocolike - wordpress架設的選擇權blog：WordPress SEO - robots.txt 詳細說明 ...

三分鐘搞懂SEO的《meta robots、robots.txt》

2016年5月18日 - meta robots以及robots.txt的工作分別是阻止Google 抓取，如果你有特定頁面會傷害使用者體驗（UX），你可以透過這些方式去阻止該頁面出 ...

好用的 PDF 應該具備哪些功能？PDF 文電通專業版該有的都給你

哇哇

robotstxt 使用 相關文章

參考內容推薦

robotstxt 使用相關文章