之前在網誌中寫過兩篇ㄑㄧˊㄎㄜㄉㄧㄢˋㄋㄠˇ的相關文章,google和yahoo的搜尋引擎也很老實的把結果輸出在第一頁,雖然說我覺得我寫的內容很坦然,而且更覺得褒多於貶,但是搜尋結果對ㄑㄧˊㄎㄜ而言對招生會造成影響。昨天他們資深的紅牌櫃台小小的跟我抱怨哩一下,說常常有學生都會說起我部落格內的文章,想也知道造成甚麼影響。我能清楚知道我寫過什麼,但是我不能預期別人看到文章後怎樣解讀,影響到別人招生當然不好,更何況我也是從那裏出來的。就因如此,我要首次體驗一下robots.txt到底是怎樣使用囉,機器人來我家已經來過太多太多次,每個月都撈走上G的資料,到底有啥好撈我也不太清楚,四月的機器人紀錄如下:
31 個漫遊器* | 點擊數 | 位元組 | 最近參觀日期 |
Yahoo Slurp | 41151 | 3.83 GB | 2007年 4月 30日 23:59 |
Unknown robot (identified by 'spider') | 23502 | 2.18 GB | 2007年 4月 30日 23:59 |
EchO! | 22340 | 328.09 MB | 2007年 4月 30日 23:58 |
Googlebot | 16395 | 1.31 GB | 2007年 4月 30日 23:51 |
Google AdSense | 10314 | 1022.38 MB | 2007年 4月 30日 23:57 |
MSNBot | 7575 | 526.70 MB | 2007年 4月 30日 23:59 |
BaiDuSpider | 1932 | 174.28 MB | 2007年 4月 30日 22:42 |
Unknown robot (identified by 'crawl') | 1175 | 107.19 MB | 2007年 4月 25日 22:45 |
Feedfetcher-Google | 827 | 61.79 MB | 2007年 4月 30日 23:41 |
Bloglines | 478 | 27.12 MB | 2007年 4月 30日 22:53 |
其他 | 2285 | 125.51 MB |
|
既然都看到哩機器人會來,那就試著寫一個robots.txt來爭對ㄑㄧˊㄎㄜ的文章做一個排除搜尋的動作,效果到底會怎樣我也不太能確定。
目前的寫入的robots.txt如下
User-agent: *
Disallow: /700
Disallow: /311目前讓我疑慮的是他是否會把我兩個Disallow當成是目錄,一般來說目錄應該要再加一個/;在來就是已經上榜的搜尋,是否又會因此而下架呢?提供我所參考robots.txt的資料:
http://www.robotstxt.org/wc/norobots.html#exampleshttp://blog.sklin.tw/2006/08/26/16/http://www.seo.list.tw/2007/04/13/sitemap/http://www.baidu.com/search/robots.htmlhttp://www.kseo.cn/post/robotstxt.html還有一個最重要得當然就是
google的網站管理員裡面也提供哩
測試robots.txt的工具雖然我得知哩測試結果,但是我也不太確定我是否能達成目的
URL 結果 URL | Googlebot |
https://wawa3c.com/ | 允許的 偵測到目錄,特定檔案有不同的限制 |
阿這個到底是啥意思@@最後,再提出一點,應該是robots.txt而非robot.txt,搜尋robot.txt還是可以看到很多資訊,但是在我的判斷之下,robots.txt似乎才是目前正確的使用。