OpenAI旗下AI對話式機器人ChatGPT今年爆紅之後，有許多人在探討如何阻擋AI機器人利用自己的內容來進行AI語言模型訓練，這部分爭議非常大，其實在OpenAI的官...

如何禁止 GPTBot 用爬蟲爬你的網站資料

當然這個是很見仁見智，因為假如你的事業高度依賴ChatGPT，可能開放網站給爬，讓ChatGPT變更好，也是對你有幫助。有人可能會問，要怎麼確定自己的網站有沒有加上禁止爬蟲呢?很簡單，只要到你的網站網址，後面加上/robots.txt就可以查看。

** 本站引用參考文章部分資訊，基於少量部分引用原則，為了避免造成過多外部連結，保留參考來源資訊而不直接連結，也請見諒 **

此文章參考的來源相關文章推薦

ChatGPT类产品抓取并使用网络公开内容的法律定性

2023年4月24日 — 除此之外，网站运营者也可以采取主动措施，如在robots.txt写入禁止ChatGPT爬虫的语句，阻止内容抓取行为。正如此前国内互联网行业反复上演的剧情一样，各 ...

ChatGPT收集的训练数据合法吗？

2023年2月14日 — 据悉，作为大型语言模型，ChatGPT的训练数据集包含TB级别的海量互联网文本 ... 被访问的信息，但从具有禁止第三方爬取数据条款的网站收集海量数据可能 ...

如何阻擋 OpenAI ChatGPT 抓取或使用你的網站內容？

那麼要如何阻擋 ChatGPT 爬蟲來抓取你的網站內容呢？官方提供的說明文件也有如何阻止 GPTBot 存取網站的設定方式，如同其他網路爬蟲，GPTBot 遵循 robots.txt，只要進行設定即可將 ChatGPT 爬蟲排除在外，告訴它們不要存取網站或特定路徑。

如何使用 ChatGPT API？(附上 Python 範例程式)

而在三月初，OpenAI 公開了 ChatGPT 的 API，也就是 gpt-3.5-turbo 模型的 API，讓我們不再被限制只能透過官方網頁使用，並且提供更多可調整的參數選項。. 快來跟著文章一起來了解 ChatGPT API，並實際使用 Python 串接 API~~~. <<< OnenAI ChatGPT API 如何使用？. (附上 ...

OpenAI公布「官方爬虫」：GPT

2023年8月11日 — OpenAI 表示：「使用GPTBot 爬取网络数据是为了改进AI 模型的准确性、功能性和安全性。」网站所有者可以根据需要允许和限制GPTBot 爬取网站数据。接下来 ...

#分享我用 ChatGPT 寫了一個 ChatGPT 指令大全網站

2月19日 03:52. 自從去年 GitHub Copiliot 與 ChatGPT 問世後，網路上有許多人分享如何用這類 AI 工具幫忙。. 我剛好這週末在做一個搜集 ChatGPT 指令語句的簡易網站時，讓 ChatGPT 幫我寫了很大一部分 (事實上，ChatGPT 幫我寫的部分，比我自己寫的還要多 ????) 所以決定寫一 ...

〈阻止網路爬蟲〉彙整頁面

免費圖片. 網站監測. 2023-08-22 by Pseric. OpenAI 旗下的人工智慧聊天機器人 ChatGPT 使用大量資料進行訓練，當中也包含了大量網路上的資訊，簡單來說，如果你有在網路撰寫內容（例如部落客），那麼內容有相當大的機會已被拿去作為 ChatGPT 語言模型訓練（雖然 OpenAI ...

使用 Notion AI ChatGPT 解析網頁內容和輸出 JSON

當網站沒有提供 API 時，為了取得方便 App 存取的網頁內容，我們通常要另外撰寫爬蟲程式將網頁內容整理成 JSON。. 不過最近 Notion AI 和 ChatGPT 橫空出世後，我們不寫爬蟲也能將網頁整理成 JSON 了。. 以下我們介紹兩種方法，這兩個方法都可透過 Notion AI 和 ...

OpenAI 現在允許網站禁止 GPTBot 爬蟲抓取數據 » 科技人

為了回應資料隱私和版權等議題，OpenAI 近期啟動了新功能，允許網站操作者阻止其網路爬蟲「GPTBot」從特定網站抓取資料用於訓練 GPT 模型。 GPTBot 的運作與控制所謂的網路爬蟲，是一個能在網路上自動搜尋和獲取資訊的程式，像是 Google 搜尋引擎以及Bing 搜尋引擎就是爬蟲大宗。 OpenAI 的 GPTBot 也會定期訪問各種網站，並儲存網頁內容以供其模型訓練。然而，網站資料被 GPTBot 取用，現階段並沒有辦法反過來讓網站受惠，不像搜尋引擎可能幫網站帶來流量。網站管理者現在可

讓聊天機器人開啟爬蟲技能！ - Jason Tsai

Web Crawler 要想讓我們的Line Chatbot開啟爬蟲技能，得先對網路爬蟲 (Web Crawler)有一定的認識，那爬蟲究竟是什麼意思呢？網路爬蟲是一種用來自動瀏覽網頁的網路機器人。其目的一般為編纂網路索引、網路搜尋引擎等站點。網路爬蟲可以將自己所存取的頁面儲存下，以便搜尋引擎事後生成索引供使用者搜尋 (擷自維基百科)。寫的有點複雜對吧？...

禁止 ChatGPT 爬蟲 GPTBot 爬取網站內容作為 AI 訓練教學

OpenAI 旗下 AI 對話式機器人 ChatGPT 今年爆紅之後，有許多人在探討如何阻擋 AI 機器人利用自己的內容來進行 AI 語言模型訓練，這部分爭議非常大，其實在 OpenAI 的官方文件中就有說明 ChatGPT 的網路爬蟲機器人名為 GPTBot，也有公開爬蟲的 IP 可以讓大家阻擋 AI 蒐集網站資料，這篇就來跟大家分享如何禁止 ChatGPT 爬蟲機器人來使用你的資料。

透過設定網站中的 robots.txt 檔案，就可以阻擋 GPTBot 來你的網站爬資料，這是一個專門給各式網路爬蟲看的文件，文件中會告訴爬蟲哪些資料不能取用。

根據 OpenAI 官方文件表示，User-agent 為 GPTBot。User-agent 字串如上圖。下面幫大家列出，可直接複製使用：
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

禁止 GPTBot 爬取網站內容
ChatGPT 爬蟲IP

直接將上圖中的文字，加入網站中的 robots.txt 檔案中儲存即可，加入後 ChatGPT 的爬蟲就不會爬取網站資料。禁止內容如下，可直接複製使用：
User-agent: GPTBot
Disallow: /

開放部分內容爬取

除了全部禁止之外，也可以自訂允許 GPTBot 爬取的路徑，Allow 跟 Disallow 後面可以自由加上網站目錄路徑名稱。
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

IP 方式阻擋

OpenAI 還公布了自家的 GPTBot 使用 IP，因此也可以直接設定 .htaccess 檔案，就可以直接阻擋 GPTBot 爬蟲，以下是 OpenAI 所公布的 IP：

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

資料來源：OpenAI

如何禁止 ChatGPT 爬蟲？這樣修改 robots 文字檔就解決

9M87

2023-08-28

All Posts

這就是被封鎖啦！Failed to get game data from the server

如何禁止 ChatGPT 爬蟲？這樣修改 robots 文字檔就解決相關文章

糟糕！怎麼會沒有～會努力加油的！

好用的 PDF 應該具備哪些功能？PDF 文電通專業版該有的都給你

如何禁止 GPTBot 用爬蟲爬你的網站資料

[財經爬蟲] 如何透過Python 網路爬蟲抓取Goodinfo 台灣股市資訊網?

Robots.txt File: A Beginner's Guide

Finance chatbot prototype

robots协议| AI数据究竟如何使用

OpenAI即将推出官方爬虫机器人GPTBot。做爬虫违法吗？如何在自己 ...

ChatGPT大規模封號，如何保證不被封？因為我有922S5proxy！#ai ...

禁止 ChatGPT 爬蟲 GPTBot 爬取網站內容作為 AI 訓練教學

9M87

如何禁止 ChatGPT 爬蟲？這樣修改 robots 文字檔就解決相關文章

9M87

如何禁止 ChatGPT 爬蟲？這樣修改 robots 文字檔就解決 相關文章

如何禁止 ChatGPT 爬蟲？這樣修改 robots 文字檔就解決相關文章