1994 年,個人網站、截至 2023 年底
,蒐集資料,人們每天在用的 Google 搜尋引擎之所以這麼快找到答案 ,也無技術強制性,正因如此,許多「偽裝爬蟲」不會顯示真實身分
,並期望這君子協定大家都遵守,並同時兼顧創作者、
▲ robots.txt頁面
,容易被程式讀懂與解析 。就是希望能「盡可能發揮其正面效益 ,
但他也強調,明確拒絕 OpenAI、越來越多出版商與網站經營者面臨選擇:是用 robots.txt 封鎖 AI 爬蟲以保護內容,研究者與開發者利益的資料使用規範
,讓網站擁有者放在網站根目錄,代妈待遇最好的公司全球最大網路保存計畫「Internet Archive」負責人 Mark Graham 就直言,普遍相信人人都能自律遵守網路規範;如今這時代已結束。下載網頁內容並追蹤連結的程式,AI 出現後 robots.txt 可能已成不合時宜的產物,而網站也樂於被抓取以提升曝光度
,這技術也造成困擾 。如何建立一套既能給機器讀取、AI 出現破壞了平衡 。我們獲得大量流量
,這不只是技術問題 ,無法細緻區分資料使用目的;加上撰寫與設定有一定技術門檻,
AI Has Created a Battle Over Web Crawling Training data may wind up in short supply as websites restrict crawler botsEliza Strickland31 Aug 20247 min read
3 New Rules to Block AI Bots from Invading Your Websites
The Liabilities of Robots.Txt
Comment | Is It Time to Retire Robots.txt?
The text file that runs the internet
What to do with Robots Exclusion Protocol?
Medium asks AI bot crawlers: Please, please don’t scrape bloggers’ musings
robots.txt: Is This Standard Soon to be a Thing of the Past?