1. 如何創建 robots.txt 文件
您可以在任何文本編輯器中創建此文件。該文件應為 ASCII 編碼的文本文件,而非 HTML 文件。文件名應使用小寫字母。語法 最簡單的 robots.txt 文件使用兩條規則:User-Agent: 適用下列規則的漫遊器Disallow: 要攔截的網頁這兩行被視為文件中的一個條目。您可根據需要包含任意多個條目。您可在一個條目中包含多個 Disallow 行和多個 User-Agent。應在User-Agent 行中列出什麼內容? user-agent 是特定的搜索引擎漫遊器。網路漫遊器資料庫列出了許多常用漫遊器。您可設置應用於特定漫遊器的條目(通過列示名稱)或設置為應用於所有漫遊器(通過列示星號)。應用於所有漫遊器的條目應與下列條目類似:User-Agent:*Google 使用多種不同漫遊器(用戶代理)。用於網路搜索的漫遊器是 Googlebot。Googlebot-Mobile 和 Googlebot-Image 等其他漫遊器遵循您為 Googlebot 設置的規則,您還可為這些特定漫遊器設置附加規則。應在Disallow 行中列出什麼內容? Disallow 行列出了您要攔截的網頁。您可列出具體網址或網址模式。條目應以正斜杠開頭 (/) 開頭。要攔截整個網站,請使用正斜扛。 Disallow:/要攔截目錄及其中的所有內容,請在目錄名後添加正斜扛。 Disallow:/private_directory/要攔截網頁,請列出該網頁。 Disallow:/private_file.html網址區分大小寫。
2. 如何書寫網站的robots文件
robots 是站點與 spider 溝通的重要渠道,站點通過 robots 文件聲明該網站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。請注意,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用 robots.txt 文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立 robots.txt 文件。
robots 文件往往放置於根目錄下,包含一條或更多的記錄,這些記錄通過空行分開(以 CR,CR/NL, or NL 作為結束符),每一條記錄的格式如下所示:<field>:<optional space><value><optionalspace>
在該文件中可以使用#進行註解,具體使用方法和 UNIX 中的慣例一樣。該文件中的記錄通常以一行或多行 User-agent 開始,後面加上若干 Disallow 和 Allow 行 , 詳細情況如下:
User-agent:該項的值用於描述搜索引擎 robot 的名字。在 "robots.txt" 文件中,如果有多條- User-agent 記錄說明有多個 robot 會受到 "robots.txt" 的限制,對該文件來說,至少要有一條 User-agent 記錄。如果該項的值設為,則對任何 robot 均有效,在 "robots.txt" 文件中,"User-agent:" 這樣的記錄只能有一條。如果在 "robots.txt" 文件中,加入 "User-agent:SomeBot" 和若干 Disallow、Allow 行,那麼名為 "SomeBot" 只受到 "User-agent:SomeBot" 後面的 Disallow 和 Allow 行的限制。
Disallow:該項的值用於描述不希望被訪問的一組 URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以 Disallow 項的值開頭的 URL 不會被 robot 訪問。例如 "Disallow:/help" 禁止 robot 訪問 /help.html、/helpabc.html、/help/index.html,而 "Disallow:/help/" 則允許 robot 訪問 /help.html、/helpabc.html,不能訪問 /help/index.html。"Disallow:" 說明允許 robot 訪問該網站的所有 url,在 "/robots.txt" 文件中,至少要有一條 Disallow 記錄。如果 "/robots.txt" 不存在或者為空文件,則對於所有的搜索引擎 robot,該網站都是開放的。
Allow:該項的值用於描述希望被訪問的一組 URL,與 Disallow 項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以 Allow 項的值開頭的 URL 是允許 robot 訪問的。例如 "Allow:/hi" 允許 robot 訪問 /hi.htm、/hicom.html、/hi/com.html。一個網站的所有 URL 默認是 Allow 的,所以 Allow 通常與 Disallow 搭配使用,實現允許訪問一部分網頁同時禁止訪問其它所有 URL 的功能。
使用 "*"and"$":Baispider 支持使用通配符 "" 和 "$" 來模糊匹配 url。 "" 匹配 0 或多個任意字元 "$" 匹配行結束符。
最後需要說明的是:網路會嚴格遵守 robots 的相關協議,請注意區分您不想被抓取或收錄的目錄的大小寫,網路會對 robots 中所寫的文件和您不想被抓取和收錄的目錄做精確匹配,否則 robots 協議無法生效。
3. 百度站長工具裡面沒有 生成Robots.txt這個工具,到哪裡找,或一樣功能的地方謝謝
您好,在這幾個地方都可以生成,生成之後上傳到網站根目錄就可以了。
https://www..com/s?ie=utf-8&f=3&rsv_bp=1&tn=&wd=robots%E7%94%9F%E6%88%90&oq=robots&rsv_pq=c6d4a33c000251ee&rsv_t=6f0c%%2BsGsEUJshvoBKQ&rqlang=cn&rsv_enter=1&rsv_sug3=1&rsv_sug1=1&rsv_sug7=100&rsv_sug2=1&prefixsug=robots&rsp=8&rsv_sug4=2665
4. 怎麼製作和使用sitemap.xml,robots.txt
製作和使用sitemap.xml,robots.txt 可以利用網站地圖在線生產工具,或者自己寫,這個比較麻煩!需要懂html技術!
5. 如何正確製作和使用robots文件
1、如果你的站點對所有搜索引擎公開,則不用做這個文件或者robots.txt為空就行。
2、必須命名為:robots.txt,都是小寫,robot後面加"s"。
3、robots.txt必須放置在一個站點的根目錄下。
4、一般情況下,robots.txt里只寫著兩個函數:User-agent和 Disallow。
5、有幾個禁止,就得有幾個Disallow函數,並分行描述。
6、至少要有一個Disallow函數,如果都允許收錄,則寫: Disallow: ,如果都不允許收錄,則寫:Disallow: / (註:只是差一個斜桿)。
6. 什麼網站可以生成robots.txt
robot.txt可以自己做,也可以用軟體生成,然後上傳到網站根目錄的,是一個給抓取蜘蛛看的關於你網站哪些內容可以看哪些不可以看的文件,一般來說我是自己寫,我之前用軟體(sitemapX)做sitemap文件的時候是可以生成robots文件的~還有一些查詢網站都可以自助生成的~~
7. robots是什麼以及如何正確建立robots文件
robots是什麼?
robots是一個協議,是建立在網站根目錄下的一個以(robots.txt)結尾的文本文件,對搜索引擎蜘蛛的一種限制指令。是蜘蛛程序爬行網站第一個要訪問抓取的頁面,網站可以通過robots協議來告訴搜索引擎蜘蛛程序哪些頁面可以抓取,哪些頁面不可以抓取。
robots協議用來告訴搜索引擎哪些頁面能被抓取,哪些頁面是不能被抓取的,我們通常用 robots來屏蔽網站的一些垃圾頁面、重復頁面、死鏈接通、動態和靜態多路徑的同一頁面。這么做的好處是可以節省一部分的伺服器帶寬,同時也方便蜘蛛程序更好的來抓取網站內容。其實robots就像一個指路標一樣,引導著蜘蛛程序爬取網站頁面。
robots符號介紹
首先我們先來認識一下書寫robots時常用到的幾個字元
User-agent:寫義搜索引擎類型,這里的首字母要大寫U,結尾冒號:後要加一個空格鍵,如 User-agent:* 不帶空格,User-agent: * 帶空格的。
* 這里的星號是一個通配符,匹配0或多個任意字元
$ 是一個結束符
Disallow:表示不希望被訪問的目錄或URL
Allow:表示希望被訪問的目錄或URL
robots的確定寫法
寫法一:禁止所有搜索引擎來抓取網站任何頁面
User-agent: *(此處*號也可以寫成禁止某個蜘蛛抓取,例如網路的 User-agent: Baispider)
Disallow: /
寫法二:允許所有搜索引擎抓取網站任何頁面
User-agent: *
Allow: /
當然如果允許的話也可以寫個空的robots.txt放網站根目錄
其它寫法舉例:
User-agent: * 代表所有搜索引擎
Disallow: /abc/ 表示禁止抓取abc目錄下的目錄
Disallow: /abc/*.html 表示禁止抓取此目錄下所有以 .html為後綴的URL包含子目錄
Disallow: /*?*禁止抓取所有帶?問號的URL
Disallow: /*jpg$ 禁止所有以.jpg結尾格式的圖片
Disallow: /ab 禁止抓取所有以ab 開頭的文件
Disallow: /ab/a.html 禁止抓取ab文件夾下面的a.html 文件
Allow: /ABC/ 表示允許抓取abc目錄下的目錄
網路robots的寫法
淘寶robots的寫法
最後附上我自己網站robots的寫法
好了就先舉例這些,最後讓提醒各位站長,慎重寫robots協議,確保網站上線之前解決所有問題後,建立robots.txt文本到根目錄。
85、Mr宋 94-80 作業
8. 如何製作網站地圖並規范robots協議內容
網站地圖的製作在seo優化中也是占據很重要一部分的,網站地圖製作好了可以更加有利於蜘蛛對我們網站信息的檢索與抓取,他會對網頁信息進行方向引導,給搜索引擎蜘蛛的爬行提供一個路徑,快速准確的抓取網站內容。
我們可以利用小爬蟲工具、愛站工具等來生成網站地圖。我們首先打開愛站工具包,選擇網站地圖,然後左側選擇添加網站,將網址輸入後選擇xml選項,將裡面的頂部的所有文件選項勾選之後點擊抓爬,完成後生成xml文件,最後將生成之後的sitemap後綴為html、xml、txt的文件上傳到網站後台的根目錄中即可。這樣,只要有用戶進入就會抓取了。
robots協議又是什麼?該如何書寫它呢?robot協議就是給搜索引擎蜘蛛的一個規定,我們利用這個文件來限制搜索引擎的抓取范圍,尊重信息提供者意願並維護其隱私權,保護我們的隱私不被搜索引擎抓取的一份內容。這個有我們自己進行編輯規定。
robots協議的編輯會用到三個標簽:1、User-agent: 蜘蛛名稱(這里個User-agent 指定搜索引擎蜘蛛名稱)2、Disallow: 內容名稱(代表要禁止抓取的內容)3、Allow:內容名稱(代表允許抓取的內容)。這些標簽後書寫的就是協議的內容,還會用到3個通配符來編輯:"*"表示涵蓋所有搜索引擎;"$"表示以某字元串結尾;"/"表示當前目錄下的所有內容。當編輯完協議內容後可在最後添加「Sitemap:網站域名/sitemap.xml」,用地圖讓蜘蛛更快速的抵達我們的網站。
SEO的日常工作比較細致,查看我們網站的日誌也是需要關注的。從網站後台空間找到文件管理,然後打開logs文件,將最新的日誌文件載到桌面,然後使用光年日誌分析系統等工具對其進行分析,可以看到蜘蛛爬行過的記錄以及一些問題,需要及時查看並解決掉。
9. 如何正確寫網站的robots文件
正確的書寫robots文件,首先你要知其意,這是在搜外6系統看的,你可以參考一下:
10. robots文件生成工具怎麼用
留空就行了,robots文件自己寫就行了,沒必要用工具吧,sitemap也要做么,sitemapx可以爬取你網站的頁面