我們?cè)谧?span lang="EN-US">SEO優(yōu)化的時(shí)候,都希望我們所發(fā)布的文章或者信息能被搜索引擎所收錄,但是如果有一些信息或者鏈接不適合展現(xiàn),更不想這些信息被搜索引擎收錄,那么這種情況應(yīng)該怎么避免呢?
這時(shí)候robots.txt就起到作用了,什么是robots.txt文件?
搜索引擎使用spider程序自動(dòng)訪問(wèn)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)并獲取網(wǎng)頁(yè)信息。spider在訪問(wèn)一個(gè)網(wǎng)站時(shí),首先會(huì)檢查該網(wǎng)站的根域下是否有一個(gè)叫做 robots.txt的純文本文件,
這個(gè)文件用于指定spider在您網(wǎng)站上的抓取范圍。您可以在您的網(wǎng)站中創(chuàng)建一個(gè)robots.txt,在文件中聲明。
該網(wǎng)站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。 請(qǐng)注意,僅當(dāng)您的網(wǎng)站包含不希望被搜索引擎收錄的內(nèi)容時(shí),才需要使用robots.txt文件。
robots.txt文件怎樣寫?
一.User-agent:意思是定義搜索引擎類型
因?yàn)樗阉饕嬗泻脦追N有:百度蜘蛛:Baiduspider;谷歌蜘蛛:Googlebot;360蜘蛛:360Spider;搜狗蜘蛛sogou spider
一般沒(méi)有特殊要求的話,正確寫法是:User-agent: * 意思是允許所有搜索引擎來(lái)抓取。這是robots.txt文件中首先行的寫法。
二.Disallow:意思是定義禁止抓取的地址
就是禁止蜘蛛抓取的地址,在我們的網(wǎng)站是靜態(tài)或偽靜態(tài)的時(shí)候一般網(wǎng)站要禁止蜘蛛抓取動(dòng)態(tài)路徑(?)、.js、后臺(tái)的文件等一些不想讓蜘蛛抓取的文件。它的正確的寫法如下:
Disallow: / 禁止蜘蛛抓取整站(一定不能這么寫,這樣會(huì)讓所有搜索引擎不來(lái)抓取你的網(wǎng)站內(nèi)容)
Disallow: /wp-admin/ 禁止抓取網(wǎng)站中帶wp-admin的文件夾。
Disallow: /page/ 禁止抓取網(wǎng)站中帶page的文件夾。
Disallow: /*?* 禁止抓取網(wǎng)站中的所有動(dòng)態(tài)路徑。
Disallow: /.js$ 禁止抓取網(wǎng)站中的所有帶.js的路徑。
Disallow: /*.jpeg$ 禁止抓取網(wǎng)站中所有jpeg圖片
三、Allow:意思是定義允許抓取收錄地址
這個(gè)就不需要多說(shuō)了就是允許的意思,在robots文件中不寫Allow意思就是默認(rèn)的允許。因此大家沒(méi)必要寫上。
注意一定不要:千萬(wàn)不要寫成這樣
User-agent: *
Disallow:/
網(wǎng)站想要讓所有的搜索引擎抓取,除了谷歌!
User-agent: *
Allow: /
User-agent: Googlebot
Disallow: /
如果網(wǎng)站里面有死鏈接、網(wǎng)站被攻擊時(shí)來(lái)不及刪除的目錄文件和鏈接、重復(fù)的頁(yè)面或者內(nèi)容及隱私性的內(nèi)容等,都不想被搜索引擎蜘蛛抓取,robots.txt文件的作用就體現(xiàn)了。我們要注意的是robots.txt需要放置在一個(gè)站點(diǎn)的根目錄下,而且文件名需要全部小寫。
一直都在強(qiáng)調(diào)SEO優(yōu)化是一個(gè)不斷嘗試積累的過(guò)程,也在不斷強(qiáng)調(diào)搜索引擎是“多變”的,我們需要了解他們的“易燃點(diǎn)”在哪里,不能碰他們的“逆鱗”,得遵循他們的規(guī)則來(lái),絕不可“一意孤行”,“率性而為”。
巨推傳媒(CALL:400-606-5558),網(wǎng)站SEO優(yōu)化專家,需要SEO優(yōu)化請(qǐng)聯(lián)系我們!SEO優(yōu)化詳見(jiàn):www.jutui360.com