當(dāng)我們的網(wǎng)站上線之后,一定會(huì)有一些不想讓百度抓取的頁(yè)面、文件,針對(duì)這種問(wèn)題,我們就要使用協(xié)議去屏蔽。那么這個(gè)協(xié)議是什么?究竟怎么寫(xiě)這個(gè)協(xié)議呢?
一、什么是搜索引擎協(xié)議: 搜索引擎協(xié)議也就是我們常說(shuō)的robots.txt。這是我們網(wǎng)站和搜索引擎之間的協(xié)議。當(dāng)搜索引擎來(lái)到我們網(wǎng)站的時(shí)候,會(huì)先看一看有沒(méi)有這個(gè)文件,在進(jìn)行下一步的抓取。但是需要注意的是,這個(gè)協(xié)議只是我們單方面的,搜索引擎遵守與否,我們管不了。但是正常情況下搜索引擎會(huì)遵守這個(gè)協(xié)議。
robots.txt語(yǔ)法: 1.基本語(yǔ)法: User-agent 定義協(xié)議的搜索引擎。 Disallow 不允許抓取 Allow 允許抓取 * 通配符,代表所有 $ 結(jié)束符 2.詳情講解: User-agent: * 所有的搜索引擎都要遵守 PS:1.英文的首字母一定要大寫(xiě)。下同。2.問(wèn)號(hào)一定是英文狀態(tài)下的。下同。3.問(wèn)號(hào)之后一定要有一個(gè)空格。下同。 User-agent: Baiduspider 針對(duì)百度的協(xié)議 Disallow: / 屏蔽全站 Disallow: /can/ 屏蔽can文件下的所有文件 Allow: /can/123 屏蔽can文件下的所有文件,但是允許收錄123 Disallow: /*.jpg$ 屏蔽所有的圖片文件。 PS:使用通配符,一定要有結(jié)束符。不然可能導(dǎo)致正常的路徑被屏蔽。
二、那些情況需要使用robots
1.統(tǒng)一路徑 在我們的網(wǎng)站中,指向頁(yè)面的路徑一定是有且只有一個(gè)。一旦多途徑指向一個(gè)頁(yè)面,會(huì)導(dǎo)致百度不知道收錄那個(gè)頁(yè)面。所以我們只要屏蔽了一個(gè),讓百度收錄我們想讓收錄的。 2.搜索路徑 如果我們網(wǎng)站中有搜索框,那么我們就要把搜索結(jié)果頁(yè)面給屏蔽掉。目的就是為了防止有人使用這個(gè)搜索框搗亂。 3.標(biāo)簽路徑 如果我們網(wǎng)站有標(biāo)簽頁(yè)面,這個(gè)標(biāo)簽頁(yè)面就是中文的鏈接,中文鏈接百度不認(rèn)識(shí),所以要屏蔽。 4.js文件 對(duì)于js文件或者其他無(wú)意義的文件,我們都可以屏蔽掉。
注意事項(xiàng): 1.基礎(chǔ)語(yǔ)法中PS的點(diǎn)。 2.生效時(shí)間 robots是我們和搜索引擎之間的一個(gè)單方面的協(xié)議,不是我們今天寫(xiě)上,明天百度就會(huì)遵守。想讓百度遵守是需要一個(gè)過(guò)程的,一般情況下是兩個(gè)月。但是也不排除當(dāng)天寫(xiě),當(dāng)天生效。所以在更改robots的時(shí)候,一定要小心小心再小心。一旦你的robots錯(cuò)了,對(duì)整個(gè)網(wǎng)站的影響是巨大的。 3.不要隨便的屏蔽整站 一些新手在做網(wǎng)站的時(shí)候,沒(méi)有規(guī)劃,隨搭隨建,網(wǎng)站不能一下子做好,經(jīng)常做個(gè)半截,所以很多新手就會(huì)將我們的網(wǎng)站全部屏蔽掉。如果你真的這么做了,那么我要恭喜你,蜘蛛可能在未來(lái)的兩個(gè)月中不來(lái)訪問(wèn)你的網(wǎng)站。即便是你去請(qǐng)蜘蛛也不會(huì)來(lái)。所以這里給新手的建議就是一定要對(duì)網(wǎng)站規(guī)劃好,一次性搭建完成。等待收錄。