在robots.txt檔案中,可以使用來指定抓取的限制級別。例如,”Disallow:/∗”將禁止爬蟲訪問所有以”/”開頭的URL路徑,而”$”將匹配所有URL路徑。
在WordPress中,”Disallow:”規則用於定義哪些網頁不應該被搜尋引擎的爬蟲訪問和索引。規則的編寫使用robots.txt檔案,該檔案位於網站的根目錄。
一般來說,Disallow規則的編寫遵循以下幾個原則:
1. 使用相對網址:Disallow規則中的URL路徑應該相對於網站的根目錄而非完整的絕對路徑。例如,”/wp-admin/”代表網站根目錄下的wp-admin目錄。
2. 使用以斜槓開頭的路徑:Disallow規則中的路徑應該以斜槓(/)開頭。例如,”/private-page/”表示根目錄下的private-page頁面。
3. 使用萬用字元:Disallow規則支援使用萬用字元來指定多個頁面。常用的萬用字元有:
- “*”:匹配任意字元。例如,”/category/*/keyword/”會匹配所有以/category/開頭、並在其中包含/keyword/的路徑。
- “$”:表示以指定字元結尾。例如,”/archives/$”會匹配以/archives/結尾的路徑。
- “|”:用於指定多個規則。例如,”/wp-admin/ | /private-page/”表示禁止訪問根目錄下的wp-admin目錄和private-page頁面。
下面是一些常見的Disallow規則的例子:
- 禁止搜尋引擎訪問整個網站:
```
User-agent: *
Disallow: /
```
- 禁止搜尋引擎訪問特定目錄:
```
User-agent: *
Disallow: /wp-admin/
```
- 禁止搜尋引擎訪問特定頁面:
```
User-agent: *
Disallow: /private-page/
```
- 使用萬用字元的Disallow規則:
```
User-agent: *
Disallow: /category/*/keyword/
```
- 禁止搜尋引擎訪問整個網站:
```
User-agent: *
Disallow: /
```
- 禁止搜尋引擎訪問特定目錄:
```
User-agent: *
Disallow: /wp-admin/
```
- 禁止搜尋引擎訪問特定頁面:
```
User-agent: *
Disallow: /private-page/
```
- 使用萬用字元的Disallow規則:
```
User-agent: *
Disallow: /category/*/keyword/
```
- 禁止搜尋引擎訪問整個網站: ``` User-agent: * Disallow: / ``` - 禁止搜尋引擎訪問特定目錄: ``` User-agent: * Disallow: /wp-admin/ ``` - 禁止搜尋引擎訪問特定頁面: ``` User-agent: * Disallow: /private-page/ ``` - 使用萬用字元的Disallow規則: ``` User-agent: * Disallow: /category/*/keyword/ ```
上述規則,僅需複製兩個“`之間的內容。
請注意,Disallow規則只是提供給搜尋引擎蜘蛛的建議,有些蜘蛛可能會忽略這些規則。此外,robots.txt檔案中還可以包含其他指令和註釋,以供搜尋引擎蜘蛛參考。詳細瞭解robots.txt檔案的編寫可以參考各個搜尋引擎提供的文件和指南。