如何在robots.txt檔案中指定抓取的限制級別?

在robots.txt檔案中,可以使用來指定抓取的限制級別。例如,”Disallow:/∗”將禁止爬蟲訪問所有以”/”開頭的URL路徑,而”$”將匹配所有URL路徑。

在WordPress中,”Disallow:”規則用於定義哪些網頁不應該被搜尋引擎的爬蟲訪問和索引。規則的編寫使用robots.txt檔案,該檔案位於網站的根目錄。

一般來說,Disallow規則的編寫遵循以下幾個原則:

1. 使用相對網址:Disallow規則中的URL路徑應該相對於網站的根目錄而非完整的絕對路徑。例如,”/wp-admin/”代表網站根目錄下的wp-admin目錄。

2. 使用以斜槓開頭的路徑:Disallow規則中的路徑應該以斜槓(/)開頭。例如,”/private-page/”表示根目錄下的private-page頁面。

3. 使用萬用字元:Disallow規則支援使用萬用字元來指定多個頁面。常用的萬用字元有:

  •  “*”:匹配任意字元。例如,”/category/*/keyword/”會匹配所有以/category/開頭、並在其中包含/keyword/的路徑。
  •  “$”:表示以指定字元結尾。例如,”/archives/$”會匹配以/archives/結尾的路徑。
  • “|”:用於指定多個規則。例如,”/wp-admin/ | /private-page/”表示禁止訪問根目錄下的wp-admin目錄和private-page頁面。

下面是一些常見的Disallow規則的例子:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
- 禁止搜尋引擎訪問整個網站:
```
User-agent: *
Disallow: /
```
- 禁止搜尋引擎訪問特定目錄:
```
User-agent: *
Disallow: /wp-admin/
```
- 禁止搜尋引擎訪問特定頁面:
```
User-agent: *
Disallow: /private-page/
```
- 使用萬用字元的Disallow規則:
```
User-agent: *
Disallow: /category/*/keyword/
```
- 禁止搜尋引擎訪問整個網站: ``` User-agent: * Disallow: / ``` - 禁止搜尋引擎訪問特定目錄: ``` User-agent: * Disallow: /wp-admin/ ``` - 禁止搜尋引擎訪問特定頁面: ``` User-agent: * Disallow: /private-page/ ``` - 使用萬用字元的Disallow規則: ``` User-agent: * Disallow: /category/*/keyword/ ```
- 禁止搜尋引擎訪問整個網站:
```
User-agent: *
Disallow: /
```

- 禁止搜尋引擎訪問特定目錄:
```
User-agent: *
Disallow: /wp-admin/
```

- 禁止搜尋引擎訪問特定頁面:
```
User-agent: *
Disallow: /private-page/
```

- 使用萬用字元的Disallow規則:
```
User-agent: *
Disallow: /category/*/keyword/
```

上述規則,僅需複製兩個“`之間的內容。

請注意,Disallow規則只是提供給搜尋引擎蜘蛛的建議,有些蜘蛛可能會忽略這些規則。此外,robots.txt檔案中還可以包含其他指令和註釋,以供搜尋引擎蜘蛛參考。詳細瞭解robots.txt檔案的編寫可以參考各個搜尋引擎提供的文件和指南。

未能解決您的問題?

請提交 聯絡工單