Semalt:如何阻止Darodar Robots.txt

Robots.txt文件是一種典型的文本文件,其中包含有關網絡抓取工具或漫遊器應如何抓取網站的說明。在搜索引擎 bot,它們在許多優化的網站中都很常見。作為漫遊器排除協議(REP)的一部分,robots.txt文件是索引網站內容以及使服務器能夠相應地驗證用戶請求的重要方面。

Julia Vashneva, Semalt 高級客戶成功經理解釋說,鏈接是搜索引擎優化(SEO)的一個方面,它涉及從利基市場中的其他域獲取流量。對於“跟隨”鏈接以傳輸鏈接汁,必須在您的網站託管空間中包含robots.txt文件,以充當服務器如何與您的網站進行交互的指導者。在此存檔中,通過允許或禁止某些特定用戶代理的行為來顯示說明。

robots.txt文件的基本格式

robots.txt文件包含兩個基本行:

用戶代理:[用戶代理名稱]

禁止:[URL字符串不被抓取]

完整的robots.txt文件應包含這兩行。但是,其中一些可以包含多行用戶代理和指令。這些命令可能包含諸如允許,禁止或爬網延遲之類的方面。通常會有一個換行符來分隔每組指令。每個允許或禁止指令都由該換行符分隔,特別是對於具有多行的robots.txt。

示例

例如,robots.txt文件可能包含以下代碼:

用戶代理:darodar

不允許:/ plugin

不允許:/ API

不允許:/ _ comments

在這種情況下,這是一個阻止robots.txt文件的文件,限制了Darodar Web搜尋器訪問您的網站。在以上語法中,代碼阻止了網站的各個方面,例如插件,API和註釋部分。根據這些知識,有效執行機器人的文本文件可能會獲得許多好處。 Robots.txt文件可以執行許多功能。例如,他們可以準備:

1。允許所有Web爬網程序內容進入網站頁面。例如;

用戶代理:*

禁止:

在這種情況下,所有用戶內容都可以通過要求訪問網站的任何網絡爬蟲來訪問。

2。阻止特定文件夾中的特定Web內容。例如;

用戶代理:Googlebot

不允許:/ example-subfolder/

此包含用戶代理名稱Googlebot的語法屬於Google。它限制了漫遊器訪問字符串www.ourexample.com/example-subfolder/中的任何網頁。

3。阻止來自特定網頁的特定Web搜尋器。例如;

用戶代理:Bingbot

不允許:/example-subfolder/blocked-page.html

用戶代理Bing bot屬於Bing網絡抓取工具。這種類型的robots.txt文件限制了Bing Web爬網程序訪問帶有字符串www.ourexample.com/example-subfolder/blocked-page的特定頁面。

重要信息

  • 並非每個用戶都使用您的robts.txt文件。一些用戶可能決定忽略它。大多數此類網絡爬蟲包括木馬和惡意軟件。
  • 要使Robots.txt文件可見,應該在頂級網站目錄中提供該文件。
  • 字符“ robots.txt”區分大小寫。因此,您不應以任何方式更改它們,包括某些方面的大寫字母。
  • “/robots.txt”是公共領域。將任何信息添加到任何URL的內容中,任何人都可以找到該信息。您不應為基本細節或要保留其隱私的頁面編制索引。