Semalt: Hur man blockerar Darodar Robots.txt

Robots.txt-fil är en typisk textfil som innehåller instruktioner om hur webbsökare eller bots ska genomsöka en webbplats. Deras tillämpning är uppenbar i sökmotorbots som är vanliga på många optimerade webbplatser. Som en del av Robots Exclusion Protocol (REP) utgör filen robots.txt en viktig aspekt av indexering av webbplatsinnehåll samt gör det möjligt för en server att verifiera användarförfrågningar i enlighet därmed.

Julia Vashneva, Semalt Senior Customer Success Manager, förklarar att koppling är en aspekt av sökmotoroptimering (SEO), som innebär att du får trafik från andra domäner inom din nisch. För "följa" -länkarna för att överföra länkjuice är det viktigt att inkludera en robots.txt-fil på din webbhotell för att fungera som en instruktör för hur servern interagerar med din webbplats. Från detta arkiv finns instruktionerna genom att tillåta eller tillåta hur vissa specifika användaragenter beter sig.

Det grundläggande formatet för en robots.txt-fil

En robots.txt-fil innehåller två viktiga rader:

User-agent: [user-agent name]

Disallow: [URL-sträng får inte genomsökas]

En komplett robots.txt-fil bör innehålla dessa två rader. Vissa av dem kan dock innehålla flera rader med användaragenter och direktiv. Dessa kommandon kan innehålla aspekter som tillåter, avvisar eller genomsöker förseningar. Det finns vanligtvis en linjeavbrott som skiljer varje instruktionsuppsättning. Var och en av tillåtna eller avvisande instruktioner är åtskilda med denna radbrytning, särskilt för robots.txt med flera rader.

exempel

Till exempel kan en robots.txt-fil innehålla koder som:

Användaragent: darodar

Disallow: / plugin

Disallow: / API

Disallow: / _comments

I det här fallet är detta en block robots.txt-fil som begränsar Darodar webcrawler från att komma åt din webbplats. I ovanstående syntax blockerar koden aspekter på webbplatsen, till exempel plugins, API och kommentaravsnittet. Utifrån denna kunskap är det möjligt att uppnå många fördelar med att köra en robots textfil effektivt. Robots.txt-filer kan kunna utföra många funktioner. Till exempel kan de vara redo att:

1. Låt allt innehåll i webbsökare på en webbplats. Till exempel;

Användaragent: *

Inte godkänna:

I det här fallet kan allt användarinnehåll nås av alla webbsökare som begärs att komma till en webbplats.

2. Blockera ett specifikt webbinnehåll från en specifik mapp. Till exempel;

Användaragent: Googlebot

Disallow: / exempel-undermapp /

Den här syntaxen som innehåller användaragentnamnet Googlebot tillhör Google. Det begränsar botten från att komma åt valfri webbplats i strängen www.ourexample.com/example-subfolder/.

3. Blockera en specifik webcrawler från en specifik webbsida. Till exempel;

Användaragent: Bingbot

Disallow: /example-subfolder/blocked-page.html

Användaragenten Bing bot tillhör Bing webbsökare. Denna typ av robots.txt-fil begränsar Bing-webbsökaren från att komma åt en specifik sida med strängen www.ourexample.com/example-subfolder/blocked-page.

Viktig information

  • Inte varje användare använder din robts.txt-fil. Vissa användare kan besluta att ignorera det. De flesta av sådana webbsökare inkluderar trojaner och skadlig kod.
  • För att en Robots.txt-fil ska vara synlig bör den vara tillgänglig i den översta webbkatalogen.
  • Tecknen "robots.txt" är skiftlägeskänsliga. Som ett resultat bör du inte ändra dem på något sätt inklusive kapitalisering av vissa aspekter.
  • "/Robots.txt" är public domain. Vem som helst kan hitta den här informationen när den läggs till i innehållet i vilken URL som helst. Du bör inte indexera väsentliga detaljer eller sidor som du vill att de ska förbli privata.