Jak zablokovat indexování webu v souboru robots.txt: pokyny a doporučení

Obsah:

Jak zablokovat indexování webu v souboru robots.txt: pokyny a doporučení
Jak zablokovat indexování webu v souboru robots.txt: pokyny a doporučení
Anonim

Práce SEO-optimalizátoru je velmi rozsáhlá. Začátečníkům se doporučuje, aby si zapsali optimalizační algoritmus, aby nezmeškali žádné kroky. V opačném případě bude propagace jen stěží označena za úspěšnou, protože na webu budou neustále docházet k chybám a chybám, které se budou muset po dlouhou dobu opravovat.

Jedním z optimalizačních kroků je práce se souborem robots.txt. Tento dokument by měl mít každý zdroj, protože bez něj bude obtížnější zvládnout optimalizaci. Provádí mnoho funkcí, kterým budete muset porozumět.

Asistent robota

Soubor robots.txt je prostý textový dokument, který lze zobrazit ve standardním poznámkovém bloku systému. Při jeho vytváření musíte nastavit kódování na UTF-8, aby se dal správně číst. Soubor funguje s protokoly http, https a FTP.

Tento dokument je pomocníkem pro vyhledávání robotů. V případě, že to nevíte, každý systém používá „pavouky“, kteří rychle procházejí World Wide Web, aby vraceli relevantní stránky pro dotazy.uživatelů. Tito roboti musí mít přístup k datům zdrojů, na to funguje soubor robots.txt.

Aby si pavouci našli cestu, musíte odeslat dokument robots.txt do kořenového adresáře. Chcete-li zkontrolovat, zda web tento soubor obsahuje, zadejte do adresního řádku prohlížeče „https://site.com.ua/robots.txt“. Místo „site.com.ua“musíte zadat zdroj, který potřebujete.

Práce se souborem robots.txt
Práce se souborem robots.txt

Funkce dokumentu

Soubor robots.txt poskytuje prohledávačům několik typů informací. Může poskytnout částečný přístup, takže „pavouk“skenuje konkrétní prvky zdroje. Úplný přístup vám umožňuje zkontrolovat všechny dostupné stránky. Úplný zákaz zabrání robotům v tom, aby dokonce začali kontrolovat, a opustí web.

Po návštěvě zdroje obdrží „pavouci“odpovídající odpověď na požadavek. Může jich být několik, vše závisí na informacích v souboru robots.txt. Například pokud bylo skenování úspěšné, robot obdrží kód 2xx.

Možná byla stránka přesměrována z jedné stránky na druhou. V tomto případě robot obdrží kód 3xx. Pokud se tento kód objeví vícekrát, bude jej pavouk následovat, dokud neobdrží další odpověď. I když zpravidla používá pouze 5 pokusů. V opačném případě se zobrazí oblíbená chyba 404.

Pokud je odpověď 4xx, pak robot smí procházet celý obsah webu. Ale v případě kódu 5xx se kontrola může úplně zastavit, protože to často ukazuje na dočasné chyby serveru.

Vyhledávací roboty
Vyhledávací roboty

K čemupotřebujete robots.txt?

Jak jste možná uhodli, tento soubor je průvodcem robotů kořenovým adresářem webu. Nyní se používá k částečnému omezení přístupu k nevhodnému obsahu:

  • stránky s osobními údaji uživatelů;
  • zrcadlové weby;
  • výsledky vyhledávání;
  • formuláře pro odeslání údajů atd.

Pokud v kořenovém adresáři webu není žádný soubor robots.txt, robot bude procházet absolutně veškerý obsah. V souladu s tím se ve výsledcích vyhledávání mohou objevit nežádoucí data, což znamená, že utrpíte vy i web. Pokud jsou v dokumentu robots.txt speciální pokyny, „pavouk“je bude následovat a poskytne informace požadované vlastníkem zdroje.

Práce se souborem

Chcete-li použít soubor robots.txt k zablokování indexování webu, musíte zjistit, jak tento soubor vytvořit. Chcete-li to provést, postupujte podle pokynů:

  1. Vytvořte dokument v programu Poznámkový blok nebo Poznámkový blok++.
  2. Nastavte příponu souboru „.txt“.
  3. Zadejte požadovaná data a příkazy.
  4. Uložte dokument a nahrajte jej do kořenového adresáře webu.

Jak vidíte, v jedné z fází je nutné nastavit příkazy pro roboty. Jsou dvou typů: povolení (Allow) a zákaz (Disallow). Některé optimalizátory mohou také specifikovat rychlost procházení, hostitele a odkaz na mapu stránky zdroje.

Jak zavřít web z indexování
Jak zavřít web z indexování

Abyste mohli začít pracovat se souborem robots.txt a zcela zablokovat indexování webu, musíte také rozumět použitým symbolům. Například v dokumentupoužijte "/", což znamená, že je vybrán celý web. Pokud je použit znak "", je vyžadována sekvence znaků. Tímto způsobem bude možné určit konkrétní složku, kterou lze skenovat nebo ne.

Funkce robotů

"Pavouci" pro vyhledávače se liší, takže pokud pracujete pro několik vyhledávačů najednou, budete muset tento okamžik vzít v úvahu. Jejich jména se liší, což znamená, že pokud chcete kontaktovat konkrétního robota, budete muset zadat jeho jméno: „User Agent: Yandex“(bez uvozovek).

Pokud chcete nastavit direktivy pro všechny vyhledávače, musíte použít příkaz: "User Agent: " (bez uvozovek). Abyste mohli správně zablokovat indexování webu pomocí robots.txt, musíte znát specifika oblíbených vyhledávačů.

Faktem je, že nejoblíbenější vyhledávače Yandex a Google mají několik robotů. Každý z nich má své vlastní úkoly. Například Yandex Bot a Googlebot jsou hlavní „pavouci“, kteří web procházejí. Když budete znát všechny roboty, bude snazší doladit indexování vašeho zdroje.

Jak funguje soubor robots.txt
Jak funguje soubor robots.txt

Příklady

Pomocí robots.txt tedy můžete web zavřít z indexování pomocí jednoduchých příkazů, hlavní věcí je pochopit, co konkrétně potřebujete. Pokud například chcete, aby se Googlebot nepřiblížil k vašemu zdroji, musíte mu dát příslušný příkaz. Bude to vypadat takto: "User-agent: Googlebot Disallow: /" (bez uvozovek).

Nyní musíme pochopit, co je v tomto příkazu a jak funguje. Takže "uživatelský agent"se používá k použití přímého volání jednomu z robotů. Dále uvedeme, ke kterému, v našem případě je to Google. Příkaz „Disallow“musí začínat na novém řádku a zakázat robotovi vstup na místo. Symbol lomítka v tomto případě označuje, že pro provedení příkazu jsou vybrány všechny stránky zdroje.

K čemu je robots.txt?
K čemu je robots.txt?

V robots.txt můžete zakázat indexování pro všechny vyhledávače jednoduchým příkazem: "User-agent:Disallow: /" (bez uvozovek). Hvězdička v tomto případě označuje všechny vyhledávací roboty. Obvykle je takový příkaz potřeba k pozastavení indexování webu a zahájení zásadní práce na něm, což by jinak mohlo ovlivnit optimalizaci.

Pokud je zdroj velký a má mnoho stránek, často obsahuje vlastnické informace, které je buď nežádoucí zveřejnit, nebo mohou negativně ovlivnit propagaci. V tomto případě musíte pochopit, jak zavřít stránku před indexováním v souboru robots.txt.

Můžete skrýt složku nebo soubor. V prvním případě musíte začít znovu kontaktováním konkrétního robota nebo všech, takže použijeme příkaz „User-agent“a níže určíme příkaz „Disallow“pro konkrétní složku. Bude to vypadat takto: "Disallow: / folder /" (bez uvozovek). Tímto způsobem skryjete celou složku. Pokud obsahuje nějaký důležitý soubor, který byste chtěli zobrazit, musíte napsat příkaz níže: “Allow: /folder/file.php” (bez uvozovek).

Zkontrolovat soubor

Pokud k uzavření webu používáte soubor robots.txtUspěli jste v indexování, ale nevíte, zda všechny vaše direktivy fungovaly správně, můžete zkontrolovat správnost práce.

Nejprve musíte znovu zkontrolovat umístění dokumentu. Pamatujte, že musí být výhradně v kořenové složce. Pokud je v kořenové složce, nebude fungovat. Dále otevřete prohlížeč a zadejte do něj následující adresu: „https://yoursite. com/robots.txt (bez uvozovek). Pokud se ve webovém prohlížeči zobrazí chyba, soubor není tam, kde by měl být.

Jak zavřít složku z indexování
Jak zavřít složku z indexování

Směrnice lze zkontrolovat ve speciálních nástrojích, které používají téměř všichni webmasteři. Mluvíme o produktech Google a Yandex. Například v Google Search Console je panel nástrojů, kde musíte otevřít „Crawl“a poté spustit „Nástroj pro kontrolu souboru Robots.txt“. Je potřeba zkopírovat všechna data z dokumentu do okna a začít skenovat. Přesně stejnou kontrolu lze provést v Yandex. Webmaster.

Doporučuje: