Jak vytvořit soubor robots txt pro Yandex. roboty Yandex

Ahoj všichni! Dnes bych vás rád informoval o soubor robots.txt. Na internetu se toho tedy napsalo tolik, ale abych byl upřímný, sám jsem dlouho nebyl schopen přijít na to, jak vytvořit správný soubor robots.txt. Ve výsledku jsem jeden vytvořil a stojí na všech mých blozích. Nevidím žádné problémy, robots.txt funguje skvěle.

Robots.txt pro WordPress

Opravdu potřebujete robots.txt? Příběh je stále stejný – . Jedná se o tvorbu robots.txt – to je jedna z částí vnitřní optimalizace webu (před řečí bude předem lekce, která bude věnována veškeré vnitřní optimalizaci webu na WordPressu. Takže nezapomeňte se přihlásit k odběru RSS, aby vám tento materiál neunikl ili.).

Jednou z funkcí tohoto souboru je ochrana proti indexaci nepotřebné stránky na webu Také jsou specifikovány adresy a je napsána hlava zrcadlo webu(Stránka s www nebo bez www).

Poznámka: pro zvukové systémy jsou jedna a ta samá stránka s www a bez www zcela rozdílná. Ale, když si uvědomil, že místo těchto stránek je vtipálci lepí dohromady. Je pro vás důležité zaregistrovat zrcadlo webu v robots.txt. Chcete-li zjistit, zda se jedná o smutek (s www nebo bez www), jednoduše zadejte do prohlížeče adresu svého webu, například s www, protože vás automaticky přesměruje na stejný web bez www, což znamená, že smut je zrcadlo vašeho webu bez www. Doufám, že jsem to vysvětlil správně.

Takže tato posvátná osa, podle mého názoru, správný soubor robots.txt pro WordPress Můžete jít níž.

Správný soubor Robots.txt pro WordPress

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

Uživatelský agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Hostitel: webové stránky
.gz
Soubor Sitemap: https://site/sitemap.xml

Vše, co je uvedeno výše, je třeba zkopírovat do textového dokumentu s příponami.txt tak, aby název souboru byl robots.txt. Tento textový dokument lze vytvořit například pomocí doplňkových programů. Tilki, nezapomeň, buď laskavý, změna ve zbývajících třech řádcích adresu na adresu vašeho webu. Soubor robots.txt musí být umístěn v kořenovém adresáři blogu, ve stejné složce jako složky wp-content, wp-admin atd.

Pro ty, kteří jsou příliš líní vytvořit tento textový soubor, můžete jednoduše zadat robots.txt a také tam upravit 3 řádky.

Chci zdůraznit, že nemusíte být příliš posedlí technickými částmi, které jsou popsány níže. Vychovávám je, abychom „věděli“, abychom mohli posunout své obzory, abychom věděli, co potřebujeme.

Ozhe, řádek:

User-agent

nastavit pravidla pro jakýkoli druh vtipu: například „*“ (hvězdička) znamená, že pravidla platí pro všechny vtipné systémy a pro ty níže

Uživatelský agent: Yandex

znamená, že tato pravidla již pro Yandex neplatí.

Zakázat
Zde „vhodíte“ sekce, které NENÍ nutné pro žertíky k indexování. Například na stránce https://site/tag/seo je méně duplicitních článků (opakovaných) s hlavními články a duplicita stránek je negativně indikována ve vyhledávači, takže je důležité, aby tyto sektory byly uzavřeno pro indexování, takže se obávám tohoto dodatečného pravidla:

Disallow: /tag

Takže z robots.txt, který je uveden výše, jsou kvůli indexaci všechny nepotřebné sekce webu na WordPressu uzavřeny, takže jednoduše vyplňte vše tak, jak to je.

Hostitel

Zde se ptáme na hlavní otázku webu, jak jsem se dozvěděl trochu víc.

Sitemap

Ve zbývajících dvou řádcích nastavíme adresu až dvou karet k webu, vytvořenému pro nápovědu.

Možné problémy

A osa přes tento řádek v souboru robots.txt, příspěvky mého webu přestaly být indexovány:

Disallow: /*?*

Jak víte, právě tento řádek souboru robots.txt chrání indexování článků, které přirozeně nepotřebujeme. Chcete-li to opravit, stačí odstranit 2 řádky (pro pravidla pro všechny vyhledávače a pro Yandex) a zbývající správný soubor robots.txt pro web WordPress bez CNC bude vypadat takto:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag

Uživatelský agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
Hostitel: webové stránky
Soubor Sitemap: https://site/sitemap.xml

Abychom si ověřili, že jsme správně zkompilovali soubor robots.txt, doporučuji rychle použít službu Yandex Webmaster (naučil jsem se, jak se v této službě zaregistrovat).

Pojďme k divizi Upravené indexování –> Analýza souboru robots.txt:

Jakmile tam budete, klikněte na tlačítko „Zadat soubor robots.txt z webu“ a poté klikněte na tlačítko „Zkontrolovat“:

Jakmile budete informováni, znamená to, že máte správný soubor robots.txt pro Yandex:

Navigace ve Švédsku na této stránce:

Současná realita je taková, že v Runetu existuje stránka, které si sami vážíme, neobejdeme se bez souboru robots.txt - uvědomte si, že nemáte co chránit před indexováním (ačkoliv prakticky na každém webu jsou technické stránky a duplicitní obsah které lze uzavřít kvůli indexaci ), pak je jasný minimální požadavek na napsání směrnice s www a bez www pro Yandex, k čemuž slouží pravidla pro psaní robots.txt, která jsou popsána níže.

Co je robots.txt?

Soubor s tímto názvem pochází z roku 1994, kdy se konsorcium W3C rozhodlo zavést takový standard, aby stránky mohly poskytovat vyhledávačům pokyny k indexování.

Soubor s tímto názvem je uložen v kořenovém adresáři webu, jeho umístění do jiných složek není povoleno.

Soubor obsahuje následující funkce:

  1. chrání všechny stránky nebo skupiny stránek před indexováním
  2. umožňuje jakékoli stránky nebo skupiny stránek před indexováním
  3. instruuje robota Yandex, jako zrcadlový web a hlavní (s www nebo bez www)
  4. zobrazuje rozložení souboru s kartou na webu

Všechny tyto body jsou ještě důležitější pro optimalizaci webu pro vyhledávače. Blok indexace umožňuje během indexace zavřít stránky, které obsahují duplicitní obsah, například stránky značek, archivy, výsledky vyhledávání, stránky s verzemi pro sebe navzájem. Přítomnost duplicitního obsahu (pokud se jedná o stejný text, a to ani v množství více propozic přítomných na dvou a více stranách) je pro web mínusem v žebříčku vyhledávačů, bude tedy méně duplikátů.

Direktiva allow nemá žádný nezávislý význam, protože všechny stránky jsou již dostupné pro indexování. Funguje to ve spojení s disallow – pokud je například sekce zcela uzavřena kvůli vyhledávacím systémům, nebo pokud byste ji chtěli otevřít a stránku zavřít.

Označení na hlavičce webu je také jedním z nejdůležitějších prvků optimalizace: vyhledávače považují weby www.yoursite.ru a yoursite.ru za dva různé zdroje, pokud jim přímo neřeknete jinak. Výsledkem je válka s obsahem – výskyt duplikátů, změny v síle externích zpráv (externí zprávy mohou být umístěny buď s www nebo bez www) a to může vést k nižšímu hodnocení ve vyhledávacích dotazech.

Pro Google je zrcadlová hlava registrována v Nástrojích pro webmastery (http://www.google.ru/webmasters/) a osa pro Yandex a pokyny lze zaregistrovat pouze ve stejném souboru robots.txt.

Vložení souboru xml s mapou webu (například sitemap.xml) umožní vtipálkům tento soubor zobrazit.

Pravidla pro vkládání User-agenta

Uživatelským agentem tohoto typu je systém Shukov. Při psaní pokynů je nutné uvést, jaké akce budou provedeny na všech zvukových systémech (je také uveden znak hvězdičky - *) nebo nejsou pojištěny pro žádný vyhledávací systém - například Yandex nebo Google.

Chcete-li nastavit uživatelského agenta přiřazeného všem robotům, napište do svého souboru následující řádek:

User-agent: *

Pro Yandex:

Uživatelský agent: Yandex

Pro Google:

User-agent: GoogleBot

Pravidla vkládání zakazují a povolují

V první řadě je důležité si uvědomit, že soubor robots.txt musí pro svou platnost obsahovat alespoň jednu direktivu disallow. Nyní, když jsme se podívali na stagnaci těchto směrnic o konkrétních zadcích.

Použitím tohoto kódu povolíte indexování všech stránek webu:

User-agent: * Disallow:

A pokud použijete například tento kód, všechny stránky se zavřou:

User-agent: * Disallow: /

Chcete-li rezervovat indexaci pro konkrétní adresář pod složkou názvu, zadejte:

User-agent: * Disallow: /folder

Můžete také přidat hvězdičky a nahradit tak vhodný název:

User-agent: * Disallow: *.php

Důležité: hvězdička zcela nahrazuje název souboru, takže nemůžete zadat soubor*.php, je možné pouze *.php (jinak budou zablokovány všechny stránky s příponami.php, abyste je mohli vyloučit, můžete zadat adresu konkrétní stránky).

Direktiva allow, jak byla zamýšlena výše, se používá k vytváření problémů s disallow (jinak to nedává smysl, protože strany jsou uzavřené a tak otevřené).

Je například možné chránit stránku v archivní složce před indexováním a poté otevřít stránku index.html z tohoto adresáře:

Povolit: /archive/index.html Zakázat: /archive/

Zadejte hostitele a mapu webu

Hostitel je úplným zrcadlem webu (buď název domény plus www nebo název domény bez tohoto prefixu). Hostitel je určen pouze pro robota Yandex (v tomto případě je povinné použít jeden příkaz disallow).

Za vložení souboru robots.txt hostitele odpovídá za zkreslení následující položky:

User-agent: Yandex Disallow: Host: www.yoursite.ru

Při mapování webu vyžaduje soubor sitemap robots.txt jednoduchou registraci následující cesty k odpovídajícímu souboru z přiřazení názvu domény:

Soubor Sitemap: http://yoursite.ru/sitemap.xml

Je napsáno o tom, jak vytvořit webovou kartu pro WordPress.

Butt robots.txt pro WordPress

Pro WordPress musí být instrukce specifikovány tak, aby se před indexováním uzavřely všechny technické adresáře (wp-admin, wp-includes atd.), stejně jako duplicitní stránky vytvořené tagy, RSS soubory, komentáře, vyhledávání.

Jako příklad souboru robots.txt pro wordpress si můžete vzít soubor z našeho webu:

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */ attachment/* Allow: /wp-content/uploads/ Host: www..php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: * /feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/* Disallow: */attachment/* Allow: /wp -content/uploads/ User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /search Disallow: */trackback Disallow: */feed/ Disallow: */feed Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Disallow: */page/* Disallow: */comment Disallow: */tag/ * Disallow: */attachment/* Allow: /wp-content/uploads/ Sitemap: https://www..xml

Soubor robots.txt můžete na našem webu zadat pomocí .

Pokud jste při čtení tohoto článku ztratili jídlo, zeptejte se v komentářích!

Za prvé, chcete-li zabránit vyhledávacímu robotu v příchodu na váš web, nejprve si přečtěte soubor robots.txt. Co je to za soubor? - Toto je sada pokynů pro zvukový systém.

Jedná se o textový soubor s příponou txt, který se nachází v kořenovém adresáři webu. Tato sada instrukcí říká vyhledávacímu robotu, které stránky a soubory má na webu indexovat a které ne. Také musíte v podstatě zrcadlit web a vytvořit mapu pro web.

Je soubor robots.txt stále potřeba? Pro správné indexování vašeho webu. Aby vyhledávání nemělo duplicitní stránky, různé servisní stránky a dokumenty. Jakmile správně nakonfigurujete direktivy v robotech, ušetříte svůj web mnoha problémům s indexováním a zrcadlením webu.

Jak vytvořit správný soubor robots.txt

Přidání souboru robots.txt je snadné; textový dokument můžete vytvořit pomocí standardního poznámkového bloku Windows. V tomto souboru píšeme směrnice pro zvukové systémy. Dále tento soubor uložíme pod názvem robots and text extensions txt. Vše lze nyní nahrávat na hosting, a to až do kořenové složky webu. Hádejte co, můžete vytvořit pouze jeden dokument „robotů“ pro jeden web. Pokud je tento soubor na webu dostupný, robot automaticky ověří, že vše lze indexovat.

Protože je pouze jeden, jsou instrukce pro všechny zvukové systémy psány v jednom. Navíc si návod můžete zapsat pod kůži i pod knírek. Pokyny pro různé zvukové roboty jsou poskytovány prostřednictvím direktivy User-agent. Ve zprávě se budeme bavit o ceně níže.

Direktivy robots.txt

Soubor „for robots“ může obsahovat následující příkazy pro indexování: User-agent, Disallow, Allow, Sitemap, Host, Crawl-delay, Clean-param. Podívejme se na kožní návod ve zprávě.

Direktiva user-agent

Direktiva user-agent- Označuje, že budou pokyny pro jaký zvukový systém (přesněji pro kterého konkrétního robota). Pokud je tam „*“, pak instrukce platí pro všechny roboty. Pokud pokyny pocházejí od konkrétního robota, například Googlebota, platí pokyny pouze pro hlavního indexovacího robota Google. Navíc, protože pokyny jsou platné pro Googlebota a další podsystémy, Google bude číst pouze své vlastní pokyny a ignorovat ty nelegální. Robot Yandex bude fungovat stejně. Žasnu nad zadkem psaní směrnice.

User-agent: YandexBot - pokyny pouze pro hlavního indexovacího bota Yandex
User-agent: Yandex - pokyny pro všechny roboty Yandex
User-agent: * — pokyny pro všechny roboty

Direktivy zakázat a povolit

Direktivy zakázat a povolit— dávat příkazy, co indexovat a co ne. Disallow odešle příkaz k neindexování stránky nebo celé části webu. A Allow také označuje, co je třeba indexovat.

Disallow: / - blokuje indexování celého webu
Disallow: /papka/ - zabrání indexování celé složky
Disallow: /files.php – blokuje indexování souboru files.php

Povolit: /cgi-bin – umožňuje indexování stránek cgi-bin

S direktivami Disallow a Allow je často jednoduše nutné vybrat speciální znaky. Není potřeba používat regulární výrazy.

Speciální znak * - nahrazuje libovolnou sekvenci znaků. Vіn for promochannymi je přiřazen na konec pravidla vzhledu. Pokud jste nic nepředepsali, přidejte si PS sami. Vikoristan zadek:

Disallow: /cgi-bin/*.aspx – zabrání indexování všech souborů s příponou .aspx
Disallow: /*foto - blokuje indexování souborů a složek, které nahrazuje slovo foto

Speciální znak $ - předchází speciální znak "*" na konci pravidla. Například:

Disallow: /example$ – zakáže indexování '/example', ale nezakáže '/example.html'

A pokud to napíšete bez speciálního symbolu $, budou pokyny fungovat jinak:

Disallow: /example – blokuje jak '/example', tak '/example.html'

Směrnice o souborech Sitemap

Směrnice o souborech Sitemap- Určeno pro vložení do robota vyhledávacího systému, kde je mapa stránek umístěna na hostingu. Formát sitemap je sitemaps.xml. Pro rychlou a úplnou indexaci webu je nutná mapa webu. Mapa webu navíc nemusí být nutně jeden soubor, může to být soubor. Formát zadání směrnice:

Soubor Sitemap: http://site/sitemaps1.xml
Soubor Sitemap: http://site/sitemaps2.xml

Hostitelská směrnice

Hostitelská směrnice- Dávám robotovi pokyn, aby v podstatě zrcadlil stránku. Pokud pro web v indexu nejsou žádná zrcadla, musí být tato směrnice nejprve zadána. Pokud to nezadáte, robot Yandex bude indexovat alespoň dvě verze webu s www a bez. Dokud je zrcadlo robota nedokáže slepit dohromady. Vstup na zadeček:

Host: www.site
Hostitel: webové stránky

V první verzi má robot indexovanou verzi s www, ve druhé verzi bez. V souboru robots.txt můžete zadat pouze jednu direktivu Host. Jakmile je napíšete, vypracuji je a s ohledem na vás se pouze ptám.

Správná směrnice je, že hostitel je vinen následujícími údaji:
- Zadejte protokol připojení (HTTP nebo HTTPS);
- Doménové jméno je zapsáno správně (nelze jej zapsat na IP adresu);
— číslo portu (například Host: site.com:8080).

Nesprávně vydané směrnice budou jednoduše ignorovány.

Směrnice o zpoždění procházení

Směrnice o zpoždění procházení Umožňuje změnit nastavení na serveru. To je nutné, jakmile se váš web začne hroutit pod tlakem různých botů. Direktiva Crawl-delay říká vyhledávacímu robotu, aby počkal mezi dokončením procházení jedné strany webu a začátkem procházení druhé strany webu. Direktiva musí následovat přímo za položkami direktiv Disallow a/nebo Allow. Vyhledávací robot Yandex umí číst jiné hodnoty. Například: 1,5 (sekundy).

Směrnice Clean-param

Směrnice Clean-param Vyžadováno pro weby, které mají dynamické parametry. Dávejte pozor, abyste nezasahovali do stran. Závažné servisní informace: identifikátory relací, přispěvatelé, referreři atd. Aby nedocházelo k duplicitám a tato směrnice byla opravena. Řekněte PS, aby informace znovu nenahrával. Jděte dolů a navštivte server a projděte web s robotem.

Clean-param: s /forum/showthread.php

Tento záznam říká PS, že parametr s bude považován za nevýznamný pro všechny adresy URL, které začínají /forum/showthread.php. Maximální délka záznamu je 500 znaků.

Prošli jsme směrnice, pojďme k úpravě našeho souboru robotů.

Úprava souboru robots.txt

Začněme rovnou před přizpůsobením souboru robots.txt. Je vinen tím, že se pomstil nejméně za dva záznamy:

User-agent:- Označuje, že pro každý zvukový systém budou pokyny, které následují níže.
Disallow:– Dovolte mi objasnit, že část samotného webu by neměla být indexována. Můžete jej zavřít pro indexování, buď uzavřením boční strany webu, nebo pro jiné účely.

Kromě toho můžete uvést, že tyto směrnice jsou platné pro všechny zvukové systémy nebo pro jakýkoli konkrétní. To je specifikováno v direktivě User-agent. Pokud chcete, aby si pokyny přečetli všichni roboti, vložte „hvězdu“

Pokud chcete zadat položky pro konkrétního robota, budete muset zadat jeho jméno.

Uživatelský agent: YandexBot

Jednoduchý zadek správně složeného souboru robots bude vypadat takto:

User-agent: *
Disallow: /files.php
Disallow: /sekce/
Hostitel: webové stránky

de, * potvrdit, že pokyny platí pro veškerý software;
Disallow: /files.php- Umožňuje soubor file.php zablokovat pro indexování;
Disallow: /foto/— zabraňuje indexování celé sekce „foto“ se všemi připojenými soubory;
Hostitel: webové stránky- Instruuje roboty, aby indexovali zrcadlo.

Pokud na svém webu nemáte žádné stránky, které je třeba zavřít kvůli indexování, může váš soubor robots.txt vypadat takto:

User-agent: *
Disallow:
Hostitel: webové stránky

Robots.txt pro Yandex (Yandex)

Chcete-li uvést, že tyto pokyny jsou platné pro vyhledávací systém Yandex, musíte zadat v direktivě User-agent: Yandex. Navíc, pokud napíšeme Yandex, pak stránka bude indexovat všechny roboty Yandex, a pokud řekneme YandexBot, pak to bude příkaz pouze pro hlavního indexovacího robota.

Je také nutné jasně zaregistrovat direktivu „Host“, v podstatě zrcadlení webu. Jak jsem psal výše, musím se snažit vyhnout duplicitním stránkám. Váš správný soubor robots.txt pro Yandex bude vypadat takto.

Vytvoření souboru

Robots.txt je soubor obsahující instrukce pro zvukové roboty. Je vytvořen v kořenovém adresáři webu. Můžete jej jednoduše vytvořit na ploše pomocí jiného poznámkového bloku, stejně jako byste vytvořili jakýkoli textový soubor.

Chcete-li to provést, stiskněte pravé tlačítko myši do prázdného místa a vyberte Vytvořit – Textový dokument (ne Word). Budete muset použít nouzový poznámkový blok. Říkejte tomu roboti, správnější je jeho přípona – txt. To je vše k vytvoření souboru.

Jak fold robots.txt

Nyní již nemůžete soubor vyplnit požadovanými vložkami. Příkazy pro roboty mají mnohem jednodušší syntaxi než jakékoli programování. Soubor lze uložit dvěma způsoby:

Navštivte jiný web, zkopírujte a změňte strukturu svého projektu.

Napište to sami

O první metodě jsem již psal. Je to proto, že stránky mají nové motory a ve funkčnosti není žádný skutečný rozdíl. Například všechny stránky na Wordpressu mají stejnou strukturu, ale mohou existovat různá rozšíření, jako jsou fóra, internetové obchody a libovolný počet dalších katalogů. Pokud chcete vědět, jak změnit robots.txt, přečtěte si tento článek, můžete si přečíst i ten předchozí a v tomto článku bude řečeno, že dostanete hodně.

Například na svém webu máte adresář /source, kam se ukládají výstupy článků, které napíšete na svůj blog, ale v žádném jiném webmasteru takový adresář neexistuje. Chcete například zavřít zdrojovou složku pro indexování. Pokud zkopírujete soubor robots.txt do jiného zdroje, žádný takový příkaz tam nebude. Budete muset přidat vlastní návod, zdá se to zbytečné.

V každém případě je tedy užitečné znát základní syntaxi instrukcí pro roboty, které nyní porozumíme.

Jak psát své pokyny robotům?

Za prvé, čím soubor začíná, včetně vložení instrukcí pro každý zvukový stroj. Zkuste to takto:

Uživatelský agent: Yandex Abo Uživatelský agent: Googlebot

Uživatelský agent: Yandex

User-agent: Googlebot

Není třeba dávat stejné body na konec řady, nemusíte to programovat). Mimochodem, je jasné, že v prvním případě jsou pokyny čitelné pouze pro robota Yandex, ve druhém - pouze pro Google. Pokud příkazy spouštějí roboti, napište je takto: User-agent:

Zázračný. Vyrostli jsme od zvířat k práci. Není to těžké. Můžete to vidět na jednoduchém příkladu. Máte tři mladé bratry, Vasju, Dimu a Petrika, a vy jste ten hlavní. Otcové šli a řekli vám, že byste je měli následovat.

Všichni tři vás chtějí o něco požádat. Vězte, že jim musíte poskytnout zpětnou vazbu, abyste mohli psát pokyny zvukovým robotům. Bude to vypadat nějak takto:

User-agent: Vasya Povolit: jít na fotbal User-agent: Dima Disallow: jít na fotbal (Dima minule porušil své hříchy, byl potrestán) User-agent: Petya Povolit: jít do kina, co jsi udělal je stále povoleno zeptat se, to je v pořádku, pojďme).

Takto si Vasya šťastně zašněruje tenisky, Dima se skloněnou hlavou žasne v okně na svého bratra, který už přemýšlí, kolik gólů dnes vstřelí (Dima, když odmítl příkaz zakázat, blokuje). Péťa se dívá na jeho film.

Pro tento zadek není důležité pochopit, že Allow je povolenka a Disallow je plot. Jenže v robots.txt vydáváme příkazy ne lidem, ale robotům, takže místo konkrétních informací se tam píšou adresy stránek a adresářů, které je potřeba povolit a chránit pro indexování.

Například používám web site.ru. Vіn na enginu WordPress. Začínám psát návod:

User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Allow: /wp-content/uploads/ Disallow: /source/ No atd.

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

Disallow: /zdroj/

Studna. pupen.

Za prvé, jsem naštvaný, dokud všichni nepracují. Jiným způsobem, zablokováním indexace složek v samotném enginu a poté povolením přístupu robota ke složce obsahující vaše oblíbené položky. Všechny obrázky jsou uloženy tam, aby nebyly uzavřeny pro indexování, protože se plánuje odstranění provozu z vyhledávání obrázků.

Dobře, pamatujte, že jsem mluvil dříve v článku o těch, které můžete mít další katalogy? Můžete si je vytvořit sami pro různé účely. Například na jednom z mých webů je flashová složka, kam hodím flashové hry, aby se pak daly spustit na webu. Nebo zdroj – tato složka může ukládat soubory, které jsou k dispozici klientům pro získání.

Název složky je absolutně nedůležitý. Pokud jej potřebujete zavřít, můžete mu poslat příkaz Disallow.

Příkaz Povolit je vyžadován pro otevření určitých částí uzavřených sekcí. A konečně, pokud nemáte soubor robots.txt, celý web bude k dispozici pro indexování. To je jak dobré (pozor, dejte pozor, abyste jej nezavírali potichu), tak zároveň špatné (budou se otevírat soubory a složky, které nemáte na očích).

Pro lepší pochopení tohoto bodu vás vyzývám, abyste se na tuto položku podívali ještě jednou:

Disallow: /wp-content/ Allow: /wp-content/uploads/

Disallow: /wp-content/

Povolit: /wp-content/uploads/

Jak víte, zpočátku chráníme indexaci všeho z adresáře wp-content. Ukládá všechny vaše šablony, pluginy a také obrázky. Je jasné, že se dají otevřít. K tomu potřebujeme příkaz Povolit.

Další parametry

Seznam příkazů není jediný, který lze v souboru zadat. Také: Host – označuje na hlavě zrcadlo webu. Pro ty, kteří nevědí, existují dvě možnosti, jak napsat název domény: domain.com a www.domain.com.

Aby se předešlo problémům, je nutné označit jednu možnost. To lze provést pomocí nástrojů pro webmastery a souboru Robots.txt. Pro koho píšeme: Host: domain.com

co to dává? Pokud se chcete pokusit připojit ke své stránce takto: www.domain.com – automaticky se převede na verzi bez www, takže ji rozpozná zrcadlo.

Další direktivou je sitemap. Myslím, že jste si již uvědomili, že nastavuje cestu k mapě webu ve formátu xml. Příklad: http://domain.com/sitemap.xml

Opět můžete přidat kartu v Yandex.Webmaster a můžete ji také zadat do robots.txt, aby robot přečetl tento řádek a jasně pochopil, kde můžete najít mapu pro web. Pro robota je mapa webu stejně důležitá jako míč pro Vasyu, a proto chodí na fotbal. Je to stejné, že tě tahle koule živí (jako staršího bratra). A ty ty:

žasl nad ulízanou pohovkou

Nyní víte, jak správně nakonfigurovat a změnit soubor robots.txt pro Yandex a použít jakýkoli jiný vyhledávač pro vaše potřeby.

Co dělá přizpůsobení souboru?

Také jsem o tom dříve mluvil, ale řeknu to znovu. Pokud máte jasně definovaný soubor s příkazy pro roboty, můžete být snazší s vědomím, že se robot nedostane do zbytečné sekce a nebude zařazen do indexu nepotřebné stránky.

Také jsem řekl, že přizpůsobení robots.txt nic neznamená. Zokrema, neskrývá se před duplikáty, které pocházejí od těch, které nejsou dostatečně úplné. Stejně jako lidé. Dovolili jste Vasyovi jít na fotbal, ale není pravda, že tam nedosáhnete stejných výsledků jako Dima. Takže s duplikáty: příkaz datum je možný, ale určitě ho nelze zadat, aby se příkaz nedostal do indexu, který pozice obsahuje.

Dvojníků se není třeba bát, jako by hořeli. Například je normální, že Yandex je umístěn před weby, které mají vážné technické problémy. V opačném případě, pokud jej spustíte vpravo, můžete ve skutečnosti promarnit značné množství provozu pro sebe. Pro naši sekci věnovanou SEO je ale důležité mít článek o duplikátech, takže s nimi budeme bojovat.

Jak mohu odstranit normální soubor robots.txt, protože ničemu nerozumím?

Mimochodem, vytvoření robots.txt není vytvořením webu. Jednoduše řečeno, můžete jej jednoduše zkopírovat ze souboru od jakéhokoli úspěšného bloggera. Za prvé, pokud máte web na WordPressu. Pokud používáte jiný motor, budete muset vy a web hledat na stejném cms. Už jsem řekl, jak se podívat na soubor na webu někoho jiného: Domain.com/robots.txt

Vak

Myslím, že tady už není o čem mluvit, protože se svou metodou na řece nemusíte pracovat se složenými instrukcemi pro roboty. To je pravda, protože nováčky je možné najmout za 30-60 coinů a profesionál sežene vše za pár mincí. Všechno vám vyjde a nebudete o tom pochybovat.

A chcete-li se dozvědět další užitečné a důležité tipy pro propagaci a propagaci vašeho blogu, můžete obdivovat náš jedinečný. Pokud se budete snažit vytvořit 50–100 % doporučení, můžete v budoucnu úspěšně spustit jakýkoli druh webů.

V tomto článku je ukázka optimálního, dle mého názoru, kódu pro soubor robots.txt pod WordPress, který můžete upravovat na svých stránkách.

Pro začátek, hádejte co? potřeboval jsem pouze soubor robots.txt- soubor robots.txt je vyžadován zejména pro vyhledávací roboty, aby jim „řekl“, které sekce/příběhy by web měl obsahovat a které by neměly být zahrnuty. Stránky, které jsou uzavřeny ze zásuvky, nebudou zpracovány do indexu vyhledávače (Yandex, Google atd.).

Možnost 1: optimální kód robots.txt pro WordPress

User-agent: * Disallow: /cgi-bin # classic... Disallow: /? # všechny parametry budou uloženy do hlavního Disallow: /wp- # all WP files: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # search Disallow: *&s= # search Zakázat: /search # searches Zakázat: /author/ # archivy autora Zakázat: */embed # všechna stahování Zakázat: */page/ # všechny typy stránkování Povolit: */nahrávání # uploady Povolit: /*/*.js # uprostřed /wp - (/*/ - pro prioritu) Povolit: /*/*.css # uprostřed /wp- (/*/ - pro prioritu) Povolit: /wp-*.png # obrázky v pluginech , složky mezipaměti atd. Povolit: /wp-*.jpg # obrázky v pluginech, složkách mezipaměti atd. Povolit: /wp-*.jpeg # obrázky v pluginech, složkách mezipaměti atd. Povolit: /wp-*.gif # obrázky v pluginech, složkách mezipaměti atd. Povolit: /wp-*.svg # obrázky v pluginech, složkách mezipaměti atd. Povolit: /wp-*.pdf # soubory v pluginech, složkách mezipaměti atd. Povolit: /wp-admin/admin-ajax.php #Disallow: /wp/ # pokud je WP nainstalováno v podadresáři wp Sitemap: http://example.com/sitemap.xml Sitemap: http://example.com/ mapa webu2. xml # jiný soubor #Sitemap: http://example.com/sitemap.xml.gz # verze stylu (.gz) # Verze kódu: 1.1 # Nezapomeňte na svůj web přidat `site.ru`.

Výběr kódu:

    V řádku User-agent: * uvádíme, že všechna níže uvedená pravidla budou platit pro všechny vyhledávací roboty *. Pokud je nutné, aby se tato pravidla vztahovala pouze na jednoho konkrétního robota, nahraďte * uvedený název robota (User-agent: Yandex, User-agent: Googlebot).

    V řádku Allow: */uploads vám výslovně umožňujeme indexovat stránky, které obsahují /uploads. Tse obov'yazkovo, protože Většinou doporučujeme indexovat stránky, které začínají /wp- a /wp- vstoupit /wp-content/uploads. Proto pro přerušení pravidla Disallow: /wp - požadovaný řádek Povolit: */uploads , i po požadovaném typu /wp-content/uploads/... Mohou se nám povalovat obrázky, které mohou být indexovány, a také tam mohou ležet nějaké nežádoucí soubory, které nemají co uchopit. Allow: může být „před“ nebo „po“ Disallow: .

    Jiné řádky blokují roboty v „chůzi“ pro objednávky, které začínají:

    • Disallow: /cgi-bin – zavře adresář scripts na serveru
    • Disallow: /feed - zavře RSS zdroj blogu
    • Disallow: /trackback - zavře upozornění
    • Disallow: ?s= nebo Disallow: *?s= - zavře stránky pro vyhledávání
    • Disallow: */page/ - zavře všechny typy stránkování
  1. Pravidlo Sitemap: http://example.com/sitemap.xml dává robotovi pokyn k souboru se souborem Sitemap ve formátu XML. Pokud máte takový soubor na svém webu, napište novou cestu k novému. Takové soubory mohou být shromážděny, a pak, jak se zdá, jdou na kůži.

    V řádku Host: site.ru máme podstatné zrcadlo webu. Pokud má web zrcadla (kopie webu na jiných doménách), je nutné, aby je Yandex znovu indexoval, zadat hlavní zrcadlo. Hostitelská směrnice: Yandex nerozumí, Google nerozumí! Pokud web funguje pod protokolem https, musí být uveden v Host: Host: http://example.com

    Z dokumentace Yandex: „Host je nezávislá směrnice a funguje na jakémkoli místě v souboru (průřez).“ Dáme to tedy navrch nebo na konec souboru přes prázdný řádek.

Protože přítomnost skrytých zdrojů je vyžadována například pro Yandex Zen, pokud potřebujete připojit web ke kanálu (jako je „digitální“ komentátor). Zde můžete otevřít požadované informace.

Zároveň mají feedy svůj formát v titulcích videa, aby vyhledávače pochopily, že se nejedná o HTML stránku, ale feed, a samozřejmě s ním zacházely jinak.

Direktiva Host již není pro Yandex potřeba

Yandex je opět zahrnut do direktivy Host a nahrazuje přesměrování 301. Hostitele lze snadno odstranit ze souboru robots.txt. Je však důležité, aby na všech zrcadlených webech existovalo 301 přesměrování na hlavní web (hlavní zrcadlo).

To je důležité: utřídit si pravidla před řezáním

Yandex a Google zpracovávají direktivy Allow a Disallow mimo pořadí v každém z nich, ale nejprve je seřadí od krátkého pravidla k dlouhému a poté zpracují zbývající pravidlo:

User-agent: * Allow: */uploads Disallow: /wp-

se bude číst jako:

User-agent: * Disallow: /wp- Allow: */uploads

Abyste rychle pochopili a pochopili zvláštnosti řazení, zapamatujte si následující pravidlo: „Cokoli předchází pravidlu robots.txt, má vyšší prioritu. Pokud však existují dvě pravidla, přednost má směrnice Allow.“

Možnost 2: standardní soubor robots.txt pro WordPress

Nevím, kdo to je, ale jsem pro první možnost! Protože je to logické - nepotřebuji duplikovat sekci, abych specifikoval směrnici Host pro Yandex, která je průřezová (samozřejmě šablona robota na libovolném místě, aniž bych specifikoval, o kterého robota jde). Protože existuje nestandardní směrnice Allow, funguje pro Yandex a Google, a pokud neotevřou složku pro nahrávání pro jiné roboty, kterým nerozumí, pak se v 99% případů nestane nic neobvyklého. Ještě jsem si nevšiml, že by první roboti nefungovali tak, jak je potřeba.

Naváděcí kód většinou není správný. Děkuji komentátorovi za upozornění na nekorektnost, ačkoli se tam musel dostat sám. Jsem z toho tak nadšený (mohu mít slitování):

    Roboti (ne Yandex a Google) – nerozumí více než 2 direktivám: User-agent: a Disallow:

  1. Direktivu Yandex Host: je třeba dodržovat po Disallow:, protože roboti (nikoli Yandex a Google) jí nemusí rozumět a mohou odmítnout soubor robots.txt. Pro samotný Yandex, soudě podle dokumentace, je naprosto totéž vikorizovat Host:, i když chcete vytvořit robots.txt v jednom řádku Host: www.site.ru, abyste spojili všechna zrcadla webu dohromady .

3. Sitemap: průřezová směrnice pro Yandex a Google a možná i pro mnoho dalších robotů, takže píšeme na konec přes prázdný řádek a je použitelná pro všechny roboty najednou.

Na základě těchto změn může správný kód vypadat takto:

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Host: site.ru User-agent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Sitemap: http://example.com/sitemap.xml

Přidejme si to k sobě

Pokud potřebujete chránit nějaké stránky nebo skupiny stránek, můžete níže přidat pravidlo (směrnici). Disallow:. Potřebujeme například zavřít všechny položky v kategorii z indexování zprávy pak předtím Mapa webu: přidáme pravidlo:

Disallow: /news

Je důležité zabránit robotům, aby prováděli podobné objednávky:

  • http://example.com/novinky
  • http://example.com/novinky/drugoe-nazvanie/

Pokud potřebujete zavřít vstup /news, pak píšeme:

Disallow: */news

  • http://example.com/novinky
  • http://example.com/moje/novinky/drugoe-nazvanie/
  • http://example.com/category/newsletter-nazvanie.html

Direktivy robots.txt si také můžete přečíst na stránce nápovědy Yandex (ale uvědomte si, že ne všechna zde popsaná pravidla platí pro Google).

Ověření souboru robots.txt a dokumentace

Správné používání písemných pravidel můžete ověřit podle následujících pokynů:

  • Yandex: http://webmaster.yandex.ru/robots.xml.
  • Google má cenu, kterou musí zaplatit Vyhledávací konzole. Vyžaduje se autorizace a viditelnost webu v panelu webmastera...
  • Služba pro vytvoření souboru robots.txt: http://pr-cy.ru/robots/
  • Služba pro vytváření a ověřování robots.txt: https://seolib.ru/tools/generate/robots/

Zeptal jsem se Yandex...

Po umístění jídla do ticha. Podpora Yandexu pro průřezovou vikoristaci direktiv Host a Sitemap:

Krmení:

Letím!
Na svém blogu píšu článek o robots.txt. Rád bych poukázal na odpověď na toto tvrzení (neznám definitivní „tak“ z dokumentace):

Potřebuji sloučit všechna zrcadla a za tímto účelem musím do souboru robots.txt přidat direktivu Host:

Host: site.ru User-agent: * Disallow: /asd

Jak budete správně používat Host: site.ru? Chi vkazuvatime won robots scho site.ru je v podstatě zrcadlo. Tobto. Tato směrnice není v sekci, ale je připojena (na začátek souboru) bez přiřazení jakéhokoli User-agenta.

Také bychom rádi věděli, že direktiva Sitemap musí být přidána doprostřed sekce nebo může být přidána mezi hranice: například přes prázdný řádek, za sekci?

User-agent: Yandex Disallow: /asd User-agent: * Disallow: /asd Sitemap: http://example.com/sitemap.xml

Rozumí robot direktivě Sitemap?

Jsem odhodlán vás odmítnout jako potvrzení, což by směle prověřilo mé pochybnosti.

Předmět:

Letím!

Direktivy Host a Sitemap jsou průřezové, takže je robot použije nezávisle na místě v souboru robots.txt, kde jsou uvedeny.

--
S úctou, Platone Shchukine
Služba podpory Yandex

Višňovok

Je důležité si uvědomit, že změny v souboru robots.txt na pracovním webu zaznamenáme za několik měsíců (2–3 měsíce).

Uvědomte si, že Google může ignorovat pravidla v souboru robots.txt a vzít stránku do indexu, protože je důležité, aby stránka byla již jedinečná a originální a je pouze zodpovědná za to, že je v indexu. Jiní jsou však citliví na jednoduchou hypotézu, že neúplné optimalizátory mohou nesprávně specifikovat pravidla v robots.txt a zavřít tak potřebné indexační stránky a připravit je o nepotřebné. Spíš se budu vyhýbat další ostudě.

Dynamický soubor robots.txt

WordPress žádá o vytvoření souboru robots.txt přímo a není vůbec povinné fyzicky vytvořit soubor robots.txt v rootu webu, ale nedoporučuje se to, protože s tímto přístupem to bude velmi obtížné pluginy pro změnu tohoto souboru, ale podle potřeby.

O tom, jak funguje dynamické vytváření souboru robots.txt, si přečtěte v popisu funkce a níže uvedu příklad, jak můžete změnit umístění tohoto souboru například pomocí háčku.

Za tímto účelem přidejte následující kód do souboru functions.php:

Add_action("do_robotstxt", "my_robotstxt"); function my_robotstxt())( $lines = [ "User-agent: *", "Disallow: /wp-admin/", "Disallow: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); zemřít; // odříznutí od PHP robota)

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/

Crawl-delay - časový limit pro bohabojné roboty (od roku 2018 není osud pokryt)

Yandex

Po analýze seznamů za poslední dva roky pro naši podporu indexování potravin jsme si uvědomili, že jedním z hlavních důvodů zvýšené poptávky po dokumentech je nesprávně nakonfigurovaná směrnice Crawl-delay v robots.txt […] Aby se zabránilo webu Aby se zajistilo, že se všechny potřebné stránky webů zobrazí a aktualizují při hledání rychlosti, budeme pravděpodobně vystaveni direktivě Crawl-delay.

Když robot Yandex prohledá web, jako by byl božský, vytvoří nadpřirozený útok na server. Můžete požádat robota, aby „vyměnil obal“.

K tomu musíte použít direktivu Crawl-delay. Udává hodinu a sekundy, které musí robot stát (zkontrolovat), aby naskenoval kůži místa.

Chcete-li se vypořádat s roboty, kteří nesplňují standard robots.txt, musí být ve skupině (v sekci User-Agent) ihned po Disallow a Allow uvedeno zpoždění procházení.

Robot Yandex rozumí zlomkovým hodnotám, například 0,5 (ps. sekund). To nezaručuje, že vyhledávací robot přistoupí na váš web během několika sekund, ale umožňuje vám urychlit procházení webu.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Zpoždění procházení: 1,5 # časový limit za 1,5 sekundy User-agent: * Disallow: /wp-admin Disallow: /wp-includes Allow: /wp-* .gif Zpoždění procházení: 2 # čas za 2 sekundy

Google

Googlebot nerozumí direktivě Crawl-delay. Časový limit pro roboty můžete zadat na panelu webmastera.

Na službě avi1.ru můžete nyní okamžitě přidat další propagaci SMM do 7 nejoblíbenějších sociálních sítí. Obnovte respekt k nízké úrovni všech služeb webu.