it-swarm-eu.dev

Jak zabránit indexování určitých adres URL

Když napíšu site:example.com (samozřejmě s použitím mé domény), zobrazí se v seznamu několik chyb odkazů. Obvykle mají podobu: /some/fixed/path/admin/unblockUser/11

Mám v úmyslu přidat do svého souboru robots.txt následující řádek:

Disallow: /some/fixed/path/admin/*
8
morpheous

Existují 2 hlavní způsoby, jak zabránit vyhledávacím strojům v indexování konkrétních stránek :

  1. Soubor Robots.txt pro vaši doménu.
  2. Značka Meta Robots na každé stránce.

Soubor robots.txt by měl být vaší první zastávkou u vzorů adres URL, které odpovídají několika souborům. Můžete vidět zde syntaxe a podrobněji zde . Soubor robots.txt musí být umístěn v kořenové složce vaší domény, tj. V http://www.yourdomain.com/robots.txt a měl by obsahovat něco jako:

User-agent: *
Disallow: /path/with-trailing-slash/

(Výše uvedené zbarvení textu se provádí pomocí softwaru Stackexchange a mělo by být ignorováno.)

Značka Meta Robots je flexibilnější a schopnější , ale musí být vložena na každou stránku, kterou chcete ovlivnit.

Google má opět přehled o tom, jak používat Meta roboty a jak získat stránky odebrané z jejich index prostřednictvím Nástrojů pro webmastery. Wikipedia má více komplexní dokumentace o robotech Meta , včetně odvození specifických pro vyhledávací stroj.

Pokud chcete zakázat společnosti Google, Webovému archivu a dalším vyhledávacím strojům uchovávat kopii vaší webové stránky, pak chcete následující značku (zobrazenou ve formátu HTML4):

<meta name="robots" content="noarchive">

Chcete-li zabránit indexování a uchování kopie :

<meta name="robots" content="noindex, noarchive">

A abyste zabránili výše uvedeným a pomocí odkazů na stránce k nalezení více stránek k indexování:

<meta name="robots" content="noindex, nofollow, noarchive">

Pozn. 1: Všechny 3 výše uvedené metaznačky jsou určeny pouze pro vyhledávače - neovlivňují HTTP proxy nebo prohlížeče.

Pozn. 2: Pokud již máte stránky indexované a archivované a blokujete stránky pomocí robots.txt a současně přidáváte metaznačku na stejné stránky, pak robotots.txt zabrání vyhledávacím strojům vidět aktualizovanou metaznačku.

16
Jesper Mortensen

Ve skutečnosti existuje třetí způsob, jak zabránit Googlu a dalším vyhledávačům v indexování adres URL. Je to X-Robots-Tag HTTP Response Header . To je lepší než metaznačky, protože funguje pro všechny dokumenty a můžete mít více než jednu značku.

Značky REP META vám poskytují užitečnou kontrolu nad indexováním každé webové stránky na vašem webu. Funguje to však pouze pro stránky HTML. Jak můžete řídit přístup k jiným typům dokumentů, jako jsou soubory Adobe PDF, video a zvukové soubory a další typy? Pro všechny ostatní typy souborů je nyní k dispozici stejná flexibilita při určování značek podle adresy URL.

Rozšířili jsme podporu pro značky META, aby mohly být nyní přidruženy k libovolnému souboru. Jednoduše přidejte jakoukoli podporovanou značku META do nové direktivy X-Robots-Tag v záhlaví HTTP, která slouží k obsazení souboru. Zde je několik ilustrativních příkladů: Nezobrazovat odkaz na mezipaměť nebo úryvek pro tuto položku ve výsledcích vyhledávání Google: X-Robots-Tag: noarchive, nosnippet Nezahrnovat tento dokument do výsledků vyhledávání Google: X-Robots-Tag : noindex Řekněte nám, že dokument nebude k dispozici po 7. červenci 2007, 16:30 GMT: X-Robots-Tag: unavailable_after: 7. července 2007 16:30:00 GMT

Ve stejném dokumentu můžete kombinovat více směrnic. Například: Nezobrazovat odkaz v mezipaměti pro tento dokument a odstranit jej z indexu po 23. červenci 2007, 15:00, PST: X-Robots-Tag: noarchive X-Robots-Tag: unavailable_after: 23. července 2007 15:00:00 PST

4
John Conde

Pokud je vaším cílem, aby veřejnost neviděla tyto stránky, je nejlepší na tuto skupinu stránek vložit heslo. A/nebo mít nějaké konfigurace, která umožňuje přístup pouze k určitým whitelisted adresám, které mají přístup na web (to lze provést na úrovni serveru, pravděpodobně prostřednictvím vašeho hostitele nebo správce serveru).

Pokud je vaším cílem, aby tyto stránky existovaly, prostě ne indexovány společností Google nebo jinými vyhledávacími nástroji, jak již zmínili ostatní, máte několik možností, ale myslím, že je důležité rozlišovat mezi dvě hlavní funkce Vyhledávání Google v tomto smyslu: Procházení a indexování.

Procházení vs. indexování

Google váš web prochází, Google indexuje váš web. Prohledávače najdou stránky vašeho webu, indexování organizuje stránky vašeho webu. Více informací o tom trochu zde .

Toto rozlišení je důležité, když se pokoušíte zablokovat nebo odebrat stránky z indexu Google. Mnoho lidí implicitně blokuje pouze pomocí robots.txt, což je směrnice , která Googlu říká, co (nebo co ne) procházet. Často se předpokládá, že pokud Google váš web neprolézá, je nepravděpodobné, že by jej indexoval. Je však velmi běžné vidět stránky blokované souborem robots.txt indexované na Googlu.


Směrnice pro Google a vyhledávače

Tyto typy „směrnic“ jsou pouze doporučeními společnosti Google, na které části vašeho webu procházet a indexovat. Nejsou povinni je následovat. To je důležité vědět. Viděl jsem mnoho let v průběhu let, jak si myslí, že mohou web pouze zablokovat pomocí robots.txt, a najednou je web o několik týdnů později na Googlu indexován. Pokud na web odkazuje někdo jiný nebo pokud jej některý z prohledávačů Google nějakým způsobem ovládne, stále může být indexováno .

Nedávno mají aktualizovaný řídicí panel GSC (Google Search Console) tento přehled nazvaný „Zpráva o pokrytí indexu“ Nová data jsou k dispozici pro webmastery, která zde dříve nebyla přímo k dispozici, konkrétní podrobnosti o jak Google zpracovává určitou sadu stránek. Viděl jsem a slyšel jsem o mnoha webech, které dostávaly „Varování“, označené „Indexováno, ale blokováno souborem Robots.txt“.

nejnovější dokumentace zmiňuje, že pokud chcete stránky z indexu, přidejte do nich značky noindex nofollow.


Nástroj pro odebrání adres URL

Jen abychom stavěli na tom, co někteří zmínili o nástroji pro odebrání adresy URL ....

Pokud jsou stránky již indexovány a je naléhavé je dostat ven, Nástroj pro odstranění adres Google vám umožní „dočasně“ zablokovat stránky z výsledků vyhledávání. Požadavek trvá 90 dní, ale použil jsem jej k tomu, aby byly stránky z Googlu rychlejší než použití noindexu, nofollowu, podobně jako další vrstvy.

Pomocí nástroje pro odebrání adres URL Google stránku stále prochází a případně ji ukládá do mezipaměti, ale zatímco tuto funkci používáte, můžete přidat značky noindex nofollow, takže je uvidí, a do 90 dnů jsou nahoru, doufejme, že už nebudeme indexovat vaši stránku.


DŮLEŽITÉ: Používání oba robots.txt a noindex nofollow tagy jsou poněkud protichůdné signály pro Google.

Důvodem je, že pokud Googlu řeknete, aby stránku neprolézal, a na této stránce máte noindex nofollow, nemusí se procházet, aby viděl značku noindex nofollow. To pak může být indexováno pomocí nějaké jiné metody (ať už odkazem, nebo co). Podrobnosti o tom, proč se to stane, jsou poněkud vágní, ale viděl jsem, že se to stane.


Stručně řečeno, podle mého názoru je nejlepším způsobem, jak zabránit indexování konkrétních adres URL, přidat na tyto stránky značku noindex nofollow . ujistěte se, že tyto adresy neblokujete také pomocí souboru robots.txt, protože může zabránit Googlu v správném zobrazení těchto značek. Pomocí nástroje Odstranit adresy URL z Googlu je můžete dočasně skrýt před výsledky vyhledávání, zatímco Google zpracovává vaši noindex nofollow.

1
woke zombie

Ano, problém se tím vyřeší. Chcete-li zabránit tomu, aby se obsah zobrazoval v indexech Googles, můžete použít buď soubor robots.txt nebo značku metadat HTML

<meta name="robots" content="noindex, nofollow" />

Při příštím indexování vašeho webu to způsobí, že váš obsah vypadne z indexu Google.

Můžete také zadat hodnotu noarchive - zablokuje se tím ukládání do mezipaměti vaší stránky. Toto je specifické pro Google:

<meta name="robots" content="noarchive" />

Pomocí nástroje pro odstranění v Nástrojích pro webmastery společnosti Google můžete požádat o velmi naléhavé odstranění vašeho obsahu. Nejprve byste měli zablokovat indexování obsahu (pomocí robots.txt nebo značky meta robotů).

Více informací:

1
mawtex