it-swarm-eu.dev

Importujte velký web pomocí analyzátoru Feeds XPath

Snažím se importovat obsah webových stránek s tisíci příspěvků pomocí Feeds a souvisejících nástrojů.
Obsah importuji přístupem na stránku, která obsahuje všechny odkazy.

Pokusil jsem se importovat obsah pomocí <h2>http://premiumtemplate.org/kaboodle-premium-business-wordpress-theme.html</h2> jako URL.

Níže uvádíme funkci, kterou používám:

Kontext: /
URL: //h:h2
název: //h:title
tělo: //*[@class="entry"]

Nevím, co se stane. Nic neimportuje a zobrazí se zpráva „Není nový obsah.“

6
ngamin

Zdroje jsou velmi výkonným modulem a jsou mnohem více než jen základní agregátor RSS. Mnoho lidí začíná využívat Feeds jako nástroj pro migraci a Feeds XPath Parser se objevuje jako populární způsob importu statických HTML dokumentů. Nastavil jsem rychlý analyzátor pro import této stránky, takže doufejme, že vám tento příklad pomůže s tím, co se snažíte udělat.

Nejprve je důležité povolit možnosti ladění při použití analyzátoru Feeds XPath. To vám ukáže, jaký text odpovídal vašim různým dotazům.

debug options

Za druhé, obrázek níže ukazuje dotazy na kontextu a XPath, které jsem použil k importu této stránky. Výsledkem je, že táhne značku nadpisu HTML spolu s obsahem pod elementem obsahujícím třídu „otázka-stránka“.

settings

Pokud hledáte prvky záhlaví, myslím, že budete muset ve svém dotazu XPath explicitně použít „h1“, „h2“ atd., Ale nejsem si tím jistý. Nevýhodou tohoto přístupu je, že budete muset mít zdrojový uzel pro každou stránku, kterou importujete, nebo budete muset najít způsob dávkového odeslání formuláře importu buď programově, nebo pomocí nějakého automatizovaného nástroje, jako je Selenium, JMeter, Firefox. Makro atd.

6
Chris Pliakas

Je obtížné dát dobrou odpověď s omezenými informacemi, které jste poskytli.

Zdroje se obvykle používají k importu z kanálu (RSS), nikoli ze samostatné stránky. Pravděpodobně máte instalační kanály takovým způsobem, že očekává, že najdou zdroj a ne obyčejnou stránku HTML.

0
googletorp