Sitemap

Technologie a techniky generování obsahu, které v tomto sloupci ukážu, by vypadaly jako ze sci-fi románu, ale nyní jsou skutečné a volně přístupné.

Poté, co jsem dokončil experimenty s kódováním a začal psát tento článek, přemýšlel jsem o pozitivních a negativních důsledcích veřejného sdílení těchto informací.

Jak uvidíte, je nyní relativně snadné vytvářet strojově generovaný obsah a kvalita generací se rychle zlepšuje.

To mě vedlo ke smutnému závěru, že uvidíme mnohem více spamových výsledků než dříve.

Naštěstí Google nedávno vydal svou zprávu o spamu za rok 2019, která mě uklidnila.

Podívali jste se někdy do složky se spamem?Takto mohou vypadat výsledky vyhledávání bez kroků, které podnikáme v boji proti spamu ve vyhledávání.Náš dnešní příspěvek se zabývá tím, jak pracujeme na tom, aby se spam nedostal do výsledků vyhledávání Google https://t.co/RA4lUoDXEF

— Google SearchLiaison (@searchliaison) 9. června 2020

„Minulý rok jsme zjistili, že více než 25 miliard stránek, které každý den najdeme, je spamových. (Pokud by každá z těchto stránek byla stránkou v knize, bylo by to více než 20 milionů výtisků „War & Peace“ každý den!)

Naše úsilí pomohlo zajistit, že více než 99 % návštěv z našich výsledků vede k zážitkům bez spamu.

V posledních několika letech jsme zaznamenali nárůst spamových webů s automaticky generovaným a zkopírovaným obsahem s chováním, které obtěžuje nebo poškozuje hledající, jako jsou falešná tlačítka, ohromující reklamy, podezřelá přesměrování a malware.Tyto webové stránky jsou často klamavé a nenabízejí lidem žádnou skutečnou hodnotu.V roce 2019 se nám podařilo snížit dopad tohoto typu spamu na uživatele Vyhledávání o více než 60 % ve srovnání s rokem 2018.“

Zatímco Google hlásí ohromující počet spamových stránek za den, hlásí působivou 99% úspěšnost plošného potlačení spamu.

Ještě důležitější je, že udělali neuvěřitelný pokrok v potlačování strojově generovaného spamu.

V tomto sloupci vysvětlím pomocí kódu, jak je počítač schopen generovat obsah pomocí nejnovějších pokroků v NLG.

Projdu si teorii a několik pokynů, aby byl váš obsah užitečný.

To vám pomůže vyhnout se zachycení veškerého webového spamu, na kterém Google a Bing nepřetržitě pracují, aby se ho zbavili.

Tenké stránky obsahu

Ve svém článku o generování názvu a meta popisu jsem sdílel účinnou techniku, která se opírá o shrnutí obsahu stránky za účelem vytvoření metaznaček.

Jakmile budete postupovat podle kroků, uvidíte, že to funguje opravdu dobře a může dokonce vytvářet vysoce kvalitní, neotřelé texty.

Ale co když stránky neobsahují žádný obsah, který by bylo možné shrnout?Technika selhává.

Řeknu vám velmi chytrý trik, jak to vyřešit.

Pokud mají takové stránky kvalitní zpětné odkazy, můžete jako text pro shrnutí použít kotevní text a text obklopující zpětný odkaz.

Počkejte!

Ale proč?

Dovolte mi vrátit se až do roku 1998, k založení vyhledávače Google.

V dokumentu popisujícím jejich nový vyhledávač se Page a Brin podělili o velmi zajímavý pohled v sekci 2.2.

„Většina vyhledávačů spojuje text odkazu se stránkou, na které se odkaz nachází. Navíc jej spojujeme se stránkou, na kterou odkaz ukazuje. To má několik výhod. Za prvé, kotvy často poskytují přesnější popisy webových stránek než samotné stránky. Za druhé, kotvy mohou existovat pro dokumenty, které nemohou být indexovány textovým vyhledávačem, jako jsou obrázky, programy a databáze. To umožňuje vrátit webové stránky, které ve skutečnosti nebyly procházeny.“

Zde je technický plán:

  1. Zpětné odkazy a odpovídající kotvící texty získáme pomocí nových Bing Webmaster Tools.
  2. Okolní text seškrábeme z nejkvalitnějších zpětných odkazů.
  3. Pomocí vyškrabaného textu vytvoříme souhrny a dlouhý obsah.

Zpráva o zpětných odkazech Nástrojů pro webmastery Bing

Jedna funkce, která se mi líbí v novém nástroji zpětných odkazů v BWT, je, že může poskytovat odkazy nejen na vaše vlastní stránky, ale také na některé další stránky.

Očekávám, že se to stane oblíbenou bezplatnou alternativou k placeným nástrojům.

Exportoval jsem soubor CSV s velkým seznamem odkazů a kotev, ale když jsem se jej pokusil načíst pomocí Python pandas, našel jsem řadu problémů s formátováním.

Náhodné kotvící texty mohou obsahovat čárky a způsobit problémy se souborem odděleným čárkami.

Vyřešil jsem je otevřením souboru v Excelu a jeho uložením ve formátu Excel.

Škrábání okolního textu pomocí Pythonu

Jak můžete vidět na mém snímku obrazovky výše, mnoho kotevních textů je docela krátkých.

Můžeme oškrábat stránky, abychom získali odstavec, který je obsahuje.

Nejprve načteme report, který jsme exportovali z BWT.

import pandas as pddf = pd.read_excel("www.domain.com_ReferringPages_6_7_2020.xlsx")df.head()

Zkontroloval jsem cílovou adresu URL podle počtu použitých příchozích odkazů.

df.groupby("Target Url").count().tail()

Vytáhl jsem zpětné odkazy z jedné ze stránek, abych vyhodnotil nápad pomocí tohoto kódu.

backlinks = set(df[df["Target Url"] == "https://domain.com/example-page"]["Source Url"])

Nyní se podívejme, jak můžeme pomocí cílové adresy URL a zpětného odkazu stáhnout relevantní text kotvy, který obsahuje kotvu.

Načítání textu ze zpětných odkazů

Nejprve si nainstalujme request-html.

!pip install requests-htmlfrom requests_html import HTMLSessionsession = HTMLSession()

Aby byl kód jednoduchý, ručně vytvořím selektor CSS, který uchopí text obklopující odkaz.

Není těžké to vypočítat vzhledem k odkazu a kotvě na stránce pomocí kódu JavaScript nebo Python.

Možná je to dobrý nápad, abyste to zkusili jako domácí úkol.

Otevřete ukázkovou stránku zpětného odkazu a pomocí nástrojů pro vývojáře Chrome můžete kliknout pravým tlačítkem na odstavec, který vás zajímá, a zkopírovat selektor CSS.

Toto je selektor, který jsem použil.

with session.get(url) as r:    selector="#entry-78782 > div.asset-content.entry-content > div > p:nth-child(5)"    paragraph = r.html.find(selector, first=True)    text = paragraph.text

Toto je text, který se vrátil.Text našeho příkladu kotvy jsem označil tučně.

Víme, že udržení učitelů zlepšuje výsledky studentů, a naopak, že fluktuace učitelů může poškodit výsledky studentů.Obor každoročně opouští kolem 16 procent pedagogů a víme, že mnoho učitelů, jako jsem já, odchází během prvních pěti let.Učitelé uvádějí, že největší důvody, proč odcházejí, je nedostatek autonomie a hlasu, spolu s otázkami kultury a zejména disciplíny.A co víc, obrat je nákladný – zkracuje okresy o více než 2,2 miliardy dolarů ročně.

Nyní pojďme k zábavnější části!

Generování neurálního textu

Použijeme stejný sumarizační kód, který jsme použili pro generování názvů a metapopisů v mém předchozím článku, ale s obratem.

Místo určení požadované délky souhrnu kratší než původní odstavec, zadáme delší délku.Bude to fungovat?Uvidíme!

!pip install transformersfrom transformers import pipelinesummarizer = pipeline('summarization')generated_text = summarizer(text, min_length=150, max_length=250)print(generated_text)

Dostávám toto zajímavé varování.

Vaše max_length je nastavena na 250, ale vaše input_length je pouze 99.Můžete zvážit ruční snížení max_length, např. sumarizátor(‘…’, max_length=50)

Podívejme se na vygenerovaný text.

[{'summary_text': "Around 16 percent of educators leave the field every year. Teachers report that the biggest reasons they leave are lack of autonomy and voice, alongside issues of culture and discipline. Turnover is costly, shorting districts upwards of $2.2 billion a year, according to a report by the National Council of Teachers of English, the nation's largest teacher organization. The report also found that teacher retention improves outcomes for students, and conversely, that teacher turnover can harm student achievement. The study was published in the Journal of Education, published by Simon & Schuster, a division of Penguin Random House, on November 14. For more, visit www.simonandschuster.com. For confidential support, call the National Suicide Prevention Lifeline at 1-800-273-8255 or visit http://www.suicidepreventionlifeline.org/."}]

Původní text měl 492 znaků a vygenerovaný text 835.

Ale podívejte se na kvalitu a neotřelé věty, které se objevují v generovaném textu.Absolutně, ohromující!

Dokáže tato technika vygenerovat ještě delší text?Ano!

generated_text = summarizer(text, min_length=300, max_length=600)print(generated_text)[{'summary_text': "Around 16 percent of educators leave the field every year. Teachers report that the biggest reasons they leave are lack of autonomy and voice, alongside issues of culture and discipline. Turnover is costly, shorting districts upwards of $2.2 billion a year, according to a report by the National Council of Teachers of English, the nation's largest teacher organization. The report also found that teacher retention improves outcomes for students, and conversely, that teacher turnover can harm student achievement. The study was published in the Journal of Education, published by Simon & Schuster, a division of Penguin Random House, on November 14. For more, visit www.simonandschuster.com. For confidential support, call the National Suicide Prevention Lifeline at 1-800-273-8255 or visitxa0http://www.suicidepreventionlifeline.org/. For support in the U.S., call the Samaritans on 08457 90 90 90 or visit a local Samaritans branch, see www.samaritans.org for details. In the UK, contact the National College of Education on 0300 123 90 90, orxa0 visitxa0the Samaritansxa0in the UK. For help in the United States, callxa0thexa0National Suicide Prevention Line on 1xa0800xa0273xa08255,xa0orxa0inxa0the UK on 0800xa0123xa09255. For support on suicide matters in thexa0U.S. call thexa0Nationalxa0Collegexa0of Education,xa0Englandxa0on 08457xa090 90 90. For information on suicide prevention in the UK andxa0Europe, visit the Nationalxa0College of England and Wales."}]

Tento vygenerovaný text má 1 420 znaků a zachovává logický tok!

Bestií pohánějící tuto techniku ​​je model z Facebooku s názvem BART.

Autoři článku jej popisují jako zobecněnou formu BERT.

Podívejme se, jak to funguje.

Jak funguje generování neurálního textu

Absolvovali jste testy schopností nebo IQ, kde se vám zobrazí posloupnost čísel a potřebujete uhodnout další?

V podstatě to udělal náš model výše, když jsme poskytli nějaký počáteční text a požádali naše modely, aby předpověděly, co bude dál.

Proměnil náš původní text na posloupnost čísel, uhodl další číslo a vzal novou posloupnost, která obsahuje uhádnuté číslo, a opakoval stejný proces znovu.

Toto pokračuje, dokud nenarazí na námi zadaný limit délky.

Nyní to nejsou jen běžná čísla, ale vektorová a konkrétněji (v případě BERT a BART) obousměrná vkládání slov.

Vysvětlil jsem vektory a obousměrné vkládání slov pomocí analogie GPS ve svých článcích pro hluboké učení část 1 a část 2.Nezapomeňte je zkontrolovat.

Stručně řečeno, vložení kóduje bohaté informace o slovech, která představují, což dramaticky zvyšuje kvalitu předpovědí.

Zde je jeden příklad, jak to funguje.

Vzhledem k textu: „Nejlepší programovací jazyk pro SEO provádějící opakující se úkoly je ____ a pro SEO provádějící front-end audity ____“, požádáme model, aby větu dokončil.

Prvním krokem je převést slova na čísla/vložení, kde každé vložení identifikuje slovo v kontextu.

Pak to přeměňte na hádanku, kterou může počítač vyřešit, aby zjistil čísla/vložení, která mohou vyplnit prázdná místa v daném kontextu.

Algoritmus, který dokáže vyřešit tyto typy hádanek, se nazývá jazykový model.

Jazykový model je podobný gramatickým pravidlům v angličtině nebo jiném jazyce.

Pokud je například text otázkou, musí končit otazníkem.

Rozdíl je v tom, že všechna slova a symboly jsou reprezentovány čísly/vloženími.

Nyní je zajímavé, že v hlubokém učení (co zde používáme) nemusíte ručně vytvářet velký seznam gramatických pravidel.

Model se učí pravidla empiricky prostřednictvím efektivního pokusu a omylu.

To se provádí během takzvané předtréninkové fáze, kdy jsou modely trénovány na masivním korpusu dat po několik dní a za použití velmi výkonného hardwaru.

Nejlepší na tom pro nás je, že výsledky tohoto úsilí jsou k dispozici zdarma pro každého.

Nemáme opravdu štěstí?

BERT je příkladem jazykového modelu, stejně jako GPT-2 a BART.

Jak to dobře využít

Jak jsem zmínil výše, tato věc je opravdu výkonná a mohla by být použita k chrlení zbytečného obsahu ve velkém měřítku relativně levně.

Osobně bych při hledání nechtěl ztrácet čas broděním se v odpadcích.

Postupem času jsem si uvědomil, že má-li obsah fungovat ve vyhledávání, musí:

  • Být užitečný.
  • Uspokojit skutečnou potřebu.

Pokud tomu tak není, bez ohledu na to, zda je vyroben na počítači nebo člověkem, nezíská žádné zapojení ani ověření od koncových uživatelů.

Šance na umístění a výkon jsou opravdu nízké.

To je důvod, proč preferuji techniky, jako je sumarizace a překlad nebo otázka/odpověď, kde máte nad generací větší kontrolu.

Mohou vám pomoci ujistit se, že přidáváte novou hodnotu.

Komunitní projekty a vzdělávací zdroje

Snažil jsem se, aby tento článek byl jednoduchý v kódu a jeho vysvětlení byla co nejjednodušší, aby se do zábavy mohlo zapojit více lidí v komunitě.

Ale pokud jste více technicky nakloněni, myslím, že se vám bude líbit toto podrobnější a matematické vysvětlení tématu.

Nezapomeňte také sledovat odkazy v části „Další čtení“ v odkazovaném článku výše.

A teď pár vzrušujících novinek.

Požádal jsem komunitu, aby sdílela projekty Pythonu, na kterých pracují.Čekal jsem možná hrstku a byl jsem úplně unesen, kolik se mi vrátilo. #ČEKEJTE 🐍🔥

Tohle je Python a JS, ale stejně to tam dám!Rozšíření pro Chrome pro odstranění spamu v Mapách Google.Kód serveru je v Pythonu a provádí ověření a klasifikaci adres. pic.twitter.com/Rvzfr5ku4N

— zchtodd (@zchtodd) 8. června 2020

1.RPA v pythonu pro automatizaci opakovaného pořizování snímků obrazovky https://t.co/zyaafY0bcd
2.Search Console API + NLP pro kontrolu stránek, kde slovo v metanázvu neodpovídá dotazům používaným návštěvníky: https://t.co/KsYGds7w1r

— Michael Van Den Reym (@vdrweb) 8. června 2020

3.Zkontrolujte stavový kód všech adres URL se zobrazeními ve vyhledávací konzoli pomocí rozhraní API vyhledávací konzole https://t.co/qX0FxSoqgN

— Michael Van Den Reym (@vdrweb) 8. června 2020

Ahoj Hamlete!

Pracuji na kontrole přesměrování s funkcemi fuzzy-matchingu.

Bude k dispozici zápisník @GoogleColab, ale v ideálním případě bych také chtěl nasadit v @streamlit, aby lidé mohli posoudit kvalitu svých přesměrování jedním kliknutím přetažením.

Brzy se podělím 🙂

— Charly Wargnier (@DataChaz) 9. června 2020

@hamletbatista https://t.co/oPt5M393Lu
Pracovalo se na tom pomocí @streamlit
Pište působivější meta titulky.
Vysvětlující video: https://t.co/YvVoFMQ4FS

— Anubhav Bittoo Narula (@anubhavn22) 9. června 2020

Scrapear redes sociales y pasarlo por npl o Red neuronal para saber el sentimiento del escrito y de ahí sacar gráficas con datastudio o kibana (perdona que responda en español pero mi inglés es bastante mejorable)

— JaviLázaro (@JaviLazaroSEO) 8. června 2020

1.Čtení souborů protokolů a odesílání 5xx/4xx v reálném čase na volno!
2.Záměr klíčového slova vs. skóre shody adresy URL.

— Venus Kalra (@venuskalra) 9. června 2020

https://t.co/9we85HXJgJ

— Marat Gaziev (@MaratGaziev) 9. června 2020

Vytvářím balíček pro #SEO a online marketéry, který mimo jiné obsahuje:
– Crawler
– tester souborů robots.txt
– Kontrola SERP
– Převaděč Sitemap na DataFrame
– Převaděč URL na DataFrame

a další 🙂 https://t.co/BMVeeQaTxE

— Elias Dabbas (@eliasdabbas) 9. června 2020

Nějaká analýza obsahu s Beautiful Soup + Knowledge box API + Cloud Entity API!🐍🐍🐍

— Jess, ale 6 stop daleko (@jessthebp) 8. června 2020

Další zdroje:


Obrazové kredity

Všechny snímky pořízené autorem, červen 2020

Všechny kategorie: Blog