Sitemap

このコラムで紹介するコンテンツ生成テクノロジーとテクニックは、空想科学小説のように見えますが、現在は本物であり、自由にアクセスできます。

コーディング実験を完了してこの記事を書き始めた後、この情報を公に共有することのプラスとマイナスの影響について考えました。

ご覧のとおり、マシン生成コンテンツの作成は比較的簡単になり、世代の品質は急速に向上しています。

これにより、以前よりもはるかに多くのスパム結果が発生するという悲しい結論に至りました。

幸いなことに、Googleは最近2019年のスパムレポートをリリースしました。

あなたの電子メールスパムフォルダを見たことがありますか?これが、検索スパムと戦うための手順なしで検索結果がどのように見えるかを示しています。今日の私たちの投稿は、Googleの検索結果からスパムを排除するためにどのように機能するかを見ていきますhttps://t.co/RA4lUoDXEF

— Google SearchLiaison(@searchliaison)2020年6月9日

「昨年、私たちが毎日見つけた250億以上のページがスパムであることがわかりました。 (これらの各ページが本のページである場合、それは毎日2,000万部以上の「戦争と平和」になります!)。

私たちの努力は、私たちの結果からの訪問の99%以上がスパムのない体験につながることを確実にするのに役立ちました。

過去数年間で、偽のボタン、圧倒的な広告、疑わしいリダイレクト、マルウェアなど、検索者を苛立たせたり害を与えたりする動作を伴う自動生成およびスクレイピングされたコンテンツを含むスパムサイトの増加を観察しました。これらのウェブサイトはしばしば欺瞞的であり、人々に本当の価値を提供しません。2019年には、このタイプのスパムによる検索ユーザーへの影響を2018年と比較して60%以上削減することができました。」

Googleは1日あたり驚異的な数のスパムページを報告していますが、全面的にスパムを抑制するのに99%という印象的な成功率を報告しています。

さらに重要なことに、彼らはマシンで生成されたスパムコンテンツの抑制において驚くべき進歩を遂げています。

このコラムでは、コンピューターがNLGの最新の進歩を使用してコンテンツを生成する方法をコードで説明します。

私はあなたのコンテンツを有用に保つために理論といくつかのガイドラインを調べます。

これにより、GoogleとBingが24時間体制で駆除するすべてのWebスパムに巻き込まれるのを防ぐことができます。

薄いコンテンツページ

タイトルとメタディスクリプションの生成に関する私の記事では、ページコンテンツを要約してメタタグを生成することに依存する効果的な手法を共有しました。

手順を実行すると、それが非常にうまく機能し、高品質で斬新なテキストを作成できることがわかります。

しかし、ページに要約するコンテンツが含まれていない場合はどうなりますか?テクニックは失敗します。

これを解決するための非常に巧妙なトリックをお話ししましょう。

そのようなページに高品質の被リンクがある場合は、アンカーテキストと被リンクを囲むテキストを要約するテキストとして使用できます。

待って!

しかし、なぜ?

1998年、Google検索エンジンの創設までさかのぼります。

彼らの新しい検索エンジンを説明する論文で、PageとBrinはセクション2.2で非常に興味深い洞察を共有しました。

「ほとんどの検索エンジンは、リンクのテキストをリンクが表示されているページに関連付けます。さらに、リンクが指すページに関連付けます。これにはいくつかの利点があります。まず、アンカーは多くの場合、ページ自体よりもWebページのより正確な説明を提供します。第2に、画像、プログラム、データベースなど、テキストベースの検索エンジンでインデックスを作成できないドキュメントのアンカーが存在する場合があります。これにより、実際にクロールされていないWebページを返すことが可能になります。」

技術計画は次のとおりです。

  1. 新しいBingWebmasterToolsを使用して、バックリンクと対応するアンカーテキストを取得します。
  2. 最高品質の被リンクから周囲のテキストを削り取ります。
  3. 削り取ったテキストを使用して、要約と長い形式のコンテンツを作成します。

BingWebマスターツールのバックリンクレポート

BWTの新しい被リンクツールで私が気に入っている機能の1つは、自分のサイトだけでなく、他のいくつかのサイトを指すリンクも提供できることです。

私はこれが有料ツールの人気のある無料の代替品になることを期待しています。

リンクとアンカーの大きなリストを含むCSVファイルをエクスポートしましたが、Pythonパンダを使用してロードしようとすると、フォーマットの問題がいくつか見つかりました。

ランダムアンカーテキストにはコンマが含まれている可能性があり、コンマ区切りファイルで問題が発生する可能性があります。

ファイルをExcelで開き、Excel形式で保存することで解決しました。

Pythonで周囲のテキストをスクレイピングする

上のスクリーンショットでわかるように、アンカーテキストの多くはかなり短いです。

ページをスクレイプして、それらを含む段落を取得できます。

まず、BWTからエクスポートしたレポートをロードしましょう。

import pandas as pddf = pd.read_excel("www.domain.com_ReferringPages_6_7_2020.xlsx")df.head()

を使用したインバウンドリンクの数でターゲットURLを確認しました。

df.groupby("Target Url").count().tail()

このコードを使用してアイデアを評価するために、ページの1つからバックリンクを取得しました。

backlinks = set(df[df["Target Url"] == "https://domain.com/example-page"]["Source Url"])

次に、ターゲットURLとバックリンクを使用して、アンカーを含む関連するアンカーテキストをプルする方法を見てみましょう。

バックリンクからのテキストの取得

まず、requests-htmlをインストールしましょう。

!pip install requests-htmlfrom requests_html import HTMLSessionsession = HTMLSession()

コードを単純にするために、リンクを囲むテキストを取得するCSSセレクターを手動で作成します。

JavaScriptまたはPythonコードを使用してページ上のリンクとアンカーを指定すると、これを計算することは難しくありません。

多分それはあなたが宿題として試すのに良い考えです。

サンプルのバックリンクページを開き、Chromeデベロッパーツールを使用して、目的の段落を右クリックし、CSSセレクターをコピーできます。

これは私が使用したセレクターです。

with session.get(url) as r:    selector="#entry-78782 > div.asset-content.entry-content > div > p:nth-child(5)"    paragraph = r.html.find(selector, first=True)    text = paragraph.text

これが戻ってきたテキストです。例のアンカーテキストのテキストを太字にしました。

教師の定着率は生徒の成績を改善し、逆に、教師の離職は生徒の成績に悪影響を与える可能性があることを私たちは知っています。毎年約16%の教育者がこの分野を離れており、私のような多くの教師が最初の5年以内に離れることを知っています。教師は、彼らが去る最大の理由は、文化、特に規律の問題に加えて、自律性と声の欠如であると報告しています。さらに、売上高にはコストがかかり、地区を年間22億ドル以上不足させます。

それでは、楽しい部分に取り掛かりましょう。

ニューラルテキスト生成

前回の記事でタイトルとメタディスクリプションを生成するために使用したのと同じ要約コードを使用しますが、ひねりを加えています。

元の段落よりも短い望ましい要約の長さを指定する代わりに、より長い長さを指定します。それは機能しますか?どれどれ!

!pip install transformersfrom transformers import pipelinesummarizer = pipeline('summarization')generated_text = summarizer(text, min_length=150, max_length=250)print(generated_text)

この興味深い警告が表示されます。

max_lengthは250に設定されていますが、input_lengthは99のみです。max_lengthを手動で減らすことを検討してください。サマリー(‘…’、max_length = 50)

生成されたテキストを見てみましょう。

[{'summary_text': "Around 16 percent of educators leave the field every year. Teachers report that the biggest reasons they leave are lack of autonomy and voice, alongside issues of culture and discipline. Turnover is costly, shorting districts upwards of $2.2 billion a year, according to a report by the National Council of Teachers of English, the nation's largest teacher organization. The report also found that teacher retention improves outcomes for students, and conversely, that teacher turnover can harm student achievement. The study was published in the Journal of Education, published by Simon & Schuster, a division of Penguin Random House, on November 14. For more, visit www.simonandschuster.com. For confidential support, call the National Suicide Prevention Lifeline at 1-800-273-8255 or visit http://www.suicidepreventionlifeline.org/."}]

元のテキストは492文字で、生成されたテキストは835でした。

しかし、生成されたテキストに現れる品質と斬新な文章を見てください。絶対に、驚異的です!

この手法でさらに長いテキストを生成できますか?はい!

generated_text = summarizer(text, min_length=300, max_length=600)print(generated_text)[{'summary_text': "Around 16 percent of educators leave the field every year. Teachers report that the biggest reasons they leave are lack of autonomy and voice, alongside issues of culture and discipline. Turnover is costly, shorting districts upwards of $2.2 billion a year, according to a report by the National Council of Teachers of English, the nation's largest teacher organization. The report also found that teacher retention improves outcomes for students, and conversely, that teacher turnover can harm student achievement. The study was published in the Journal of Education, published by Simon & Schuster, a division of Penguin Random House, on November 14. For more, visit www.simonandschuster.com. For confidential support, call the National Suicide Prevention Lifeline at 1-800-273-8255 or visitxa0http://www.suicidepreventionlifeline.org/. For support in the U.S., call the Samaritans on 08457 90 90 90 or visit a local Samaritans branch, see www.samaritans.org for details. In the UK, contact the National College of Education on 0300 123 90 90, orxa0 visitxa0the Samaritansxa0in the UK. For help in the United States, callxa0thexa0National Suicide Prevention Line on 1xa0800xa0273xa08255,xa0orxa0inxa0the UK on 0800xa0123xa09255. For support on suicide matters in thexa0U.S. call thexa0Nationalxa0Collegexa0of Education,xa0Englandxa0on 08457xa090 90 90. For information on suicide prevention in the UK andxa0Europe, visit the Nationalxa0College of England and Wales."}]

この生成されたテキストは1,420文字で、論理フローを維持します。

このテクニックを動かす獣は​​、BARTと呼ばれるFacebookのモデルです。

論文の著者は、それをBERTの一般化された形式として説明しています。

これがどのように機能するか見てみましょう。

ニューラルテキスト生成のしくみ

一連の数字が表示され、次の数字を推測する必要がある適性またはIQテストを受けましたか?

本質的に、それは私たちが最初のテキストを提供し、次に何が起こるかを予測するようにモデルに依頼したときに私たちのモデルが上でしたことです。

それは私たちの最初のテキストを数字のシーケンスに変え、次の数字を推測し、推測された数字を含む新しいシーケンスを取り、同じプロセスをもう一度繰り返しました。

これは、指定した長さの制限に達するまで続きます。

現在、これらは単なるハミング数ではなく、ベクトル、より具体的には(BERTおよびBARTの場合)双方向の単語埋め込みです。

ディープラーニングの記事パート1とパート2で、GPSアナロジーを使用してベクトルと双方向の単語の埋め込みについて説明しました。ぜひチェックしてみてください。

要約すると、埋め込みは、それらが表す単語に関する豊富な情報をエンコードし、予測の品質を劇的に向上させます。

それで、これがどのように機能するかの一例です。

「反復的なタスクを実行するSEOに最適なプログラミング言語は____であり、フロントエンド監査を実行するSEOには____です」というテキストが与えられた場合、モデルに文を完成させるように依頼します。

最初のステップは、単語を数字/埋め込みに変換することです。各埋め込みは、コンテキスト内の単語を識別します。

次に、これをパズルに変えて、状況に応じて空白を埋めることができる数字/埋め込みを理解するためにコンピューターが解くことができます。

これらのタイプのパズルを解くことができるアルゴリズムは、言語モデルと呼ばれます。

言語モデルは、英語やその他の言語の文法規則に似ています。

たとえば、テキストが質問の場合、疑問符で終わる必要があります。

違いは、すべての単語と記号が数字/埋め込みで表されることです。

ここで興味深いのは、ディープラーニング(ここで使用しているもの)では、文法規則の大きなリストを手動で作成する必要がないことです。

モデルは、効率的な試行錯誤を通じて経験的にルールを学習します。

これは、モデルが数日間、非常に強力なハードウェアを使用して大量のデータのコーパスに対してトレーニングされる、いわゆる事前トレーニングフェーズ中に行われます。

私たちにとって最良の部分は、これらの努力の結果が誰でも無料で使用できるようになることです。

私たちは本当に幸運ではありませんか?

BERTは言語モデルの例であり、GPT-2とBARTも同様です。

これを永久に使用する方法

上で述べたように、このようなものは本当に強力であり、役に立たないコンテンツを比較的安価に大規模に解約するために使用できます。

個人的には、検索中にゴミを捨てる時間を無駄にしたくありません。

時間の経過とともに、コンテンツを検索で実行するには、次のことが必要であることに気付きました。

  • 役に立つ。
  • 本当のニーズを満たします。

そうでない場合は、コンピューターで作成されたものであれ、人間が作成したものであれ、エンドユーザーからの関与や検証は行われません。

ランク付けとパフォーマンスの可能性は非常に低いです。

これが、要約や翻訳、質問/回答など、世代をより細かく制御できる手法を好む理由です。

彼らはあなたが新しい価値を追加していることを確認するのに役立ちます。

コミュニティプロジェクトと学習リソース

コミュニティのより多くの人々が楽しみに参加できるように、この記事のコードと説明をできるだけシンプルに保つようにしました。

しかし、あなたがより技術的に傾いているなら、私はあなたがこのトピックのよりきめ細かく数学的な説明を楽しむだろうと思います。

上記のリンクされた記事の「参考資料」のリンクも必ずたどってください。

さて、いくつかのエキサイティングなニュースに。

私はコミュニティに彼らが取り組んでいるPythonプロジェクトを共有するように頼みました。たぶん一握りを期待していたのですが、何人戻ってきたかにすっかり驚かされました。 #DONTWAIT🐍🔥

これはPythonとJSですが、とにかく公開します。Googleマップでスパムを無効にするためのChrome拡張機能。サーバーコードはPythonであり、アドレスの検証と分類を行います。 pic.twitter.com/Rvzfr5ku4N

— zchtodd(@zchtodd)2020年6月8日

1.1。https://t.co/zyaafY0bcdを取得する繰り返しのスクリーンショットを自動化するPythonのRPA
2.2。コンソールAPI+NLPを検索して、メタタイトルの単語が訪問者が使用するクエリと一致しないページを確認します:https://t.co/KsYGds7w1r

— Michael Van Den Reym(@vdrweb)2020年6月8日

3.3。検索コンソールAPIhttps://t.co/qX0FxSoqgNを使用して、検索コンソールのインプレッションですべてのURLのステータスコードを確認します

— Michael Van Den Reym(@vdrweb)2020年6月8日

こんにちはハムレット!

あいまい一致機能を備えたリダイレクトチェッカーに取り組んでいます。

@GoogleColabノートブックがありますが、理想的には@streamlitにもデプロイして、ドラッグアンドドロップでワンクリックでリダイレクトの品質を評価できるようにしたいと思います。

すぐに共有します🙂

— Charly Wargnier(@DataChaz)2020年6月9日

@hamletbatista https://t.co/oPt5M393Lu
@streamlitを使用してこれに取り組みました
より説得力のあるメタタイトルを書いてください。
解説動画:https://t.co/YvVoFMQ4FS

— Anubhav Bittoo Narula(@ anubhavn22)2020年6月9日

Scrapear redes sociales y pasarlo por npl o Red Neuronal para sabre el sendimiento delescritoydeahísacargráficascondatastudiookibana(perdonaquerespondaenespañolperomiinglésesbastantemejorable)

—JaviLázaro(@JaviLazaroSEO)2020年6月8日

1.1。ログファイルを読み取り、5xx / 4xxをリアルタイムで投稿してたるみます!
2.2。キーワードの意図とURLの一致スコア。

— Venus Kalra(@venuskalra)2020年6月9日

https://t.co/9we85HXJgJ

— Marat Gaziev(@MaratGaziev)2020年6月9日

私は#SEOとオンラインマーケターのためのパッケージを構築しています。
- 昇降補助具
–robots.txtテスター
–SERPチェッカー
–サイトマップからDataFrameへのコンバータ
–DataFrameコンバータへのURL

その他🙂https://t.co/BMVeeQaTxE

—エリアス・ダバス(@eliasdabbas)2020年6月9日

Beautiful Soup + Knowledge box API + Cloud Entity APIを使用したコンテンツ分析!🐍🐍🐍

—ジェスだが6フィート離れている(@jessthebp)2020年6月8日

その他のリソース:


画像クレジット

著者が撮影したすべてのスクリーンショット、2020年6月

すべてのカテゴリ: ブログ