Sitemap

Bu sütunda göstereceğim içerik üretme teknolojisi ve teknikleri bir bilim kurgu romanından çıkmış gibi görünebilir, ancak bunlar artık gerçek ve serbestçe erişilebilir.

Kodlama deneylerini tamamlayıp bu parçayı yazmaya başladıktan sonra bu bilgiyi herkese açık olarak paylaşmanın olumlu ve olumsuz etkilerini düşündüm.

Göreceğiniz gibi, artık makine yapımı içerik üretmek nispeten kolay ve nesillerin kalitesi hızla artıyor.

Bu beni, eskisinden çok daha fazla spam içerikli sonuç göreceğimize dair üzücü bir sonuca götürdü.

Neyse ki, Google kısa süre önce beni rahatlatan 2019 spam raporunu yayınladı.

E-posta spam klasörünüze hiç baktınız mı?Arama spam'iyle mücadele etmek için attığımız adımlar olmadan arama sonuçları böyle görünebilir.Bugünkü yayınımız, spam'i Google'ın arama sonuçlarından uzak tutmak için nasıl çalıştığımıza bakıyor https://t.co/RA4lUoDXEF

— Google SearchLiaison (@searchliaison) 9 Haziran 2020

“Geçen yıl, her gün bulduğumuz 25 milyardan fazla sayfanın spam içerikli olduğunu gözlemledik. (Bu sayfaların her biri bir kitapta bir sayfa olsaydı, her gün 20 milyondan fazla “Savaş ve Barış” kopyası olurdu!)

Çabalarımız, sonuçlarımızdan gelen ziyaretlerin %99'undan fazlasının spam içermeyen deneyimlerle sonuçlanmasını sağlamaya yardımcı oldu.

Son birkaç yılda, sahte düğmeler, ezici reklamlar, şüpheli yönlendirmeler ve kötü amaçlı yazılımlar gibi arama yapanları rahatsız eden veya onlara zarar veren davranışlarla otomatik olarak oluşturulan ve kazınmış içeriğe sahip spam içerikli sitelerde bir artış gözlemledik.Bu web siteleri genellikle aldatıcıdır ve insanlara gerçek bir değer sunmaz.2019'da, bu tür spam'lerin Arama kullanıcıları üzerindeki etkisini 2018'e kıyasla %60'tan fazla azaltmayı başardık."

Google, her gün şaşırtıcı sayıda spam sayfası rapor ederken, spam'i bastırmada %99 gibi etkileyici bir başarı oranı rapor ediyor.

Daha da önemlisi, makine tarafından oluşturulan spam içeriğini bastırmada inanılmaz ilerleme kaydediyorlar.

Bu sütunda, bir bilgisayarın NLG'deki en son gelişmeleri kullanarak nasıl içerik üretebileceğini kodlarla açıklayacağım.

İçeriğinizi faydalı tutmak için teoriyi ve bazı yönergeleri gözden geçireceğim.

Bu, Google ve Bing'in günün her saatinde kurtulmak için çalıştığı tüm web spam'lerine yakalanmaktan kaçınmanıza yardımcı olacaktır.

İnce İçerik Sayfaları

Başlık ve meta açıklama oluşturma hakkındaki makalemde, meta etiketler üretmek için sayfa içeriğini özetlemeye dayanan etkili bir teknik paylaştım.

Adımları takip ettiğinizde, gerçekten iyi çalıştığını ve hatta yüksek kaliteli, yeni metinler üretebildiğini görebilirsiniz.

Peki ya sayfalar özetlenecek herhangi bir içerik içermiyorsa?Teknik başarısız olur.

Bunu çözmek için size çok zekice bir numara söyleyeyim.

Bu tür sayfaların kaliteli geri bağlantıları varsa, özetlemek için metin olarak bağlantı metnini ve geri bağlantıyı çevreleyen metni kullanabilirsiniz.

Beklemek!

Ama neden?

Google arama motorunun kuruluşuna, 1998 yılına kadar geri dönmeme izin verin.

Yeni arama motorlarını anlatan makalede Page ve Brin, bölüm 2.2'de çok ilginç bir fikir paylaştı.

“Çoğu arama motoru, bir bağlantının metnini bağlantının bulunduğu sayfayla ilişkilendirir. Ayrıca, onu bağlantının işaret ettiği sayfayla ilişkilendiririz. Bunun birkaç avantajı vardır. İlk olarak, çapalar genellikle web sayfalarının kendilerinden daha doğru tanımlarını sağlar. İkinci olarak, resimler, programlar ve veritabanları gibi metin tabanlı bir arama motoru tarafından indekslenemeyen belgeler için bağlantı noktaları bulunabilir. Bu, aslında taranmamış web sayfalarını döndürmeyi mümkün kılar.”

İşte teknik plan:

  1. Yeni Bing Web Yöneticisi Araçlarını kullanarak geri bağlantıları ve ilgili bağlantı metinlerini alacağız.
  2. Çevreleyen metni en kaliteli geri bağlantılardan sıyıracağız.
  3. Kazınmış metni kullanarak özetler ve uzun biçimli içerik oluşturacağız.

Bing Web Yöneticisi Araçları Geri Bağlantı Raporu

BWT'deki yeni geri bağlantı aracında sevdiğim bir özellik, sadece kendi sitenizi değil, diğer bazı siteleri de işaret eden bağlantılar sağlayabilmesidir.

Bunun ücretli araçlara popüler bir ücretsiz alternatif olmasını bekliyorum.

CSV dosyasını büyük bağlantı ve bağlantı listesiyle dışa aktardım, ancak Python pandalarını kullanarak yüklemeye çalıştığımda ve bir dizi biçimlendirme sorunu buldum.

Rastgele bağlantı metinleri virgül içerebilir ve virgülle ayrılmış bir dosyada sorunlara neden olabilir.

Dosyayı Excel'de açıp Excel formatında kaydederek çözdüm.

Python ile Çevreleyen Metni Kazıma

Yukarıdaki ekran görüntüsünde görebileceğiniz gibi, bağlantı metinlerinin çoğu oldukça kısa.

Onları içeren paragrafı almak için sayfaları kazıyabiliriz.

Öncelikle BWT'den dışa aktardığımız raporu yükleyelim.

import pandas as pddf = pd.read_excel("www.domain.com_ReferringPages_6_7_2020.xlsx")df.head()

Hedef URL'yi kullanarak gelen bağlantıların sayısına göre inceledim.

df.groupby("Target Url").count().tail()

Bu kodu kullanarak fikri değerlendirmek için sayfalardan birinden geri bağlantıları çektim.

backlinks = set(df[df["Target Url"] == "https://domain.com/example-page"]["Source Url"])

Şimdi, çapa içeren ilgili bağlantı metnini çekmek için bir hedef URL'yi ve bir geri bağlantıyı nasıl kullanabileceğimizi görelim.

Geri Bağlantılardan Metin Alma

İlk önce request-html'yi yükleyelim.

!pip install requests-htmlfrom requests_html import HTMLSessionsession = HTMLSession()

Kodu basit tutmak için, bağlantıyı çevreleyen metni almak için manuel olarak bir CSS seçici oluşturacağım.

JavaScript veya Python kodunu kullanarak sayfadaki bağlantı ve bağlantı verildiğinde bunu hesaplamak zor değildir.

Belki de bu, ev ödevi olarak denemen için iyi bir fikirdir.

Örnek bir geri bağlantı sayfası açın ve Chrome Geliştirici Araçlarını kullanarak ilgilendiğiniz paragrafa sağ tıklayıp bir CSS seçici kopyalayabilirsiniz.

Bu benim kullandığım seçici.

with session.get(url) as r:    selector="#entry-78782 > div.asset-content.entry-content > div > p:nth-child(5)"    paragraph = r.html.find(selector, first=True)    text = paragraph.text

Geri gelen metin bu.Örnek bağlantı metnimizin metnini kalınlaştırdım.

Öğretmeni elde tutmanın öğrenciler için sonuçları iyileştirdiğini ve tersine öğretmen değişiminin öğrenci başarısına zarar verebileceğini biliyoruz.Eğitimcilerin yaklaşık yüzde 16'sı her yıl alanı terk ediyor ve benim gibi birçok öğretmenin ilk beş yıl içinde ayrıldığını biliyoruz.Öğretmenler, ayrılmalarının en büyük nedenlerinin kültür ve özellikle disiplin sorunlarının yanı sıra özerklik ve ses eksikliği olduğunu bildirmektedir.Dahası, ciro maliyetlidir - ilçeleri yılda 2,2 milyar dolardan fazla açığa çıkarmak.

Şimdi gelelim işin eğlenceli kısmına!

Sinirsel Metin Üretimi

Önceki makalemde başlıklar ve meta açıklamalar oluşturmak için kullandığımız aynı özetleme kodunu kullanacağız, ancak bir değişiklikle.

Orijinal paragraftan daha kısa istenen bir özet uzunluğu belirtmek yerine, daha uzun bir uzunluk belirteceğiz.Çalışacak mı?Bakalım!

!pip install transformersfrom transformers import pipelinesummarizer = pipeline('summarization')generated_text = summarizer(text, min_length=150, max_length=250)print(generated_text)

Bu ilginç uyarıyı alıyorum.

Maks_uzunluğunuz 250'ye ayarlanmıştır, ancak giriş_uzunluğunuz yalnızca 99'dur.Max_length değerini manuel olarak azaltmayı düşünebilirsiniz, ör. özetleyici('…', maksimum_uzunluk=50)

Oluşturulan metni görelim.

[{'summary_text': "Around 16 percent of educators leave the field every year. Teachers report that the biggest reasons they leave are lack of autonomy and voice, alongside issues of culture and discipline. Turnover is costly, shorting districts upwards of $2.2 billion a year, according to a report by the National Council of Teachers of English, the nation's largest teacher organization. The report also found that teacher retention improves outcomes for students, and conversely, that teacher turnover can harm student achievement. The study was published in the Journal of Education, published by Simon & Schuster, a division of Penguin Random House, on November 14. For more, visit www.simonandschuster.com. For confidential support, call the National Suicide Prevention Lifeline at 1-800-273-8255 or visit http://www.suicidepreventionlifeline.org/."}]

Orijinal metin 492 karaktere ve oluşturulan metin 835 karaktere sahipti.

Ancak, oluşturulan metinde görünen kaliteye ve yeni cümlelere bakın.Kesinlikle, akıllara durgunluk veren!

Bu teknik daha da uzun metinler üretebilir mi?Evet!

generated_text = summarizer(text, min_length=300, max_length=600)print(generated_text)[{'summary_text': "Around 16 percent of educators leave the field every year. Teachers report that the biggest reasons they leave are lack of autonomy and voice, alongside issues of culture and discipline. Turnover is costly, shorting districts upwards of $2.2 billion a year, according to a report by the National Council of Teachers of English, the nation's largest teacher organization. The report also found that teacher retention improves outcomes for students, and conversely, that teacher turnover can harm student achievement. The study was published in the Journal of Education, published by Simon & Schuster, a division of Penguin Random House, on November 14. For more, visit www.simonandschuster.com. For confidential support, call the National Suicide Prevention Lifeline at 1-800-273-8255 or visitxa0http://www.suicidepreventionlifeline.org/. For support in the U.S., call the Samaritans on 08457 90 90 90 or visit a local Samaritans branch, see www.samaritans.org for details. In the UK, contact the National College of Education on 0300 123 90 90, orxa0 visitxa0the Samaritansxa0in the UK. For help in the United States, callxa0thexa0National Suicide Prevention Line on 1xa0800xa0273xa08255,xa0orxa0inxa0the UK on 0800xa0123xa09255. For support on suicide matters in thexa0U.S. call thexa0Nationalxa0Collegexa0of Education,xa0Englandxa0on 08457xa090 90 90. For information on suicide prevention in the UK andxa0Europe, visit the Nationalxa0College of England and Wales."}]

Bu oluşturulan metin 1.420 karaktere sahiptir ve mantıksal akışı korur!

Bu tekniğe güç veren canavar, Facebook'tan BART adlı bir model.

Makalenin yazarları bunu genelleştirilmiş bir BERT formu olarak tanımlıyor.

Bunun nasıl çalıştığını görelim.

Sinirsel Metin Üretimi Nasıl Çalışır?

Bir dizi sayının size sunulduğu ve bir sonrakini tahmin etmeniz gereken yetenek veya IQ testlerine girdiniz mi?

Özünde, bazı başlangıç ​​metinlerini sağladığımızda ve modellerimizden bir sonraki adımı tahmin etmelerini istediğimizde, modelimizin yukarıda yaptığı şey buydu.

İlk metnimizi bir sayı dizisine dönüştürdü, bir sonraki sayıyı tahmin etti ve tahmin edilen sayıyı içeren yeni diziyi aldı ve aynı işlemi tekrarladı.

Bu, belirttiğimiz uzunluk sınırına ulaşana kadar devam eder.

Şimdi, bunlar sadece normal sayılar değil, vektör ve daha spesifik olarak (BERT ve BART durumunda) çift yönlü kelime yerleştirmeleridir.

Derin öğrenme makalelerimin 1. ve 2. bölümlerinde bir GPS benzetmesi kullanarak vektörleri ve çift yönlü kelime yerleştirmeyi açıkladım.Lütfen onları kontrol ettiğinizden emin olun.

Özetle, yerleştirmeler, temsil ettikleri kelimeler hakkında tahminlerin kalitesini önemli ölçüde artıran zengin bilgileri kodlar.

İşte bunun nasıl çalıştığına dair bir örnek.

“Tekrarlayan görevler yapan SEO'lar için en iyi programlama dili ____ ve ön uç denetimleri yapan SEO'lar için ____” metni göz önüne alındığında, modelden cümleyi tamamlamasını istiyoruz.

İlk adım, sözcükleri sayılara/gömmelere dönüştürmektir; burada her bir gömme, sözcüğü bağlam içinde tanımlar.

Ardından, bunu, bağlamda verilen boşlukları doldurabilecek sayıları/gömmeleri bulmak için bilgisayarın çözebileceği bir bulmacaya dönüştürün.

Bu tür bulmacaları çözebilen algoritmaya dil modeli denir.

Bir dil modeli, İngilizce veya başka herhangi bir dildeki gramer kurallarına benzer.

Örneğin metin bir soru ise soru işareti ile bitmelidir.

Aradaki fark, tüm kelimelerin ve sembollerin sayılar/gömmelerle temsil edilmesidir.

Şimdi, işin ilginç olduğu yer, derin öğrenmede (burada kullandığımız şey), büyük bir dilbilgisi kuralları listesini manuel olarak oluşturmanıza gerek olmamasıdır.

Model, kuralları etkin deneme yanılma yoluyla deneysel olarak öğrenir.

Bu, modellerin birkaç gün boyunca çok büyük bir veri topluluğu üzerinde ve çok güçlü donanımlar kullanılarak eğitildiği ön eğitim aşaması olarak adlandırılan süreçte yapılır.

Bizim için en iyi yanı, bu çabaların sonuçlarının herkesin kullanması için ücretsiz olmasıdır.

Gerçekten şanslı değil miyiz?

BERT, bir dil modeli örneğidir ve GPT-2 ve BART da öyle.

Bu İyilik İçin Nasıl Kullanılır?

Yukarıda bahsettiğim gibi, bu şey gerçekten güçlüdür ve yararsız içeriği nispeten ucuza ölçeklendirmek için kullanılabilir.

Kişisel olarak, arama yaparken çöpleri karıştırarak zaman kaybetmek istemem.

Zamanla, içeriğin aramada performans göstermesi için şunları yapması gerektiğini fark ettim:

  • Bir işe yara.
  • Gerçek bir ihtiyacı karşılayın.

Olmazsa, ister bilgisayar ister insan ürünü olsun, son kullanıcılardan herhangi bir katılım veya doğrulama almaz.

Sıralama ve performans şansı gerçekten düşük.

Bu nedenle, nesil üzerinde daha fazla kontrole sahip olduğunuz özetleme ve çeviri veya soru/cevap gibi teknikleri tercih ediyorum.

Yeni değer eklediğinizden emin olmanıza yardımcı olabilirler.

Topluluk Projeleri ve Öğrenme Kaynakları

Topluluktaki daha fazla insanın eğlenceye katılmasına izin vermek için bu makaleyi kodda ve açıklamalarda olabildiğince basit tutmaya çalıştım.

Ancak, teknik olarak daha yatkınsanız, konunun bu daha ayrıntılı ve matematiksel açıklamasını beğeneceğinizi düşünüyorum.

Yukarıdaki bağlantılı makaledeki “İleri okuma bölümündeki” bağlantıları da takip ettiğinizden emin olun.

Şimdi, bazı heyecan verici haberlere.

Topluluktan üzerinde çalıştıkları Python projelerini paylaşmalarını istedim.Belki bir avuç bekliyordum ve kaç tane geri döndüğüm beni tamamen şaşırttı. #DONTWAIT 🐍🔥

Bu Python ve JS, ama yine de oraya koyacağım!Google Haritalar'da spam'i engellemek için Chrome uzantısı.Sunucu kodu Python'dadır ve adres doğrulama ve sınıflandırma yapar. pic.twitter.com/Rvzfr5ku4N

- zchtodd (@zchtodd) 8 Haziran 2020

1.https://t.co/zyaafY0bcd alarak tekrarlayan ekran görüntüsünü otomatikleştirmek için python'da RPA
2.Meta başlıktaki kelimenin ziyaretçiler tarafından kullanılan sorgularla eşleşmediği sayfaları kontrol etmek için arama konsolu API + NLP: https://t.co/KsYGds7w1r

— Michael Van Den Reym (@vdrweb) 8 Haziran 2020

3.Arama konsolu API https://t.co/qX0FxSoqgN kullanarak arama konsolu gösterimleriyle tüm url'lerin durum kodunu kontrol edin

— Michael Van Den Reym (@vdrweb) 8 Haziran 2020

Merhaba Hamlet!

Bulanık eşleştirme özelliklerine sahip bir yönlendirme denetleyicisi üzerinde çalışıyorum.

Bir @GoogleColab not defteri olacak, ancak ideal olarak, insanların yönlendirmelerinin kalitesini sürükle ve bırak yoluyla 1 tıklamayla değerlendirebilmeleri için @streamlit'te dağıtmak isterim.

Birazdan paylaşacağım 🙂

- Charly Wargnier (@DataChaz) 9 Haziran 2020

@hamletbatista https://t.co/oPt5M393Lu
@streamlit kullanarak bunun üzerinde çalıştı
Daha ilgi çekici Meta Başlıklar yazın.
Açıklayıcı video: https://t.co/YvVoFMQ4FS

— Anubhav Bittoo Narula (@anubhavn22) 9 Haziran 2020

Scrapear, kırmızı nöronal para saber el sentimiento del escrito y de ahí sacar gráficas con datastudio o kibana'yı yeniden düzenler

— JaviLázaro (@JaviLazaroSEO) 8 Haziran 2020

1.Günlük dosyalarını okumak ve gevşemek için gerçek zamanlı olarak 5xx/4xx göndermek!
2.Anahtar Kelime Amacı - Url Eşleşme Puanı.

— Venüs Kalra (@venuskalra) 9 Haziran 2020

https://t.co/9we85HXJgJ

— Marat Gaziev (@MaratGaziev) 9 Haziran 2020

#SEO'lar ve çevrimiçi pazarlamacılar için diğer şeylerin yanı sıra şunları içeren bir paket oluşturuyorum:
– Paletli
– robots.txt test cihazı
– SERP denetleyicisi
– Site Haritasından DataFrame'e dönüştürücü
– URL'den DataFrame'e dönüştürücü

ve daha fazlası 🙂 https://t.co/BMVeeQaTxE

— Elias Dabbas (@eliasdabbas) 9 Haziran 2020

Güzel Çorba + Bilgi kutusu API'si + Bulut Varlık API'sı ile bazı içerik analizleri!🐍🐍🐍

— Jess ancak 6 fit uzakta (@jessthebp) 8 Haziran 2020

Daha fazla kaynak:


Resim Kredisi

Yazar tarafından çekilen tüm ekran görüntüleri, Haziran 2020

Tüm Kategoriler: Blog