Sitemap

Teknologi dan teknik pembuatan konten yang akan saya tunjukkan di kolom ini akan tampak seperti novel fiksi ilmiah, tetapi sekarang nyata dan dapat diakses secara bebas.

Setelah saya menyelesaikan eksperimen pengkodean dan mulai menulis artikel ini, saya merenungkan implikasi positif dan negatif dari berbagi informasi ini secara publik.

Seperti yang akan Anda lihat, sekarang relatif mudah untuk menghasilkan konten yang dibuat oleh mesin dan kualitas generasi meningkat dengan cepat.

Ini membawa saya pada kesimpulan yang menyedihkan bahwa kita akan melihat hasil yang jauh lebih banyak berisi spam daripada sebelumnya.

Untungnya, Google baru-baru ini merilis laporan spam 2019 yang membuat saya nyaman.

Pernah melihat folder spam email Anda?Begitulah tampilan hasil penelusuran tanpa langkah-langkah yang kami ambil untuk memerangi spam penelusuran.Posting kami hari ini melihat bagaimana kami bekerja untuk mencegah spam dari hasil pencarian Google https://t.co/RA4lUoDXEF

— Google SearchLiaison (@searchliaison) 9 Juni 2020

“Tahun lalu, kami mengamati bahwa lebih dari 25 miliar halaman yang kami temukan setiap hari berisi spam. (Jika masing-masing halaman itu adalah halaman dalam sebuah buku, itu akan menjadi lebih dari 20 juta eksemplar "War & Peace" setiap hari!)

Upaya kami telah membantu memastikan bahwa lebih dari 99% kunjungan dari hasil kami mengarah pada pengalaman bebas spam.

Dalam beberapa tahun terakhir, kami telah mengamati peningkatan situs berisi spam dengan konten yang dibuat dan dihapus secara otomatis dengan perilaku yang mengganggu atau merugikan pencari, seperti tombol palsu, iklan yang berlebihan, pengalihan yang mencurigakan, dan malware.Situs web ini sering menipu dan tidak menawarkan nilai nyata kepada orang-orang.Pada tahun 2019, kami dapat mengurangi dampak pada pengguna Penelusuran dari jenis spam ini hingga lebih dari 60% dibandingkan tahun 2018.”

Sementara Google melaporkan jumlah halaman spam yang mengejutkan per hari, mereka melaporkan tingkat keberhasilan 99% yang mengesankan dalam menekan spam secara menyeluruh.

Lebih penting lagi, mereka telah membuat kemajuan luar biasa dalam menekan konten spam yang dihasilkan mesin.

Di kolom ini, saya akan menjelaskan dengan kode bagaimana komputer dapat menghasilkan konten menggunakan kemajuan terbaru di NLG.

Saya akan membahas teori dan beberapa panduan agar konten Anda tetap bermanfaat.

Ini akan membantu Anda menghindari terjebak dengan semua spam web yang Google dan Bing bekerja sepanjang waktu untuk menyingkirkannya.

Halaman Konten Tipis

Dalam artikel saya tentang pembuatan judul dan deskripsi meta, saya membagikan teknik efektif yang bergantung pada meringkas konten halaman untuk menghasilkan tag meta.

Setelah Anda mengikuti langkah-langkahnya, Anda dapat melihat bahwa itu bekerja dengan sangat baik dan bahkan dapat menghasilkan teks novel berkualitas tinggi.

Tapi, bagaimana jika halaman tidak menyertakan konten apa pun untuk diringkas?Tekniknya gagal.

Biarkan saya memberi tahu Anda trik yang sangat cerdas untuk menyelesaikan ini.

Jika halaman tersebut memiliki tautan balik berkualitas, Anda dapat menggunakan teks jangkar dan teks di sekitar tautan balik sebagai teks untuk diringkas.

Tunggu!

Tapi kenapa?

Biarkan saya kembali ke tahun 1998, hingga berdirinya mesin pencari Google.

Dalam makalah yang menjelaskan mesin pencari baru mereka, Page dan Brin berbagi wawasan yang sangat menarik di bagian 2.2.

“Sebagian besar mesin pencari mengaitkan teks tautan dengan halaman tempat tautan itu berada. Selain itu, kami mengaitkannya dengan halaman yang ditunjuk tautan. Ini memiliki beberapa keuntungan. Pertama, jangkar sering memberikan deskripsi halaman web yang lebih akurat daripada halaman itu sendiri. Kedua, jangkar mungkin ada untuk dokumen yang tidak dapat diindeks oleh mesin pencari berbasis teks, seperti gambar, program, dan database. Ini memungkinkan untuk mengembalikan halaman web yang sebenarnya belum dirayapi.”

Berikut rencana teknisnya:

  1. Kami akan mendapatkan tautan balik dan teks jangkar yang sesuai menggunakan Alat Webmaster Bing yang baru.
  2. Kami akan mengikis teks di sekitarnya dari tautan balik berkualitas tinggi.
  3. Kami akan membuat ringkasan dan konten bentuk panjang menggunakan teks yang tergores.

Laporan Tautan Balik Alat Webmaster Bing

Salah satu fitur yang saya suka di alat backlink baru di BWT, adalah ia dapat memberikan tautan tidak hanya yang menunjuk ke situs Anda sendiri, tetapi beberapa situs lain juga.

Saya berharap ini menjadi alternatif gratis yang populer untuk alat berbayar.

Saya mengekspor file CSV dengan daftar besar tautan dan jangkar, tetapi ketika saya mencoba memuatnya menggunakan panda Python dan menemukan sejumlah masalah pemformatan.

Teks jangkar acak dapat menyertakan koma dan menyebabkan masalah dengan file yang dipisahkan koma.

Saya menyelesaikannya dengan membuka file di Excel dan menyimpannya dalam format Excel.

Menggores Teks Sekitarnya dengan Python

Seperti yang Anda lihat di tangkapan layar saya di atas, banyak teks jangkar cukup pendek.

Kita bisa mengikis halaman untuk mendapatkan paragraf yang memuatnya.

Pertama, mari kita muat laporan yang kita ekspor dari BWT.

import pandas as pddf = pd.read_excel("www.domain.com_ReferringPages_6_7_2020.xlsx")df.head()

Saya meninjau URL Target dengan jumlah tautan masuk yang digunakan.

df.groupby("Target Url").count().tail()

Saya menarik tautan balik dari salah satu halaman untuk mengevaluasi ide menggunakan kode ini.

backlinks = set(df[df["Target Url"] == "https://domain.com/example-page"]["Source Url"])

Sekarang, mari kita lihat bagaimana kita dapat menggunakan URL target dan backlink untuk menarik teks jangkar yang relevan yang menyertakan jangkar.

Mengambil Teks dari Tautan Balik

Pertama, mari kita instal request-html.

!pip install requests-htmlfrom requests_html import HTMLSessionsession = HTMLSession()

Untuk menjaga agar kode tetap sederhana, saya akan secara manual menghasilkan pemilih CSS untuk mengambil teks di sekitar tautan.

Tidak sulit untuk menghitung ini mengingat tautan dan jangkar pada halaman menggunakan kode JavaScript atau Python.

Mungkin itu ide yang bagus untuk Anda coba sebagai pekerjaan rumah.

Buka halaman backlink contoh dan menggunakan Alat Pengembang Chrome, Anda dapat mengklik kanan pada paragraf yang diinginkan dan menyalin pemilih CSS.

Ini adalah pemilih yang saya gunakan.

with session.get(url) as r:    selector="#entry-78782 > div.asset-content.entry-content > div > p:nth-child(5)"    paragraph = r.html.find(selector, first=True)    text = paragraph.text

Ini adalah teks yang kembali.Saya menebalkan teks dari contoh teks jangkar kami.

Kita tahu bahwa retensi guru meningkatkan hasil bagi siswa, dan sebaliknya, pergantian guru dapat membahayakan prestasi siswa.Sekitar 16 persen pendidik meninggalkan lapangan setiap tahun, dan kita tahu bahwa banyak guru, seperti saya, keluar dalam lima tahun pertama.Guru melaporkan bahwa alasan terbesar mereka pergi adalah kurangnya otonomi dan suara, di samping masalah budaya dan, khususnya, disiplin.Terlebih lagi, omset itu mahal—mengurangi distrik hingga $2,2 miliar per tahun.

Sekarang, mari kita ke bagian yang menyenangkan!

Generasi Teks Saraf

Kami akan menggunakan kode ringkasan yang sama yang kami gunakan untuk menghasilkan judul dan deskripsi meta di artikel saya sebelumnya, tetapi dengan twist.

Alih-alih menentukan panjang ringkasan yang diinginkan lebih pendek dari paragraf asli, kami akan menentukan panjang yang lebih panjang.Apakah itu akan berhasil?Ayo lihat!

!pip install transformersfrom transformers import pipelinesummarizer = pipeline('summarization')generated_text = summarizer(text, min_length=150, max_length=250)print(generated_text)

Saya mendapatkan peringatan yang menarik ini.

Max_length Anda disetel ke 250, tetapi input_length Anda hanya 99.Anda mungkin mempertimbangkan untuk mengurangi max_length secara manual, mis. ringkasan('...', max_length=50)

Mari kita lihat teks yang dihasilkan.

[{'summary_text': "Around 16 percent of educators leave the field every year. Teachers report that the biggest reasons they leave are lack of autonomy and voice, alongside issues of culture and discipline. Turnover is costly, shorting districts upwards of $2.2 billion a year, according to a report by the National Council of Teachers of English, the nation's largest teacher organization. The report also found that teacher retention improves outcomes for students, and conversely, that teacher turnover can harm student achievement. The study was published in the Journal of Education, published by Simon & Schuster, a division of Penguin Random House, on November 14. For more, visit www.simonandschuster.com. For confidential support, call the National Suicide Prevention Lifeline at 1-800-273-8255 or visit http://www.suicidepreventionlifeline.org/."}]

Teks asli memiliki 492 karakter dan teks yang dihasilkan 835.

Tapi, lihatlah kualitas dan kalimat baru yang muncul dalam teks yang dihasilkan.Benar-benar, menakjubkan!

Bisakah teknik ini menghasilkan teks yang lebih panjang?Ya!

generated_text = summarizer(text, min_length=300, max_length=600)print(generated_text)[{'summary_text': "Around 16 percent of educators leave the field every year. Teachers report that the biggest reasons they leave are lack of autonomy and voice, alongside issues of culture and discipline. Turnover is costly, shorting districts upwards of $2.2 billion a year, according to a report by the National Council of Teachers of English, the nation's largest teacher organization. The report also found that teacher retention improves outcomes for students, and conversely, that teacher turnover can harm student achievement. The study was published in the Journal of Education, published by Simon & Schuster, a division of Penguin Random House, on November 14. For more, visit www.simonandschuster.com. For confidential support, call the National Suicide Prevention Lifeline at 1-800-273-8255 or visitxa0http://www.suicidepreventionlifeline.org/. For support in the U.S., call the Samaritans on 08457 90 90 90 or visit a local Samaritans branch, see www.samaritans.org for details. In the UK, contact the National College of Education on 0300 123 90 90, orxa0 visitxa0the Samaritansxa0in the UK. For help in the United States, callxa0thexa0National Suicide Prevention Line on 1xa0800xa0273xa08255,xa0orxa0inxa0the UK on 0800xa0123xa09255. For support on suicide matters in thexa0U.S. call thexa0Nationalxa0Collegexa0of Education,xa0Englandxa0on 08457xa090 90 90. For information on suicide prevention in the UK andxa0Europe, visit the Nationalxa0College of England and Wales."}]

Teks yang dihasilkan ini memiliki 1.420 karakter dan mempertahankan alur logis!

Binatang yang menggerakkan teknik ini adalah model dari Facebook yang disebut BART.

Penulis makalah menggambarkannya sebagai bentuk umum BERT.

Mari kita lihat cara kerjanya.

Bagaimana Generasi Teks Neural Bekerja

Sudahkah Anda mengambil tes bakat atau IQ di mana Anda disajikan dengan urutan angka dan Anda perlu menebak yang berikutnya?

Intinya, itulah yang dilakukan model kami di atas ketika kami memberikan beberapa teks awal dan meminta model kami untuk memprediksi apa yang terjadi selanjutnya.

Itu mengubah teks awal kami menjadi urutan angka, menebak angka berikutnya, dan mengambil urutan baru yang menyertakan angka yang ditebak dan mengulangi proses yang sama lagi.

Ini berlanjut hingga mencapai batas panjang yang kami tentukan.

Sekarang, ini bukan hanya angka biasa, tetapi vektor dan lebih khusus lagi (dalam kasus BERT dan BART) penyematan kata dua arah.

Saya menjelaskan vektor dan penyematan kata dua arah menggunakan analogi GPS di artikel pembelajaran mendalam saya bagian 1 dan bagian 2.Pastikan untuk memeriksanya.

Singkatnya, penyematan menyandikan informasi yang kaya tentang kata-kata yang mereka wakili yang secara dramatis meningkatkan kualitas prediksi.

Jadi, inilah salah satu contoh cara kerjanya.

Diberikan teks: “Bahasa pemrograman terbaik untuk SEO yang melakukan tugas berulang adalah ____ dan untuk SEO yang melakukan audit front-end adalah ____”, kami meminta model untuk melengkapi kalimat.

Langkah pertama adalah mengubah kata menjadi angka/embeddings, di mana setiap embedding mengidentifikasi kata dalam konteks.

Kemudian, ubah ini menjadi teka-teki yang dapat dipecahkan komputer untuk mengetahui angka/embeddings yang dapat mengisi bagian yang kosong sesuai konteksnya.

Algoritma yang dapat memecahkan teka-teki jenis ini disebut model bahasa.

Model bahasa mirip dengan aturan tata bahasa dalam bahasa Inggris atau bahasa lainnya.

Misalnya, jika teks adalah pertanyaan, itu harus diakhiri dengan tanda tanya.

Bedanya, semua kata dan simbol diwakili oleh angka/embeddings.

Sekarang, yang menarik adalah bahwa dalam pembelajaran mendalam (apa yang kami gunakan di sini), Anda tidak perlu membuat daftar besar aturan tata bahasa secara manual.

Model mempelajari aturan secara empiris melalui trial and error yang efisien.

Ini dilakukan selama apa yang disebut fase pra-pelatihan di mana model dilatih melalui kumpulan data yang sangat besar selama beberapa hari dan menggunakan perangkat keras yang sangat kuat.

Bagian terbaik bagi kami adalah hasil dari upaya ini dibuat gratis untuk digunakan siapa saja.

Bukankah kita sangat beruntung?

BERT adalah contoh model bahasa dan begitu juga GPT-2 dan BART.

Cara Menggunakan Ini untuk Kebaikan

Seperti yang saya sebutkan di atas, hal ini sangat kuat dan dapat digunakan untuk membuat konten yang tidak berguna dalam skala yang relatif murah.

Saya pribadi tidak ingin membuang waktu mengarungi sampah saat saya mencari.

Seiring waktu, saya menyadari bahwa agar konten tampil dalam penelusuran, konten perlu:

  • Menjadi berguna.
  • Memenuhi kebutuhan nyata.

Jika tidak, tidak peduli apakah itu komputer atau buatan manusia, itu tidak akan mendapatkan keterlibatan atau validasi dari pengguna akhir.

Peluang peringkat dan kinerja sangat rendah.

Inilah sebabnya mengapa saya lebih suka teknik seperti ringkasan dan terjemahan atau pertanyaan/jawaban di mana Anda memiliki kendali lebih besar atas generasi.

Mereka dapat membantu Anda memastikan bahwa Anda menambahkan nilai baru.

Proyek Komunitas & Sumber Belajar

Saya mencoba untuk membuat artikel ini tetap ringan dalam kode dan penjelasannya sesederhana mungkin untuk memungkinkan lebih banyak orang di komunitas untuk bergabung dalam kesenangan.

Tetapi, jika Anda lebih cenderung secara teknis, saya pikir Anda akan menikmati penjelasan topik yang lebih terperinci dan matematis ini.

Pastikan juga untuk mengikuti tautan di “Bagian bacaan lebih lanjut” di artikel tertaut di atas.

Sekarang, untuk beberapa berita menarik.

Saya meminta komunitas untuk membagikan proyek Python yang sedang mereka kerjakan.Saya mengharapkan mungkin segelintir, dan saya benar-benar terpesona oleh berapa banyak yang saya dapatkan kembali. #TUNGGU

Ini Python dan JS, tapi saya akan tetap meletakkannya di sana!Ekstensi Chrome untuk menghilangkan spam di Google Maps.Kode server dalam Python dan melakukan validasi dan klasifikasi alamat. pic.twitter.com/Rvzfr5ku4N

— zchtodd (@zchtodd) 8 Juni 2020

1.RPA dengan python untuk mengotomatiskan pengambilan tangkapan layar berulang https://t.co/zyaafY0bcd
2.Search console API + NLP untuk memeriksa halaman di mana kata dalam judul meta tidak cocok dengan kueri yang digunakan oleh pengunjung: https://t.co/KsYGds7w1r

— Michael Van Den Reym (@vdrweb) 8 Juni 2020

3.Periksa kode status semua url dengan tayangan konsol pencarian menggunakan API konsol pencarian https://t.co/qX0FxSoqgN

— Michael Van Den Reym (@vdrweb) 8 Juni 2020

Hai Dusun!

Saya sedang mengerjakan pemeriksa pengalihan dengan kemampuan pencocokan fuzzy.

Akan ada notebook @GoogleColab, namun idealnya saya juga ingin menerapkan di @streamlit sehingga orang dapat menilai kualitas pengalihan mereka dalam 1 klik, melalui seret dan lepas.

Nanti saya share

— Charly Wargnier (@DataChaz) 9 Juni 2020

@hamletbatista https://t.co/oPt5M393Lu
Bekerja pada ini menggunakan @streamlit
Tulis Judul Meta yang lebih menarik.
Video penjelasan: https://t.co/YvVoFMQ4FS

— Anubhav Bittoo Narula (@anubhavn22) 9 Juni 2020

Scrapear redes sociales y pasarlo por npl o Red neuronal para saber el sentimiento del escrito y de ahí sacar gráficas con datastudio o kibana (perdona que responda en español pero mi inglés es bastante mejorable)

— JaviLázaro (@JaviLazaroSEO) 8 Juni 2020

1.Membaca file log dan memposting 5xx/4xx secara real time untuk mengendur!
2.Maksud Kata Kunci vs Skor Kecocokan Url.

— Venus Kalra (@venuskalra) 9 Juni 2020

https://t.co/9we85HXJgJ

— Marat Gaziev (@MaratGaziev) 9 Juni 2020

Saya sedang membangun paket untuk #SEO & pemasar online, yang berisi antara lain:
– Perayap
– penguji robots.txt
– Pemeriksa SERP
– Konverter Peta Situs ke DataFrame
– Konverter URL ke DataFrame

dan banyak lagi https://t.co/BMVeeQaTxE

— Elias Dabbas (@eliasdabbas) 9 Juni 2020

Beberapa analisis konten dengan Beautiful Soup + API kotak Pengetahuan + API Entitas Cloud!🐍🐍🐍.

— Jess tetapi berjarak 6 kaki (@jessthebp) 8 Juni 2020

Lebih Banyak Sumber Daya:


Kredit Gambar

Semua tangkapan layar diambil oleh penulis, Juni 2020

Semua Kategori: Blog