Sitemap

Công nghệ và kỹ thuật tạo nội dung mà tôi sẽ trình bày trong cột này có vẻ giống như một cuốn tiểu thuyết khoa học viễn tưởng, nhưng chúng hiện có thật và có thể truy cập miễn phí.

Sau khi hoàn thành các thử nghiệm mã hóa và bắt đầu viết tác phẩm này, tôi đã suy nghĩ về tác động tích cực và tiêu cực của việc chia sẻ thông tin này một cách công khai.

Như bạn sẽ thấy, hiện nay việc sản xuất nội dung do máy tạo ra là tương đối dễ dàng và chất lượng của các thế hệ đang được cải thiện nhanh chóng.

Điều này dẫn tôi đến một kết luận đáng buồn rằng chúng ta sẽ thấy nhiều kết quả spam hơn trước đây.

May mắn thay, Google gần đây đã phát hành báo cáo spam năm 2019 giúp tôi cảm thấy thoải mái.

Đã bao giờ nhìn vào thư mục thư rác email của bạn chưa?Đó là cách kết quả tìm kiếm có thể trông như thế nào nếu không có các bước chúng tôi thực hiện để chống lại spam tìm kiếm.Bài đăng của chúng tôi hôm nay xem xét cách chúng tôi làm việc để ngăn chặn spam ra khỏi kết quả tìm kiếm của Google https://t.co/RA4lUoDXEF

- Google SearchLiaison (@searchliaison) ngày 9 tháng 6 năm 2020

“Năm ngoái, chúng tôi đã quan sát thấy rằng hơn 25 tỷ trang mà chúng tôi tìm thấy mỗi ngày là spam. (Nếu mỗi trang đó là một trang trong một cuốn sách, thì đó sẽ là hơn 20 triệu bản “Chiến tranh và hòa bình” mỗi ngày!)

Những nỗ lực của chúng tôi đã giúp đảm bảo rằng hơn 99% lượt truy cập từ kết quả của chúng tôi dẫn đến trải nghiệm không có thư rác.

Trong vài năm gần đây, chúng tôi đã quan sát thấy sự gia tăng các trang web spam có nội dung được tạo tự động và cóp nhặt với các hành vi làm phiền hoặc gây hại cho người tìm kiếm, chẳng hạn như nút giả, quảng cáo lấn át, chuyển hướng đáng ngờ và phần mềm độc hại.Những trang web này thường lừa đảo và không cung cấp giá trị thực sự cho mọi người.Vào năm 2019, chúng tôi có thể giảm hơn 60% tác động đối với người dùng Tìm kiếm từ loại spam này so với năm 2018. ”

Mặc dù Google báo cáo số lượng trang spam đáng kinh ngạc mỗi ngày, nhưng họ báo cáo tỷ lệ thành công ấn tượng là 99% trong việc ngăn chặn spam trên diện rộng.

Quan trọng hơn, họ đã đạt được tiến bộ đáng kinh ngạc trong việc ngăn chặn nội dung spam do máy tạo ra.

Trong cột này, tôi sẽ giải thích bằng mã cách máy tính có thể tạo nội dung bằng cách sử dụng những tiến bộ mới nhất trong NLG.

Tôi sẽ xem qua lý thuyết và một số nguyên tắc để giữ cho nội dung của bạn hữu ích.

Điều này sẽ giúp bạn tránh bị bắt bởi tất cả các thư rác web mà Google và Bing đang làm việc suốt ngày đêm để loại bỏ.

Trang nội dung mỏng

Trong bài viết của tôi về tạo tiêu đề và mô tả meta, tôi đã chia sẻ một kỹ thuật hiệu quả dựa vào việc tóm tắt nội dung trang để tạo thẻ meta.

Sau khi làm theo các bước, bạn có thể thấy rằng nó hoạt động thực sự tốt và thậm chí có thể tạo ra các văn bản mới lạ, chất lượng cao.

Nhưng, điều gì sẽ xảy ra nếu các trang không bao gồm bất kỳ nội dung nào để tóm tắt?Kỹ thuật không thành công.

Hãy để tôi cho bạn biết một mẹo rất thông minh để giải quyết điều này.

Nếu các trang như vậy có liên kết ngược chất lượng, bạn có thể sử dụng văn bản liên kết và văn bản xung quanh liên kết ngược làm văn bản để tóm tắt.

Đợi đã!

Nhưng tại sao?

Hãy để tôi quay lại năm 1998, thời điểm thành lập công cụ tìm kiếm Google.

Trong bài báo mô tả công cụ tìm kiếm mới của họ, Page và Brin đã chia sẻ một cái nhìn sâu sắc rất thú vị trong phần 2.2.

“Hầu hết các công cụ tìm kiếm liên kết văn bản của một liên kết với trang có liên kết đó. Ngoài ra, chúng tôi liên kết nó với trang mà liên kết trỏ đến. Điều này có một số lợi thế. Đầu tiên, neo thường cung cấp các mô tả chính xác hơn về các trang web hơn là chính các trang đó. Thứ hai, neo có thể tồn tại cho các tài liệu không thể được lập chỉ mục bởi công cụ tìm kiếm dựa trên văn bản, chẳng hạn như hình ảnh, chương trình và cơ sở dữ liệu. Điều này giúp bạn có thể trả lại các trang web chưa thực sự được thu thập thông tin. ”

Đây là kế hoạch kỹ thuật:

  1. Chúng tôi sẽ nhận được các liên kết ngược và văn bản liên kết tương ứng bằng cách sử dụng Công cụ quản trị trang web Bing mới.
  2. Chúng tôi sẽ loại bỏ văn bản xung quanh từ các liên kết ngược chất lượng cao nhất.
  3. Chúng tôi sẽ tạo tóm tắt và nội dung dạng dài bằng cách sử dụng văn bản cóp nhặt.

Báo cáo liên kết ngược của Công cụ quản trị trang web Bing

Một tính năng mà tôi thích trong công cụ liên kết ngược mới trong BWT, đó là nó có thể cung cấp các liên kết không chỉ trỏ đến trang web của riêng bạn mà còn cả một số trang khác.

Tôi hy vọng điều này sẽ trở thành một giải pháp thay thế miễn phí phổ biến cho các công cụ trả phí.

Tôi đã xuất tệp CSV với danh sách lớn các liên kết và neo, nhưng khi tôi cố gắng tải nó bằng Python pandas và phát hiện ra một số vấn đề về định dạng.

Văn bản liên kết ngẫu nhiên có thể bao gồm dấu phẩy và gây ra sự cố với tệp được phân tách bằng dấu phẩy.

Tôi đã giải quyết chúng bằng cách mở tệp trong Excel và lưu nó ở định dạng Excel.

Scraping văn bản xung quanh bằng Python

Như bạn có thể thấy trong ảnh chụp màn hình của tôi ở trên, nhiều văn bản neo khá ngắn.

Chúng ta có thể cạo các trang để lấy đoạn văn có chứa chúng.

Đầu tiên, hãy tải báo cáo mà chúng tôi đã xuất từ ​​BWT.

import pandas as pddf = pd.read_excel("www.domain.com_ReferringPages_6_7_2020.xlsx")df.head()

Tôi đã xem xét URL mục tiêu theo số lượng liên kết đến đang sử dụng.

df.groupby("Target Url").count().tail()

Tôi đã kéo các liên kết ngược từ một trong các trang để đánh giá ý tưởng bằng cách sử dụng mã này.

backlinks = set(df[df["Target Url"] == "https://domain.com/example-page"]["Source Url"])

Bây giờ, hãy xem cách chúng ta có thể sử dụng URL mục tiêu và liên kết ngược để kéo văn bản liên kết có liên quan bao gồm ký tự liên kết.

Tìm nạp văn bản từ các liên kết ngược

Đầu tiên, hãy cài đặt request-html.

!pip install requests-htmlfrom requests_html import HTMLSessionsession = HTMLSession()

Để giữ cho mã đơn giản, tôi sẽ tạo thủ công một bộ chọn CSS để lấy văn bản xung quanh liên kết.

Không khó để tính toán điều này với liên kết và neo trên trang sử dụng mã JavaScript hoặc Python.

Có lẽ đó là một ý tưởng hay để bạn thử làm bài tập về nhà.

Mở trang liên kết ngược mẫu và sử dụng Công cụ dành cho nhà phát triển Chrome, bạn có thể nhấp chuột phải vào đoạn văn bản quan tâm và sao chép bộ chọn CSS.

Đây là bộ chọn tôi đã sử dụng.

with session.get(url) as r:    selector="#entry-78782 > div.asset-content.entry-content > div > p:nth-child(5)"    paragraph = r.html.find(selector, first=True)    text = paragraph.text

Đây là văn bản đã quay trở lại.Tôi đã tô đậm văn bản của anchor text mẫu của chúng tôi.

Chúng tôi biết rằng việc giữ chân giáo viên sẽ cải thiện kết quả cho học sinh, và ngược lại, việc luân chuyển giáo viên có thể gây hại cho thành tích của học sinh.Khoảng 16% các nhà giáo dục rời sân mỗi năm và chúng tôi biết rằng nhiều giáo viên, giống như tôi, rời đi trong vòng năm năm đầu tiên.Các giáo viên báo cáo rằng lý do lớn nhất mà họ ra đi là thiếu tự chủ và tiếng nói, cùng với các vấn đề về văn hóa và đặc biệt là kỷ luật.Hơn nữa, doanh thu rất tốn kém - rút ngắn các quận lên tới 2,2 tỷ đô la một năm.

Bây giờ, hãy bắt đầu phần thú vị!

Tạo văn bản thần kinh

Chúng tôi sẽ sử dụng cùng một mã tóm tắt mà chúng tôi đã sử dụng để tạo tiêu đề và mô tả meta trong bài viết trước của tôi, nhưng có một chút thay đổi.

Thay vì chỉ định độ dài tóm tắt mong muốn ngắn hơn đoạn gốc, chúng tôi sẽ chỉ định độ dài dài hơn.Công việc vừa ý?Hãy xem nào!

!pip install transformersfrom transformers import pipelinesummarizer = pipeline('summarization')generated_text = summarizer(text, min_length=150, max_length=250)print(generated_text)

Tôi nhận được cảnh báo thú vị này.

Max_length của bạn được đặt thành 250, nhưng input_length của bạn chỉ là 99.Bạn có thể cân nhắc việc giảm max_length theo cách thủ công, ví dụ: trình tóm tắt (‘…’, max_length = 50)

Hãy xem văn bản đã tạo.

[{'summary_text': "Around 16 percent of educators leave the field every year. Teachers report that the biggest reasons they leave are lack of autonomy and voice, alongside issues of culture and discipline. Turnover is costly, shorting districts upwards of $2.2 billion a year, according to a report by the National Council of Teachers of English, the nation's largest teacher organization. The report also found that teacher retention improves outcomes for students, and conversely, that teacher turnover can harm student achievement. The study was published in the Journal of Education, published by Simon & Schuster, a division of Penguin Random House, on November 14. For more, visit www.simonandschuster.com. For confidential support, call the National Suicide Prevention Lifeline at 1-800-273-8255 or visit http://www.suicidepreventionlifeline.org/."}]

Văn bản gốc có 492 ký tự và văn bản được tạo ra là 835.

Tuy nhiên, hãy nhìn vào chất lượng và các câu mới lạ hiển thị trong văn bản được tạo.Hoàn toàn tuyệt vời!

Kỹ thuật này có thể tạo ra văn bản dài hơn nữa không?Đúng!

generated_text = summarizer(text, min_length=300, max_length=600)print(generated_text)[{'summary_text': "Around 16 percent of educators leave the field every year. Teachers report that the biggest reasons they leave are lack of autonomy and voice, alongside issues of culture and discipline. Turnover is costly, shorting districts upwards of $2.2 billion a year, according to a report by the National Council of Teachers of English, the nation's largest teacher organization. The report also found that teacher retention improves outcomes for students, and conversely, that teacher turnover can harm student achievement. The study was published in the Journal of Education, published by Simon & Schuster, a division of Penguin Random House, on November 14. For more, visit www.simonandschuster.com. For confidential support, call the National Suicide Prevention Lifeline at 1-800-273-8255 or visitxa0http://www.suicidepreventionlifeline.org/. For support in the U.S., call the Samaritans on 08457 90 90 90 or visit a local Samaritans branch, see www.samaritans.org for details. In the UK, contact the National College of Education on 0300 123 90 90, orxa0 visitxa0the Samaritansxa0in the UK. For help in the United States, callxa0thexa0National Suicide Prevention Line on 1xa0800xa0273xa08255,xa0orxa0inxa0the UK on 0800xa0123xa09255. For support on suicide matters in thexa0U.S. call thexa0Nationalxa0Collegexa0of Education,xa0Englandxa0on 08457xa090 90 90. For information on suicide prevention in the UK andxa0Europe, visit the Nationalxa0College of England and Wales."}]

Văn bản được tạo này có 1.420 ký tự và duy trì luồng logic!

Con thú hỗ trợ kỹ thuật này là một mô hình từ Facebook có tên BART.

Các tác giả của bài báo mô tả nó như một dạng tổng quát của BERT.

Hãy xem cách này hoạt động như thế nào.

Cách tạo ra văn bản thần kinh hoạt động

Bạn đã từng tham gia các bài kiểm tra năng khiếu hoặc chỉ số IQ trong đó bạn được trình bày với một dãy số và bạn cần đoán số tiếp theo?

Về bản chất, đó là những gì mô hình của chúng tôi đã làm ở trên khi chúng tôi cung cấp một số văn bản ban đầu và yêu cầu các mô hình của chúng tôi dự đoán điều gì tiếp theo.

Nó biến văn bản ban đầu của chúng tôi thành một chuỗi số, đoán số tiếp theo và lấy chuỗi mới bao gồm số đã đoán và lặp lại quy trình tương tự một lần nữa.

Điều này tiếp tục cho đến khi nó đạt đến giới hạn độ dài mà chúng tôi đã chỉ định.

Giờ đây, đây không chỉ là những con số thông thường, mà còn là vectơ và cụ thể hơn là nhúng từ hai chiều (trong trường hợp BERT và BART).

Tôi đã giải thích về vectơ và cách nhúng từ hai chiều bằng cách sử dụng phép tương tự GPS trong các bài viết học sâu phần 1 và phần 2 của mình.Hãy chắc chắn để kiểm tra chúng ra.

Tóm lại, việc nhúng mã hóa thông tin phong phú về các từ mà chúng đại diện, điều này làm tăng đáng kể chất lượng của các dự đoán.

Vì vậy, đây là một ví dụ về cách hoạt động của điều này.

Với nội dung: “Ngôn ngữ lập trình tốt nhất cho những người làm SEO làm các công việc lặp đi lặp lại là ____ và đối với những người làm SEO thực hiện đánh giá front-end là ____”, chúng tôi yêu cầu mô hình hoàn thành câu.

Bước đầu tiên là chuyển đổi các từ thành số / nhúng, trong đó mỗi lần nhúng xác định từ đó trong ngữ cảnh.

Sau đó, biến điều này thành một câu đố mà máy tính có thể giải để tìm ra các con số / cách nhúng có thể điền vào các ô trống cho ngữ cảnh.

Thuật toán có thể giải các dạng câu đố này được gọi là mô hình ngôn ngữ.

Một mô hình ngôn ngữ tương tự như các quy tắc ngữ pháp trong tiếng Anh hoặc bất kỳ ngôn ngữ nào khác.

Ví dụ, nếu văn bản là một câu hỏi, nó phải kết thúc bằng một dấu chấm hỏi.

Sự khác biệt là tất cả các từ và biểu tượng được thể hiện bằng số / nhúng.

Bây giờ, điều thú vị là trong học sâu (những gì chúng tôi đang sử dụng ở đây), bạn không cần phải tạo một danh sách lớn các quy tắc ngữ pháp theo cách thủ công.

Mô hình học các quy tắc theo kinh nghiệm thông qua thử và sai hiệu quả.

Điều này được thực hiện trong giai đoạn được gọi là giai đoạn đào tạo trước, nơi các mô hình được đào tạo trên một kho dữ liệu khổng lồ trong vài ngày và sử dụng phần cứng rất mạnh.

Phần tốt nhất đối với chúng tôi là kết quả của những nỗ lực này được cung cấp miễn phí cho bất kỳ ai sử dụng.

Chúng ta không thực sự may mắn sao?

BERT là một ví dụ về mô hình ngôn ngữ và GPT-2 và BART cũng vậy.

Làm thế nào để sử dụng cái này cho tốt

Như tôi đã đề cập ở trên, công cụ này thực sự mạnh mẽ và có thể được sử dụng để trộn nội dung vô dụng ở quy mô tương đối rẻ.

Cá nhân tôi không muốn mất thời gian lội qua đống rác trong khi tìm kiếm.

Theo thời gian, tôi nhận ra rằng để nội dung hoạt động trong tìm kiếm, nội dung đó cần phải:

  • Hãy hữu ích.
  • Đáp ứng một nhu cầu thực tế.

Nếu không, bất kể là máy tính hay do con người sản xuất, nó sẽ không nhận được bất kỳ sự tương tác hoặc xác thực nào từ người dùng cuối.

Cơ hội xếp hạng và hiệu suất thực sự thấp.

Đây là lý do tại sao tôi thích các kỹ thuật như tóm tắt và dịch hoặc câu hỏi / trả lời mà bạn có quyền kiểm soát tốt hơn trong việc tạo.

Họ có thể giúp bạn đảm bảo rằng bạn đang thêm giá trị mới.

Dự án cộng đồng & Tài nguyên học tập

Tôi đã cố gắng giữ cho bài viết này nhẹ nhàng bằng mã và giải thích càng đơn giản càng tốt để cho phép nhiều người hơn trong cộng đồng tham gia vào cuộc vui.

Tuy nhiên, nếu bạn thiên về kỹ thuật hơn, tôi nghĩ bạn sẽ thích cách giải thích chi tiết và toán học hơn về chủ đề này.

Đảm bảo bạn cũng theo các liên kết trong “Phần đọc thêm” trong bài viết được liên kết ở trên.

Bây giờ, đến một số tin tức thú vị.

Tôi đã yêu cầu cộng đồng chia sẻ các dự án Python mà họ đang thực hiện.Tôi đã mong đợi có thể là một số ít, và tôi đã hoàn toàn bị thổi bay bởi số lượng tôi nhận được trở lại. # DONTWAIT 🐍🔥

Đây là Python và JS, nhưng dù sao thì tôi cũng sẽ đưa nó ra khỏi đó!Tiện ích mở rộng của Chrome để chặn spam trên Google Maps.Mã máy chủ bằng Python và thực hiện xác thực và phân loại địa chỉ. pic.twitter.com/Rvzfr5ku4N

- zchtodd (@zchtodd) ngày 8 tháng 6 năm 2020

1.RPA trong python để tự động chụp ảnh màn hình lặp đi lặp lại https://t.co/zyaafY0bcd
2.API bảng điều khiển tìm kiếm + NLP để kiểm tra các trang mà từ trong tiêu đề meta không khớp với các truy vấn được khách truy cập sử dụng: https://t.co/KsYGds7w1r

- Michael Van Den Reym (@vdrweb) ngày 8 tháng 6 năm 2020

3.Kiểm tra mã trạng thái của tất cả các url với số lần hiển thị trên bảng điều khiển tìm kiếm bằng cách sử dụng API bảng điều khiển tìm kiếm https://t.co/qX0FxSoqgN

- Michael Van Den Reym (@vdrweb) ngày 8 tháng 6 năm 2020

Chào Hamlet!

Tôi đang làm việc trên một trình kiểm tra chuyển hướng có khả năng đối sánh mờ.

Sẽ có một sổ ghi chép @GoogleColab, nhưng lý tưởng nhất là tôi cũng muốn triển khai trong @streamlit để mọi người có thể đánh giá chất lượng của các chuyển hướng của họ bằng một cú nhấp chuột, thông qua kéo và thả.

Tôi sẽ chia sẻ ngay thôi 🙂

- Charly Wargnier (@DataChaz) ngày 9 tháng 6 năm 2020

@hamletbatista https://t.co/oPt5M393Lu
Đã làm việc này bằng cách sử dụng @streamlit
Viết các Tiêu đề Meta hấp dẫn hơn.
Video giải thích: https://t.co/YvVoFMQ4FS

- Anubhav Bittoo Narula (@ anubhavn22) ngày 9 tháng 6 năm 2020

Scrapear thiết kế lại mạng xã hội y pasarlo por npl o Red neuronal para saber el sentimiento del escrito y de ahí sacar gráficas con datastudio o kibana (perdona que responsea en español pero mi inglés es bitante mej Lovely)

- JaviLázaro (@JaviLazaroSEO) ngày 8 tháng 6 năm 2020

1.Đọc các tệp nhật ký và đăng 5xx / 4xx trên cơ sở thời gian thực để chùng xuống!
2.Mục đích từ khóa so với Điểm đối sánh Url.

- Venus Kalra (@venuskalra) ngày 9 tháng 6 năm 2020

https://t.co/9we85HXJgJ

- Marat Gaziev (@MaratGaziev) ngày 9 tháng 6 năm 2020

Tôi đang xây dựng một gói cho # người làm SEO & tiếp thị trực tuyến, bao gồm những thứ khác:
- Máy thu thập thông tin
- trình kiểm tra robots.txt
- Trình kiểm tra SERP
- Công cụ chuyển đổi Sơ đồ trang web sang DataFrame
- Trình chuyển đổi URL sang DataFrame

và hơn thế nữa 🙂 https://t.co/BMVeeQaTxE

- Elias Dabbas (@eliasdabbas) ngày 9 tháng 6 năm 2020

Một số phân tích nội dung với Beautiful Soup + API hộp tri thức + API thực thể đám mây!🐍🐍🐍

- Jess nhưng cách đó 6 feet (@jessthebp) ngày 8 tháng 6 năm 2020

Nhiêu tai nguyên hơn:


Tín dụng hình ảnh

Tất cả ảnh chụp màn hình được chụp bởi tác giả, tháng 6 năm 2020

Tất cả danh mục: Đốm