Sitemap

La tecnologia e le tecniche di generazione dei contenuti che dimostrerò in questa colonna sembrerebbero uscite da un romanzo di fantascienza, ma ora sono reali e liberamente accessibili.

Dopo aver completato gli esperimenti di codifica e aver iniziato a scrivere questo pezzo, ho riflettuto sulle implicazioni positive e negative della condivisione di queste informazioni pubblicamente.

Come vedrai, ora è relativamente facile produrre contenuti generati da macchine e la qualità delle generazioni sta migliorando rapidamente.

Questo mi ha portato alla triste conclusione che avremmo visto molti più risultati di spam rispetto a prima.

Fortunatamente, Google ha recentemente pubblicato il suo rapporto sullo spam del 2019 che mi ha messo a mio agio.

Hai mai guardato la tua cartella di posta indesiderata?Ecco come potrebbero apparire i risultati di ricerca senza i passaggi che adottiamo per combattere lo spam di ricerca.Il nostro post di oggi esamina come lavoriamo per tenere lo spam fuori dai risultati di ricerca di Google https://t.co/RA4lUoDXEF

— Google SearchLiaison (@searchliaison) 9 giugno 2020

“L'anno scorso abbiamo osservato che più di 25 miliardi di pagine che troviamo ogni giorno sono spam. (Se ciascuna di quelle pagine fosse una pagina di un libro, sarebbero più di 20 milioni di copie di “Guerra e Pace” ogni giorno!)

I nostri sforzi hanno contribuito a garantire che oltre il 99% delle visite dei nostri risultati porti a esperienze prive di spam.

Negli ultimi anni, abbiamo osservato un aumento dei siti di spam con contenuti generati automaticamente e raschiati con comportamenti che infastidiscono o danneggiano i ricercatori, come pulsanti falsi, annunci travolgenti, reindirizzamenti sospetti e malware.Questi siti Web sono spesso ingannevoli e non offrono alcun valore reale alle persone.Nel 2019 siamo stati in grado di ridurre l'impatto di questo tipo di spam sugli utenti di ricerca di oltre il 60% rispetto al 2018".

Mentre Google segnala un numero impressionante di pagine di spam al giorno, segnala un impressionante tasso di successo del 99% nella soppressione dello spam su tutta la linea.

Ancora più importante, stanno facendo incredibili progressi nella soppressione del contenuto di spam generato dalla macchina.

In questa colonna, spiegherò con il codice come un computer è in grado di generare contenuti utilizzando gli ultimi progressi in NLG.

Esaminerò la teoria e alcune linee guida per mantenere utili i tuoi contenuti.

Questo ti aiuterà a evitare di essere scoperto con tutto lo spam web di cui Google e Bing stanno lavorando 24 ore su 24 per sbarazzarsi di.

Pagine di contenuto sottile

Nel mio articolo sulla generazione di titoli e meta descrizioni, ho condiviso una tecnica efficace che si basa sul riepilogo del contenuto della pagina per produrre meta tag.

Dopo aver seguito i passaggi, puoi vedere che funziona davvero bene e può persino produrre testi nuovi e di alta qualità.

Ma cosa succede se le pagine non includono alcun contenuto da riassumere?La tecnica fallisce.

Lascia che ti dica un trucco molto intelligente per risolvere questo problema.

Se tali pagine hanno backlink di qualità, puoi utilizzare l'anchor text e il testo che circonda il backlink come testo per riassumere.

Attesa!

Ma perché?

Consentitemi di tornare indietro fino al 1998, alla fondazione del motore di ricerca Google.

Nel documento che descrive il loro nuovo motore di ricerca, Page e Brin hanno condiviso un'idea molto interessante nella sezione 2.2.

“La maggior parte dei motori di ricerca associa il testo di un collegamento alla pagina in cui si trova il collegamento. Inoltre, lo associamo alla pagina a cui punta il collegamento. Questo ha diversi vantaggi. Primo, gli anchor spesso forniscono descrizioni più accurate delle pagine web rispetto alle pagine stesse. In secondo luogo, possono esistere ancoraggi per documenti che non possono essere indicizzati da un motore di ricerca basato su testo, come immagini, programmi e database. Ciò consente di restituire pagine Web che non sono state effettivamente scansionate".

Ecco il piano tecnico:

  1. Otterremo i backlink e gli anchor text corrispondenti utilizzando i nuovi Strumenti per i Webmaster di Bing.
  2. Elimineremo il testo circostante dai backlink di altissima qualità.
  3. Creeremo riepiloghi e contenuti di lunga durata utilizzando il testo raschiato.

Una caratteristica che mi piace del nuovo strumento per i backlink in BWT è che può fornire link non solo che puntano al tuo sito, ma anche ad altri siti.

Mi aspetto che questa diventi una popolare alternativa gratuita agli strumenti a pagamento.

Ho esportato il file CSV con il grande elenco di collegamenti e ancoraggi, ma quando ho provato a caricarlo utilizzando i panda Python e ho riscontrato una serie di problemi di formattazione.

I testi di ancoraggio casuali possono includere virgole e causare problemi con un file delimitato da virgole.

Li ho risolti aprendo il file in Excel e salvandolo in formato Excel.

Raschiare il testo circostante con Python

Come puoi vedere nel mio screenshot sopra, molti dei testi di ancoraggio sono piuttosto brevi.

Possiamo raschiare le pagine per ottenere il paragrafo che le contiene.

Per prima cosa, carichiamo il report che abbiamo esportato da BWT.

import pandas as pddf = pd.read_excel("www.domain.com_ReferringPages_6_7_2020.xlsx")df.head()

Ho esaminato l'URL di destinazione in base al numero di collegamenti in entrata utilizzati.

df.groupby("Target Url").count().tail()

Ho estratto i backlink da una delle pagine per valutare l'idea usando questo codice.

backlinks = set(df[df["Target Url"] == "https://domain.com/example-page"]["Source Url"])

Ora, vediamo come possiamo utilizzare un URL di destinazione e un backlink per estrarre il testo di ancoraggio pertinente che include l'ancora.

Innanzitutto, installiamo request-html.

!pip install requests-htmlfrom requests_html import HTMLSessionsession = HTMLSession()

Per mantenere il codice semplice, produrrò manualmente un selettore CSS per acquisire il testo che circonda il collegamento.

Non è difficile calcolarlo dato il collegamento e l'ancora sulla pagina utilizzando codice JavaScript o Python.

Forse è una buona idea da provare come compito.

Apri una pagina di backlink di esempio e, utilizzando gli Strumenti per sviluppatori di Chrome, puoi fare clic con il pulsante destro del mouse sul paragrafo di interesse e copiare un selettore CSS.

Questo è il selettore che ho usato.

with session.get(url) as r:    selector="#entry-78782 > div.asset-content.entry-content > div > p:nth-child(5)"    paragraph = r.html.find(selector, first=True)    text = paragraph.text

Questo è il testo che è tornato.Ho messo in grassetto il testo del nostro anchor text di esempio.

Sappiamo che la fidelizzazione degli insegnanti migliora i risultati per gli studenti e, al contrario, che il turnover degli insegnanti può danneggiare i risultati degli studenti.Circa il 16 per cento degli educatori lascia il campo ogni anno e sappiamo che molti insegnanti, come me, se ne vanno entro i primi cinque anni.Gli insegnanti riferiscono che i motivi principali per cui lasciano sono la mancanza di autonomia e voce, insieme a questioni di cultura e, in particolare, di disciplina.Inoltre, il fatturato è costoso: cortocircuitare i distretti fino a $ 2,2 miliardi all'anno.

Ora, passiamo alla parte divertente!

Generazione di testo neurale

Utilizzeremo lo stesso codice di riepilogo che abbiamo utilizzato per generare titoli e meta descrizioni nel mio precedente articolo, ma con una svolta.

Invece di specificare una lunghezza di riepilogo desiderabile più breve del paragrafo originale, specificheremo una lunghezza maggiore.Funzionerà?Vediamo!

!pip install transformersfrom transformers import pipelinesummarizer = pipeline('summarization')generated_text = summarizer(text, min_length=150, max_length=250)print(generated_text)

Ricevo questo interessante avviso.

Il tuo max_length è impostato su 250, ma input_length è solo 99.Potresti considerare di ridurre manualmente max_length, ad es. sommatore('...', lunghezza_max=50)

Vediamo il testo generato.

[{'summary_text': "Around 16 percent of educators leave the field every year. Teachers report that the biggest reasons they leave are lack of autonomy and voice, alongside issues of culture and discipline. Turnover is costly, shorting districts upwards of $2.2 billion a year, according to a report by the National Council of Teachers of English, the nation's largest teacher organization. The report also found that teacher retention improves outcomes for students, and conversely, that teacher turnover can harm student achievement. The study was published in the Journal of Education, published by Simon & Schuster, a division of Penguin Random House, on November 14. For more, visit www.simonandschuster.com. For confidential support, call the National Suicide Prevention Lifeline at 1-800-273-8255 or visit http://www.suicidepreventionlifeline.org/."}]

Il testo originale aveva 492 caratteri e il testo generato 835.

Ma guarda la qualità e le nuove frasi che appaiono nel testo generato.Assolutamente, strabiliante!

Questa tecnica può generare testo ancora più lungo?Sì!

generated_text = summarizer(text, min_length=300, max_length=600)print(generated_text)[{'summary_text': "Around 16 percent of educators leave the field every year. Teachers report that the biggest reasons they leave are lack of autonomy and voice, alongside issues of culture and discipline. Turnover is costly, shorting districts upwards of $2.2 billion a year, according to a report by the National Council of Teachers of English, the nation's largest teacher organization. The report also found that teacher retention improves outcomes for students, and conversely, that teacher turnover can harm student achievement. The study was published in the Journal of Education, published by Simon & Schuster, a division of Penguin Random House, on November 14. For more, visit www.simonandschuster.com. For confidential support, call the National Suicide Prevention Lifeline at 1-800-273-8255 or visitxa0http://www.suicidepreventionlifeline.org/. For support in the U.S., call the Samaritans on 08457 90 90 90 or visit a local Samaritans branch, see www.samaritans.org for details. In the UK, contact the National College of Education on 0300 123 90 90, orxa0 visitxa0the Samaritansxa0in the UK. For help in the United States, callxa0thexa0National Suicide Prevention Line on 1xa0800xa0273xa08255,xa0orxa0inxa0the UK on 0800xa0123xa09255. For support on suicide matters in thexa0U.S. call thexa0Nationalxa0Collegexa0of Education,xa0Englandxa0on 08457xa090 90 90. For information on suicide prevention in the UK andxa0Europe, visit the Nationalxa0College of England and Wales."}]

Questo testo generato ha 1.420 caratteri e mantiene il flusso logico!

La bestia che alimenta questa tecnica è un modello di Facebook chiamato BART.

Gli autori del documento lo descrivono come una forma generalizzata di BERT.

Vediamo come funziona.

Come funziona la generazione di testo neurale

Hai sostenuto atti attitudinali o test del QI in cui ti viene presentata una sequenza di numeri e devi indovinare il prossimo?

In sostanza, questo è ciò che il nostro modello ha fatto sopra quando abbiamo fornito del testo iniziale e abbiamo chiesto ai nostri modelli di prevedere cosa succede dopo.

Ha trasformato il nostro testo iniziale in una sequenza di numeri, ha indovinato il numero successivo e ha preso la nuova sequenza che include il numero indovinato e ha ripetuto di nuovo lo stesso processo.

Questo continua fino a quando non raggiunge il limite di lunghezza che abbiamo specificato.

Ora, questi non sono solo numeri regolari, ma vettori e più specificamente (nel caso di BERT e BART) incorporamenti di parole bidirezionali.

Ho spiegato i vettori e l'incorporamento di parole bidirezionale utilizzando un'analogia GPS nei miei articoli di deep learning parte 1 e parte 2.Assicurati di controllarli.

In sintesi, gli incorporamenti codificano informazioni dettagliate sulle parole che rappresentano, il che aumenta notevolmente la qualità delle previsioni.

Quindi, ecco un esempio di come funziona.

Dato il testo: "Il miglior linguaggio di programmazione per i SEO che svolgono attività ripetitive è ____ e per i SEO che eseguono audit front-end è ____", chiediamo al modello di completare la frase.

Il primo passaggio consiste nel convertire le parole in numeri/incorporamenti, in cui ogni incorporamento identifica la parola nel contesto.

Quindi, trasformalo in un enigma che il computer può risolvere per capire i numeri/incorporamenti che possono riempire gli spazi vuoti dato il contesto.

L'algoritmo in grado di risolvere questi tipi di enigmi è chiamato modello linguistico.

Un modello linguistico è simile alle regole grammaticali in inglese o in qualsiasi altra lingua.

Ad esempio, se il testo è una domanda, deve terminare con un punto interrogativo.

La differenza è che tutte le parole ei simboli sono rappresentati da numeri/incorporamenti.

Ora, la cosa interessante è che nell'apprendimento profondo (quello che stiamo usando qui), non è necessario creare manualmente un lungo elenco di regole grammaticali.

Il modello apprende le regole empiricamente attraverso tentativi ed errori efficienti.

Questo viene fatto durante quella che viene chiamata una fase di pre-addestramento in cui i modelli vengono addestrati su un enorme corpus di dati per diversi giorni e utilizzando hardware molto potente.

La parte migliore per noi è che i risultati di questi sforzi sono resi gratuiti per l'uso da parte di chiunque.

Non siamo davvero fortunati?

BERT è un esempio di modello linguistico, così come GPT-2 e BART.

Come usarlo per sempre

Come accennato in precedenza, questa roba è davvero potente e potrebbe essere utilizzata per sfornare contenuti inutili su larga scala in modo relativamente economico.

Personalmente non vorrei perdere tempo a guadare nella spazzatura mentre cerco.

Nel corso del tempo, mi sono reso conto che, affinché i contenuti funzionino nella ricerca, devono:

  • Essere utile.
  • Soddisfare un vero bisogno.

In caso contrario, non importa se è un computer o prodotto dall'uomo, non riceverà alcun coinvolgimento o convalida dagli utenti finali.

Le possibilità di classificarsi e di esibirsi sono davvero basse.

Questo è il motivo per cui preferisco tecniche come sintesi e traduzione o domande/risposte in cui hai un maggiore controllo sulla generazione.

Possono aiutarti ad assicurarti di aggiungere nuovo valore.

Progetti comunitari e risorse di apprendimento

Ho cercato di mantenere questo articolo chiaro nel codice e le spiegazioni il più semplici possibile per consentire a più persone nella comunità di unirsi al divertimento.

Ma, se sei più incline alla tecnica, penso che apprezzerai questa spiegazione più granulare e matematica dell'argomento.

Assicurati di seguire anche i collegamenti nella "Sezione di ulteriori letture" nell'articolo collegato sopra.

Ora, per alcune notizie interessanti.

Ho chiesto alla community di condividere i progetti Python su cui stanno lavorando.Mi aspettavo forse una manciata, e sono rimasto completamente sbalordito da quanti ne ho recuperati. #DONTWAIT 🐍🔥

Questo è Python e JS, ma lo pubblicherò comunque!Estensione di Chrome per eliminare lo spam su Google Maps.Il codice del server è in Python e gestisce la convalida e la classificazione degli indirizzi. pic.twitter.com/Rvzfr5ku4N

— zchtodd (@zchtodd) 8 giugno 2020

1.RPA in Python per automatizzare screenshot ripetitivi prendendo https://t.co/zyaafY0bcd
2.API della console di ricerca + NLP per verificare la presenza di pagine in cui la parola nel meta titolo non corrisponde alle query utilizzate dai visitatori: https://t.co/KsYGds7w1r

— Michael Van Den Reym (@vdrweb) 8 giugno 2020

3.Controlla il codice di stato di tutti gli URL con le impressioni della console di ricerca utilizzando l'API della console di ricerca https://t.co/qX0FxSoqgN

— Michael Van Den Reym (@vdrweb) 8 giugno 2020

Ciao Amleto!

Sto lavorando su un controllore di reindirizzamento con funzionalità di corrispondenza fuzzy.

Ci sarà un taccuino @GoogleColab, ma idealmente vorrei anche implementarlo in @streamlit in modo che le persone possano valutare la qualità dei loro reindirizzamenti in 1 clic, tramite trascinamento della selezione.

Condividerò a breve 🙂

— Charly Wargnier (@DataChaz) 9 giugno 2020

@hamletbatista https://t.co/oPt5M393Lu
Ci ho lavorato usando @streamlit
Scrivi meta titoli più avvincenti.
Video esplicativo: https://t.co/YvVoFMQ4FS

— Anubhav Bittoo Narula (@anubhavn22) 9 giugno 2020

Scrapear redes sociales y pasarlo por npl o Red neuronal para saber el sentimiento del escrito y de ahí sacar gráficas con datastudio o kibana (perdona que responda en español pero mi inglés es bastante mejorable)

— JaviLázaro (@JaviLazaroSEO) 8 giugno 2020

1.Leggere i file di registro e pubblicare 5xx/4xx in tempo reale per rallentare!
2.Intento parola chiave vs punteggio corrispondenza URL.

— Venus Kalra (@venuskalra) 9 giugno 2020

https://t.co/9we85HXJgJ

— Marat Gaziev (@MaratGaziev) 9 giugno 2020

Sto costruendo un pacchetto per #SEO e marketer online, contenente tra le altre cose:
– Crawler
– tester robots.txt
– Controllo SERP
– Convertitore da Sitemap a DataFrame
– Convertitore da URL a DataFrame

e altro 🙂 https://t.co/BMVeeQaTxE

— Elias Dabbas (@eliasdabbas) 9 giugno 2020

Alcune analisi dei contenuti con Beautiful Soup + l'API Knowledge box + l'API Cloud Entity!🐍🐍🐍

— Jess ma a 6 piedi di distanza (@jessthebp) 8 giugno 2020

Altre risorse:


Crediti immagine

Tutti gli screenshot presi dall'autore, giugno 2020

Tutte le categorie: Blog