Grazie alla segnalazione di Deborah e all’aiuto di Gino, pubblico la traduzione di questo importante documento.
Lo reputo importante in quanto consiste nella risposta da parte di Google alla varie domande sorte attorno ad un argomento di cui si parla molto in questo periodo, soprattutto dopo il boom dei feed rss e del loro utilizzo: Google definisce il contenuto duplicato.
Al recente SES tenutosi a Chicago, molti utenti hanno fatto domande circa i contenuti duplicati. Abbiamo realizzato che ci sono parecchie sfumature e un po’ di confusione a riguardo, così abbiamo deciso di aiutare a rafforzare il concetto.
Cos’è un contenuto duplicato?
Il contenuto duplicato si riferisce generalmente a blocchi sostanziali di contenuto all’interno dello stesso dominio o tra diversi domini che combaciano esattamente con altri contenuti o sono molto simili tra loro.
La maggiorparte delle volte è del tutto non intenzionale o per lo meno non fatto con malizia: forum che generano pagine normali o pagine dinamiche prese da altri siti, negozi che mostrano (e, peggio ancora, linkano) diversi URL, e così via.
In qualche caso i contenuti duplicati sono creati nell’intento di manipolare il posizionamento sui motori di ricerca o guadagnare più traffico per chiavi più o meno popolari.Cosa non è un contenuto duplicato?
I nostri algoritmi non vedono come contenuto duplicato lo stesso articolo scritto in Inglese e Spagnolo. Similarmente, non dovreste preoccuparvi che snippets occasionali (virgolette e altro) vengano evidenziati come contenuto duplicato.Perchè Google si preoccupa dei contenuti duplicati?
I nostri utenti, tipicamente, voglio vedere diverse sezioni dello stesso unico contenuto quando eseguono le ricerche. Al contrario, sono annoiati quando vedono lo stesso sostanziale contenuto in più risultati di ricerca.
Anche i webmaster diventano tristi quando mostriamo url complessi piuttosto che semplici url.Cosa fa Google con il contenuto duplicato?
Durante i nostri crawling e quando serve nei risultati di ricerca, proviamo a indicizzare e mostrare pagine con diversi contenuti. Questo filtraggio significa che se il vostro sito contiene articoli in versione “regolare” e “da stampare” e non c’è nessun limite nel robots.txt o attraverso il meta tag noindex, scegliamo solo una delle due versioni da mostrare. Nei rari casi in cui percepiamo che il contenuto duplicato vuole essere mostrato per manipolare il ranking e deviare i nostri utenti, facciamo il giusto accorgimento all’indicizzazione e al posizionamento dell’intero sito coinvolto. Tuttavia, preferiamo focalizzarci sui filtri piuttosto che sull’accorgimento del ranking…così, nella maggiorparte dei casi, la peggior cosa che può accadere è che venga mostrata, tra le due versioni, quella “meno desiderata” dai webmaster.Come possono comportarsi, i webmaster, con i contenuti duplicati?
1. Invece di lasciare che siano i nostri algoritmi a determinare quale sia la miglior versione di un documento, potreste aiutarci indicandoci la versione da voi preferita. Per esempio, se non volete che vengano indicizzate le versioni stampabili degli articoli del vostro sito, disabilitate tali directory o fate uso di espressioni regolari nel file robots.txt
2. Usare il 301: Se avete ristrutturato il sito, usate il redirect 301 (redirect permanente) nel vostro file .htaccess per redirezionare velocemente utenti, Googlebot, e gli altri spider
3. Essere costistenti: per mantenere la consistenza del vostro linking interno non linkate una volta a /pagina/, poi a /pagina e poi a /pagina/index.htm
4. Usare TLD: per aiutarci a capire qual è la più appropriata versione di un documento, usate domini di secondo livello e quando possibile con la specifica della provenienza; preferiamo sapere che un .de indica un sito con contenuti circa la Germania, piuttosto che un /de o un de.esempio.com
5. Condividete con attenzione: se condividete i vostri contenuti in altri siti, assicuratevi che essi contengano un link verso il contenuto originale, in ogni articolo condiviso. Noi comunque mostreremo la versione che pensiamo più appropriata per gli utenti che fanno la ricerca, che potrebbe essere come no, la versione che voi preferite
6. Usate l’opzione “dominio preferito” nel pannello per i webmaster: se altri siti linkano al vostro sito utilizzando sia l’url con www che quella senza, potete dirci quale delle due versioni preferiate venga indicizzata
7. Minimizzate le ripetizioni: invece di inserire nel fondo di ogni pagina lunghi testi di copyright, inserite un piccolo sommario con il link alla pagina con più dettagli.
8. Evitate di pubblicare bozze: gli utenti non gradiscono pagine “vuote”, così evitate [...] dove possibile. Questo significa non pubblicare (o almeno limitare) pagine senza recensioni, senza liste di hotel, etc, così gli utenti (e gli spider) non sono soggetti a una marea di casi di: “Di seguito troverai una magnifica lista delle più grandi opportunità per le tue vacanze a [nome città ]…” senza una lista aggiornata.
9. Conoscete il vostro CMS: siate sicuri di sapere per bene come i contenuti vengono visualizzati nel vostro sito, in modo particolare se include blog, forum o sistemi correlati che spesso mostrano lo stesso contenuto in formati diversi
10. Don’t worry be happy: non preoccupatevi troppo dei siti che vi prendono i contenuti. E’ molto improbabile che questi siti possano negativamente influenzare la presenza in Google del vostro sito. Se comunque volete segnalare un caso particolarmente frustrante, siete i benvenuti nel DMCA request, per reclamare la proprietà dei contenuti e permetterci di occuparci del sito che ha copiato.In breve, una generale consapevolezza del concetto di contenuto duplicato e qualche minuti di premurosa e preventiva manutenzione dovrebbero aiutarvi ad aiutarci nel condurre gli utenti verso contenuti unici e rilevanti.
Per il documento originale, rimando al post sul blog ufficiale di Google.
Se questo post ti è piaciuto, puoi decidere di ricevere gratuitamente gli aggiornamenti del blog abbonandoti al Feed RSS. Clicca qui.



















