15
lug/08

Googlebot: tuo cugino è più veloce

Homer dorme

In realtà, pure il cugino fa parte della famiglia Google, però, in questi giorni, sto notando una terribile differenza in termini di velocità tra lo spider che dovrebbe rilevare aggiornamenti in documenti già indicizzati (lento) e quello che deve scovare nuove risorse da inserire nel db (molto veloce).

Voi?

Abbonati al Feed RSSSe questo post ti è piaciuto, puoi decidere di ricevere gratuitamente gli aggiornamenti del blog abbonandoti al Feed RSS. Clicca qui.

in Google · TrackBack URL

Commenti

salvy scrive,

luglio 15, 2008 @ 20:00

è vero.. anche io sto notando la cosa, e sembra molto più lento rispetto al passato..

Adesso sembra più pigro, sto aspettando che aggiorni nel suo indice un sito da circa un centinaio di pagine (PR alto e tutto in regola), modificato di recente, e ne sta facendo circa 5 al giorno..
Live search ha già finito invece.. ed ho detto tutto!

Petro scrive,

luglio 15, 2008 @ 20:33

Mah, la settimana scorsa ho aggiornato una pagina di cui volevo monitorare il processo di aggiornamento, e contestualmente ne ho pubblicata una nuova (linkata dalla prima).

Googlebot è passato il giorno dopo su entrambe, il giorno dopo è ripassato, e tre giorni dopo erano entrambe in cache.

La prima l’ho aggiornata ancora il giorno dopo, e due giorni dopo pure la cache era aggiornata… tutto questo, senza che ci fossero cambiamenti sui link.

Ma credo che sia il mio che il tuo siano casi isolati, troppo poco e troppi pochi dati per trarne una regola…

marco scrive,

luglio 17, 2008 @ 09:40

Non saprei dire, Petro, credo che la tua conclusione sia la giusta risposta: pochi dati. Proverò a monitorare la cosa per più tempo anche se, di solito, l’aggiornamento della cache della homepage di questo blog, alla fine, si risolve sempre in 24/48 ore.

marco scrive,

luglio 17, 2008 @ 17:38

Cose strane sulla cache!
Allora.
Verifico un paio di cose (oggi è il 17 Luglio 2008).

Copia cache della index: ultimo passaggio 8 Luglio e primo articolo presente nell’ “allora index”, quello sull’iPhone, la delusione.

Poi verifico lo stato di indicizzazione degli ultimi tre post:
1. Novità su Google Maps: Wiki e Foto (anche da Flickr) -> Non indicizzato (pubblicato il 14 Luglio)
2. Googlebot: tuo cugino è più veloce -> Indicizzato (pubblicato il 15 Luglio con copia cache al medesimo giorno)
3. Seminario gratuito di Web Analytics. 16 Luglio 2008, Milano -> Non indicizzato (pubblicato il 15 Luglio)

La cosa “strana” è che quello “in mezzo” è stato indicizzato. Quello prima e quello dopo, in ordine temporale no.
Però non mi soffermo su questo; lo potrei quasi considerare normale.
Passiamo ad altro.

Quando ho verificato l’indicizzazione dei post numero #1 e #3, ho visto che in prima pagina (vedi qui e qui), si posiziona comunque la index, riportando nello snippet, in corrispondenza del tag description, proprio il titolo del post.

Però, dalle due serp, cliccando su copia cache, si finisce, appunto sulla copia cache datata 8 Luglio dove l’ultimo post è quello dell’iPhone.

Come può essere? Nella cache dell’8 Luglio i post pubblicati i giorni 14 e 15 non ci possono essere. Infatti facendo una ricerca all’interno della copia cache, non si ritrova quello che lui invece ci fa vedere nello snippet.

L’unica spiegazione, o almeno quella che mi sono dato io proprio mentre scrivo il commento è la seguente: i post sono stati tolti, spubblicati, flaggati dall’indice.

E non è nemmeno la prima volta che succede.
Solo che qui è proprio chiaro.
Tra l’altro, pure su un altro sitarello di poche pagine, lanciando un site: su Google in tre giorni consecutivi, come risultati ho avuto, in ordine, 18, 30 e 19.

Potrebbe essere una questione di datacenter, anche se da 18 a 30 è quasi il doppio.

Solo che per il sitarello ho notato anche un calo di traffico globale, quindi sono portato a pensare che, in generale, non sia una questione di datacenter.

Poi, per tagliare la testa al toro, vado a vedere le serp dove il giorno dei 30 con il site ero posizionato in 1^ pagina ed oggi non sono nemmeno in 100^, con le 11 pagine (30-19), flaggati, spubblicate, dall’indice.

Non credo sia penalizzazione o cosa.
Piuttosto un “nuovo” trend adottato per l’indicizzazione di nuovi contenuti.

Tornando al tema del post originale: la copia cache della index è ancora ferma all’8 Luglio; in mezzo sono stati scritti post 8 ed il 90% di questi è finito in indice.

Mah?!?

Petro scrive,

luglio 17, 2008 @ 17:44

dalle due serp, cliccando su copia cache, si finisce, appunto sulla copia cache datata 8 Luglio dove l’ultimo post è quello dell’iPhone.

Come può essere? Nella cache dell’8 Luglio i post pubblicati i giorni 14 e 15 non ci possono essere. Infatti facendo una ricerca all’interno della copia cache, non si ritrova quello che lui invece ci fa vedere nello snippet.

Il database delle cache non viene aggiornato di pari passo con l’indice.

Può succedere che il bot visiti una data pagina tutti i giorni, e che pochi minuti dopo il recrawl tu lo ritrovi posizionato (e con il giusto title/snippet) per query riferite a contenuti pubblicati di recente, ma che nonostante questo la copia cache non risulti aggiornata.

Andando a memoria, non è una novità questa… lo noto spesso.

P.s. è stato un piacere conoscerti di persona :)

marco scrive,

luglio 17, 2008 @ 17:57

Innanzitutto grazie del contributo, Petro.
Sapevo che indice e copia cache vanno via con passi diversi.

Però, senza entrare nella questione cache, non è strano che nello snippet della index, a seconda della query, io mi possa ritrovare i titoli di due post che non sono ancora in indice?

Tecnicamente il post dello IAB Seminar, l’ultimo, non è in indice, non ha cache, apparentemente non è stato memorizzato. Però, dalla SERP, me lo ritrovo nello snippet.

Non è strano?
Io continuo a spiegarmelo con il fatto che ieri, per esempio, c’era, ed oggi non c’è più e sono sicuro che tra un paio di giorni torna dentro senza muoversi più in maniera definitiva.

Tra l’altro l’esempio dell’altro sitarello me lo conferma. Avevo 18 pagine, ne ho aggiunte 12, le ho linkate ed il giorno dopo, con un site:, me ne sono trovate 30, posizionate, che hanno generato traffico (non tutte, naturalmente); se faccio oggi il site: me ne trovo 19 e sono orfano dei posizionamenti e del traffico generato proprio da quelle 11.
(Discrepanza di una)

P.s.
Volevo esprimere il piacere di averti conosciuto personalmente in occasione del prossimo post. Anzi, lo farò. :) Però lo rimarco qui più che volentieri: è stato un piacere stringerti la mano e fare due chiacchiere, Maurizio. :)

Lascia un commento

Forse potranno interessarti...

.