09
mar/07

Ma quanti spider ci sono!

Con questo piccolo post vorrei far presente un concetto semplice che, credo però, non sia ancora così “diffuso” tra chi si avvicina al mondo del SEO e dei motori di ricerca. Sicuramente chi studia i motori a livello di Information Retrieval queste cose le sa da tempo, se poi volesse anche portare il suo contributo sarebbe stupendo (Low… :-D )!
In sostanza voglio dire questo: non esiste un solo spider per motore, mettiamo GoogleBot di Google, ne esistono diversi, o meglio, di diversi tipi. Infatti non mi riferisco alla quantità di essi, era intuibile che non ce ne fosse solamente uno che si smazzava tutto il web su e giù tutti i giorni, ma parlo bensì della tipologia degli spider.
Analizzando statistiche e date cache, sono arrivato alla conclusione che:
c’è un tipo di spider dedicato alle visite, che setaccia il web e che, statisticamente parlando, mi fa visita tutti i giorni;
c’è un tipo di spider che controlla le pagine già presenti nell’indice…a caccia di aggiornamenti insomma, e il suo passaggio si può vedere dalla data in copia cache;
c’è un tipo di spider che controlla eventuali pagine nuove, non ancora presenti nell’indice (probabilmente è quello che ha più sete di tutti);
In particolare questo terzo, ma non ultimo, tipo ho potuto appurare che esista da un aspetto (ovviamente potrei anche sbagliarmi): la copia cache di un mio post è datata 25 Febbraio (giorno in cui è stato pubblicato) mentre la copia cache dell’index (nella quale questo post è stato “in testa” SOLO il giorno 25 Febbraio) è datata 22 Febbraio. Se lo spider fosse lo stesso mi aspetterei che la data cache dell’indice fosse più aggiornata (visto che continuo a pubblicare prima e dopo il 25 Febbraio) o quanto meno allineata, invece è antecedente.
Lo spider non è potuto passare da pagine più aggiornate dell’index in quanto il post è linkato solo da qualche mia pagina interna. Evidentemente il 25 Febbraio lo spider “del terzo tipo” è passato e ha visto un contenuto nuovo che ha scaricato, mentre lo spider “del secondo tipo” deve ancora passare.
Queste sono le mie conclusioni, ma sono disposto a ridiscuterle, visto che non sono certo un esperto dell’argomento.

Abbonati al Feed RSSSe questo post ti è piaciuto, puoi decidere di ricevere gratuitamente gli aggiornamenti del blog abbonandoti al Feed RSS. Clicca qui.

in SEO · TrackBack URL

Commenti

fradefra scrive,

marzo 9, 2007 @ 18:04

Beh, ci sono anche spider che leggono le immagini, spider che prelevano i CSS, ecc. ecc.
La cosa è già stata accertata varie volte. Vai tranquillo, sei sul percorso giusto.

marco scrive,

marzo 9, 2007 @ 18:06

ottimo!
grazie mille, francesco! :-D

Domanda su Google Webmaster Tools scrive,

gennaio 2, 2009 @ 18:20

[...] tali errori vengono aggiornati ed eliminati, insomma, era una cosa temporanea, dovuta al fatto che lo spider dedicato a tale funzione era passato proprio in quel momento. Però, il comune denominatore, in questi casi, è che le URL [...]

Lascia un commento

Forse potranno interessarti...

.