02
ott/07

Google e il protocollo OAI-PMH: cosa c’è di nuovo per i webmaster?

[Questo post è stato scritto da Gianmaria Silvello]

“How do you spell internet?”
“G-O-O-G-L-E”

Da qualche mese Google ha introdotto una nuova funzione per i webmaster, ossia la possibilità di sottomettere al famoso motore di ricerca i documenti del proprio sito attraverso il protocollo OAI-PMH (Open Archive Initiative Protocol for Metadata Harvesting). Anzi più che i propri documenti i metadati dei propri documenti… ma andiamo con calma, un passo alla volta.

Cosa sono metadati? Cos’è questo protocollo? Cerchiamo di fare chiarezza in modo semplice e veloce (per quanto possibile) e di capire come il tutto possa essere utile ai webmaster.

I metadati sono letteralmente dei dati sui dati, ossia dei dati che descrivono un documento, un file o simili. Sostanzialmente possono essere considerati dei file di testo strutturati che contengono dei campi prefissati riempiti con informazioni relative al file sui quali sono costruiti. Per fare un’associazione con il “mondo reale” i metadati sono sempre esistiti nelle biblioteche… sarebbero infatti le famose schedine che identificano un libro e che permettono di trovarlo senza che si vada a cercarlo in tutti gli scaffali; oggigiorno sono sostituite da una ricerca fatta al pc (anche se non dappertutto, temo).

Ci sono diversi schemi di metadati che definiscono i campi necessari per descrivere un determinato tipo di documento; il più noto schema di metadati per i documenti bibliografici, o almeno lo schema di base per questi, è il Dublin Core. Dublin Core definisce 15 campi di base, comunque estendibili, per definire e descrivere i documenti.

I metadati quindi possono essere considerati un metodo flessibile e comodo per individuare e gestire logicamente i documenti e i file. In un ambiente distribuito dove si devono considerare milioni se non miliardi di file, l’utilizzo dei metadati permette una gestione organizzata, chiara e modulabile che altrimenti non sarebbe possibile manipolando o “spostando” ogni volta i file stessi. Mediante l’analisi di un metadato possiamo trovare l’identificatore di un dato file, la data, l’abstract e/o altri campi utili per eseguire una ricerca senza toccare i documenti e quindi la collezione che li contiene.

OAI-PMH si colloca in questo contesto permettendo lo scambio di metadati tra collezioni (repository) di documenti geograficamente distanti tra loro.

Open Archive Initiative è l’iniziativa internazionale che ha sviluppato il protocollo per la raccolta (Harvesting) dei metadati. Il suddetto protocollo si compone di due parti principali chiamate Data Provider e Service Provider; in qualche modo il funzionamento potrebbe essere avvicinato a quello di un’architettura client-server, anche se con delle differenze sostanziali.

Data Provider è la componente che contiene i metadati in origine e quindi anche i documenti o meglio i file sui quali i metadati sono stati costruiti. Service Provider invece è la componente che esegue la raccolta dei metadati salvandoli in una collezione centralizzata. Quindi per come è pensato questo protocollo avremo un Service Provider e molti Data Provider che forniscono metadati, aggiornando di volta in volta la collezione centrale. L’indicizzazione e quindi la ricerca dei documenti avverrà nella collezione centrale senza interrogare le collezioni periferiche e senza “toccare” i file originali.

Tutto questo consente una maggiore velocità di ricerca e una maggiore flessibilità nella gestione dei file. L’accentramento della ricerca è possibile perché non si spostano i file stessi (in genere pesanti dal punto di vista dei megabyte) ma i metadati, leggeri e modellabili. Una volta che attraverso i metadati si è individuato il file di interesse, il sistema eseguirà una richiesta e si riceverà il file desiderato, grazie ad una sola interrogazione (veloce e mirata) da parte del Service Provider al Data Provider che possiede il file selezionato.

Google permette di indicare e di condividere i propri metadati; in questo modo il sito personale sarà il Data Provider mentre il motore di ricerca sarà il Service Provider. C’è quindi un invio diretto a Google di dati pronti per l’indicizzazione , saranno quindi reperibili da parte degli utenti informazioni che probabilmente non sarebbero state trovate dal crawler di Google e quindi non sarebbero state raggiungibili attraverso una ricerca normale. Il webmaster otterrà una maggiore visibilità segnalando direttamente le informazioni che vorrà rendere evidenti mediante una ricerca da motore.

Abbonati al Feed RSSSe questo post ti è piaciuto, puoi decidere di ricevere gratuitamente gli aggiornamenti del blog abbonandoti al Feed RSS. Clicca qui.

in Information Retrieval · TrackBack URL

Commenti

diggita.it scrive,

ottobre 2, 2007 @ 09:04

Google e il protocollo OAI-PMH: cosa c’è di nuovo per i webmaster?…

Da qualche mese Google ha introdotto una nuova funzione per i webmaster, ossia la possibilità di sottomettere al famoso motore di ricerca i documenti del proprio sito attraverso il protocollo OAI-PMH (Open Archive Initiative Protocol for Metadata Harv…

Federico scrive,

ottobre 3, 2007 @ 17:03

O_O …

sembra un campo di studio parecchio corposo… mi informo!

Gianmaria Silvello scrive,

ottobre 3, 2007 @ 17:19

Si è un campo corposo, ma ci sono buoni articoli a riguardo per farsi un’idea più chiara. Se te ne servono fammi sapere. :)

Federico scrive,

ottobre 3, 2007 @ 17:23

Grazie, per il momento ho trovato questo:

http://eprints.rclis.org/archive/00002343/03/cap_2.PDF

se ci sono ulteriori articoli esplicativi/esemplicativi postali pure!
:)

Gianmaria Silvello scrive,

ottobre 3, 2007 @ 17:33

E’ la traduzione in italiano del rapporto tecnico fatto da Lagoze e H. Van de Sompel (http://www.openarchives.org/OAI/openarchivesprotocol.html), io ti consiglio la lettura originale (anche se è in inglese) perchè la traduzione è molto verbosa ad occhio. Come stimolo consiglio anche questo paper: http://library.lanl.gov/cgi-bin/getfile?LA-UR-05-9158.pdf relativo alla copertura di contenuti OAI-PMH da parte dei motori di ricerca.

marco scrive,

ottobre 3, 2007 @ 17:39

ottimo!
grazie, gian.
:-)

Federico scrive,

ottobre 3, 2007 @ 17:40

ok, credo di avere + o – capito a GRAAANDI linee di cosa si tratta, ma che effettiva ulteriore utilità può avere per un webmaster?
Cioè, al momento ci sono le sitemap, grazie alle quali il motore può sapere quante e quali pagine, documenti e file ha il mio sito web, può conoscerne l’importanza relativa all’interno del sito e la data di modifica.
Le altre informazioni come titolo, argomento trattato, collegamenti, le reperisce dalla pagina stessa tramite testi e metadata e posiziona il documento nel suo DB grazie ai suoi algoritmi.
Perchè dovrei creare un ulteriore documento OAI-PMH che dica le stesse cose che una pagina web well-formed dice già?

Federico scrive,

ottobre 3, 2007 @ 17:50

Cioè, il concetto è quello di separare i metadati dai documenti veri e propri?

Gian scrive,

ottobre 3, 2007 @ 17:53

OAI-PMH si integra all’approccio Sitemaps, permettendo un accesso alle informazioni da un’altra porta. In effetti per un webmaster attento, ossia che fa delle pagine come dici te “well-formed”, potrebbe essere un vantaggio relativo. Il maggior vantaggio è per i grandi repository che non sempre hanno delle pagine web che linkano ai documenti. Comunque il post che dovrebbe uscire la settimana prossima potrebbe chiarire qualcosa.
Si deve comunque considerare che è nato per lo scambio di informazioni (sottoforma di metadati) e che solo in un secondo momento è stato usato per “agevolare” il lavoro dei motori di ricerca.
Spesso è configurata “solamente” come soluzione architetturale, ma si è rivelata molto utile sopratutto per indicizzare il deep web.

Gian scrive,

ottobre 3, 2007 @ 17:56

Il concetto è di usare i metadati (quindi separarli dal documento, ma sono già un’altra cosa rispetto al documento), per reperire e gestire i documenti. Si fa questo perchè i metadati se ben fatti sono più leggeri e facilmente scambiabili. Proprio per questo si fa una ricerca centralizzata e non distribuita sui repository come si tendeva a fare con altri metodi (Z39.50 ad esempio – ma non vorrei portare fuori strada con questo esempio).

Federico scrive,

ottobre 3, 2007 @ 18:01

Caspita, sei stato chiarissimo! Grazie per le risposte.

marco ziero e il blog del figlio del presidente scrive,

ottobre 10, 2007 @ 09:20

Gianmaria Silvello: esperto di Information Retrieval…

Sei appena arrivato e trovi questo blog interessante? Iscriviti al Feed RSS per tenerti aggiornato. Grazie per la visita!E’ davvero un piacere, per me, poter ufficializzare questa collaborazione, direi inaspettata, con un mio compagno di classe d…

Patrizia scrive,

luglio 26, 2010 @ 13:47

Grazie mille! Mi hai salvato la vita per l’esame di dopo domani! Spiegazione chiarissima!!!

Gian scrive,

luglio 26, 2010 @ 16:10

Ciao.
Che esame? Attenta che dal 2007 (quando ho scritto questo post) le cose sono un po’ cambiate. OAI-PMH funziona sempre allo stesso modo ed è ormai uno standard per lo scambio di metadati in ambiente distribuito, però Google non lo usa più: http://bonariabiancu.wordpress.com/2008/04/29/google-dice-addio-a-oai-pmh-per-sitemaps/

Patrizia scrive,

luglio 27, 2010 @ 10:48

L’esame è di biblioteche digitali… grazie per l’aggiornamento su google, comunque mi serviva solo capire il funzionamento del protocollo! Dagli appunti del prof. non mi era proprio chiaro!
Grazie ancora!

Lascia un commento

Forse potranno interessarti...

.