[Questo post è stato scritto da Gianmaria Silvello]
“How do you spell internet?”
“G-O-O-G-L-E”
Da qualche mese Google ha introdotto una nuova funzione per i webmaster, ossia la possibilità di sottomettere al famoso motore di ricerca i documenti del proprio sito attraverso il protocollo OAI-PMH (Open Archive Initiative Protocol for Metadata Harvesting). Anzi più che i propri documenti i metadati dei propri documenti… ma andiamo con calma, un passo alla volta.
Cosa sono metadati? Cos’è questo protocollo? Cerchiamo di fare chiarezza in modo semplice e veloce (per quanto possibile) e di capire come il tutto possa essere utile ai webmaster.
I metadati sono letteralmente dei dati sui dati, ossia dei dati che descrivono un documento, un file o simili. Sostanzialmente possono essere considerati dei file di testo strutturati che contengono dei campi prefissati riempiti con informazioni relative al file sui quali sono costruiti. Per fare un’associazione con il “mondo reale” i metadati sono sempre esistiti nelle biblioteche… sarebbero infatti le famose schedine che identificano un libro e che permettono di trovarlo senza che si vada a cercarlo in tutti gli scaffali; oggigiorno sono sostituite da una ricerca fatta al pc (anche se non dappertutto, temo).
Ci sono diversi schemi di metadati che definiscono i campi necessari per descrivere un determinato tipo di documento; il più noto schema di metadati per i documenti bibliografici, o almeno lo schema di base per questi, è il Dublin Core. Dublin Core definisce 15 campi di base, comunque estendibili, per definire e descrivere i documenti.
I metadati quindi possono essere considerati un metodo flessibile e comodo per individuare e gestire logicamente i documenti e i file. In un ambiente distribuito dove si devono considerare milioni se non miliardi di file, l’utilizzo dei metadati permette una gestione organizzata, chiara e modulabile che altrimenti non sarebbe possibile manipolando o “spostando” ogni volta i file stessi. Mediante l’analisi di un metadato possiamo trovare l’identificatore di un dato file, la data, l’abstract e/o altri campi utili per eseguire una ricerca senza toccare i documenti e quindi la collezione che li contiene.
OAI-PMH si colloca in questo contesto permettendo lo scambio di metadati tra collezioni (repository) di documenti geograficamente distanti tra loro.
Open Archive Initiative è l’iniziativa internazionale che ha sviluppato il protocollo per la raccolta (Harvesting) dei metadati. Il suddetto protocollo si compone di due parti principali chiamate Data Provider e Service Provider; in qualche modo il funzionamento potrebbe essere avvicinato a quello di un’architettura client-server, anche se con delle differenze sostanziali.
Data Provider è la componente che contiene i metadati in origine e quindi anche i documenti o meglio i file sui quali i metadati sono stati costruiti. Service Provider invece è la componente che esegue la raccolta dei metadati salvandoli in una collezione centralizzata. Quindi per come è pensato questo protocollo avremo un Service Provider e molti Data Provider che forniscono metadati, aggiornando di volta in volta la collezione centrale. L’indicizzazione e quindi la ricerca dei documenti avverrà nella collezione centrale senza interrogare le collezioni periferiche e senza “toccare” i file originali.
Tutto questo consente una maggiore velocità di ricerca e una maggiore flessibilità nella gestione dei file. L’accentramento della ricerca è possibile perché non si spostano i file stessi (in genere pesanti dal punto di vista dei megabyte) ma i metadati, leggeri e modellabili. Una volta che attraverso i metadati si è individuato il file di interesse, il sistema eseguirà una richiesta e si riceverà il file desiderato, grazie ad una sola interrogazione (veloce e mirata) da parte del Service Provider al Data Provider che possiede il file selezionato.
Google permette di indicare e di condividere i propri metadati; in questo modo il sito personale sarà il Data Provider mentre il motore di ricerca sarà il Service Provider. C’è quindi un invio diretto a Google di dati pronti per l’indicizzazione , saranno quindi reperibili da parte degli utenti informazioni che probabilmente non sarebbero state trovate dal crawler di Google e quindi non sarebbero state raggiungibili attraverso una ricerca normale. Il webmaster otterrà una maggiore visibilità segnalando direttamente le informazioni che vorrà rendere evidenti mediante una ricerca da motore.
Se questo post ti è piaciuto, puoi decidere di ricevere gratuitamente gli aggiornamenti del blog abbonandoti al Feed RSS. Clicca qui.



















