[Questo post è stato scritto da Gianmaria Silvello]
Molte librerie digitali e database sono irragiungibili dalla maggior parte dei crawler. Il deep web (chiamato anche invisible web o hidden web) consiste proprio in una vasta collezione di pagine irragiungibili dai crawler e che non sono quindi indicizzate. Il Deep web è stato stimato essere 500 volte quello che viene chiamato il surface web (ossia la parte del web che viene indicizzata). Avendo indicizzato la maggior parte del surface web, i principali motori di ricerca stanno cercando di trovare delle tecniche per indicizzare anche la parte nascosta della rete. Se consideriamo un sito internet, sappiamo che viene indicizzato tutto quanto è raggiunto dai crawler dei motori di ricerca e quindi, semplificando al massimo la questione, quello che è raggiungibile mediante link. Immaginiamo di avere un vasto database di file in formato pdf ad esempio, questi non saranno indicizzati se non raggiunti da link che li puntano; questo è molto frequente, infatti non accade usualmente di avere link a tutti i file contenuti in un database. In genere l’utente di un determinato sito internet dovrà ricercare attraverso una query (o simili), inserendo delle parole chiave per ottenere dei risultati provenienti dal database su cui il sito si appoggia. Fatto questo saranno restituiti dei risultati comprendenti i vari file pdf rilevanti (o presunti tali) secondo un determinato ranking. Un crawler non è in grado (per ora per lo meno, anche se ci sono degli studi a riguardo) di eseguire delle query in modo da ottenere dei risultati da un database. Questo è un chiaro esempio di quali documenti possono andare a formare il deep web. Chiaramente ci sono un’immensità di possibili casi, ma questo esempio penso possa aver chiarito come mai i crawler non raggiungono certi documenti. Le soluzioni a questo problema sono molteplici e nessuna risolve del tutto la questione. Collegandomi al mio post precedente, vorrei indicare come l’utilizzo di OAI-PMH possa aiutare ad aumentare il numero di documenti indicizzabile dai motori di ricerca. Invero un numero crescente di repository istituzionali e biblioteche digitali stanno cominciando a utilizzare OAI-PMH per esporre i propri documenti i quali sono in parte indicizzati dai motori di ricerca e in parte no. Nel contempo un numero crescente di organizzazioni, università e associazioni stanno facendo un grosso sforzo per digitalizzare la propria documentazione composta da tesi, mappe, immagini, rapporti tecnici e quant’altro. Nel caso volessero rendere questi contenuti ricercabili attraverso un motore di ricerca, dovrebbero sviluppare delle pagine crawler-friendly, cosa non semplice e non sempre efficace. A volte ci si mette anche il crawler a complicare tutto, invero per le più varie ragioni ferma l’indizzazione di una pagina senza averla completata, perdendo quindi meteriale utile. Mediante OAI-PMH si rendono disponibili documenti che altrimenti resterebbero esclusi dall’attività dei crawler. Infatti mediante il protocollo si possono inviare direttamente ai motori di ricerca i metadati (in genere in formato XML) derivati dalla propria collezione, questi poi verranno indicizzati rendendo disponibili informazioni sui propri documenti. Non tutti i motori di ricerca accettano i metadati secondo il protocollo OAI-PMH, ma se la propria collezione è “OAI-PMH complaint” (ossia è settata per rispondere alle richieste del protocollo OAI-PMH) è possibile far raggiungere al crawler comunque i propri documenti. Sarà necessario creare una pagina HTML, da cui lo spider partirà, che eseguirà delle richieste specifiche alla collezione restituendo i metadati formattati in HTML anzichè in XML. C’è un componente chiamato DP9 che fa esattamente questo in maniera automatica. DP9 si può definire come un servizio di gateway open-source che rende le proprie collezioni di documenti indicizzabili dai vari crawler. L’utilizzo di DP9 permette di rendere i propri documenti indicizzabili anche da quei motori di ricerca che non implementano le funzionalità OAI-PMH. Segnalo inoltre, sempre in riferimento a OAI-PMH, la disponibilità di numerosi software free o open-source che implementano le funzioni di Data e Service Provider.
Se questo post ti è piaciuto, puoi decidere di ricevere gratuitamente gli aggiornamenti del blog abbonandoti al Feed RSS. Clicca qui.



















