22
ott/07
[Questo post è stato scritto da Gianmaria Silvello]
“L’innovazione distingue una guida da un seguace” – Steve Jobs
Quando io penso all’inizio, alla nascita dell’information retrieval, penso a H.P. Luhn o più precisamente al suo articolo “The automatic creation of literature abstract” pubblicato nell’IBM Journal nell’aprile del 1958. Non c’è dubbio, mi sbaglio… non è di certo Luhn il padre dell’IR, ma le sue idee rimangono fondamentali per lo sviluppo della materia, per cui mi sento di considerarlo un padre, a cui bisogna necessariamente portare rispetto.

Luhn affermava che la frequenza con cui alcune parole compaiono in un testo forniscono un parametro importante del significato delle parole. Inoltre dice che il posizionamento di queste parole all’interno delle frasi è un altro parametro che indica il significato e quindi l’importanza delle frasi. Quindi l’importanza e il significato di una frase è dato dalla combinazione di questi due fattori. Questi principi portano Luhn ad essere un importante figura nel mondo dell’ text processing automatico. La frequenza con cui alcune parole compaiono in un testo, può essere usata per rappresentare un documento.
Continua »
in Information Retrieval ·
16
ott/07
[Questo post è stato scritto da Gianmaria Silvello]
“Sono afflitto dai dubbi. E se tutto fosse un’illusione, se nulla esistesse? Ma allora avrei pagato uno sproposito per quella moquette!” (Woody Allen)
Ho cominciato il mio post di qualche settimana fa con la battuta che tradotta dall’inglese sarebbe: “Qual è lo spelling di Internet?” “G-O-O-G-L-E”. Forse come battuta non è il massimo del divertimento (ma si sa, gli informatici si divertono in modi particolari), ma ha il pregio di far riflettere sull’attuale percezione del web. Per noi il web (o almeno per la maggior parte degli utenti della rete) è quello che viene percepito, è quello che noi conosciamo e riconosciamo far parte del web. Possiamo astrarre il concetto dicendo che web è ciò che noi sappiamo esistere (perchè l’abbiamo inserito noi nel web ad esempio) e ciò che viene trovato dai motori di ricerca. Facendo un altro passo verso la generalizzazione, possiamo assumere che ciò che un utente base non trova attraverso un motore di ricerca, non esiste nel web.
Continua »
in Information Retrieval ·
09
ott/07
[Questo post è stato scritto da Gianmaria Silvello]
Ogni problema ha una soluzione facile, ovvia e sbagliata. (Albert Einstein)
Molte librerie digitali e database sono irragiungibili dalla maggior parte dei crawler. Il deep web (chiamato anche invisible web o hidden web) consiste proprio in una vasta collezione di pagine irragiungibili dai crawler e che non sono quindi indicizzate. Il Deep web è stato stimato essere 500 volte quello che viene chiamato il surface web (ossia la parte del web che viene indicizzata). Avendo indicizzato la maggior parte del surface web, i principali motori di ricerca stanno cercando di trovare delle tecniche per indicizzare anche la parte nascosta della rete. Se consideriamo un sito internet, sappiamo che viene indicizzato tutto quanto è raggiunto dai crawler dei motori di ricerca e quindi, semplificando al massimo la questione, quello che è raggiungibile mediante link. Immaginiamo di avere un vasto database di file in formato pdf ad esempio, questi non saranno indicizzati se non raggiunti da link che li puntano; questo è molto frequente, infatti non accade usualmente di avere link a tutti i file contenuti in un database. In genere l’utente di un determinato sito internet dovrà ricercare attraverso una query (o simili), inserendo delle parole chiave per ottenere dei risultati provenienti dal database su cui il sito si appoggia. Fatto questo saranno restituiti dei risultati comprendenti i vari file pdf rilevanti (o presunti tali) secondo un determinato ranking.
Continua »
in Information Retrieval ·