<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>marco ziero e il blog del figlio del presidente &#187; Information Retrieval</title>
	<atom:link href="http://www.marcoziero.it/category/information-retrieval/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.marcoziero.it</link>
	<description></description>
	<lastBuildDate>Tue, 08 Nov 2011 08:16:39 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=</generator>
		<item>
		<title>Luhn: indicizzazione e reperimento dell&#8217;informazione</title>
		<link>http://www.marcoziero.it/information-retrieval/luhn-text-processing-indici/</link>
		<comments>http://www.marcoziero.it/information-retrieval/luhn-text-processing-indici/#comments</comments>
		<pubDate>Mon, 22 Oct 2007 07:10:15 +0000</pubDate>
		<dc:creator>Gian</dc:creator>
				<category><![CDATA[Information Retrieval]]></category>
		<category><![CDATA[indicizzazione]]></category>
		<category><![CDATA[text processing]]></category>

		<guid isPermaLink="false">http://www.marcoziero.it/musica/luhn-text-processing-indici/</guid>
		<description><![CDATA[[Questo post è stato scritto da Gianmaria Silvello] &#8220;L&#8217;innovazione distingue una guida da un seguace&#8221; &#8211; Steve Jobs Quando io penso all&#8217;inizio, alla nascita dell&#8217;information retrieval, penso a H.P. Luhn o più precisamente al suo articolo &#8220;The automatic creation of literature abstract&#8221; pubblicato nell&#8217;IBM Journal nell&#8217;aprile del 1958. Non c&#8217;è dubbio, mi sbaglio&#8230; non è [...]]]></description>
			<content:encoded><![CDATA[<p>[Questo post è stato scritto da <a title="gianmaria silvello" href="http://www.linkedin.com/in/gianmariasilvello">Gianmaria Silvello</a>]</p>
<div><em>&#8220;L&#8217;innovazione distingue una guida da un seguace&#8221; &#8211; Steve Jobs</em></div>
<p>Quando io penso all&#8217;inizio, alla nascita dell&#8217;<strong>information retrieval</strong>, penso a H.P. Luhn o più precisamente al suo articolo &#8220;<a title="Automatic abstract extraction" href="http://courses.ischool.berkeley.edu/i256/f06/papers/luhn58.pdf" target="_blank">The automatic creation of literature abstract</a>&#8221; pubblicato nell&#8217;IBM Journal nell&#8217;aprile del 1958. Non c&#8217;è dubbio, mi sbaglio&#8230; non è di certo Luhn il padre dell&#8217;IR, ma le sue idee rimangono fondamentali per lo sviluppo della materia, per cui mi sento di considerarlo un padre, a cui bisogna necessariamente portare rispetto.</p>
<p><img title="Luhn" src="http://83.224.70.3/www.marcoziero.itt/wp-content/uploads/2007/10/Luhn.jpg" border="0" alt="Luhn" width="310" height="208" /></p>
<p>Luhn affermava che la <em>frequenza con cui alcune parole compaiono in un testo</em> forniscono un parametro importante del significato delle parole. Inoltre dice che il <em>posizionamento di queste parole all&#8217;interno delle frasi</em> è un altro parametro che indica il significato e quindi l&#8217;importanza delle frasi. Quindi l&#8217;importanza e il significato di una frase è dato dalla combinazione di questi due fattori. Questi principi portano Luhn ad essere un importante figura nel mondo dell&#8217; text processing automatico. La frequenza con cui alcune parole compaiono in un testo, può essere usata per rappresentare un  documento.</p>
<p><span id="more-506"></span>Se pensiamo all&#8217;<strong>indicizzazione automatica</strong> dei testi, possiamo immaginare l&#8217;importanza di questo principio, infatti se per un essere umano è facile (non per tutti&#8230;) capire l&#8217;importanza di un testo e individuarne gli argomenti trattati, per un calcolatore questo è molto più complicato. Come può capire l&#8217;argomento trattato in un testo? E come può capirne l&#8217;importanza? La frequenza con cui le parole compaiono in un testo può dare un grande aiuto, anche se non basta contare le parole e vedere quella che compare più volte per classificare un documento. Se osserviamo la figura qui sopra, probabilmente possiamo avere un&#8217;idea più chiara di quello di cui stiamo parlando. Se indichiamo con <em>f</em> la frequenza con cui si presentano le varie parole, con <em>r</em> il loro posizionamento (rank order) e li disegniamo ponendoli in relazione otteniamo una curva simile a quella iperbolica visibile nella figura precedentemente indicata. Questa curva rappresenta la <strong>legge di Zipf</strong> che ci dice che il prodotto della frequenza delle parole per il loro rank è approssimativamente costante. Luhn usò la legge di Zipf per specificare due <strong>&#8220;cut-off&#8221;</strong>, uno alto e uno basso. La linea di cut-off alta, taglia tutte le parole che occorrono troppo frequentemente e che quindi non sarebbero indicative per rappresentare un testo, in italiano immaginiamo la congiunzione &#8220;e&#8221; oppure gli articoli. Il cut-off basso invece serve per eliminare le parole che compaiono troppo raramente e che quindi non sono indicative per identificare un testo; immaginiamo che in un articolo compaia una volta la parola &#8220;addizione&#8221;, non sarebbe sufficiente per dire che il testo tratta di aritmetica.</p>
<p>Oltre a questo, Luhn definì una <strong>funzione di risoluzione</strong> per le parole significative. Cosa significa? Significa che Luhn stabilì una regola basata su delle tecniche di conteggio per stabilire a quale frequenza le parole sono da considerarsi più significative e quindi più utili per discriminare il contenuto del testo. Questa funzione raggiunge il suo picco a metà via tra i due cut-off, per poi scendere nelle due direzioni, avvicinandosi allo zero in corrispondenza delle due linee di cut-off. A questo punto appare chiaro che una parte molto importante del lavoro è definire i punti di cut-off. Come posso dire da quale punto in poi le parole diventano importanti oppure non lo sono più? Provando e sbagliando&#8230; infatti c&#8217;è ancora adesso una buona dose di arbitrarietà nel definire questi limiti.</p>
<p>Luhn utilizzò questa tecnica per definire dei sommari automatici dei testi, successivamente è stata utilizzata per stabilire <strong>l&#8217;importanza delle parole da indicizzare</strong>. Successivamente la regola di Luhn fu raffinata, normalizzando le sue misure rispetto alla frequenza di ogni parole nel testo totale, quindi se una parola compare 4 volte in una frase e 200 volte nel testo totale, l&#8217;importanza della parola sarà 4/200.</p>
<p>L&#8217;analisi automatica dei testi si è rivelata ovviamente molto importante per quanto riguarda l&#8217;indicizzazione di questi. Un indice è formato da un insieme di termini  chiamati <strong>termini indice</strong>, che sono ricavati dai testi per l&#8217;appunto indicizzati. Due importanti fattori per valutare un indice sono <strong>esaustività </strong>e<strong> specificità</strong>. Per ogni indice l&#8217;esaustività è definita dal numero di &#8220;topic&#8221; (argomenti) indicizzati, mentre la specificità è l&#8217;abilità di un indice di descrivere a fondo un argomento. La specificità venne definita (<a title="Statistical interpretation" href="http://www.emeraldinsight.com/Insight/ViewContentServlet?Filename=Published/EmeraldFullTextArticle/Pdf/2780600501.pdf" target="_blank">Keen e Digger</a>), come la precisione con cui un documento è indicizzato. E&#8217; comunque intuibile che questi fattori sono difficilmente quantificabili. Quantificare questi fattori è molto importante per aumentare l&#8217;efficacia del reperimento dei documenti, infatti un indice con alta esaustività porta ad avere un <em>alto richiamo ([documenti rilevanti reperiti]/[documenti rilevanti totali reperiti e non-reperiti]) e una bassa precisione ([documenti rilevanti reperiti]/[documenti totali reperiti])</em>. D&#8217;altra parte una bassa esaustività porta ad un&#8217;alta precisione e ad un basso richiamo. La stessa cosa si verifica con la specificità, più alta è questa maggiore è la precisione e minore è il richiamo e viceversa. Ricordo che precisione e richiamo sono due grandezze inversamente proporzionali, all&#8217;aumentare di una diminuisce l&#8217;altra.</p>
<p>Data l&#8217;importanza della questione, molte persone considerevoli nel mondo dell&#8217;<strong>information retrieval</strong> come <a title="Gerry Salton" href="http://www.cs.cornell.edu/Info/Department/Annual96/Beginning/salton.html" target="_blank">Salton</a>, Sparck-Jones e Yang, hanno studiato il problema, cercando di legare questi due fattori a varie collezioni di documenti. Ad esempio l&#8217;esaustività si può assumere essere legata al numero di termini indice assegnati ad un dato documento e la specificità invece al numero di documenti a cui un termine indice è assegnato in una collezione.</p>
<p>Un modo per controllare esaustività e specificità di un indice è quello di pesare i termini indice. Ci sono ovviamente molti tipi di <strong>pesatura</strong> ed essendo un punto importante dell&#8217;Information Retrieval, vorrei dedicare un post specifico (o più di uno) all&#8217;argomento. Consideriamo solamente lo <strong>schema di pesatura</strong> legato all&#8217;idea di Luhn, infatti la frequenza con cui un termine compare in un testo può essere usata come pesatura del termine e come indice della sua importanza. Quindi lo schema di pesatura in questione, assegna ad ogni termine un peso direttamente proporzionale alla frequenza con cui compare nel testo.</p>
<p>Se consideriamo importante la specificità di un termine, che è assunta essere inversamente proporzionale al numero di documenti in cui il termine indice compare allora la pesatura maggiore sarà associata, contrariamente al caso precedente, ai termini che compaiono in meno documenti.</p>
<p>La differenza tra i due metodi di pesatura è che utilizzando la frequenza dei termini si pone enfasi sulla descrizione dei contenuti mentre la pesatura basata sulla specificità pone l&#8217;accento sull&#8217;abilità dei termini di discriminare un documento dall&#8217;altro.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.marcoziero.it/information-retrieval/luhn-text-processing-indici/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>Gli occhiali di Google</title>
		<link>http://www.marcoziero.it/information-retrieval/occhiali-di-google/</link>
		<comments>http://www.marcoziero.it/information-retrieval/occhiali-di-google/#comments</comments>
		<pubDate>Tue, 16 Oct 2007 03:06:55 +0000</pubDate>
		<dc:creator>Gian</dc:creator>
				<category><![CDATA[Information Retrieval]]></category>
		<category><![CDATA[google paradox]]></category>

		<guid isPermaLink="false">http://www.marcoziero.it/information-retrieval/occhiali-di-google/</guid>
		<description><![CDATA[[Questo post è stato scritto da Gianmaria Silvello] &#8220;Sono afflitto dai dubbi. E se tutto fosse un&#8217;illusione, se nulla esistesse? Ma allora avrei pagato uno sproposito per quella moquette!&#8221; (Woody Allen) Ho cominciato il mio post di qualche settimana fa con la battuta che tradotta dall&#8217;inglese sarebbe: &#8220;Qual è lo spelling di Internet?&#8221; &#8220;G-O-O-G-L-E&#8221;. Forse [...]]]></description>
			<content:encoded><![CDATA[<p>[Questo post è stato scritto da <a title="gianmaria silvello" href="http://www.linkedin.com/in/gianmariasilvello">Gianmaria Silvello</a>]</p>
<p align="center"><em>&#8220;Sono afflitto dai dubbi. E se tutto fosse un&#8217;illusione, se nulla esistesse? Ma allora avrei pagato uno sproposito per quella moquette!&#8221; (Woody Allen)</em></p>
<p>Ho cominciato il mio post di qualche settimana fa con la battuta che tradotta dall&#8217;inglese sarebbe: &#8220;Qual è lo spelling di Internet?&#8221; &#8220;G-O-O-G-L-E&#8221;. Forse come battuta non è il massimo del divertimento (ma si sa, gli informatici si divertono in modi particolari), ma ha il pregio di far riflettere sull&#8217;attuale percezione del web. Per noi il web (o almeno per la maggior parte degli utenti della rete) è quello che viene percepito, è quello che noi conosciamo e riconosciamo far parte del web. Possiamo astrarre il concetto dicendo che web è ciò che noi sappiamo esistere (perchè l&#8217;abbiamo inserito noi nel web ad esempio) e ciò che viene trovato dai motori di ricerca. Facendo un altro passo verso la generalizzazione, possiamo assumere che ciò che un utente base non trova attraverso un motore di ricerca, non esiste nel web.  <span id="more-498"></span>Questa tesi divertirà i più, visto che può essere portata all&#8217;estrema conclusione per cui se non esistessero i motori di ricerca allora non esisterebbe nemmeno internet (potremmo chiamarlo &#8220;<em>Google Paradox</em>&#8220;). Ma invece sembra che molti arrivino a conclusioni simili. E&#8217; di poche settimana fa la <a title="Sicurezza europea" href="http://www.repubblica.it/2007/05/sezioni/scienza_e_tecnologia/google6/frattini-ricerche/frattini-ricerche.html" target="_blank">notizia che il commissario europeo per la sicurezza Frattini</a>, ha proposto di bloccare la ricerca on-line di keyword pericolose come &#8220;genocidio&#8221;, &#8220;bomba&#8221; o simili. La proposta per ora è stata bocciata ma ci dice qualcosa di più sul pensiero di chi l&#8217;ha proposta (lasciando perdere le implicazioni riguardanti la democrazia e la politica di cui non ci vogliamo occupare). Bloccando alcune <strong>keyword pericolose</strong>, si vorrebbe bloccare l&#8217;accesso a siti pericolosi. Quindi secondo Frattini (sfortunato oggetto del nostro esempio), se un sito non è reperibile attraverso Google (la proposta era indirizzata verso il motore di Mountain View) questo cessa di esistere e quindi di essere pericoloso.  Uno studio australiano ci dice che molti utenti scrivono l&#8217;URL corretto di un sito su Google per raggiungerlo anzichè utilizzare la barra degli indirizzi. <a title="Hawking" href="http://es.csiro.au/people/Dave/" target="_blank">Dave Hawking</a> come provocazione si chiese (<a title="Essir 2007" href="http://www.dcs.gla.ac.uk/essir2007" target="_blank">ESSIR 2007</a>):&#8221;<strong>A quando un browser senza barra degli indirizzi?</strong>&#8220;.  Nel mio primo post affermai che l&#8217;Information Retrieval è una materia interdisciplinare, voglio darmi ragione portando il livello della discussione sulla filosofia moderna. <a title="Kant" href="http://www.forma-mentis.net/Filosofia/Kant.html" target="_blank">Immanuel Kant</a> affermava che la mente, in sostanza, opera sulla realtà in sé una serie di interpretazioni secondo le proprie caratteristiche, una serie di interpretazioni che si pongono nel momento stesso in cui ci si accinge a pensare. Tali interpretazioni impediscono di fatto di attingere alla reale conoscenza della realtà.  Il classico esempio che viene portato è quello degli occhiali. La mente umana è come un paio di occhiali colorati che attraverso le loro lenti filtra la realtà e la trasforma tutta in un colore diverso che solo noi che indossiamo gli occhiali riconosciamo. La realtà è quindi quello che noi percepiamo? Non esattamente visto che la mente umana deforma e legge la realtà attraverso le sue specifiche caratteristiche, date appunto dalla lente che usiamo.</p>
<div><strong>Se il web fosse la nostra realtà, Google rischierebbe di essere la nostra lente.</strong></div>
<p>Ogni motore di ricerca potrebbe essere un paio di occhiali diverso per vedere il web e così  &#8220;Google&#8221; sarebbe veramente il giusto spelling della parola &#8220;Internet&#8221;.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.marcoziero.it/information-retrieval/occhiali-di-google/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Deep web, deep problem</title>
		<link>http://www.marcoziero.it/information-retrieval/deep-web-oai-pmh/</link>
		<comments>http://www.marcoziero.it/information-retrieval/deep-web-oai-pmh/#comments</comments>
		<pubDate>Tue, 09 Oct 2007 01:05:01 +0000</pubDate>
		<dc:creator>Gian</dc:creator>
				<category><![CDATA[Information Retrieval]]></category>
		<category><![CDATA[deep web]]></category>

		<guid isPermaLink="false">http://www.marcoziero.it/information-retrieval/deep-web-oai-pmh/</guid>
		<description><![CDATA[[Questo post è stato scritto da Gianmaria Silvello] Ogni problema ha una soluzione facile, ovvia e sbagliata. (Albert Einstein) Molte librerie digitali e database sono irragiungibili dalla maggior parte dei crawler. Il deep web (chiamato anche invisible web o hidden web) consiste proprio in una vasta collezione di pagine irragiungibili dai crawler e che non [...]]]></description>
			<content:encoded><![CDATA[<p>[Questo post è stato scritto da <a title="gianmaria silvello" href="http://www.linkedin.com/in/gianmariasilvello">Gianmaria Silvello</a>]</p>
<div><em>Ogni problema ha una soluzione facile, ovvia e sbagliata. (Albert Einstein)</em></div>
<p>Molte librerie digitali e database sono irragiungibili dalla maggior parte dei crawler. Il deep web (chiamato anche invisible web o hidden web) consiste proprio in una vasta collezione di pagine irragiungibili dai crawler e che non sono quindi indicizzate.  Il Deep web è stato stimato essere <a title="deepBergman" href="http://www.press.umich.edu/jep/07-01/bergman.html" target="_blank">500 volte quello che viene chiamato il surface web</a> (ossia la parte del web che viene indicizzata). Avendo indicizzato la maggior parte del surface web, i principali motori di ricerca stanno cercando di trovare delle tecniche per indicizzare anche la parte nascosta della rete. Se consideriamo un sito internet, sappiamo che viene indicizzato tutto quanto è raggiunto dai crawler dei motori di ricerca e quindi, semplificando al massimo la questione, quello che è raggiungibile mediante link. Immaginiamo di avere un vasto database di file in formato pdf ad esempio, questi non saranno indicizzati se non raggiunti da link che li puntano; questo è molto frequente, infatti  non accade usualmente di avere link a  tutti i file contenuti in un database.  In genere l&#8217;utente di un determinato sito internet dovrà ricercare attraverso una query (o simili), inserendo delle parole chiave  per ottenere dei risultati provenienti dal database su cui  il sito si appoggia. Fatto questo saranno restituiti dei risultati comprendenti i vari file pdf rilevanti (o presunti tali) secondo un determinato ranking.<span id="more-494"></span> Un crawler non è in grado (per ora per lo meno, anche se ci sono degli studi a riguardo) di eseguire delle query in modo da ottenere dei risultati da un database. Questo è un chiaro esempio di quali documenti possono andare a formare il deep web. Chiaramente ci sono un&#8217;immensità di possibili casi, ma questo esempio penso possa aver chiarito come mai i crawler non raggiungono certi documenti.  Le soluzioni a questo problema sono molteplici e nessuna risolve del tutto la questione. Collegandomi al mio post precedente, vorrei indicare come l&#8217;utilizzo di <a title="OAI" href="http://www.openarchives.org/" target="_blank">OAI-PMH</a> possa aiutare ad aumentare il numero di documenti indicizzabile dai motori di ricerca. Invero un numero crescente di repository istituzionali e biblioteche digitali stanno cominciando a utilizzare OAI-PMH per esporre i propri documenti i quali sono in parte indicizzati dai motori di ricerca e in parte no. Nel contempo un numero crescente di organizzazioni, università e associazioni stanno facendo un grosso sforzo per digitalizzare la propria documentazione composta da tesi, mappe, immagini, rapporti tecnici e quant&#8217;altro. Nel caso volessero rendere questi contenuti ricercabili attraverso un motore di ricerca, dovrebbero sviluppare delle pagine crawler-friendly, cosa non semplice e non sempre efficace. A volte ci si mette anche il crawler a complicare tutto, invero per le più varie ragioni ferma l&#8217;indizzazione di una pagina senza averla completata, perdendo quindi meteriale utile.  Mediante OAI-PMH si rendono disponibili documenti che altrimenti resterebbero esclusi dall&#8217;attività dei crawler. Infatti mediante il protocollo si possono inviare direttamente ai motori di ricerca i metadati (in genere in formato XML) derivati dalla propria collezione, questi poi verranno indicizzati rendendo disponibili informazioni sui  propri documenti.  Non tutti i motori di ricerca accettano i metadati secondo il protocollo OAI-PMH, ma se la propria collezione è &#8220;OAI-PMH complaint&#8221; (ossia è settata per rispondere alle richieste del protocollo OAI-PMH) è possibile far raggiungere al crawler comunque i propri documenti. Sarà necessario creare una pagina HTML, da cui lo spider partirà, che eseguirà delle richieste specifiche alla collezione restituendo  i metadati formattati in HTML anzichè in XML. C&#8217;è un componente chiamato DP9 che fa esattamente questo in maniera automatica.  <a title="DP9" href="http://www.dlib.org/dlib/november02/liu/11liu.html" target="_blank">DP9</a> si può definire come un servizio di gateway open-source che rende le proprie collezioni di documenti indicizzabili dai vari crawler. L&#8217;utilizzo di DP9 permette di rendere i propri documenti indicizzabili anche da quei motori di ricerca che non implementano le funzionalità OAI-PMH.  Segnalo inoltre, sempre in riferimento a OAI-PMH, la disponibilità di <a title="SOFTware OAI" href="http://www.openarchives.org/pmh/tools/tools.php" target="_blank">numerosi software free o open-source che implementano le funzioni di Data e Service Provider</a>.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.marcoziero.it/information-retrieval/deep-web-oai-pmh/feed/</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
		<item>
		<title>Google e il protocollo OAI-PMH: cosa c’è di nuovo per i webmaster?</title>
		<link>http://www.marcoziero.it/information-retrieval/google-oai-pmh-webmaster/</link>
		<comments>http://www.marcoziero.it/information-retrieval/google-oai-pmh-webmaster/#comments</comments>
		<pubDate>Tue, 02 Oct 2007 03:30:17 +0000</pubDate>
		<dc:creator>Gian</dc:creator>
				<category><![CDATA[Information Retrieval]]></category>
		<category><![CDATA[digital library]]></category>
		<category><![CDATA[dublin core]]></category>
		<category><![CDATA[metadati]]></category>
		<category><![CDATA[oai pmh]]></category>

		<guid isPermaLink="false">http://www.marcoziero.it/information-retrieval/google-oai-pmh-webmaster/</guid>
		<description><![CDATA[[Questo post è stato scritto da Gianmaria Silvello] “How do you spell internet?” “G-O-O-G-L-E&#8221; Da qualche mese Google ha introdotto una nuova funzione per i webmaster, ossia la possibilità di sottomettere al famoso motore di ricerca i documenti del proprio sito attraverso il protocollo OAI-PMH (Open Archive Initiative Protocol for Metadata Harvesting). Anzi più che [...]]]></description>
			<content:encoded><![CDATA[<p>[Questo post è stato scritto da <a title="gianmaria silvello" href="http://www.linkedin.com/in/gianmariasilvello">Gianmaria Silvello</a>]</p>
<p align="center"><em>“How do you spell internet?”<br />
“G-O-O-G-L-E&#8221; </em></p>
<p>Da qualche mese Google ha introdotto una nuova funzione per i webmaster, ossia la possibilità di sottomettere al famoso motore di ricerca i documenti del proprio sito attraverso il protocollo <a title="OAI" href="http://www.openarchives.org/" target="_blank">OAI-PMH (Open Archive Initiative Protocol for Metadata Harvesting)</a>. Anzi più che i propri documenti i metadati dei propri documenti… ma andiamo con calma, un passo alla volta.</p>
<p>Cosa sono  metadati?  Cos’è questo protocollo? Cerchiamo di fare chiarezza in modo semplice e veloce (per quanto possibile) e di capire come il tutto possa essere utile ai webmaster.</p>
<p>I metadati sono letteralmente dei dati sui dati, ossia dei dati che descrivono un documento, un file o simili. Sostanzialmente possono essere considerati dei file di testo strutturati che contengono dei campi prefissati riempiti con informazioni relative al file sui quali sono costruiti.  Per fare un’associazione con il “mondo reale” i metadati sono sempre esistiti nelle biblioteche… sarebbero infatti le famose schedine che identificano un libro e che permettono di trovarlo senza che si vada a cercarlo in tutti gli scaffali; oggigiorno sono sostituite da una ricerca fatta al pc (anche se non dappertutto, temo).<span id="more-492"></span></p>
<p>Ci sono diversi schemi di metadati che definiscono i campi necessari per descrivere un determinato tipo di documento; il più noto schema di metadati per i documenti bibliografici, o almeno lo schema di base per questi, è il <a title="DublinCore" href="http://www.dublincore.org/" target="_blank">Dublin Core</a>. Dublin Core definisce 15 campi di base, comunque estendibili, per definire e descrivere i documenti.</p>
<p>I metadati quindi possono essere considerati un metodo flessibile e comodo per individuare e gestire logicamente i documenti e i file. In un ambiente distribuito dove si devono considerare milioni se non miliardi di file, l’utilizzo dei metadati permette una gestione organizzata, chiara e modulabile che altrimenti non sarebbe possibile manipolando o “spostando” ogni volta i file stessi. Mediante l’analisi di un metadato possiamo trovare l’identificatore di un dato file, la data, l’abstract e/o altri campi utili per eseguire una ricerca senza toccare i documenti e quindi la collezione che li contiene.</p>
<p>OAI-PMH si colloca in questo contesto permettendo lo scambio di metadati tra collezioni (repository) di documenti geograficamente distanti tra loro.</p>
<p>Open Archive Initiative è l’iniziativa internazionale che ha sviluppato il protocollo per la raccolta (Harvesting) dei metadati. Il suddetto protocollo si compone di due parti principali chiamate Data Provider e Service Provider; in qualche modo il funzionamento potrebbe essere avvicinato a quello di un’architettura client-server, anche se con delle differenze sostanziali.</p>
<p>Data Provider è la componente che contiene i metadati in origine e quindi anche i documenti o meglio i file sui quali i metadati sono stati costruiti. Service Provider invece è la componente che esegue la raccolta dei metadati salvandoli in una collezione centralizzata. Quindi per come è pensato questo protocollo avremo un Service Provider e molti Data Provider che forniscono metadati, aggiornando di volta in volta la collezione centrale. L’indicizzazione e quindi la ricerca dei documenti avverrà nella collezione centrale senza interrogare le collezioni periferiche e senza “toccare” i file originali.</p>
<p>Tutto questo consente una maggiore velocità di ricerca e una maggiore flessibilità nella gestione dei file. L’accentramento della ricerca è possibile perché non si spostano i file stessi (in genere pesanti dal punto di vista dei megabyte) ma i metadati, leggeri e modellabili. Una volta che attraverso i metadati si è individuato il file di interesse, il sistema eseguirà una richiesta e si riceverà il file desiderato, grazie ad una sola interrogazione (veloce e mirata) da parte del Service Provider al Data Provider che possiede il file selezionato.</p>
<p>Google permette di indicare e di condividere i propri metadati; in questo modo il sito personale sarà il Data Provider mentre il motore di ricerca sarà il Service Provider. C’è quindi un invio diretto a Google di dati  pronti per l’indicizzazione , saranno quindi reperibili da parte degli utenti informazioni che probabilmente non sarebbero state trovate dal crawler di Google e quindi non sarebbero state raggiungibili attraverso una ricerca normale. Il webmaster otterrà una maggiore visibilità segnalando direttamente le informazioni che vorrà rendere evidenti mediante una ricerca da motore.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.marcoziero.it/information-retrieval/google-oai-pmh-webmaster/feed/</wfw:commentRss>
		<slash:comments>15</slash:comments>
		</item>
		<item>
		<title>ESSIR 2007 &#8211; European Summer School in Information Retrieval</title>
		<link>http://www.marcoziero.it/information-retrieval/essir-ir-digital-library/</link>
		<comments>http://www.marcoziero.it/information-retrieval/essir-ir-digital-library/#comments</comments>
		<pubDate>Wed, 26 Sep 2007 01:28:01 +0000</pubDate>
		<dc:creator>Gian</dc:creator>
				<category><![CDATA[Information Retrieval]]></category>
		<category><![CDATA[digital library]]></category>
		<category><![CDATA[essir]]></category>
		<category><![CDATA[motori di ricerca]]></category>

		<guid isPermaLink="false">http://www.marcoziero.it/information-retrieval/essir-ir-digital-library/</guid>
		<description><![CDATA[[Questo post è stato scritto da Gianmaria Silvello] Le differenze maggiori tra i vari canali televisivi sono tuttora le previsioni del tempo. (Woody Allen) Ciao a tutti, ringrazio subito Marco per lo spazio che mi concede gentilmente nel suo blog. Cercherò, anche se non garantisco nulla, di mantenere un buon livello con i miei post. [...]]]></description>
			<content:encoded><![CDATA[<p>[Questo post è stato scritto da <a title="gianmaria silvello" href="http://www.linkedin.com/in/gianmariasilvello">Gianmaria Silvello</a>]</p>
<p align="center"><em>Le differenze maggiori tra i vari canali televisivi sono tuttora le previsioni del tempo. (Woody Allen)</em></p>
<p>Ciao a tutti, ringrazio subito Marco per lo spazio che mi concede gentilmente nel suo blog. Cercherò, anche se non garantisco nulla, di mantenere un buon livello con i miei post. Senza perdermi in preamboli che interessano a pochi vado subito al nodo della questione, ossia <a title="Essir 2007" href="http://www.dcs.gla.ac.uk/essir2007/" target="_blank">ESSIR 2007</a>.</p>
<p>L&#8217;European Summer School in Information Retrieval è un evento cominciato nel 1990 a Bressanone e che si è ripetuto ogni 5 anni fino al 2000 e poi ogni 2 anni. Si è svolta nel 1995 a Glasgow, poi a Dublino, a Varenna e ad Aussois in Francia (<a title="Essir History" href="http://ims.dei.unipd.it/essir/home.html" target="_blank">storia</a>). I grandi dell&#8217;Information Retrieval mondiale si incontrano e per una settimana tengono lezioni di carattere generale e indicano le direzioni di ricerca futura nel settore. La scuola è indirizzata principalmente a studenti di dottorato (PhD Students), ma anche a studenti universitari e professionisti di alto livello del settore. Quest&#8217;anno si è svolta nuovamente a Glasgow dal 27 al 31 agosto con più di trecento partecipanti da tutto il mondo, il gruppo più numeroso era quello australiano, seguito a ruota da quello italiano.</p>
<p>Le lezioni hanno avuto carattere tecnico e orientato alla ricerca, si è parlato Distributed IR, modelli statistici per l&#8217;IR, XML retrieval, users, Interaction e Information Seeking/Retrieval, Web usage, Web mining e tanto (tanto) altro. I relatori, per lo più professori universitari del settore hanno dato un indirizzo totalmente orientato alla ricerca che il pubblico composto per lo più da PhD Students ha apprezzato. Ci sono stati comunque interventi molto interessanti di ricercatori di Google, Microsoft Research  e Yahoo (tra gli sponsor dell&#8217;evento).<span id="more-491"></span></p>
<p>Una bellissima esperienza dal punto di vista umano, non capita infatti tutti i giorni di essere insieme a persone provenienti da tutto il mondo e di condividere gli stessi interessi&#8230; professionali per lo meno. Inoltre personalmente, da studente che ha perso le notti sui testi di <a title="Van Rijsbergen" href="http://www.dcs.gla.ac.uk/~keith/" target="_blank">K. Van Rijsbergen</a>, <a title="Robertson" href="http://research.microsoft.com/users/robertson/" target="_blank">S. Robertson</a> (ranking function <a title="BM25" href="http://en.wikipedia.org/wiki/Okapi_BM25" target="_blank">BM25</a> tanto per citare un &#8220;lavoretto&#8221; come un altro) e soci, è qualcosa di particolarmente  interessante trovarsi insieme nella stessa stanza, non solo ad ascoltarli (con l&#8217;attenzione e il rispetto del caso) ma anche a parlarci tranquillamente, non solo di IR ma del più e del meno (del tempo&#8230; tanto per essere banali o di birra Tennets che in Scozia “devi” ingurgitare a fiumi).</p>
<p>Come ho già detto sono stati trattati molti temi tutti relativi all’ Information Retrieval. La domanda che spesso ci si pone è: “…ma cos’è l’Information Retrival e soprattutto quali sono i suoi confini?”.  E’ una domanda a cui si risponde sempre con difficoltà, infatti i confini di questa materia sono molto sfumati, comprende molti campi e per sua natura è fortemente interdisciplinare. Spesso viene associata solamente ai motori di ricerca, ma l’Information Retrieval non è solo motori di ricerca anche se tutto quello che ruota attorno a questi è una delle parti più significative della materia. ESSIR 2007 è servita anche a questo, a capire la moltitudine di problematiche che ruotano attorno all’IR non limitando la discussione solamente all’indicizzazione dei documenti, ai crawler, spider o funzioni di ranking ma ampliando la discussione a campi come i metodi e le iniziative internazionali di valutazione dei sistemi di IR, Machine Learning, classificazione o analisi degli utenti. Ovviamente tutti questi sono solamente dei flash della materia che spero di riuscire ad approfondire nel tempo. Personalmente ritengo molto vicino all’IR anche il mondo complesso e variegato delle <a title="DELOS" href="http://www.delos.info/" target="_blank">Digital Libraries</a> (biblioteche digitali) e della <a title="Interpares" href="http://www.interpares.org/" target="_blank">conservazione</a> nonché della gestione dei documenti digitali.</p>
<p>Visto il pubblico del blog sottolineo una presentazione particolarmente interessante che riguardava le soluzioni avanzate dai grandi motori di ricerca (Google su tutti, tanto per cambiare) per fronteggiare le tecniche dei SEO. In particolare una sezione era intitolata “Anti-SEO filters”… lo so, siete curiosi di sapere di cosa si è parlato (spero almeno). Non sorprenderò nessuno dicendo che si sono analizzati temi come: “Keyword stuffing, Cloaking, Link farms e Click fraud”. Spero di riuscire a dedicare un post a queste tematiche, così da capire in che cosa consiste l&#8217;altra faccia dell&#8217;Information Retrieval! Per dirla con i Pink Floyd: “The dark side of IR”.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.marcoziero.it/information-retrieval/essir-ir-digital-library/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Gianmaria Silvello: esperto di Information Retrieval</title>
		<link>http://www.marcoziero.it/information-retrieval/gianmaria-silvello-information-retrieval/</link>
		<comments>http://www.marcoziero.it/information-retrieval/gianmaria-silvello-information-retrieval/#comments</comments>
		<pubDate>Mon, 24 Sep 2007 03:10:27 +0000</pubDate>
		<dc:creator>Marco</dc:creator>
				<category><![CDATA[Information Retrieval]]></category>
		<category><![CDATA[gianmaria silvello]]></category>

		<guid isPermaLink="false">http://www.marcoziero.it/information-retrieval/gianmaria-silvello-information-retrieval/</guid>
		<description><![CDATA[E&#8217; davvero un piacere, per me, poter ufficializzare questa collaborazione, direi inaspettata, con un mio compagno di classe delle scuole superiori: Gianmaria Silvello. Gian (perdonate la confidenza), avrà un suo account ed una sua categoria dedicata. Scriverà qui contenuti relativi all&#8217;Information Retrieval, così avrò modo di imparare nuove cose senza allontanarmi troppo da questo blog. [...]]]></description>
			<content:encoded><![CDATA[<p>E&#8217; davvero un piacere, per me, poter ufficializzare questa collaborazione, direi inaspettata, con un mio compagno di classe delle scuole superiori: <strong>Gianmaria Silvello</strong>.</p>
<p>Gian (perdonate la confidenza), avrà un suo account ed una sua categoria dedicata.<br />
Scriverà qui contenuti relativi all&#8217;<strong>Information Retrieval</strong>, così avrò modo di imparare nuove cose senza allontanarmi troppo da questo blog. <img src='http://www.marcoziero.it/wp-includes/images/smilies/icon_biggrin.gif' alt=':-D' class='wp-smiley' /><br />
Gianmaria, ingegnere informatico laureato presso l&#8217;Università degli Studi di Padova (posto qui il suo <a title="Silvello Gianmaria Curriculum" href="http://www.marcoziero.it/doc/curriculum_Silvello_ita.pdf">cv</a>), si sta specializzando nel settore dell&#8217;<strong>IR </strong>(per il quale ha già prodotto una <strong>pubblicazione</strong> ed ha conseguito una borsa di <strong>studio</strong>).<br />
L&#8217;<strong>IR</strong> è quella disciplina matematica i cui concetti stanno alla base del funzionamento dei <strong>motori di ricerca</strong>.</p>
<p>Quasi per caso, in occasione di una cena, abbiamo scoperto di lavorare/studiare nel medesimo settore, chiaramente con sfumature diverse (lui tecnico/teorico/matematico, io più markettaro&#8230;dai su, fatemelo dire), però, per sintetizzare, sempre nel mondo dei <strong>motori di ricerca</strong>.</p>
<p>Attualmente, come profilo di riferimento (in attesa di un suo blog personale), posso indicare il suo account su LinkedIn: <a title="gianmaria silvello" target="_blank" href="http://www.linkedin.com/in/gianmariasilvello"><strong>Gianmaria Silvello</strong></a>.</p>
<p>Non mi resta che fare un grosso in bocca al lupo a Gian e vedere le vostre reazioni ai suoi interessanti post. <img src='http://www.marcoziero.it/wp-includes/images/smilies/icon_wink.gif' alt=';-)' class='wp-smiley' /> </p>
]]></content:encoded>
			<wfw:commentRss>http://www.marcoziero.it/information-retrieval/gianmaria-silvello-information-retrieval/feed/</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
	</channel>
</rss>

