È ovvio che Google non ricorre né all'approccio
di Havelivala né a quello di Richardson Domingos, anche perché
sarebbe possibile dedurlo utilizzando Google. Ad ogni modo, se anche
avvenisse una valutazione dei link basata sull'analisi di contenuto,
non sarebbe evidente in modo immediato. È stato dimostrato
come sia possibile in teoria, ma è ancora dubbio se Google
in realtà vi ricorra.
L'obbiettivo del presente studio non è di sostenere che l'unico
modo per valutare i link è quello sinora riportato (infatti
esistono decine di altri metodi); piuttosto, si vuole fornire un'esauriente
critica delle pubblicazioni di importanti membri dell'equipe di Google.
Anche per questo approccio, come sempre quando si tratta di PageRank,
ci si domanda se sia pratico. Infatti, comporta maggiori requisiti
di memoria. Dopo tutto, quello che Stata, Bharat e Maghoul descrivono
è l'architettura del sistema di una base dati di vettori di
termini che è diversa dall'indice inverso di Google; il loro
sistema fornisce infatti dagli id delle pagine ai termini,
e non può essere facilmente integrata nell'architettura già
esistente. Viste le dimensioni reali dell'indice di Google, la memoria
addizionale necessaria dovrebbe essere tra varie centinaia di GB a
pochi TB e non dovrebbe creare problemi, dato che l'indice di Google
è probabilmente parecchie volte maggiore. La parte critica
sarebbe pittosto il tempo necessario per la costruzione della base
dati e per il calcolo del valore dei link.
Per la costruzione di una base dati di vettori di termini occorrerebbe
lo stesso tempo necessario per costruire un indice inverso. Naturalmente,
le stesse parti dell'intero processo potrebbe essere utilizzate per
costruire entrambi, ma ad esempio la valutazione dei termini per i
vettori di termini deve essere diversa dalla misurazione dei termini
per l'indice inverso; quindi il problema del tempo permane. Se si
suppone, come nell'approccio presentato, che l'analisi di contenuto
è basata sul calcolo dei prodotti interni dei vettori di affinità
topici che va calcolato accoppiando vettori di termini e vettori di
topici, questo procedimento impiegherebbe lo stesso tempo impiegato
per il calcolo del PageRank.
Il tempo addizionale necessario è quindi un punto da tenere
in considerazione e per questo motivo occorre domandarsi se valutare
i link in base all'analisi del testo sia del tutto utile. I link tra
pagine con argomento diverso, creati con il solo proposito di far
svettare il PageRank di una data pagina sono senza alcun dubbio irritanti,
ma è anche vero che rappresentano una piccola frazione tra
tutti i link e che la rete stessa di Internet non è omogenea.
Google, Yahoo o l'ODP non devono il loro PageRank elevato esclusivamente
ai link da altri motori di ricerca o dalle directory. Non tutti i
link della rete vengono programmati con il proposito di mostrare agli
utenti la via a informazioni sullo stesso argomento; in effetti, le
ragioni per la creazione di link sono svariate. Si ricordi inoltre,
che i siti web probabilmente più conosciuti non sono completamente
omogenei dal punto di vista tematico: basti pensare a portali come
Yahoo o a siti di recente creazione che contengono articoli riguardanti
quasi tutti gli argomenti d'attualità. Dare molto peso ai link
di questi siti nel modo che si è descritto in questa sede,
potrebbe influenzare il loro PageRank in modo significativo.
Se la tecnica del PageRank è ancora utile, la valutazione dei
link può avvenire solo in misura limitata. Per tanto ci si
domanda se valga la pena lo sforzo. Dopo tutto ci sono altri modi
per eliminare lo spam che spesso risulta ai primi posti nei risultati
delle ricerche, grazie a link di argomento non pertinente alla ricerca.
|