Matthew Richardson e Pedro Domingos ricorrono al modello
del surfer casuale per spiegare il loro approccio all'implementazione
del tema nella tecnica del PageRank. Invece di un surfer che segue i
link in modo del tutto casuale, presentano un surfer più intelligente
il quale, da un lato, segue i link in relazione alla ricerca iniziale,
per poi saltare anche lui, solo dopo essersi "stancato", a
una pagina non correlata alla ricerca iniziale.
Per il surfer intelligente di Richardson e Domingos pertanto sono rilevanti
solo le pagine che contengono il termine della ricerca iniziale. Ma
visto che il modello del surfer casuale non fa altro che illustrare
la tecnica del PageRank, ci si domanda come un comportamento "intelligente"
del surfer possa influenzare il PageRank. La risposta è che per
ogni termine esistente nella rete occorre eseguire il calcolo del PageRank
separatamente e che ogni calcolo è basato esclusivamente sui
link tra pagine che contengono quel termine.
Calcolare il PageRank in questo modo crea però alcuni problemi
che si verificano in modo particolare per quei termini di ricerca che
compaiono nella rete raramente. Affinché questi termini vengano
inclusi nel calcolo del PageRank, non occorre solo che appaiano su una
pagina, ma anche sulle pagine collegate ad essa tramite link. Pertanto
i risultati della ricerca sarebbero spesso basati su elementi della
rete secondari o potrebbero omettere siti rilevanti e, inoltre, ricorrendo
a tali elementi secondari, gli algoritmi risulterebbero più vulnerabili
allo spam perché generano automaticamente numeri elevati di pagine.
Occorre poi aggiungere che si creano numerosi problemi di graduazione
dei valori. Richardson e Domingos calcolano che i requisiti della memoria
e della computazione in termini di tempo per 100.000 termini siano approssimativamente
100/200 volte maggiori rispetto ai calcoli originali del PageRank; un
valore che appare realistico alla luce del numero elevato di elementi
secondari presenti nella rete.
I maggiori requisiti della memoria non dovrebbero creare comunque grandi
difficoltà, perché come giustamente affermano Richardson
e Domingos, i valori di PageRank di un termine specifico rappresentano
solo una frazione del volume di dati dell'indice inverso di Google.
Costituiscono piuttosto un problema notevole i requisiti per il calcolo
in termini di tempo: se si considera che per un calcolo convenzionale
di PageRank occorrono 5 ore, il modello di Richardson e Domingos impiegherebbe
3 settimane e ciò lo renderebbe di conseguenza del tutto inadatto
all'uso.
|