Sin dagli inizi di Internet, i motori di ricerca hanno
sviluppato principi diversi per l'indicizzazione delle pagine web e
ancora oggi praticamente la presenza in un documento dell'espressione
usata per la ricerca è uno dei fattori principali delle tecniche
di indicizzazione di qualsiasi motore di ricerca. La presenza dell'espressione
usata per la ricerca è poi confrontata con la lunghezza del documento
(posizionamento per densità della parola chiave) o valutata in
base all'enfasi che le viene data nel documento dai codici HTML.
Al fine di ottenere risultati di ricerca migliori, ma soprattutto per
proteggere i motori di ricerca da pagine doorway venne sviluppato
il principio della popolarità dei link. Le pagine doorway
sono pagine web generate automaticamente in base a criteri di indicizzazione
specifici basati sull'analisi di contenuto, sono prive di contenuto
e la loro funzione è di rimandare a un'altra pagina facendole
ottenere un buon posizionamento. In base al principio della popolarità,
è il numero dei link in entrata (inbound links) verso un certo
documento a misurarne l'importanza. Così, una pagina è
solitamente importante, se ci sono tante pagine ad essa collegate. Il
principio della popolarità spesso impedisce il raggiungimento
di un buon posizionamento per quelle pagine create appositamente per
ingannare i motori di ricerca, ma che non hanno nessuna importanza nella
rete. È comunque possibile che gli webmaster riescano ad eludere
il principio creando in quantità collegamenti verso un certo
documento da pagine doorway appartenenti a documenti altrettanto irrilevanti.
Contrariamente al principio della popolarità, il PageRank non
si basa semplicemente sul numero totale dei link in entrata. Anche se
il concetto di base del PageRank è che un documento è
considerato tanto più importante quanti più documenti
gli si collegano, i link in entrata non contano tutti nella stessa misura.
Innanzittutto, un documento ottiene un buon posizionamento dal PageRank
se anche i documenti che gli si collegano hanno un buon posizionamento.
In base al principio del PageRank, il posizionamento di un documento
è determinato dal posizionamento dei documenti ad esso collegati
e il posizionamento di questi documenti è a sua volta determinato
dal posizionamento dei documenti a loro collegati. Il PageRank di un
documento è pertanto sempre determinato dal PageRank di altri
documenti. Dato che il posizionamento dei documenti influenza il posizionamento
degli altri, il PageRank è in fin dei conti basato sulla struttura
dei collegamenti dell'intera rete. Nonostante questo concetto sembri
molto ampio e complesso, Page e Brin riuscirono a metterlo in pratica
utilizzando un algoritmo relativamente semplice.
|