La major part de l'índex de la Cerca es crea a partir de la feina que fan unes eines de programari anomenades "rastrejadors". Els rastrejadors visiten pàgines web accessibles públicament i segueixen els enllaços que hi troben, de la mateixa manera que ho faries tu si naveguessis pel web. Van d'una pàgina a una altra i emmagatzemen informació sobre el que troben en aquestes pàgines i en altres continguts d'accés públic a l'índex de la Cerca de Google.
la Cerca de Google
Quan els rastrejadors troben una pàgina web, els nostres sistemes en processen el contingut, tal com ho faria un navegador. Prenem nota dels senyals clau, des de les paraules clau fins al nivell d'actualització del lloc web, i fem un seguiment de totes aquestes dades a l'índex de la Cerca.
L'índex de la Cerca de Google conté centenars de milers de milions de pàgines web que, juntes, superen els 100.000.000 gigabytes. És com l'índex del final d'un llibre, amb una entrada per a cada paraula que apareix a cada pàgina web que indexem. Quan indexem una pàgina web, l'afegim a les entrades de totes les paraules que conté.
Com que el web i altres continguts canvien constantment, els nostres processos de rastreig s'executen de manera contínua per mantenir-se al dia. Aprenen la freqüència amb què sembla que canvia el contingut que ja han vist i tornen a visitar-lo quan cal. També descobreixen contingut nou quan apareixen enllaços nous a aquesta informació o a aquestes pàgines.
Google també proporciona un conjunt d'eines gratuït anomenat Search Console que els creadors poden utilitzar per ajudar-nos a rastrejar millor el seu contingut. També poden fer servir estàndards establerts com els mapes del lloc o robots.txt per indicar la freqüència amb què cal visitar el contingut o si no s'hauria d'incloure el contingut a l'índex de la Cerca.
Google mai no accepta pagaments per rastrejar un lloc web més sovint; proporcionem les mateixes eines a tots els llocs web per garantir els millors resultats possibles per als nostres usuaris.
L'índex de la Cerca conté més del que es troba al web, perquè la informació útil pot estar en altres fonts.
De fet, tenim diversos índexs de diferents tipus d'informació, que es recopila a través del rastreig, de col·laboracions, de feeds de dades que ens envien i de la nostra pròpia enciclopèdia de fets, el Gràfic de coneixement.
Aquesta gran quantitat d'índexs significa que pots fer cerques a milions de llibres de les principals biblioteques, trobar els horaris de la teva empresa de transport públic local o trobar dades de fonts públiques com el Banc Mundial.