हमारे ज़्यादातर Search इंडेक्स, क्रॉलर नाम के सॉफ़्टवेयर का इस्तेमाल करके बनाए गए हैं. ये क्रॉलर अपने-आप, सार्वजनिक तौर पर उपलब्ध वेबपेजों पर जाते हैं. साथ ही, उन पेजों पर मौजूद लिंक को फ़ॉलो करते हैं. ठीक वैसे ही, जैसे आप वेब पर कॉन्टेंट ब्राउज़ करते हैं. वे एक पेज से दूसरे पेज पर जाते हैं और इन पेजों में मौजूद और दूसरे सार्वजनिक ऐक्सेस वाले कॉन्टेंट पर मिली जानकारी को Google Search के इंडेक्स में स्टोर करते हैं.
Search में जानकारी कैसे व्यवस्थित की जाती है
जब क्रॉलर को कोई वेबपेज मिलता है, तो हमारे सिस्टम किसी ब्राउज़र की तरह ही उसके कॉन्टेंट को रेंडर करते हैं. हम खास संकेतों पर ध्यान देते हैं — कीवर्ड से लेकर वेबसाइट पर मौजूद ताज़ा जानकारी तक — और हम Search इंडेक्स में इन सब पर नज़र रखते हैं.
Google Search इंडेक्स में अरबों वेबपेज हैं और इनका साइज़ 100,000,000 गीगाबाइट (जीबी) से भी ज़्यादा है. यह किसी किताब के पीछे दिए गए इंडेक्स की तरह है, जिसमें हमारे इंडेक्स किए गए हर वेबपेज के हर शब्द के लिए, एक एंट्री होती है. जब हम किसी वेबपेज को इंडेक्स में शामिल करते हैं, तो हम उस पेज के सभी शब्दों को भी इंडेक्स की एंट्री में जोड़ देते हैं.
वेब और दूसरा कॉन्टेंट लगातार बदल रहा है. इसलिए, क्रॉलिंग से जुड़ी हमारी प्रोसेस हमेशा काम करती रहती हैं. इससे यह सीखा जाता है कि पहले देखे गए कॉन्टेंट में कितनी बार बदलाव नज़र आए और ज़रूरत पड़ने पर, उस कॉन्टेंट पर फिर से जाया जाता है. इसके अलावा, नए पेजों और जानकारी पर ले जाने वाले नए लिंक दिखने पर, नया कॉन्टेंट भी खोजा जाता है.
Google मुफ़्त में एक टूलसेट भी देता है, जिसे Search Console कहते हैं. इसका इस्तेमाल करके क्रिएटर हमारी मदद कर सकते हैं, ताकि हम उनके कॉन्टेंट को बेहतर तरीके से क्रॉल कर सकें. वे पहले से लागू किए गए साइटमैप या robots.txt जैसे मानकों का इस्तेमाल करके भी यह बता सकते हैं कि उनके कॉन्टेंट पर कितनी बार जाना चाहिए. इसके अलावा, यह बता सकते हैं कि उनके कॉन्टेंट को हमारे Search इंडेक्स में बिल्कुल शामिल नहीं किया जाना चाहिए.
Google कभी भी किसी साइट को ज़्यादा क्रॉल करने के लिए, पैसे नहीं लेता — हम सभी वेबसाइटों को एक ही तरह के टूल उपलब्ध करवाते हैं, ताकि हमारे उपयोगकर्ताओं को सबसे बेहतर नतीजे मिल सकें.
हमारे Search के इंडेक्स में, वेब पर मौजूद कॉन्टेंट की तुलना में कहीं ज़्यादा डेटा है, क्योंकि कॉन्टेंट के दूसरे स्रोतों से भी काम की जानकारी मिल सकती है.
दरअसल, हमारे पास अलग-अलग तरह की जानकारी के लिए अलग-अलग इंडेक्स हैं. इसके लिए, क्रॉलिंग, साझेदारी, डेटा फ़ीड, और तथ्यों की जानकारी देने वाले हमारे अपने एन्साइक्लोपीडिया नॉलेज ग्राफ़ से मिली जानकारी को इकट्ठा किया जाता है.
इन इंडेक्स का मतलब है कि आप दुनिया की प्रमुख लाइब्रेरी में मौजूद लाखों किताबों में खोज कर सकते हैं. अपनी स्थानीय सार्वजनिक परिवहन एजेंसी से गाड़ियों का समय जान सकते हैं. साथ ही, आप विश्व बैंक जैसी सार्वजनिक संस्थाओं के आंकड़े भी देख सकते हैं.