Google
Search में जानकारी कैसे व्यवस्थित की जाती है
जब आप कुछ खोजते हैं, तो Google आपकी खोज से जुड़ी काम की जानकारी को, हमारे Search के इंडेक्स में सेव किए गए करोड़ों वेबपेजों और दूसरे कॉन्टेंट में ढूंढता है. यह जानकारी दुनिया भर की लाइब्रेरी में मौजूद कुल जानकारी से कहीं ज़्यादा है.
जानकारी को कार्ड पर क्रम से लगाते हुए तीन व्यक्ति
क्रॉल करके जानकारी पाना

हमारे ज़्यादातर Search इंडेक्स, क्रॉलर नाम के सॉफ़्टवेयर का इस्तेमाल करके बनाए गए हैं. ये क्रॉलर अपने-आप, सार्वजनिक तौर पर उपलब्ध वेबपेजों पर जाते हैं. साथ ही, उन पेजों पर मौजूद लिंक को फ़ॉलो करते हैं. ठीक वैसे ही, जैसे आप वेब पर कॉन्टेंट ब्राउज़ करते हैं. वे एक पेज से दूसरे पेज पर जाते हैं और इन पेजों में मौजूद और दूसरे सार्वजनिक ऐक्सेस वाले कॉन्टेंट पर मिली जानकारी को Google Search के इंडेक्स में स्टोर करते हैं.

साइकिल के साथ एक वेबसाइट
इंडेक्स करके जानकारी व्यवस्थित करना

जब क्रॉलर को कोई वेबपेज मिलता है, तो हमारे सिस्टम किसी ब्राउज़र की तरह ही उसके कॉन्टेंट को रेंडर करते हैं. हम खास संकेतों पर ध्यान देते हैं — कीवर्ड से लेकर वेबसाइट पर मौजूद ताज़ा जानकारी तक — और हम Search इंडेक्स में इन सब पर नज़र रखते हैं.

वेबसाइटों के तीन सेट

Google Search इंडेक्स में अरबों वेबपेज हैं और इनका साइज़ 100,000,000 गीगाबाइट (जीबी) से भी ज़्यादा है. यह किसी किताब के पीछे दिए गए इंडेक्स की तरह है, जिसमें हमारे इंडेक्स किए गए हर वेबपेज के हर शब्द के लिए, एक एंट्री होती है. जब हम किसी वेबपेज को इंडेक्स में शामिल करते हैं, तो हम उस पेज के सभी शब्दों को भी इंडेक्स की एंट्री में जोड़ देते हैं.

नई जानकारी के लिए लगातार क्रॉल करना

वेब और दूसरा कॉन्टेंट लगातार बदल रहा है. इसलिए, क्रॉलिंग से जुड़ी हमारी प्रोसेस हमेशा काम करती रहती हैं. इससे यह सीखा जाता है कि पहले देखे गए कॉन्टेंट में कितनी बार बदलाव नज़र आए और ज़रूरत पड़ने पर, उस कॉन्टेंट पर फिर से जाया जाता है. इसके अलावा, नए पेजों और जानकारी पर ले जाने वाले नए लिंक दिखने पर, नया कॉन्टेंट भी खोजा जाता है.

Google मुफ़्त में एक टूलसेट भी देता है, जिसे Search Console कहते हैं. इसका इस्तेमाल करके क्रिएटर हमारी मदद कर सकते हैं, ताकि हम उनके कॉन्टेंट को बेहतर तरीके से क्रॉल कर सकें. वे पहले से लागू किए गए साइटमैप या robots.txt जैसे मानकों का इस्तेमाल करके भी यह बता सकते हैं कि उनके कॉन्टेंट पर कितनी बार जाना चाहिए. इसके अलावा, यह बता सकते हैं कि उनके कॉन्टेंट को हमारे Search इंडेक्स में बिल्कुल शामिल नहीं किया जाना चाहिए.

Google कभी भी किसी साइट को ज़्यादा क्रॉल करने के लिए, पैसे नहीं लेता — हम सभी वेबसाइटों को एक ही तरह के टूल उपलब्ध करवाते हैं, ताकि हमारे उपयोगकर्ताओं को सबसे बेहतर नतीजे मिल सकें.

वेबपेजों से कहीं ज़्यादा

हमारे Search के इंडेक्स में, वेब पर मौजूद कॉन्टेंट की तुलना में कहीं ज़्यादा डेटा है, क्योंकि कॉन्टेंट के दूसरे स्रोतों से भी काम की जानकारी मिल सकती है.

दरअसल, हमारे पास अलग-अलग तरह की जानकारी के लिए अलग-अलग इंडेक्स हैं. इसके लिए, क्रॉलिंग, साझेदारी, डेटा फ़ीड, और तथ्यों की जानकारी देने वाले हमारे अपने एन्साइक्लोपीडिया नॉलेज ग्राफ़ से मिली जानकारी को इकट्ठा किया जाता है.

इन इंडेक्स का मतलब है कि आप दुनिया की प्रमुख लाइब्रेरी में मौजूद लाखों किताबों में खोज कर सकते हैं. अपनी स्थानीय सार्वजनिक परिवहन एजेंसी से गाड़ियों का समय जान सकते हैं. साथ ही, आप विश्व बैंक जैसी सार्वजनिक संस्थाओं के आंकड़े भी देख सकते हैं.