Jump to Content

Google Search, जानकारी को कैसे व्यवस्थित करता है

जब भी कोई क्वेरी की जाती है, तब Google उससे जुड़ी काम की जानकारी खोजता है. इसके लिए, वह Search इंडेक्स में मौजूद खरबों वेबपेजों और अन्य सोर्स पर व्यवस्थित रूप से मौजूद डिजिटल कॉन्टेंट का आकलन करता है. यहां जितनी जानकारी मौजूद है उतनी दुनिया की सभी लाइब्रेरी को मिलाकर भी नहीं है.

खोज नतीजों में दिख रहे लेख, वीडियो, विज्ञापनों वगैरह का कोलाज
खोज नतीजों को विषय के हिसाब से, अलग-अलग कैटगरी में व्यवस्थित करते हुए दिखाया गया है

क्रॉल करके जानकारी इकट्ठा करना

Search इंडेक्स में मौजूद ज़्यादातर जानकारी, सॉफ़्टवेयर की मदद से इकट्ठा की जाती है. इन सॉफ़्टवेयर को क्रॉलर कहते हैं. ये सार्वजनिक तौर पर उपलब्ध वेबपेजों को अपने-आप क्रॉल करते हैं और उन पर मौजूद लिंक की मदद से अन्य पेजों पर जाते हैं. यह ठीक वैसा ही है जैसे कोई इंसान वेब पर मौजूद कॉन्टेंट ब्राउज़ करने के लिए, एक पेज से दूसरे पेज पर जाता है. इसी तरह, क्रॉलर भी अलग-अलग पेजों पर जाकर उन पेजों और सार्वजनिक तौर पर उपलब्ध कॉन्टेंट से मिली जानकारी को, व्यवस्थित तरीके से Google के Search इंडेक्स में इकट्ठा करते हैं.
Google के Search इंडेक्स में शामिल अलग-अलग सोर्स का इलस्ट्रेशन

कॉन्टेंट को क्रम से लगाना और व्यवस्थित करना

जब क्रॉलर किसी वेबपेज पर जाते हैं, तो हमारे सिस्टम उस पेज के कॉन्टेंट को किसी ब्राउज़र की तरह रेंडर करते हैं. हम वेबसाइट के कुछ अहम सिग्नल का आकलन करते हैं. जैसे, वेबसाइट के कॉन्टेंट में हुए बदलाव और उसमें मौजूद अलग-अलग कीवर्ड. साथ ही, हम अपने Search इंडेक्स में इस तरह के अहम सिग्नल का रिकॉर्ड रखते हैं.

Google के Search इंडेक्स पर खरबों वेबपेजों से इकट्ठा की गई जानकारी उपलब्ध है और इसका साइज़ 10,00,00,000 गीगाबाइट (जीबी) से भी ज़्यादा है. यह किसी किताब के पीछे दिए गए इंडेक्स की तरह है, जिसमें हमारे इंडेक्स किए गए हर वेबपेज में शामिल एक-एक शब्द के लिए एंट्री दी गई होती है.

Google कभी भी किसी साइट को सामान्य से ज़्यादा क्रॉल करने के लिए, पैसे नहीं लेता — हम सभी वेबसाइटों को एक तरह के ही टूल उपलब्ध करवाते हैं, ताकि हमारे उपयोगकर्ताओं को सबसे सही नतीजे मिल सकें.

जानकारी में हुए बदलावों को ट्रैक करते रहना

वेब और दूसरे सोर्स पर मौजूद कॉन्टेंट में लगातार बदलाव हो रहे हैं. ऐसे में, अप-टू-डेट जानकारी इकट्ठा करने के लिए हमारे क्रॉलर लगातार काम करते हैं. किसी कॉन्टेंट में बदलाव के पैटर्न को जान लेने के बाद, क्रॉलर उस कॉन्टेंट के पेज पर दोबारा जाकर अप-टू-डेट जानकारी इकट्ठा करते हैं. साथ ही, उन पेजों या जानकारी से जुड़े नए लिंक मिलने पर, नए कॉन्टेंट का पता लगाते हैं.

Google, मुफ़्त में Search Console जैसा टूलसेट भी उपलब्ध कराता है. इससे क्रिएटर्स, अपने कॉन्टेंट को बेहतर तरीके से क्रॉल कराने में Google की मदद कर सकते हैं. क्रिएटर्स पहले से उपलब्ध स्टैंडर्ड तरीकों की मदद भी ले सकते हैं. जैसे, साइटमैप या robots.txt.

Google कभी भी किसी साइट को सामान्य से ज़्यादा क्रॉल करने के लिए, पैसे नहीं लेता — हम सभी वेबसाइटों को एक तरह के ही टूल उपलब्ध कराते हैं, ताकि हमारे उपयोगकर्ताओं को सबसे सही नतीजे मिल सकें.

खोज नतीजों को विषय के हिसाब से, अलग-अलग कैटगरी में व्यवस्थित करते हुए दिखाया गया है

वेबपेजों के साथ-साथ, अन्य सोर्स पर मौजूद जानकारी भी इंडेक्स करना

हमारा Search इंडेक्स, जानकारी इकट्ठा करने के लिए वेबपेजों के साथ-साथ, अन्य सोर्स पर भी ध्यान देता है, क्योंकि काम की जानकारी किसी भी तरह के सोर्स से मिल सकती है.

दरअसल, हमारे पास अलग-अलग तरह की जानकारी के लिए, अलग-अलग इंडेक्स हैं. यह जानकारी क्रॉलर, अलग-अलग पार्टनर, हमें भेजे जाने वाले डेटा फ़ीड, और हमारे अपने एन्साइक्लोपीडिया यानी कि नॉलेज ग्राफ़ के ज़रिए इकट्ठा की जाती है.

इतने सारे इंडेक्स होने का मतलब है कि क्वेरी करके, बड़ी-बड़ी लाइब्रेरी में व्यवस्थित लाखों किताबों में मौजूद जानकारी ऐक्सेस की जा सकती है. साथ ही, लोकल पब्लिक ट्रांसपोर्ट एजेंसी से अपनी यात्रा में लगने वाला समय पता किया जा सकता है या विश्व बैंक जैसे सार्वजनिक सोर्स से ज़रूरी जानकारी ली जा सकती है.