Google
検索における情報の整理方法
ユーザーが検索を実行すると、Google は検索インデックスに保存された数千億ものウェブページやその他のコンテンツを調べて有益な情報を探します。世界中の図書館をすべて合わせてもこの情報量には及びません。
カードの情報を仕分けしている 3 人の人物
クロールによる情報の検索

Google の検索インデックスのほとんどは、クローラと呼ばれるソフトウェアの働きによって構築されています。クローラは、人間がウェブ上のコンテンツを閲覧する場合と同じように、一般公開されているウェブページにアクセスしてそのページのリンクをたどるという動作を、自動的に行います。ページ間を移動しながら、これらのページおよびその他の一般公開コンテンツで見つけた内容に関する情報を Google の検索インデックスに保管します。

自転車が表示されているウェブサイト
インデックス登録による情報の整理

クローラがウェブページを見つけると、Google のシステムがブラウザと同じようにページのコンテンツを表示します。Google ではキーワードやウェブサイトの新しさといった主要なシグナルに注目し、検索インデックスにその情報をすべて記録しています。

3 つのウェブサイト

Google 検索インデックスには数千億のページが含まれ、そのサイズは 100,000,000 ギガバイトを優に超えます。Google のインデックスには、本の巻末にある索引と同じように、各ウェブページに含まれているすべての語が 1 つずつ追加されています。つまり、インデックスにウェブページが登録されると、そのページに含まれるすべての語がインデックスに追加されるということです。

新しい情報を常にクロール

ウェブやその他のコンテンツは絶えず変化しているため、クロール処理は常時実行されて最新情報を維持しています。過去に見たコンテンツが変更されそうな頻度を学習し、必要に応じて再度アクセスします。また、そのページまたは情報へのリンクが新たに出現したときには、新しいコンテンツも検出します。

Google では Search Console という無料のツールセットも提供しています。このツールにより、クリエイターは自身のコンテンツのクロール処理の向上を実現できます。クリエイターはまた、サイトマップまたは robots.txt など確立済みの標準を使用して、コンテンツを訪問すべき頻度や検索インデックスに含めるべき妥当性の有無を示すこともできます。

Google では、有料でサイトのクロール頻度を増やすことは行っていません。すべてのウェブサイトに同じツールを提供し、ユーザーにとって最適な検索結果を表示できるようにしています。

ウェブページにとどまらない

Google の検索インデックスには、ウェブ以外に存在する内容も含まれます。というのも、役立つ情報はその他のソースからも見つかるからです。

実際のところ、異なるタイプの情報から成る複数のインデックスがあります。これは、クロール、パートナーシップ、Google に送られてくるデータフィード、ファクトに関する Google 独自の百科事典であるナレッジグラフを通じて収集されます。

このように数多くのインデックスがあることにより、主要図書館収蔵の書籍数百万冊を検索することや、地域の公共交通機関の移動時間を調べること、世界銀行などの公開情報源からデータを見つけることが可能になります。