Jump to Content

Google 검색에서 정보를 체계화하는 방식

사용자가 검색할 때 Google은 유용한 정보를 찾기 위해 전 세계의 모든 도서관을 합친 것보다 더 많은 정보가 정리된 검색 색인에서 수천억 개의 웹페이지와 기타 디지털 콘텐츠를 살펴봅니다.

기사, 동영상, 광고를 포함한 검색 결과 콜라주
주제별로 정리 및 분류된 검색 결과

크롤링으로 정보 찾기

검색 색인은 대부분 크롤러라고 알려진 소프트웨어를 통해 만들어집니다. 크롤러는 사람이 웹에서 콘텐츠를 탐색하는 것처럼 공개적으로 접근 가능한 웹페이지를 자동으로 방문하고 공개 페이지에 있는 링크를 따라갑니다. 이 페이지에서 저 페이지로 옮겨 다니며 찾은 페이지 내용에 관한 정보와 공개적으로 접근 가능한 기타 콘텐츠를 Google의 검색 색인에 정리합니다.
Google 검색 색인에서 다루는 다양한 출처의 삽화

콘텐츠 정렬 및 정리

크롤러가 웹페이지를 찾으면 Google 시스템에서는 브라우저와 마찬가지로 페이지의 콘텐츠를 렌더링합니다. 이때 키워드에서 웹사이트의 업데이트 상태에 이르는 주요 신호를 기록하며, 검색 색인에서 모든 주요 신호를 수시로 확인합니다.

Google 검색 색인은 수천억 개의 웹페이지를 아우르며 그 크기가 100,000,000GB가 넘습니다. Google 검색의 색인은 책 뒤에 있는 색인과 같아서, Google에서 색인을 생성하는 모든 웹페이지에서 발견한 모든 단어에 관한 항목이 포함되어 있습니다.

Google은 비용을 받고 특정 사이트를 더 자주 크롤링하지 않습니다. 사용자에게 최고의 검색 결과를 제공하기 위해 모든 웹사이트에 동일한 도구를 제공합니다.

지속적으로 새로운 정보 처리

웹과 각종 콘텐츠는 끊임없이 변화하므로 Google의 크롤링 프로세스도 이를 따라잡기 위해 쉬지 않고 작동합니다. 크롤링 프로세스는 이전에 확인한 콘텐츠가 얼마나 자주 변경되는지 확인하고 필요에 따라 다시 방문합니다. 또한 새로운 콘텐츠를 담은 페이지 또는 정보 링크가 나타나면 새로운 콘텐츠를 탐색하기도 합니다.

Google은 Google의 콘텐츠 크롤링을 돕기 위해 크리에이터가 사용할 수 있는 무료 도구 세트인 Search Console도 제공합니다. 크리에이터는 사이트맵이나 robots.txt와 같이 정해진 표준을 활용할 수도 있습니다.

Google은 금전적인 대가를 받고 사이트 크롤링 횟수를 늘리지 않으며, 사용자에게 최고의 검색 결과를 보장하기 위해 모든 웹사이트에 동일한 도구를 제공합니다.

주제별로 정리 및 분류된 검색 결과

웹페이지 이외의 다양한 출처에서 색인 생성

Google 검색 색인은 웹 이외의 다른 출처에서도 유용한 정보를 찾을 수 있으므로 웹에 있는 정보뿐만 아니라 그 이상을 아우릅니다.

실제로 다양한 정보 유형의 색인이 여러 개 있으며, 이러한 정보는 크롤링, 파트너십, Google에 전송된 데이터 피드, 자체 백과사전인 지식 그래프를 통해 수집됩니다.

이렇게 색인이 많기 때문에 주요 도서관에 소장된 수백만 권의 도서를 검색하거나, 현지 대중교통 기관에서 운행 시간을 확인하거나, 세계은행과 같이 공개된 출처에서 데이터를 찾아볼 수 있습니다.