우리가 매일 사용하는 구글 검색창 너머에는, 방대한 웹 생태계의 질서를 잡아주는 거대한 규칙이 숨어 있습니다. 지난 1편에서 래리 페이지와 세르게이 브린이 스탠퍼드 대학교에서 어떻게 만났는지 살펴보았다면, 이번 글에서는 그들이 발명한 구글의 심장, '페이지랭크(PageRank)' 알고리즘에 대해 깊이 파헤쳐 보겠습니다.
블로그나 웹사이트를 운영하며 SEO(검색엔진 최적화)를 고민해 본 적이 있다면 '백링크(Backlink)'라는 단어를 수없이 들어보셨을 겁니다. 이 백링크의 중요성을 세상에 처음 각인시킨 것이 바로 페이지랭크입니다. 과거의 혼란스러웠던 검색 시장을 구글이 어떻게 단숨에 평정했는지, 그 핵심 원리를 이해하면 오늘날 좋은 콘텐츠를 작성하는 데에도 큰 힌트를 얻을 수 있습니다.
90년대 검색창의 아수라장과 키워드 반복의 꼼수
1990년대 후반의 인터넷은 그야말로 정보의 무법지대였습니다. 당시 알타비스타, 야후 등의 검색 엔진들은 주로 '단어의 빈도수'에 의존해 검색 결과를 보여주었습니다. 사용자가 '사과'를 검색하면, 웹 페이지 내에 '사과'라는 단어가 가장 많이 적힌 문서를 1등으로 띄워주는 식이었죠.
이런 단순한 방식은 금방 한계에 부딪혔습니다. 수많은 웹마스터들이 트래픽을 얻기 위해 배경색과 똑같은 글씨로 주요 키워드를 수천 번씩 숨겨놓는 이른바 '키워드 스터핑(Keyword Stuffing)' 꼼수를 부리기 시작했기 때문입니다. 정작 유용한 정보를 찾는 일반 사용자들은 스팸 사이트와 의미 없는 문서의 홍수 속에서 길을 잃고 피로감을 느껴야만 했습니다.
페이지랭크의 탄생: 웹을 논문 인용망처럼 바라보다
스탠퍼드의 대학원생이었던 래리 페이지와 세르게이 브린은 이 문제를 학계의 '논문 인용(Citation)' 시스템에서 착안하여 해결하고자 했습니다. 학계에서는 어떤 논문이 훌륭한지 평가할 때, 다른 학자들의 논문에서 얼마나 많이 인용되었는지를 중요한 척도로 삼습니다. 많이 인용될수록 신뢰할 수 있고 권위 있는 자료로 인정받는 것이죠.
두 사람은 이 원리를 인터넷상의 '링크(Link)'에 적용했습니다. A라는 웹사이트가 B라는 웹사이트로 링크를 걸어주면, 이는 A가 B를 "추천"하거나 "신뢰"한다는 투표 행위로 간주한 것입니다. 래리 페이지의 이름을 딴 '페이지랭크(PageRank)' 알고리즘은 이렇게 웹 문서 간의 링크 구조를 분석해 문서의 중요도를 수학적으로 계산하는 혁명적인 발상이었습니다.
[사진 추천: 수많은 웹페이지(노드)들이 화살표(링크)로 연결되어 있고, 링크를 많이 받은 페이지의 원 크기가 더 크게 표시된 페이지랭크 원리 모식도]
질(Quality)이 양(Quantity)을 이긴다: 가중치의 비밀
페이지랭크가 단순히 링크의 '개수'만 세었다면, 수만 개의 가짜 사이트를 만들어 서로 링크를 주고받는 어뷰징(Abusing)에 금방 무너졌을 것입니다. 하지만 구글의 진정한 천재성은 링크의 '가중치'를 계산했다는 점에 있습니다.
"모든 투표권이 동일한 가치를 지니는 것은 아니다"라는 것이 페이지랭크의 핵심입니다. 아무도 방문하지 않는 개인의 일기장 블로그에서 받은 100개의 링크보다, CNN 뉴스나 하버드 대학교 공식 홈페이지처럼 이미 신뢰도가 높은 사이트에서 받은 1개의 링크가 검색 순위에 훨씬 더 큰 영향을 미치도록 설계되었습니다. 권위 있는 페이지의 추천은 그만큼 가치가 높다고 판단한 것입니다.
초보 블로거들이 종종 크몽이나 해외 사이트에서 '백링크 1,000개 보장' 같은 스팸성 상품을 구매했다가 사이트가 통째로 검색에서 누락되는(저품질) 실수를 겪곤 합니다. 이는 구글이 초기 페이지랭크 시절부터 지금까지 '질 낮은 링크'를 철저히 걸러내고 신뢰할 수 있는 출처를 판별하는 데 집착해 왔기 때문입니다.
구글 검색이 세상을 놀라게 한 순간
페이지랭크 알고리즘을 장착한 구글의 초기 검색 엔진은 경쟁자들을 말 그대로 압살했습니다. 사람들이 키워드를 입력하면, 가장 공신력 있고 많은 사람들이 추천한 양질의 문서가 군더더기 없이 최상단에 등장했습니다. 속임수나 편법이 통하지 않는, 압도적으로 정확한 검색 결과에 대중들은 열광했습니다.
단순히 글자를 찾는 도구였던 검색 엔진은, 페이지랭크를 통해 '세상의 모든 정보에 질서를 부여하는' 똑똑한 비서로 진화했습니다. 그리고 이 알고리즘은 구글이라는 거대한 제국을 세우는 가장 튼튼한 주춧돌이 되었습니다.
[핵심 요약]
90년대 검색 엔진은 키워드 반복 등 편법에 취약해 양질의 정보를 찾기 어려웠습니다.
페이지랭크 알고리즘은 학술 논문의 인용 방식을 차용하여, 다른 사이트로부터 '링크(백링크)'를 많이 받을수록 중요도가 높다고 판단했습니다.
단순한 링크의 개수가 아닌, '신뢰도 높은 사이트로부터 받은 링크'에 더 큰 가중치를 부여하여 스팸을 걸러내고 검색 품질을 획기적으로 높였습니다.
다음 편 예고: 위대한 알고리즘을 발명했지만 아직은 가난한 대학생이었던 두 창업자. 그들이 스탠퍼드 기숙사를 벗어나 어떻게 회사를 설립하게 되었는지, 실리콘밸리의 전설이 된 '차고지 창업' 이야기를 3편에서 다루어 보겠습니다.
의견을 남겨주세요: 여러분이 블로그나 웹사이트의 글을 읽을 때, "이 글은 신뢰할 수 있다"고 판단하게 만드는 가장 큰 기준은 무엇인가요? (예: 전문가의 프로필, 깔끔한 통계, 출처 표기 등) 댓글로 여러분만의 기준을 알려주세요!
0 댓글