'웹검색'에 해당되는 글 4건

  1. 2009/03/23 다음 웹검색 자체검색으로 오픈! - bye google (14)
  2. 2008/03/19 네이버 웹검색의 저장된 페이지 보기 (2)
  3. 2007/08/24 웹검색 문서수집 빡세게 하는게 어느회사지?
2009/03/23 13:18

다음 웹검색 자체검색으로 오픈! - bye google

(오해하실까봐.. 이 글은 회사의 공식적인 입장 발표가 아닙니다ㅡ_ㅡ 개인의 블로그포스팅입니다)
(회사에서 드디어 외부에 공식적으로 발표를 했군요..)

알만한 사람은 다 아는 다음 웹검색의 Powered by Google.
Powered by Google

바로 이 로고. Powered by Google


오늘 아침부로 위 로고 뜯었습니다. ㅡ_ㅡv

저 자리에 구글검색 로고가 박혀있었죠..


다음 검색에 대한 오해중 하나가..
"다음구글검색을 쓴다"였는데.. 아닙니다. 어제까지는 다음의 자체 검색에 웹문서 검색만 구글 검색결과를 제휴해다가 썼던 겁니다. 그게 오늘 바낀거죠.. 오늘부터는 웹문서 검색에도 다음의 자체 검색엔진을 사용하기 시작한 겁니다.
다음 웹문서 검색은 베타 서비스로 이미 한번 알려드린적이 있고 동일한 엔진을 사용하여 찾은 검색결과를 통합검색에서도 오늘부터 사용하게 되었습니다. 그래도 명색이 정식 오픈인데 너무 심심하게 지나가는거 같아 아무 허락도 안받고 일단 블로그에 소식을 질러 봅니다;;; (이 글 내려야 될지도 모릅니다ㅡ,.ㅡ)

나름 애써서 만든만큼 좋은 평을 듣고도 싶지만 아직 부족한점은 많습니다. 검색결과가 쓸만할 때도 있지만, 정말 거지같을 때도 있고, 턱없이 부족할 때도 있을 겁니다. 그럴땐 피드백 부탁드리겠습니다. 부족한 부분은 더 열심히 보완해 나가겠습니다.

저작자 표시 비영리 변경 금지
Creative Commons License
Trackback 1 Comment 14
2008/03/19 22:06

네이버 웹검색의 저장된 페이지 보기

초보주부 뭉코님의 네이버의 웹페이지 미리보기, 양심은 안드로메다로?라는 글을 보고 작은 오해가 있으신 것같아 끄적여 봅니다.

(미리 밝혀둡니다만.. 저는 네이버 직원도 아니고 그랬던 적도 없습니다. 다만 다른곳에서 웹검색을 개발하고 있는 사람으로서 좋은 발견을 하게 되어 쓰는 글입니다.)

아시다시피 웹검색을 서비스하기 위해서는 소위 크롤러라고 불리는 로봇프로그램이 페이지를 긁어다가 저장합니다. 이렇게 저장된 웹페이지를 분석하여 검색결과에 활용하지만, 더러 "데드링크"라 하여, 로봇이 긁어간 이후에 삭제되거나 심하게 변경된 웹문서들이 생겨납니다. 그럴 때에 로봇이 문서를 수집해간 시점의 내용이 검색 이용자에게 더 관심사일 것이므로, 저장된 문서 보여주기 기능이 어느 검색업체나 대부분 있습니다. 다만 제공하는 형태 등이 조금씩 다를 뿐이죠..

구글의 경우, 수년 전만해도 저장된 페이지에서 내가 찾는 내용을 발견하기란 쉽지 않았습니다. 보안, 저작권 등등 여러가지 이유로 로봇이 수집한 HTML을 그대로 보여주는데, 이 HTML내에 포함된 스크립트나 링크, 이미지소스등의 주소가 상대경로인것이 많아 모양을 알아보기 힘들게 나왔습니다. 잘못 만들어졌으나 브라우저에서는 오류가 보이지 않는 HTML이나 실행하지 못하는 자바스크립트로 페이지소스가 완전히 나오지 않는 경우도 많았구요.. 특히 이럴땐, frame으로 보여주게되면 문제가 불거지는 경우가 많습니다. 이런 일들이 자주 발생하자. 구글을 비롯 많은 검색업체에서는 수집시점에 원본HTML을 한번 가공을 하여 저장하게 됩니다. href, src 등의 상대주소가 나올수 있는 경우는 모두 절대주소로 변경하고, 열기만 하고 안닫은 table 태그처럼 잘못 만들어졌으나 브라우저에서는 티가 나지 않는 잘못된 HTML을 수정하고, 심지어 css, js파일도 함께 수집하기도 합니다.

이렇게 수정한 후에는 저장된 HTML보기를 눌러도 페이지 모양이나 이미지가 멀쩡히 잘 나오는데, 다만 새로운 문제가 떠오릅니다. 브라우저에서 HTML을 렌더링해서 보여주는 것이기 때문에 자바스크립트 등의 동적페이지를 만들기 위해 사용된 클라이언트 스크립트가 수행된다는 거죠..
그래서 저장된 페이지만 봐도, 원래 페이지의 방문 카운트가 증가한다던가, 자바스크립트로 심은 애드센스같은 광고가 보인다던가 하는 일이 생기는 겁니다.

근데 뭉코님의 실험은 한가지 신기한 점을 보여주고 있습니다.
정말 저장해둔 페이지를 보여주고 자세한 내용을 보려면 직접 가라 식일지도 몰라서
제가 10000BC 포스트를 수정하고 실시간으로 검색결과를 새로고침 해봤습니다.
내용 제일 앞에 '!!' 를 붙이고 봤더니 바로 적용되어 있네요.
바로 이 부분이죠.. 어떻게 그렇게 된걸까요..
하필 그 타이밍에 Naverbot이 크롤을 다시해갔을수도 있습니다. 가능성이 낮지만..
뭉코님 페이지에 있는 수많은 자바스크립트를 다 해석해보지는 않았지만, 자바스크립트에 의해 리로딩이 되는 것일수도 있겠구요.. 정확한 이유는 모르겠습니다만 여튼, 네이버는 분명 저장한 HTML로 보여준 것이라는 점은 확실합니다.

저도 한번 해봤습니다.
네이버에서 루미넌스 검색결과

네이버에서 루미넌스 검색결과


왼쪽의 창이 네이버 검색결과이고, 오른쪽 창이 두번째 결과로 나온 제 블로그를 클릭해서 들어간 것입니다. 분명 수집시점의 내용을 보여주고 있군요..

저 역시 웹검색을 개발하는 개발자로서 이런 오해가 생길 여지를 최소화해야 하는게 저의 업무중 하나입니다. 자칫 지나쳐 버릴수 있던 문제를 다시한번 상기할 수 있게 문제제기를 해주신 뭉코님께 고맙습니다.

그래도 오해와 노여움은 푸시길 바래요^^;;
----
덧. 네이버 웹검색탭에서는 "저장된 페이지보기"가 아니라 "미리보기"군요.. 다만 용어를 다르게 사용한것 뿐이겠지만요..


Creative Commons License
Trackback 0 Comment 2
2007/08/24 23:47

웹검색 문서수집 빡세게 하는게 어느회사지?

어딘지 모르겠지만 웹검색을 준비하는건지..
아니면 기존 업체에서 뭔가 빡시게 재수집을 하고 있는건지..
오늘접속카운터

미쳐버린 오늘 접속카운터

오늘 갑자기 평소 카운터의 4배 이상이 뜨네요..ㅡㅡㅋ
평소에는 하루평균 1200 안팎이던게..;;;
오늘은 벌써 4841.. 우째 이런..

보통때도 반쯤은 각종 로봇들인건 알고 있었지만.. 허전해서 걍 놔뒀는데..
오늘 하루쯤 반짝카운트겠죠?;; 요즘은 글도 별루 안쓰는데...
너무한다 로봇..

너무한다 로봇.. 설마 내가 만든 로봇이? ㅡㅡㅋ


조만간 본 블로그에서 개발자노트 카테고리를 뜯어서 별도로 만들까 합니다.
이름하여 루미의 테크노트..
(DNA에서 테크노트 이름갖구 딴지 거시면.. 조용히 커피 한잔 돌리겠습니다.. ㅡ_ㅡ;;;)

여기는 제목 그대루 잡다구리(miscellaneous)가 될겁니다.ㅎㅎ

Creative Commons License
Trackback 1 Comment 0