9장 웹 로봇
크롤러와 크롤링
어디에서 시작하는가: ‘루트 집합’
링크 추출과 상대 링크 정상화
순환 피하기
루프와 중복
빵 부스러기의 흔적
별칭(alias)과 로봇 순환
URL 정규화하기
파일 시스템 링크 순환
동적 가상 웹 공간
루프와 중복 피하기
로봇의 HTTP
요청 헤더 식별하기
가상 호스팅
조건부 요청
응답 다루기
User-Agent 타기팅
부적절하게 동작하는 로봇들
로봇차단하기
로봇 차단 표준
웹 사이트와 robots.txt 파일들
robots.txt 파일 포맷
그외에 알아둘 점
robots.txt의 캐싱과 만료
로봇 차단 펄 코드
로봇 에티켓
검색엔진
넓게 생각하라
현대적인 검색엔진의 아키텍처
풀 텍스트 색인
질의 보내기
검색 결과를 정렬하고 보여주기
스푸핑