9장 웹 로봇

크롤러와 크롤링

어디에서 시작하는가: ‘루트 집합’

링크 추출과 상대 링크 정상화

순환 피하기

루프와 중복

빵 부스러기의 흔적

별칭(alias)과 로봇 순환

URL 정규화하기

파일 시스템 링크 순환

동적 가상 웹 공간

루프와 중복 피하기

로봇의 HTTP

요청 헤더 식별하기

가상 호스팅

조건부 요청

응답 다루기

User-Agent 타기팅

부적절하게 동작하는 로봇들

로봇차단하기

로봇 차단 표준

웹 사이트와 robots.txt 파일들

robots.txt 파일 포맷

그외에 알아둘 점

robots.txt의 캐싱과 만료

로봇 차단 펄 코드

HTML 로봇 제어 META 태그

로봇 에티켓

검색엔진

넓게 생각하라

현대적인 검색엔진의 아키텍처

풀 텍스트 색인

질의 보내기

검색 결과를 정렬하고 보여주기

스푸핑

results matching ""

    No results matching ""