Scatch note
Category – opensource
1 post tagged with "opensource" (See all categories)

heritrix 오픈소스 웹 크롤러 사용하기

2020-01-211 Min Read — In opensource

Heritrix 오픈소스 웹 크롤러를 사용해보고 방법을 정리하려합니다. 자세한 사용법은 github 위키에 잘 나와있지만, 기본적인 부분,헷갈릴만한 부분이나 자주 사용할만한 옵션들을 소개해보도록 하겠습니다. 설치 -설치 끝 설치는 매우 간단하지만, 설정이 꽤 귀찮고 모호한 부분이 있습니다. spring xml properties를 사용해서 직접 설정합니다. 일단 기본 설정으로 크롤링 진행 -a 옵션으로 계정을 설정하고, -b…