본문 바로가기

TroubleShooting/Etc

웹 크롤링(web crawling) 방지와 wget(크롤링 무시) 옵션

728x90
웹 사이트에서 구글이나 웹 로봇들이 크롤링(스파이더링) 하는것을 막기위해 robots.txt 를 많이 이용한다.

그런데, wget 에서 robots.txt 를 방지하는 옵션이 있다. (v1.12 에서 이 옵션으로 정상작동하는 것을 확인하였다.)
#wget -e robots=off --wait 1 http://your.site.here