본문 바로가기

Programming/Python Web Crawler for intermediate learners

Web Crawler 006 - Creating the spider - 스파이더 만들기.



## 시작하기에 앞서, Paek 님이 지적해 주신 사항입니다. 이전 시간까지는 main.py 로 작성을 하였는데, 파일명을 general.py 로 바꾸었습니다. 왜냐하면 추후에  만들어둔 모든 함수, 파일을 한곳에서 처리하기 위해 별도로 main.py 를 만들기 위함입니다. 지적해주신 Peak님 감사합니다. ##







이제 기본으로 필요한 도구들(함수)을 만둘어 보았으니, 다음으로 크롤링을 위한 스파이더를 만들어 보도록 하겠습니다. 파이썬에서 말하는 스파이더는 마치 거미가 거미줄(web)을 여기저기 돌아 다닌다는 의미로 네이밍이 되었습니다. 그와 마찬가지로 코딩을 통하여 웹상에서 링크를 타고 타고 돌아다니게 하기 위해 스파이더를 만들어 주도록 하겠습니다.


우선 필요한 모듈을 불러오도록 하겠습니다.

아래와 같이 웹(www)을 다룰 때 가장 흔하게(필수적으로) 사용하는 모듈을 불러와 줍니다. ▼

이전 시간에 만들어 둔 link_finder.py  파일에서 LinkFinder 을 불러오도록 넣어주었습니다. ▼

마찬가지로 general.py 에 만들어 둔 필요한 함수들을 모두 불러오게 하였습니다. ▼

이제 스파이더 클래스를 정의해 주두록 하겠습니다. ▼

스파이더 클래스에서 필요한 변수들을 미리 정의를 내리도록 하겠습니다. 여기에 사용되는 변수들은 주석에도 기재해 두었지만, 다른 인스턴스에서도 공유되어 사용되게끔 할 예정입니다. 초기화 값으로 아래와 같이 임의의 값을 배정해 두었습니다. 이는 추후 각각의 쓰임에 따라 값이 배정이 되겠습니다. ▼

내용이 길어지면 지루해질테니, 여기까지 이번 장은 마치도록 하겠습니다. 다음장에서는 스파이더 클래스의 초기화( __init__ ) 에 대해서 알아보도록 하겠습니다. 수고하셨습니다.