Home 크롤링은 재미가 있는거 같다~
Post
Cancel

크롤링은 재미가 있는거 같다~

노가다의 산물인 크롤링~

2년전인가 와이프에게 데이터 수집을 해주다가 파이썬을 알게 되었다.

그때부터 코테든 뭐든 간단한 코딩은 파이썬으로 하게 된거 같다. 아주 생산성이 좋다. 그리고 간만에 와이프가 크롤링을 해달라면 요청을 하였다. 예전에도 했었던 작업인데 그때는 깃을 사용하지 않고 코드를 관리하다 보니, 메일함에 언제적 버전인지도 모르는 놈이 있더라. 그래서 이번에 관리도 할겸 기존 소스를 리팩토링을 하였다. 이전에 와이프에게 만들어줄때는 파이썬 파일로 프로젝트인것처럼 제공했지만, 이번에는 노트북을 이용해 작성했다. 이유는 앞으로 사용할 사람은 내가 아니라 와이프일거 같아 일반인이 사용하기에는 노트북환경만 구성되면 그게 더 편할테니말이다

  • 우선 파이썬은 3.9이하 버전을 설치해야한다. 현재 11버전까지 있으나 넘파이의 지원이 3.9이하란다. 캡챠크래커가 넘파이랑 텐서를 사용하기때문이다. 파이썬 설치후 아래를 실행하자.
    1
    
    $ pip install jupyterlab
    
    1
    
    $ pip install CaptchaCracker
    
    1
    
    $ pip install numpy==1.19.5 tensorflow==2.5.0
    
  • 그리고 콘다를 사용하지 않을거니 노트북환경을 쉽게 하기 위해 바로가기 버튼을 만든다.
1
C:\파이썬설치경로_보통은AppData..\Scripts\jupyter.exe notebook --notebook-dir=시작경로

기존소스는 노트북으로 다 옮겨서 따로 깃에 올리지 않는다. 완료된 소스는 아래로~

캡챠까지

혼자 해볼것

1. 캡챠이미지를 머신러닝을 통해 학습시켜 자동으로 캡챠를 입력할 수 있게 개선해보자

This post is licensed under CC BY 4.0 by the author.