본문 바로가기

수정

Web Crawler 003 - 링크 찾기 및 삭제하기 (Adding and deleting links) 이번에는 기본 URL 에서 크롤링 하려고 찾은 링크들을 파일에 저장을 하려고 합니다. 멀티 프로세싱 혹은 멀티 쓰레딩 작업을 통해서, 하나의 과정은 링크를 찾아 파일에 넣어 저장하고, 다른 하나의 과정은 이렇게 찾은 링크들을 크롤링하게 하려고 합니다. 여기에서 찾은 링크를 파일에 저장을 할 시에 중복되는 링크도 존재하기 마련입니다. 그래서 그런것들의 중복 크롤링을 막기 위해, 애초에 크롤링할 파일에 해당 링크 URL 이 존재하면 추가적으로 append 하지 않게 하면 됩니다. 시작해 볼까요? 우선 이미 만들어 둔 파일에 링크를 더해가는 함수를 정의하겠습니다. ▼ append 모드로 해당 경로를 열어줍니다. 그리고 이것을 file 로 명명하겠습니다.▼ 파일을 열어 전달해 줄 데이터 값을 넣고 뒤에는 개행문.. 더보기
PDF 문서를 수정 편집이 가능한 구글문서 또는 MS Word 로 변환하기 Convert PDF Documents to Google Docs or MS Word 많은 사람들이 PDF 문서는 읽기 전용으로만 배포되며, PDF문서는 수정이 불가능하다고 알고 있다. 그러나 찾아보면 방법은 있게 마련. 온라인상에 잘 찾아보면 수정할 수 있게 해주는 3rd party 프로그램도 나와 있으니 찾아보시라~. 그럼 각설하고 어떻게 변환하느냐. 방법은 매우 간단. PDF 문서를 구글드라이브에 업로드구글드라이브에서 해당 PDF를 선택하고, 마우스 오른쪽 버튼을 클릭하면 (해당 PDF문서를 더블 클릭하면 PDF 뷰어가 수행됨으로, 더블클릭하면 안됩니다) 아래 이미지와 같이 ‘연결앱->Google 문서' 를 선택이때 Google 문서는 PDF 문서를 오픈하면서 자동으로 수정 편집이 가능한 구글문서로.. 더보기