본문 바로가기

open

Web Crawler 004 - Accelerate Crawling by avoiding repetition - 중복을 회피하여 크롤링 속도 개선하기. 이전 시간까지는 기본적으로 어떤 웹 사이트를 크롤링하기 위해서 기초작업을 하였습니다. 프로젝트 생성, 링크를 저장할 파일 만들기, 파일 내용 삭제하기 등등. 이번에는 웹 크롤링을 할 때, 어떤 페이지를 타고 들어간다고 생각해보세요. 거기서 링크를 파일로 저장을 하였는데, 다른 곳에서도 같은 링크를 찾을 경우가 많을 것입니다. 이렇게 서로 중복되는 링크들을 크롤링을 하게 된다면, 시간이 꽤 걸릴 것입니다. 물론 몇 페이지가 안된다면, 체감할 정도는 아닐 것입니다. 그러나 크롤링 할 페이지가 1만 혹은 그 이상이 된다고 한다면, 상당한 시간을 중복된 링크를 크롤링하는데 소요하게 될 것입니다. 그래서 이번에는 이러한 중복 자체를 크롤링 하기 이전에 제거하는 코딩을 해 보려고 합니다. 파이썬에서는 여러개가 중복.. 더보기
[PYTHON 3] Tutorials 23. Downloading Files from the web - 파일 다운로드 하기 using 파이썬 안녕하세요. 이번 시간에는 지난 시간의 이미지(사진) 다운받기에 이어 파일을 다운받아 보도록 하겠습니다. 이미지 다운과는 약간 다르지만, 크게 어렵지는 않으니 느긋하게 읽어보시면 쉽게 이해할 수 있을 겁니다. 그럼 시작하겠습니다. 주식 분석을 위한 시세 자료를 다운 받기 할 예정입니다. 이제까지는 import 뒤에 불러올 모듈명을 바로 적어 주었습니다. 그런데 아래 그림은 앞에 from 을 적어주고 import 뒤 모듈명을 적어 주었네요. 이는 추후에 클래스를 다룰때 보다 자세히 설명드려야 할 사항이므로 지금은 그냥 넘어가셔도 무방합니다. ▼ 주식 관련 CSV(Comma Separated Value)파일을 찾아보았는데, 야후 파이낸스에 올라와 있더군요. 그래서 'finance.yahoo.com'으로 접속.. 더보기
[MAC TIP] 앱 다중(여러개 띄워 사용) 실행하기 Mac OS X 에서 사파리나 크롬 및 대부분의 문서 편집 프로그램들은 사용자가 원하는 수 만큼의 작업 창을 띄워놓고 사용할 수 있다. 그러나 '단일 창'으로 작동하는 것을 염두해 두지 않은 프로그램들은 별도로 다중 프로그램 실행을 지원하지 않는 경우가 종종 있지만, 불가능한 것은 아니다. 물론, 태생적으로 지원이 안되는 프로그램들은 어쩔 수 없지만, 의외로 많은 OS X 프로그램들이 다중 실행이 가능하다. 터미널 명령어를 이용해서 프로그램 제작자들이 걸어둔 제한을 우회 혹은 회피할 수 있다. Applications(응용 프로그램) > Utilities(유틸리티) 폴더에서 너미널을 실행한 후 아래와 같은 명령어를 입력해 주면 된다. open -n 'Application Path/Application Na.. 더보기
[Applescript] How to open a new tab in chrome, safari using applescript Applescript 를 사용하여 특정 사이트를 새 탭에서 여는 기본 스크립트이다. on run {input, parameters} tell application "Google Chrome" set myTab to make new tab at end of tabs of window 1 set URL of myTab to "http://creativeworks.tistory.com/" end tell end run 더보기
[PYTHON] Python을 이용한 웹사이트 스캐너 만들기 - 4. Nmap Port Scan 이제 타겟 서버의 아이피 주소까지 얻었습니다. 이제부터는 nmap을 사용하여 타겟 서버의 포트 개방 여부를 확인하고, 어떤 프로세서가 러닝되고 있는지 확인하려고 합니다. 그러기 위해서는 'NMAP' 이 설치가 되어 있어야 합니다. 맥을 사용하시는 분들이라면 homebrew 를 설치하신 이후에 brew install nmap 을 하시면 설치하실수 있습니다. 물론 리눅스를 설치하고 계신분은 바로 인스톨 하시면 됩니다. NMAP 으로 확인하려고 하는 결과를 먼저보여 드리면 아래 그림과 같습니다. 앞에서 얻은 tistory.com 의 아이피 주소인 180.70.93.117 을 넣어보니 http 프로토콜의 포트번호인 80번과, https의 포트번호인 443만 개방되어 있는것을 확인하실 수 있습니다. 자 그럼 본격.. 더보기
마이크로소포트, 뉴욕 5번가에 플래그십 스토어 오픈 마이크로소프트가 뉴욕 5번가에 플래그십 스토어를 오픈했습니다. 뉴욕의 스토어는 마이크로소프트의 첫번째 플래그십 스토어입니다. 5층으로 이루어진 이 건물(3층까지만 일반인들에게 오픈) 중 1층은 MS의 윈도우 디바이스, OEM 랩탑, 그리고 엑스박스가 있습니다. 2층은 Answer Desk가 마련되어 있는데 애플의 지니어스 바처럼 사용자들은 이 곳에서 기술적인 도움을 받을 수 있습니다. 3층에는 델과 엘일리언 웨어 게임 비즈니스를 위한 쇼케이스 공간이 있습니다. 이 곳에는 XPS 12, 13, 15와 같은 기종이 전시되어 있습니다. The Verge는 MS의 스토어가 애플 스토어와 유사한 점이 있기는 하지만 스토어 중앙에 있는 2층 짜리 비디오 타워와 1층에 있는 비디오 벽이 독특하다고 보도했습니다. 더보기