크롤링 2

[엑셀] DOM 방식의 웹페이지 정보 가져오기 (사이트 추천)

# http://automatetheweb.net/ 사이트 추천(클릭하면 링크로 이동)# DOM(Document Object Model) 방식의 웹페이지 크롤링에 관한 내용을 다루고 있다.# 군더더기를 다 빼고 오로지 웹페이지 크롤링만을 다룬다. (매우 깔끔하게 정리되어 있다.) # 엑셀을 활용해서 웹페이지를 크롤링 하는 방법은 크게 두 가지로 나눌 수 있는데,# 1. 웹페이지를 관리하는 서버에 필요한 데이터를 직접 요청하는 방식 (Set WHTTP = CreateObject("WinHTTP.WinHTTPrequest.5")와 같은 형식으로 서버에 수신 요청을 보내는 방식)# 2. 위 사이트에서 제시하는 DOM 방식 (정확히는 DOM 방식이 아니라 DOM을 지향하는 웹페이지의 개체(Object)를 건드리..

VBA Macro/VBA Excel 2017.12.22

[엑셀] 웹 페이지 크롤링/스크래퍼 매크로

## 웹 페이지 크롤링(실험)회사 업무중에 웹 페이지를 크롤링 해야 할 일이 생겨서 찾아보던 중자바나 다른 언어는 할 줄 모르기 때문에 현재 내가 할 수 있는 가장 쉬운 방식을 찾았다.구글 스프레드시트 importxml 함수를 통힌 파싱도 쉬워(노가다)보이는데 웹페이지에 따라서 제약이 좀 있는 듯하다. ※ "동일한 형식의 데이터를 보여줄 동일한 웹페이지를 URL 형식으로 모두 인덱싱 할 수 있어야 한다."는 점이 중요해 보인다.무슨 소리나면, 요새 웹페이지들이 http://도메인 이후 파라미터를 숨겨놓은 데가 많은데,그래서 페이지 인덱스가 바뀌어도 URL은 그대로라서 URL by URL 방식의 크롤링이 (마치 안되는 것처럼) 보인다.그런데 거꾸로, 페이지 인덱스만 찾아준다면 아래의 VBA 코드를 이용해서..

VBA Macro/VBA Excel 2017.10.21