참가 현황

  • 참가 현황

독서마라톤 종료일까지D-000

독서마라톤 참가신청

책 이미지가 없습니다.

웹 데이터 수집의 기술 : 입문편

타쿠로 사사키 지음 ; 김경록 옮김한빛미디어 ( 출판일 : 2017-01-01 )
작성자 : 김○준 작성일 : 2024-08-06
페이지수 : 252 상태 : 승인
[줄거리]
스크래핑과 크롤러를 활용하여 웹 데이터 수집하는 기술을 엑셀, VBA, HTML, XPath, 구글시트, import.io, IFTTT, RSS 등 활용하여 하는 방법을 알려준다. 실용적이지만 기초개념이 없으면 따라하기 조금 힘든 책
크롤링은 웹 사이트 자원에 영향을 미칠 수 있음으로 API가 제공된다면 해당 데이터를 통해 수집할 것

[메모]
*데이터 수집 3단계
1. 선정, 2. 수집, 3. 정리

*크롤러 : 자동으로 정보 수집을 반복하는 프로그램

크롬에서 Xpath
웹페이지에서 해당위치의 우클릭>검색>검사>Html 창 파란부분나타나면 마우스 오른쪽 클릭>메뉴>Copy>Copy XPath

구글시트 활용
*주식data 가져오기
=googlefinance("000660","price")
; price, priceopen, high, low, volume 변경가능
현재가, 시가, 고가, 저가, 거래량 순

*ImportXML
=Importxml(URL,XPath_query)
; 다음 금융에서 활용
; importxml("https://finance.daum.net/item/main.daum?code'"&A1,"//*[@id='topWrap']/dic[1]/ul[2]/li[1]/em")

*구글 앱스 스크립트활용

*구글 앱스 스크립트 트리거와 이벤트 소스
[이벤트 소스]
*스프레드 시트
- 기동시 (On open) : 스프레드시트를 열었을 때
- 편집시 (On edit) : 셀값 변경 시
- 값 변경시 (On change) : 셀 값 변경되거나 다른 조작이 일어났을 때
- Form 송신 시 (On from submit) : 응답 종료 버튼이 눌렸을 때

*시간구동
- 특정 일시 (Specific date and time) : 측정 날짜, 시간 지정
- 분 타이머(Minute timer) : 1,5,10,15,30분 간격에서 하나를 선택
- 시 타이머(Hour timer) : 1,2,4,6,8,12시간 간격으로 하나를 선택
- 일 타이머(Day Timer) : 1일을 주기로 특정한 시각에
- 주 타이머(Week timer) : 주 단위 특정한 요일 및 시간에
- 월 타이머(Month timer) : 월 단위로 특정한 날짜나 시간에

* 트리거로 스프레드시트를 열때는 openByUrl, openById 등의 특정 시트를 지정한 후 열것

*import.io 사용하여 웹 데이터 수집하기


[실천 포인트]
구글시트 함수를 정리하기
댓글쓰기
로그인 도서관 바로가기