일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- image
- Crawling
- 가비아
- Apache
- 비지도학습
- AndroidStudio를활용한안드로이드프로그래밍
- 한빛미디어
- Selenium
- 밑바닥부터시작하는딥러닝2
- deeplearning
- 논문리뷰
- aws
- 머신러닝
- 컴파일설치
- CBOW
- 생활코딩
- 한빛아카데미
- 예제중심HTML&자바스크립트&CSS
- 프로그램새내기를위한자바언어프로그래밍
- 소스설치
- word2vec
- 셀레니움
- 밑바닥부터시작하는딥러닝
- jupyter
- Lamp
- 수동설치
- 딥러닝
- MySQL
- 크롤링
- attention
- Today
- Total
목록크롤링 (4)
안녕, 세상!
( 본 글의 크롤링은 크롤링이라기보다 스크래핑이 더 가깝습니다. 보통 사람들이 스크래핑도 크롤링이라고 부르는 경향이 있는 것 같습니다. 저도 일단 대중적인 표현으로 크롤링이라고 표현하겠습니다만 이 부분을 염두해주고 봐주시면 감사하겠습니다. ) 크롤링을 할 때 개인 사진 및 자료를 무단으로 수집해서 해당 개인에게 동의의 없이 수익활동을 한다면 불법입니다. 본 글은 지적 탐구와 호기심을 바탕으로 수익 없이 오로지 학습을 목적으로 인스타의 데이터에 접근해 사용해본 것입니다. 해당 사진에 대한 무단 배포를 절대 하지 않습니다. 필자는 윈도우 운영체제에서 크롬 웹브라우저와 jupyter notebook으로 실습을 진행하였습니다. (1) 인스타 셀레니움 창 띄우기 앞서 셀레니움을 사용하기 위해 한것처럼 빈 크롬 창..
( 본 글의 크롤링은 크롤링이라기보다 스크래핑이 더 가깝습니다. 보통 사람들이 스크래핑도 크롤링이라고 부르는 경향이 있는 것 같습니다. 저도 일단 대중적인 표현으로 크롤링이라고 표현하겠습니다만 이 부분을 염두해주고 봐주시면 감사하겠습니다. ) (1) 셀레니움이란? 셀레니움은 웹 애플리케이션 테스트를 위한 프레임워크입니다. 웹에 하는 명령을 코드화시켜서 작동시킵니다. 다양한 브라우저 작동을 지원하며 크롤링에도 활용됩니다. 현존하는 거의 모든 웹브라우저를 다양한 언어를 통해 제어 가능합니다. 크롤링에서는 정적, 동적 페이지 크롤링으로도 접근이 불가능한 데이터에 접근할 때 유용하게 사용됩니다. 필자는 크롬 환경에서 파이썬으로 제어하겠습니다. (2) 셀레니움 Setting 셀레니움을 사용하려면 사용하려는 브라우..
( 본 글의 크롤링은 크롤링이라기보다 스크래핑이 더 가깝습니다. 보통 사람들이 스크래핑도 크롤링이라고 부르는 경향이 있는 것 같습니다. 저도 일단 대중적인 표현으로 크롤링이라고 표현하겠습니다만 이 부분을 염두해주고 봐주시면 감사하겠습니다. ) 최근 웹페이지 부분이 Js로 변경이 되며, 일반적인 크롤링이 되지 않은 경우가 많습니다. 우선 동적 페이지가 무엇인지 파악해보겠습니다. (본 실습의 환경은 반드시 크롬에서 이뤄져야 합니다.) (1) 동적 페이지란 네이버 페이지의 일부분을 예를 들어서 설명하겠습니다. 빨간 상자 부분의 카테고리 부분을 클릭을 하게 되면 해당 카테고리에 대한 정보가 제공되면서 밑의 UI부분이 다른 화면으로 전환됩니다. 그러나 카테고리 목록 버튼을 눌러서 다른 화면으로 전환됨에도 불구하고..
( 본 글의 크롤링은 크롤링이라기보다 스크래핑이 더 가깝습니다. 보통 사람들이 스크래핑도 크롤링이라고 부르는 경향이 있는 것 같습니다. 저도 일단 대중적인 표현으로 크롤링이라고 표현하겠습니다만 이 부분을 염두해주고 봐주시면 감사하겠습니다. ) (1) 크롤링이란 크롤러(crawler)는 자동화된 방법으로 웹을 탐색하는 컴퓨터 프로그램을 말합니다. ① 웹 크롤러(web crawling) 웹 서비스 내 정보를 수집하는 일입니다. 웹에서 필요한 정보가 있다면 API를 확인하고, API가 없다면 직접 크롤링을 해야 합니다. 다만 직접 크롤링을 하는 것은 웹 서비스 제공자의 입자에서는 별로 좋지 않을 것입니다. ② 웹 크롤링의 전반적인 과정 1. 정보를 가져오고자 하는 url 정의 2. url 정보로 request..