일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 데이터시각화
- 달의조각
- linux
- 씨본
- 퍼셉트론
- XOR게이트
- ubuntu
- Deeplearning
- 비지도학습
- 데이터크롤링
- python
- pandas
- 선형회귀
- Perceptron
- 판다스
- 크롤링
- 우분투
- numpy
- AND게이트
- 파이썬
- 데이터프레임
- 리눅스
- DataFrame
- seaborn
- 딥러닝
- 머신러닝
- 데이터분석
- OR게이트
- 로지스틱회귀
- NAND게이트
- Today
- Total
목록데이터크롤링 (2)
Charming ['ㅡ'] Ham !
크롤링을 활용하여 로그인하기¶ 로그인하기¶ 로그인을 위해서 쿠기, 세션, 캐시에 대한 개념이 필요하다. 로그인 시 HTTP 통신은 쿠키를 보내거나 세션 ID 를 기록하는 작업을 수행하게된다. 먼저 쿠키와 세션에 대해 알아보자. 쿠키는 HTTP 헤더를 기반으로 이루어지는 데이터이다. "클라이언트 로컬"에 저장되는 Key-Value쌍의 작은 데이터 파일이며, 방문자가 데이터를 원하는 형태로 변경할 수 있고, 저장소는 브라우저 즉, 클라이언트가 가지고 있다. 세션도 쿠키를 이용해 데이터를 저장한다. 하지만 쿠키에는 방문자 고유 ID같은 정보만 저장하고 실제로 모든 데이터는 웹 서버에 저장하며, 서버에 데이터를 저장하므로 쿠키와는 다르게 저장할 수 있다. 쿠키와 세션은 저장 위치 와 보안, Lifecycle, ..
데이터 크롤러 만들기¶ 크롤링이란 말을 한번쯤은 들어봤을 수 있는데, 크롤링은 바로 웹에서 데이터를 긁어오는 작업을 의미하며, 이 작업을 수행하는 모델을 크롤러라 한다. 머신러닝, 데이터 분석에서 원본 데이터를 모르는 것은 매우 중요한 일이며, 이 원본 데이터를 크롤링하는 크롤러 프로그램을 만들어 데이터를 수집하고 있다. 크롤러의 아키텍처는 멀티 스레드를 이용해 웹과 HTTP 통신을 하고,Queue (큐) 형태의 자료구조를 이용해서 구현한다. 또한 데이터는 URL 을 통해 전달되는데 이렇게 전문적인 데이터 크롤러 구현은 간단하지만은 안으므로 오늘은 파이썬을 이용한 데이터 크롤러를 구현해보자. 파이썬 크롤링 라이브러리¶ 크롤링 작업을 위해서는 웹 페이지를 불러오고, 해당 웹 페이지에서 원하느나 데이터가 어..