목록프로그래밍/WEB (3)
Seung's Learning Record
≣ 목차 웹 상에서의 데이터 추출은 웹 페이지의 HTML 구조를 파싱하고 원하는 정보를 추출하는 과정을 뜻한다. 이러한 과정을 진행할 때 가장 대표적으로 쓰이는 방법으로는 웹 스크래핑과 웹 크롤링이 있다. 오늘은 이 두가지 방법과 데이터 추출시의 규제를 정해놓은 파일인 robots.txt에 대해서 알아보자. 웹 스크래핑 웹 스크래핑은 웹 페이지에서 원하는 정보를 추출하고 수집하는 프로세스를 의미한다. 주로 정적인 웹 페이지에서 데이터를 수집하며, 데이터를 추출하고 가공하여 필요한 형태로 변환한다. 이 때 Beautiful Soup와 Requests와 같은 라이브러리를 주로 사용한다. 일반적으로는 소규모의 데이터 수집시에 활용되는 방법이다. 웹 스크래핑 라이브러리들은 아래에 보다 자세히 정리되어있다. ht..
≣ 목차 HTTP(HyperText Transfer Protocol) HTTP 란? HTTP는 텍스트 기반의 통신 규약으로 인터넷에서 데이터를 주고받는데 사용되는 프로토콜이다. 클라이언트와 서버 간의 통신을 위한 표준 프로토콜로, 주로 웹 브라우저와 웹 서버 간에 문서나 데이터를 전송하는 데 주로 사용된다. 해당 프로토콜은 클라이언트가 브라우저를 통해 어떠한 서비스를 URL이나 다른 수단을 통해 요청(request)하면 서버가 해당 요청 사항에 맞는 결과를 응답(reponse)하는 형태로 동작한다. HTTP 특징 TCP/IP를 이용하는 응용 프로토콜이다. HTTP는 무상태(stateless) 프로토콜이다. 따라서 같은 클라이언트로 부터 연속적인 요청이 와도 서버는 상태 정보를 유지하지 않고 독립적으로 처..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/CH9cS/btsGd7k77Wt/hk9G2iFDbuFYLnLJxrkB30/img.png)
≣ 목차 HTML이란? HTML 기본 문법 HTML은 기본적으로 의 구조를 가지며, 콘텐츠를 가지는 태그와 가지지 않는 태그로 구분된다. 콘텐츠를 가지는 태그는 시작 태그와 종료 태그를 가지는 한 쌍으로 존재하는 반면, 콘텐츠를 가지지 않는 태그는 단일 태그만 존재한다. 이때 단일 태그는 셀프 클로징을 통해 코드를 끝내거나, 아예 열린 상태로 두거나 한다. 콘텐츠 html 문법 사용 시 주의해야 할 점은 다음과 같다. 대소문자 주의 - 태그는 가능한 소문자로 작성 닫는 태그 생략 주의 ID가 중복되지 않게 주의 계층 구조 유지 동일한 의미의 태그 중첩 주의 속성과 값 태그는 기본적으로 기능 확장을 위한 속성과 값을 가진다. 아무개 HTML 기본 문서 구조 HTML의 기본적인 문서 구조는 다음과 같다. D..