크롤링이란?

크롤링은?

웹 페이지를 꺼내서 거기에서 데이터를 추출하는 행위입니다. 크롤라 소프트웨어는 크롤라라고 불린다.

웹상의 다양한 정보를 자동으로 검색하고 색인화하기 위해 사용되는 검색 엔진에도 비슷한 것이 필수적이다. 거미, 봇, 정보요원으로도 알려져 있다. 사람들은 사이트에서 일일이 정보를 검색하는 대신 미리 입력된 컴퓨터 프로그램 방식에 따라 새로운 웹페이지를 끊임없이 찾아 합성하고 그 결과를 이용해 새로운 정보를 찾아 색인을 붙인다. 방대한 데이터를 검색하는 특성도 있지만 로봇의 검색 기능을 이용해 순위를 조작하거나 검색을 피하는 단점도 있다. 네이버와 구글도 이런 봇을 활용해 운영하고 있다.

 

관련 소프트웨어
파이슨이 이 분야의 리더인 만큼 컴퓨터 프로그래밍, 인문학, 통계학에 익숙하지 않은 비프로그래머들이 사용하기 쉽도록 도서관이 급속히 진화하고 있다. 파이썬 도서관의 예는 아름다운 수프와 세렌이다. Serenium과 Beautiful Soup의 차이점은 Java스크립트를 사용하는 동적 Web페이지는 Serenium을 사용하고 정적 Web페이지는 링크로 개설된 Beautiful Soup를 사용한다는 것입니다. 다만, 세렌을 사용하려면 브라우저 버전에 적합한 Web 드라이버를 설치해야 합니다. 또한 헤드리스 옥션은 GUI의 GUI 화면을 표시하지 않고 배경에 있는 브라우저를 제어할 수 있습니다.셀레늄과 뷰티풀 수프의 사용 예시는 링크를 참조해 주세요.

자바에는 jsoup라고 하는 HTML 해석 라이브러리도 있습니다. Python 의 아름다운 수프 등, 특정 조건의 태그를 선택하거나 GETPOST 요구를 송신하고 응답을 얻을 수 있다.

전문적인 크롤 소프트웨어는 아니지만 일반인이 이용할 수 있는 툴에는 httrack과 wget-curl이 있다. 인터넷이 느린 2000년대 초 웹 짚이 인기를 끌었다.

SaaS (Software as a service)
소프트웨어가 아니고 웹 서비스 형태로 동작하는 크롤링 SaaS 서비스도 있습니다.
국내는 해시크래퍼와 크롤이 대표적이고 해외는 스크레이핑허브가 대표적이다.

'IT개발' 카테고리의 다른 글

MSA 아키텍처란?  (0) 2021.08.10
랜덤포레스트란?  (0) 2021.08.08
빅데이트 프로세싱이란?  (0) 2021.08.07
TensorFlow란?  (0) 2021.08.06
강인공지능이란?  (0) 2021.08.06

댓글

Designed by JB FACTORY