Scrapy 셸의 가져오기 명령을 사용하여 웹 페이지에서 크롤러를 실행해야 합니다. 크롤러 또는 스파이더는 텍스트와 메타데이터를 다운로드하는 웹 페이지를 통과합니다. 여기에서 이 크롤러는 amazon.in 페이지에서 제품 페이지의 모든 제품 제목과 각 링크를 수집합니다. 사용자는 크롤링할 데이터 또는 링크의 종류를 지정하기만 하면 됩니다. 웹 크롤러의 주요 사용은 검색 엔진에 있지만,이 방법은 또한 몇 가지 유용한 정보를 수집하는 데 사용할 수 있습니다. 여기에서 페이지의 모든 HTML은 일반 텍스트 형태로 요청을 사용하여 가져옵니다. 그런 다음 아름다운로 변환수프 개체입니다. 해당 개체에서 클래스 s-access-detail-page를 가진 모든 제목과 href에 액세스됩니다. 이것이 바로 이 기본 웹 크롤러의 작동 방식입니다.

지금까지, 너무 좋은; 지금까지 만든 크롤러를 테스트해 보겠습니다. 프로젝트 디렉토리및 입력에서 터미널로 이동: RoboBrowser는 버튼 클릭 및 양식 작성을 포함한 기본 기능을 갖춘 Python 2 또는 3의 또 다른 간단한 라이브러리입니다. 그것은 잠시 동안 업데이트 되지 않았습니다, 그것은 여전히 합리적인 선택. 다음은 파이썬 관련 강조 표시를 사용하여이 자습서에 대한 완성 된 코드입니다 : 웹 크롤러는 유용한 정보를 추출하기 위해 체계적으로 월드 와이드 웹을 탐색하는 인터넷 봇입니다. 또한, 파이썬 코스와 데이터 캠프의 웹 스크래핑을 확인하는 것을 잊지 마세요. 참고: 스크랩 셸 섹션에서 설명한 대로 response.css()를 사용 하지만 자식 요소에 액세스할 수 있는 XPath(XML)를 사용 하 여 css 선택기를 통해 데이터를 추출할 수 있습니다. pass() 함수에서 편집된 코드에서 response.xpath()의 예제를 볼 수 있습니다. 실제 예제는 readme에 설명하고 그에 따라 꽤 멋진 서비스와 함께 플레이 고려! 놀라운 속도 긁어 쇼와 또한 우리가 scrapyhub에 배포 할 수 있습니다 기억.

우리는 몇 시간에 실행 간단한 크롤링을 수행하려고하는 경우 우리는 기본 도구로 가야하지만 경우에 우리는 우리의 거미를 확장하려고하거나 우리는 우리의 거미가 처음부터 성능최적화 될 수 있도록하려면 우리는 사용 가능한 거미 프레임 워크 중 하나를 선택해야합니다. 또는 파이썬 패키지 설치 관리자 핍을 사용할 수 있습니다.