Yandex는 10초마다 한 번만 사이트에 액세스하는 반면 아래와 같은 줄은 야후와 빙이 크롤링 작업 후 10초 동안 대기하도록 지시합니다. 의미론적 차이이지만 여전히 흥미롭습니다. 다음은 크롤링 지연 의 예입니다: 이 구문은 url 문자열이 포함된 페이지를 크롤링하지 않도록 Google크러(사용자 에이전트 이름 Googlebot)만 www.example.com/example-subfolder/ 알려줍니다. 예를 들어 프린터 친화적인 버전의 페이지가 있는 경우 기술적으로 중복된 콘텐츠가 있는 경우 이 경우 봇에게 이러한 버전 중 하나(일반적으로 프린터 친화적인 버전) 중 하나를 크롤링하지 않도록 지시할 수 있습니다. 아래 예제에서는 한 문자만 적으면 모든 검색 엔진이 전체 사이트를 크롤링할 수 있습니다. 예를 들어 이 사이트의 robots.txt 파일(neilpatel.com)을 방문하면 로그인 페이지(wp-admin)가 허용하지 않는 것을 볼 수 있습니다. 일반적으로 robots.txt 파일 의 맨 아래에 이 도메인과 연결된 사이트맵의 위치를 나타내는 것이 좋습니다. 다음은 간단한 오류 또는 오타(예: «사용자 에이전트» 대신 «사용자 에이전트»)로 요소 처리가 지원되지 않습니다. 예를 들어, 디즈니는 robots.txt 파일이 없는 것 같습니다: 유효한 줄만 고려됩니다.

다른 모든 콘텐츠는 무시됩니다. 예를 들어 결과 문서가 HTML 페이지인 경우 유효한 텍스트 줄만 고려되고 나머지는 경고나 오류 없이 삭제됩니다. 라이브 파일은 항상 URL의 «.com/» 바로 바로 후에 제공됩니다. 예를 들어, 당사는 https://webris.org/robot.txt 있습니다. 아래 예제는 Google이 사이트에서 사진 디렉토리를 크롤링하는 것을 차단하고 모든 것을 검색합니다. robots.txt 파일은 호스트의 최상위 디렉터리에 있어야 하며 적절한 프로토콜 및 포트 번호에도 액세스할 수 있어야 합니다. robots.txt에 대해 일반적으로 허용되는 프로토콜은 모두 URI 기반이며 Google 검색의 경우 특히 (예 : 웹 사이트 크롤링)은 «http»와 «https»입니다. http 및 https에서 robots.txt 파일은 HTTP 비조건적인 GET 요청을 사용하여 가져옵니다. robots.txt 파일은 항상 도메인의 루트에 있어야 합니다.

따라서 도메인이 www.example.com 경우 https://www.example.com/robots.txt 찾아야 합니다. 특정 로봇에 대해 말하고 싶다면 (이 예제 Googlebot에서) 다음과 같이 보일 것입니다… 간단한 robot.txt 파일을 설정 하는 방법을 보여 줄 거 야, 그리고 우리는 SEO에 대 한 그것을 사용자 지정 하는 방법에 살펴보겠습니다. 로봇이 웹 사이트 URL을 vists하고 싶어, http://www.example.com/welcome.html 말 : 그것은 이것을 좋아한다. 그렇게하기 전에, 그것은 먼저 http://www.example.com/robots.txt 대한 검사, 발견하고 발견 : 여기에 www.example.com 사이트에 대한 행동에 robots.txt의 몇 가지 예입니다 : robots.txt 파일은 사이트의 루트에 살고. 따라서 사이트 www.example.com 경우 robots.txt 파일은 www.example.com/robots.txt.