블로그 Robots.txt 설정하기

블로그를 처음 시작하고 가장 먼저 관심이 가는 것은 "내 블로그 글이 검색엔진에 노출이 되었는가?" 일지도 모르겠네요.

제 처음 블로그는 티스토리로 시작했었는데 개인적인 이유로 최근에 구글 블로거로 이사를 했습니다.

티스토리에서는 검색엔진 노출에 관련된 설정들을 그닥 건드리지 않았던 것 같은데, 이사 오고 나서 이상하게 포스팅된 글들이 인덱싱이 되지 않는 것 같아 여러가지로 알아보았습니다.

이번에는 그에 관련하여 robots.txt 를 설정하는 법을 간단히 알아보도록 하겠습니다.


1. robots.txt 란?

robots.txt 파일은 사이트의 어느부분을 검색 엔진의 크롤러가 엑세스할 수 있는지를 크롤러에게 알려주는 역할을 합니다. 이 파일이 사용되는 주된 목적은 크롤러가 크롤링을 원할하게 하기 위함입니다.


2. robots.txt 만들기

예시와 함께 살펴보도록 하겠습니다.


User-agent: *

Disallow: /search

Allow: /

Sitemap: https://wormkoo.blogspot.com/sitemap.xml


현재 제 블로그에 사용된 robots.txt 파일입니다. (https://wormkoo.blogspot.com/robots.txt)


User-agent에는 크롤러의 이름을 넣어주면 됩니다만, 저는 모든 크롤러들을 지칭하기위해 * 를 사용하였습니다.


Disallow / Allow 섹션은 어느 서브 URL에 엑세스를 허용할지 하지 않을지를 설정합니다.

모든 크롤러들은 https://wormkoo.blogspot.com/search 로 시작되는 URL 에 엑세스가 허용되지 않습니다.


마지막으로 Sitemap 은 블로그의 사이트맵 파일의 URL이 들어갑니다.


3. 유용하게 쓰이는 옵션들

a.전체 사이트 엑세스 금지

User-agent: *

Disallow: /


b.특정 디렉토리 엑세스 금지

User-agent: *

Disallow: /data/

Disallow: /private/


** 이 방법으로 엑세스 금지를 하더라도 실제 페이지가 없어지는 것은 아니므로, 개인적이나 중요한 자료인 경우 적절한 보호조치를 해주시기 바랍니다 (eg. 페이지 엑세스 비밀번호)


c.특정 크롤러만 엑세스 허용 (Yeti는 네이버의 크롤러 입니다.)

User-agent: Yeti

Allow: /


User-agent: *

Disallow: /


d.특정 크롤러 엑세스 금지 (*Bingbot은 Bing의 크롤러 입니다.)

User-agent: Bingbot

Disallow: /


User-agent: *

Allow: /


e.특정 파일 확장자 엑세스 금지

User-agent: *

Disallow: /*.gif$


이 외에서 여러가지 설정을 할 수 있습니다, 검색하여 원하는 규칙을 설정해 주시면 되겠습니다 :)