robots.txt 란?
robots.txt란 크롤러가 사이트에 요청할 수 있는 페이지/파일과 요청할 수 없는 페이지/파일을 검색엔진 크롤러에게 알려주기 위한 파일이다. 사이트가 오버로드되는 것을 방지하여 자신의 사이트에게 배당된 크롤러 리소스를 효율적으로 사용함으로써 색인 생성 속도 등에 긍정적인 영향을 줄 수 있다. 그러나, 구글로부터 웹페이지를 숨기기 위한 메커니즘은 아니다. 구글로부터 웹페이지를 숨기려면 noindex 명령어를 사용하거나 비밀번호로 페이지를 사용자로부터 보호해야 한다.
seo(검색엔진최적화)를 위한 robots.txt 용도
- 해야 할 것
- 내 사이트 내의 검색결과 페이지와 같은 무한 공간을 크롤링하여 내게 배정된 리소스를 낭비하여 색인생성을 방해하지 않도록 robots.txt를 통해 제한한다
- 페이지의 광고 링크가 검색엔진의 순위에 영향을 미치지 않도록 robots.txt를 통해 크롤러가 광고링크를 추적하지 않도록 한다(또는 링크에 rel="nofollow" 또는 rel="sponsered" 속성을 통해 광고를 추적하지 않도록 한다)
- *.gif처럼 크롤링 리소스를 낭비하는 렌더링에 상관없는 파일은 robots.txt로 접근을 금지할 수 있다
- 하지 말 것
- css파일 또는 js파일에 대한 페이지 내의 리소스(에셋)에 대한 접근을 제한하지 않는다
- 개인 정보 등 중요한 정보는 robots.txt로는 안전한게 숨길 수 없다. 비밀번호나 다른 보안을 통해 접근을 제한 해야한다
seo(검색엔진최적화)를 위한 robots.txt 생성
티스토리는 robots.txt를 기본적으로 제공한다. (자기 티스토리 주소/robots.txt로 접근할 수 있다.)
만약 robots.txt가 없는 티스토리 스킨이라면, 티스토리 블로그 설정 -> 스킨 편집 -> html 편집 -> 파일 업로드에서 메모장 등으로 작성한 robots.txt를 업로드하면 된다.
각 크롤링 봇들은 robots.txt 의 자신에게 가장 가까운(또는 해당하는) 것을 따른다. 만약 자신에게 배정된 규칙이 없다면 최대한 자신에게 더 가까운 일반적인 그룹을 따른다.
robots.txt 문법을 다음 예시를 가지고 간단히 설명하겠다.
# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /
# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /
# Example 3: Block all but AdsBot crawlers
User-agent: *
Disallow: /
- User-agent 는 규칙이 적용되는 검색엔진 robot의 이름이다. 모든 규칙의 첫 행이되는 명령문이다. * 는 모든 로봇을 의미한다. 해당하는 로봇들의 이름은 구글 크롤러 또는 웹 로봇 데이터 베이스를 참조하면 된다.
- Disallow : 해당 주소 접근 제한
- Allow : 해당 주소 접근 허용
직접 robots.txt를 작성한다면,
- *(모든 로봇)에 대한 /search, /admin 처럼 크롤링 리소스를 낭비하거나 민감한 정보가 있는 사이트 내의 주소를 Disallow 하면 된다.
- 그외 주소(/)는 Allow해야한다.
- 구글 에드 센스(Mediapartners-Google)의 경우는 모든 주소(/)를 허용해야한다.
- 특정 확장자로 끝나는 파일(/*.gif)는 모든 크롤링 봇(*)에게 Disallow하므로 크롤링 리소스를 절약할 수 있다.
내 티스토리의 경우,
User-agent: *
Disallow: /owner
Disallow: /manage
Disallow: /admin
Disallow: /oldadmin
Disallow: /search
Disallow: /m/search
Disallow: /m/admin
Disallow: /like
Allow: /
User-agent: Mediapartners-Google
Allow: /
User-agent: bingbot
Crawl-delay: 30
로 쓰여있다.
구글에 robots.txt 제출
구글 서치 콘솔은 사이트의 루트 주소 / robots.txt 를 robots.txt의 위치로 규정하고 있다. 티스토리는 자신의 루트주소(기본 티스토리 주소) / robots.txt 에 기본적으로 robots.txt 파일이 있으므로 별도로 제출할 필요가 없다. 하지만 만약 다른 이유로 robots.txt를 수정하여 스킨편집을 통해 올렸다면 업데이트된 버전으로 제출할 필요가 있다.
robots.txt 테스터에서 제출할 수 있다.
네이버에 robots.txt 제출
네이버 웹마스터 도구는 사이트의 루트 주소 / robots.txt 를 robots.txt의 위치로 규정하고 있다. 따라서, 티스토리는 자신의 루트주소(기본 티스토리 주소) / robots.txt 에 기본적으로 robots.txt 파일이 있으므로 별도로 제출할 필요가 없다. 하지만 만약 다른 이유로 robots.txt를 수정하여 스킨편집을 통해 올렸고 업데이트된 버전을 검색로봇에게 빠르게 알려주고 싶다면 수집요청을 하면 된다.
보완점 및 주의사항
robots.txt는 권고 사항이다. 모든 검색엔진 로봇들이 robots.txt의 규칙들을 준수하는 것은 아니다. 민감한 개인정보 등은 비밀번호 등의 다른 보안 수단으로 접근을 제한해야 한다.
robots.txt로 사이트 순위에 영향을 주는 광고 링크 추적 금지를 할 수 있다고 기본 가이드라인에 나와 있다. 하지만, 그런 내용은 해외 커뮤니티를 봐도 관련자료가 보이지 않는다. 대신 meta tag의 content="index,nofollow"로 간단히 해결할 수 도 있지만, 이 경우에는 페이지 내부 링크로 인한 seo 가산점을 받지 못한다. 그러나 광고 통한 광고링크 사이트 순위 악영향은 구글 애드 센스를 쓴다면 문제가 되지 않는다.(Does Google Adsence affecting Pagerank?)
또 댓글 링크 스팸 등에 대한 문제는 티스토리에서 해당 사용자를 차단하는 방법을 쓰거나 댓글을 관리자 허용으로 바꾸면 된다.
블로그 내부 링크를 제외하고는 모두 rel="nofollow" 속성을 추가하면 크롤링 리소스를 절약하는 데 도움이 된다.
페이지 랭크 요약
외부 링크를 걸 때는 rel="nofollow" 속성을 추가하여 크롤링 리소스를 아끼고,
내부 링크를 걸 때는 속성을 추가하지 않고 그대로 두어 페이지 랭크 가산점을 노린다.
광고로 인한 페이지 랭크 악영향은 구글 애드센스를 사용하는 블로그의 경우 해당하지 않는다.
meta tag의 content="index,nofollow" 는 페이지 랭크에 악영향을 줄 수 있으니 쓰지 않는 것이 좋다.
다음 포스팅은 수익형 블로그 주제 개수에 대해 다루어 보도록 하겠다.(부제: 잡블로그 vs. 단일 블로그)
'부업' 카테고리의 다른 글
수익형 블로그 만들기 9 - 이미지 최적화 (0) | 2021.02.16 |
---|---|
수익형 블로그 만들기 8 - 주제 개수와 seo, 광고 수익 (0) | 2021.02.15 |
수익형 블로그 만들기 6 - RSS 등록(RSS vs. Sitemap) (0) | 2021.02.14 |
수익형 블로그 만들기 5 - 구글 웹마스터 가이드라인 정리 (0) | 2021.02.14 |
수익형 블로그 만들기 4 - seo 전략 개요 (0) | 2021.02.13 |
댓글