본문 바로가기
부업

수익형 블로그 만들기 7 - 구글 robots.txt 정리, 페이지 랭크, 백링크

by amkorousagi 2021. 2. 14.

robots.txt 란?

 robots.txt란 크롤러가 사이트에 요청할 수 있는 페이지/파일과 요청할 수 없는 페이지/파일을 검색엔진 크롤러에게 알려주기 위한 파일이다. 사이트가 오버로드되는 것을 방지하여 자신의 사이트에게 배당된 크롤러 리소스를 효율적으로 사용함으로써 색인 생성 속도 등에 긍정적인 영향을 줄 수 있다. 그러나, 구글로부터 웹페이지를 숨기기 위한 메커니즘은 아니다. 구글로부터 웹페이지를 숨기려면 noindex 명령어를 사용하거나 비밀번호로 페이지를 사용자로부터 보호해야 한다.

 

robots.txt 소개 및 가이드 | Google 검색 센터  |  Google Developers

robots.txt는 크롤러 트래픽을 관리하는 데 사용됩니다. robots.txt 소개 가이드에서 robots.txt 파일의 정의와 사용 방법을 알아보세요.

developers.google.com

 

로봇 메타 태그, data-nosnippet 및 X-Robots-Tag 사양  |  Google 검색 센터

개요 이 문서에서는 페이지 및 텍스트 수준 설정을 사용하여 Google 검색결과에 나오는 콘텐츠를 어떻게 제어할 수 있는지 설명합니다. 사용자는 HTML 페이지나 HTTP 헤더에 메타 태그를 삽입하여

developers.google.com

 

백링크, 페이지랭크, robots.txt
robots.txt

seo(검색엔진최적화)를 위한 robots.txt 용도

  • 해야 할 것
    • 내 사이트 내의 검색결과 페이지와 같은 무한 공간을 크롤링하여 내게 배정된 리소스를 낭비하여 색인생성을 방해하지 않도록 robots.txt를 통해 제한한다
    • 페이지의 광고 링크가 검색엔진의 순위에 영향을 미치지 않도록 robots.txt를 통해 크롤러가 광고링크를 추적하지 않도록 한다(또는 링크에 rel="nofollow" 또는 rel="sponsered" 속성을 통해 광고를 추적하지 않도록 한다)
    • *.gif처럼 크롤링 리소스를 낭비하는 렌더링에 상관없는 파일은 robots.txt로 접근을 금지할 수 있다
  • 하지 말 것
    • css파일 또는 js파일에 대한 페이지 내의 리소스(에셋)에 대한 접근을 제한하지 않는다
    • 개인 정보 등 중요한 정보는 robots.txt로는 안전한게 숨길 수 없다. 비밀번호나 다른 보안을 통해 접근을 제한 해야한다

seo(검색엔진최적화)를 위한 robots.txt 생성

 티스토리는 robots.txt를 기본적으로 제공한다. (자기 티스토리 주소/robots.txt로 접근할 수 있다.)

백링크, 페이지랭크, robots.txt
티스토리 robots.txt

 

만약 robots.txt가 없는 티스토리 스킨이라면, 티스토리 블로그 설정 -> 스킨 편집 -> html 편집 -> 파일 업로드에서 메모장 등으로 작성한 robots.txt를 업로드하면 된다.

백링크, 페이지랭크, robots.txt
robots.txt 업로드

 

 각 크롤링 봇들은 robots.txt 의 자신에게 가장 가까운(또는 해당하는) 것을 따른다. 만약 자신에게 배정된 규칙이 없다면 최대한 자신에게 더 가까운 일반적인 그룹을 따른다.

 

 robots.txt 문법을 다음 예시를 가지고 간단히 설명하겠다.

 

robots.txt 파일 만들기  |  Google 검색 센터  |  Google Developers

Wix나 Blogger 등의 사이트 호스팅 서비스를 사용하는 경우 robots.txt 파일을 작성하거나 편집하지 않아도 될 수 있습니다. 시작하기 robots.txt 파일은 사이트의 루트에 위치합니다. 예를 들어, www.exampl

developers.google.com

# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all but AdsBot crawlers
User-agent: *
Disallow: /
  • User-agent 는 규칙이 적용되는 검색엔진 robot의 이름이다. 모든 규칙의 첫 행이되는 명령문이다. * 는 모든 로봇을 의미한다. 해당하는 로봇들의 이름은 구글 크롤러 또는 웹 로봇 데이터 베이스를 참조하면 된다.
  • Disallow : 해당 주소 접근 제한
  • Allow : 해당 주소 접근 허용
 

The Web Robots Pages

 

www.robotstxt.org

 

Google 크롤러(사용자 에이전트) 개요  |  Google 검색 센터  |  Google Developers

'크롤러'는 로봇 또는 스파이더와 같이 웹페이지 간 링크를 따라가며 웹사이트를 자동으로 발견하고 검색하는 데 사용되는 프로그램을 가리키는 일반적인 용어입니다. Google의 기본 크롤러를 Goo

developers.google.com

 직접 robots.txt를 작성한다면,

  • *(모든 로봇)에 대한 /search, /admin 처럼 크롤링 리소스를 낭비하거나 민감한 정보가 있는 사이트 내의 주소를 Disallow 하면 된다.
  • 그외 주소(/)는 Allow해야한다.
  • 구글 에드 센스(Mediapartners-Google)의 경우는 모든 주소(/)를 허용해야한다.
  • 특정 확장자로 끝나는 파일(/*.gif)는 모든 크롤링 봇(*)에게 Disallow하므로 크롤링 리소스를 절약할 수 있다.

 내 티스토리의 경우,

User-agent: *
Disallow: /owner
Disallow: /manage
Disallow: /admin
Disallow: /oldadmin
Disallow: /search
Disallow: /m/search
Disallow: /m/admin
Disallow: /like
Allow: /

User-agent: Mediapartners-Google
Allow: /

User-agent: bingbot
Crawl-delay: 30

로 쓰여있다.

 

구글에 robots.txt 제출

 구글 서치 콘솔은 사이트의 루트 주소 / robots.txt 를 robots.txt의 위치로 규정하고 있다. 티스토리는 자신의 루트주소(기본 티스토리 주소) / robots.txt 에 기본적으로 robots.txt 파일이 있으므로 별도로 제출할 필요가 없다. 하지만 만약 다른 이유로 robots.txt를 수정하여 스킨편집을 통해 올렸다면 업데이트된 버전으로 제출할 필요가 있다.

 

Google Search Console

Search Console 도구와 보고서를 사용하면 사이트의 검색 트래픽 및 실적을 측정하고, 문제를 해결하며, Google 검색결과에서 사이트가 돋보이게 할 수 있습니다.

search.google.com

 robots.txt 테스터에서 제출할 수 있다.

 

Google Search Console

하나의 계정으로 모든 Google 서비스를 로그인하여 Google Search Console로 이동

accounts.google.com

백링크, 페이지랭크, robots.txt
구글 robots.txt 제출

 

네이버에 robots.txt 제출

 네이버 웹마스터 도구는 사이트의 루트 주소 / robots.txt 를 robots.txt의 위치로 규정하고 있다. 따라서, 티스토리는 자신의 루트주소(기본 티스토리 주소) / robots.txt 에 기본적으로 robots.txt 파일이 있으므로 별도로 제출할 필요가 없다. 하지만 만약 다른 이유로 robots.txt를 수정하여 스킨편집을 통해 올렸고 업데이트된 버전을 검색로봇에게 빠르게 알려주고 싶다면 수집요청을 하면 된다.

 

[네이버: 로그인]

안전한 로그인을 위해 주소창의 URL과 자물쇠 마크를 확인하세요!

nid.naver.com

백링크, 페이지랭크, robots.txt
네이버 robots.txt 제출

 

 

보완점 및 주의사항

 robots.txt는 권고 사항이다. 모든 검색엔진 로봇들이 robots.txt의 규칙들을 준수하는 것은 아니다. 민감한 개인정보 등은 비밀번호 등의 다른 보안 수단으로 접근을 제한해야 한다.

 

 robots.txt로 사이트 순위에 영향을 주는 광고 링크 추적 금지를 할 수 있다고 기본 가이드라인에 나와 있다. 하지만, 그런 내용은 해외 커뮤니티를 봐도 관련자료가 보이지 않는다. 대신 meta tag의 content="index,nofollow"로 간단히 해결할 수 도 있지만, 이 경우에는 페이지 내부 링크로 인한 seo 가산점을 받지 못한다. 그러나 광고 통한 광고링크 사이트 순위 악영향은 구글 애드 센스를 쓴다면 문제가 되지 않는다.(Does Google Adsence affecting Pagerank?)

 

Does Google adsense affect page ranking?

does placing google ads in out web page help in SEO page rank?

webmasters.stackexchange.com

 

 또 댓글 링크 스팸 등에 대한 문제는 티스토리에서 해당 사용자를 차단하는 방법을 쓰거나 댓글을 관리자 허용으로 바꾸면 된다.

 

 블로그 내부 링크를 제외하고는 모두 rel="nofollow" 속성을 추가하면 크롤링 리소스를 절약하는 데 도움이 된다.

 

페이지 랭크 요약

외부 링크를 걸 때는 rel="nofollow" 속성을 추가하여 크롤링 리소스를 아끼고,
내부 링크를 걸 때는 속성을 추가하지 않고 그대로 두어 페이지 랭크 가산점을 노린다.

광고로 인한 페이지 랭크 악영향은 구글 애드센스를 사용하는 블로그의 경우 해당하지 않는다.
meta tag의 content="index,nofollow" 는 페이지 랭크에 악영향을 줄 수 있으니 쓰지 않는 것이 좋다.

 

 다음 포스팅은 수익형 블로그 주제 개수에 대해 다루어 보도록 하겠다.(부제: 잡블로그 vs. 단일 블로그)

 

수익형 블로그 만들기 8 - 주제 개수와 seo, 광고 수익

 잡블로그 vs. 단일 블로그  seo와 광고 수익에 차이가 있을까? 블로그의 주제 개수가 영향을 끼칠까?  이를 알아보기 위해 구글 애드센스의 광고 타겟팅 방법과 seo의 PageRank 시스템에 대해 구글

amkorousagi-money.tistory.com

 

댓글