Google関連サイトでなくても、Search Consoleでサイト管理する運営者が殆どだと思いますので、今日、筆者が遭遇したこの問題を既に知っている人も多いでしょう。筆者も自分なりに調べて、自分なりに理解したいと思っているので、コンテンツに残したいと考えました。

  状況として、当ブログの再スタートはほんの3ケ月前の事でした。これまでに22ページのコンテンツを作成し、検索エンジンに登録してからクローラの巡回は今回で4回目か、5回目と推測します。コンテンツページは思い当たる事があるたびに修正し続けています。その流れで、この有効(警告あり)ページを見たのは昨日が初めてでした。何故今頃になって、どんな規則性があるのかは、見当もつきません。

  表示された内容は参考までに箇条書きします。
●場所:Search Consoleのインデックス → 対象範囲 → 上部左から2番目のボックス
●表示:有効(警告あり) → 8ページ(ページ数はサイトによって異なるでしょう)

  表示部分をクリックすると上記画像になります。
●警告文:robots.txt によりブロックされましたが、インデックスに登録しました
(筆者はまだrobots.txtを弄ってないので、Bloggerのデフォルトでブロックされたのに、何故かインデックスに登録されてしまい、この時点では全く訳が分かりません。)

  画面下の詳細をクリックすると8ページ分のURLが表示されるので、確認ができます。筆者は全URLを開いて確認しましたが、後に自分を笑う事になりました。慣れている人ならきっとURLの後半だけでどんなページかを判断できると思います。

  ・・・・・・/search/label/seo?max-results=10

  殆ど似たようなURLなので他は省略しますが、/search/label・・・・・・に続けば、全部ラベルページですね。/searchまでのURLもありましたが、これはアーカイブページみたいです。

ラベルページが何故インデックスされたでしょうか?

  上記のように、筆者は現時点までrobots.txtを弄った事がありません。専門知識がなかった一般ユーザーとして、そこまでの発想もありませんでした。しかし、警告文には「robots.txtよりブロックされましたが・・・・・・」とあります。つまりBloggerのデフォルト設定でラベルページはインデックスされないようにしてあります。

  なのに、何故インデックスして欲しいコンテンツページはあまりインデックスしないのに、ブロックしたラベルページやアーカイブページはインデックスされてしまうのでしょうか。この答えは Google Search Console のヘルプで robots.txt についての記述で答えを見つける事が出来ます。

  通常、検索エンジンのロボットはrobots.txtに従って巡回しますが、robots.txtでブロックしたページのURLが他の場所でリンクされている場合は、それを検出してインデックスする可能性があるとSearch Consoleに書いてあります。つまり、クローラにとってrobots.txtのブロック命令は、リンクや被リンクでの検出&インデックスより下位にあります。ラベルページやアーカイブページはいわば内部リンクの集合体であり、それぞれのコンテンツページからリンクを貼られていますので、ブロックしていても検出され、インデックスされます。

  筆者がクローラに対してなんで?と思いましたが、クローラに命令を与えていたGoogleの意図を知らなかっただけでした。まぁ、これは普通知り得ないでしょう、あんなに細かく、日本語では難読なヘルプフォーラムなど、エンジニアでもないのに好んで読む事は、普通にありませんから。

ラベルページのインデックスはSEOに有利?不利?

  以前何処かで、ラベルページやアーカイブページはインデックスされても、SEO対策にとって意味のないページなので、robots.txtで巡回しないよう設定する方が良いと言うものを見た事がありました。折角インデックスされたのに、何故意味がないのでしょう。

  Bloggerでは2重検索を防ぐ意味から /search が付いているURLは全てブロックしているのが、デフォルト状態です。つまりアーカイブページもラベルページもクローラの巡回を禁止しています。

  検索結果のページにインデックスされたのがアーカイブページですと、重複と見なされ、SEOに不利です。しかし、ラベルページをインデックスされる事は、場合によって、ユーザーにとって好ましい事である可能性もあります。カテゴリーの中から目的を見つけられるので、ユーザーにとって必要な情報に最短距離で辿り着く方法です。この場合はSEOに有利と言う事になります。

有効(警告あり)ページは致命的エラーでしょうか?

  日本語での「警告」はかなり重みのある言葉ですが、安心して下さい、エラーではありません。

  有効と書いてある通り、有効ページなのです。ただ、インデックスされているが、robots.txtではブロックされていて、矛盾があるよと知らせる事がこの「警告」です。そしてその矛盾はサイト運営者によるものではなく、Googleのブログサービスが禁止したページをGoogleのクローラがアルゴリズムによってリンクに辿りつき、インデックスした事によって生じた矛盾です。そのまま何もせずにほったらかしでも、サイトの評価に影響を及ぼす事はありません。

  とは言え、警告と表示された以上、気になります。できれば警告を解消したいと思うのが人情です。しかし、対処方法を調べて見ましたが、これはまた何というか・・・・・・一般的にWEB知識を勉強していない人は、知り得る筈もない事であり、WEBも全ての人に対して平等ではないと言う事を、知りました。

  仕方がありませんので、少しずつ勉強して行きましょう。

有効(警告あり)ページの警告を解消する方法

  有効(警告あり)ページの警告を解消するには、それぞれのサイト運営上の考え方に基づいて、インデックスさせない、若しくはインデックスを許可する、この何れかを選択します。

  ラベルページやアーカイブページをインデックスさせない為には、robots.txtより上位のメタタグでnoidexを設定する必要があります。メタタグは<head>~</head>タグの中に記述します。

  アーカイブページをインデックスさせないメタタグ:
<b:if cond='data:view.isArchive'><meta content='noindex' name='robots'/></b:if>

  ラベルページをインデックスさせないメタタグ:
<b:if cond='data:view.isLabelSearch'><meta content='noindex' name='robots'/></b:if>

  逆にラベルページをインデックスさせたい場合は、robots.txtを変更する必要があります。Bloggerの場合は管理画面のメニューから「設定 → 検索設定 → 独自のrobots.txt → 編集 → はい」を順にクリックして行くと、下記画面が現れます。


  robots.txtに記入するのは下記テキストです、コピーして使いましょう。
User-agent:*
Allow: /search/label/
Disallow: /*archive
Sitemap: http://example.blogspot.com/feeds/posts/default?orderby=UPDATED
  上から順番に意味を説明しますと、
● User-agentはクローラを指定しますが、*は全てのクローラを意味します
● ラベルページのインデックスを許可する
● アーカイブページのインデックスを禁止する(SEOに不利)
● サイトマップの反転部分は自分のブログのトップぺージのURLに置き換える

  筆者の場合、6日ほどかかりましたが、改善した結果、有効(警告あり)ページは解消されました。


  次の気になる問題は、上記画像の右側にある除外ページです。普通に作成したコンテンツで何故除外なのか、理由を調べて行きたいと思います。