記事を書き始めるまでにやること
Google Analytics で自分のIPを除外しておく
はてなブログのダッシュボードから、[設定]→[詳細設定]を開き、AmazonアソシエイトID や Google Analytics のプロパティ ID、Google ウェブマスター ツールの content 属性の値、Bing ウェブマスターツールの認証コード、meta description、meta keywords、Google+プロフィールなどの記入などがすべて終わったら、記事を書き始めるまでに、Google Analytics のアカウント リストから該当するはてなブログを選び、フィルタの編集をおこなっておきます。
自分の IPアドレスからのトラフィックをカウントしないように設定しておかないと、自分のアクセスも全部カウントしてしまうことになります。
Google ウェブマスター ツールで robots.txt ファイル のテストをする
ウェブマスター ツール→[クロール]→[ブロックされた URL]
http://inali-enably.hateblo.jp/robots.txt という robots.txt ファイル が正しく動作することを確認します。
このブログの場合だと、
『http://inali-enably.hateblo.jp/robots.txt のコンテンツ - 編集して変更をテスト』
と表示されている下の入力欄に、コンテンツをクロールする方法を指定したものを記入することで、robots.txt のテストがおこなえます。
User-agent: *
と入れその下にある
『URL テストする URL とユーザーエージェントを指定してください。』
と表示されている下の入力欄に
と入れて、[テスト]のボタンをクリックします。
テスト結果と robots.txt による分析の値と結果が表示され、「有効なサイトマップが検出されました」と出ていたらOKです。
ちなみに、
User-agent: *
でも
User-agent: *
でも、「ステータス 200 (成功)」となり、「有効なサイトマップが検出されました」と表示されます。
参考:robots.txt
海外SEO情報ブログ
robots.txtの書き方(保存版)
データサイエンティストのタコ部屋
大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴
User-agent: Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)
Crawl-Delay: 3
Disallow: /search
Allow: /search/tag
Allow: /search/text
Sitemap: http://b.hatena.ne.jp/sitemaps.xml
Yeti(NHNの検索エンジン)だけ特別扱いにして、Crawl-Delayで時間間隔を調整させていることがわかります。また、全ての検索エンジンで /search 以下のディレクトリがクロール対象外に指定されています。おそらく、 /search の後に色々なワードを打ち込むと何でもヒットしてしまうため、検索エンジンが無限に巡回して、はてなブックマークのサーバーに負荷を与えることを防ぐためでしょう。
NHNの検索エンジンは行儀が悪いのだな〜と。