inali☆enably

おそらくたまにしか書かないはてなブログ

記事を書き始めるまでにやること

Google Analytics で自分のIPを除外しておく 

はてなブログのダッシュボードから、[設定]→[詳細設定]を開き、AmazonアソシエイトID や Google Analytics のプロパティ ID、Google ウェブマスター ツールの content 属性の値、Bing ウェブマスターツールの認証コード、meta description、meta keywords、Google+プロフィールなどの記入などがすべて終わったら、記事を書き始めるまでに、Google Analytics のアカウント リストから該当するはてなブログを選び、フィルタの編集をおこなっておきます。

 

自分の IPアドレスからのトラフィックをカウントしないように設定しておかないと、自分のアクセスも全部カウントしてしまうことになります。

f:id:tachib:20130725195935p:plain

f:id:tachib:20130726222215j:plain

Google ウェブマスター ツールで robots.txt ファイル のテストをする

ウェブマスター ツール→[クロール]→[ブロックされた URL]

http://inali-enably.hateblo.jp/robots.txt という robots.txt ファイル が正しく動作することを確認します。

このブログの場合だと、

http://inali-enably.hateblo.jp/robots.txt のコンテンツ - 編集して変更をテスト』

と表示されている下の入力欄に、コンテンツをクロールする方法を指定したものを記入することで、robots.txt のテストがおこなえます。

User-agent: *

Sitemap: http://inali-enably.hateblo.jp/sitemap_index.xml

と入れその下にある

『URL テストする URL とユーザーエージェントを指定してください。』

と表示されている下の入力欄に

http://inali-enably.hateblo.jp/

と入れて、[テスト]のボタンをクリックします。

 

テスト結果と robots.txt による分析の値と結果が表示され、「有効なサイトマップが検出されました」と出ていたらOKです。

ちなみに、

User-agent: *

Sitemap: http://inali-enably.hateblo.jp/sitemap_index.xml

 でも

User-agent: *

Sitemap: http://inali-enably.hateblo.jp/sitemap.xml

 でも、「ステータス 200 (成功)」となり、「有効なサイトマップが検出されました」と表示されます。

 

参考:robots.txt 

海外SEO情報ブログ

robots.txtの書き方(保存版)

http://www.suzukikenichi.com/blog/how-to-create-robotstxt/

 

データサイエンティストのタコ部屋

大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴

http://www.geek.sc/archives/869

はてなブックマークrobots.txt

User-agent: Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)

Crawl-Delay: 3

Disallow: /search

Allow: /search/tag

Allow: /search/text

Sitemap: http://b.hatena.ne.jp/sitemaps.xml

 

Yeti(NHNの検索エンジン)だけ特別扱いにして、Crawl-Delayで時間間隔を調整させていることがわかります。また、全ての検索エンジンで /search 以下のディレクトリがクロール対象外に指定されています。おそらく、 /search の後に色々なワードを打ち込むと何でもヒットしてしまうため、検索エンジンが無限に巡回して、はてなブックマークのサーバーに負荷を与えることを防ぐためでしょう。

 

 NHNの検索エンジンは行儀が悪いのだな〜と。