まぐまぐで発行中!なるほど!よくわかる!ホームページ運営
━━━━━━━━━━━━━━━━━━━━━━vol.16━ 2006.09.28 ━
なるほど!よくわかる!ホームページ運営!
━━━━━━━━━━━━━━━━━━━━━━━━━━発行部数100部━
■ カレンダー・暦 イベント
■ Googleに載せたくない情報を操作しよう! - robots.txtの書き方
■ 編集後記
◆━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━◆
カレンダー・暦 イベント 2006.10.02 〜 10.23
◆───────────────────────────────◆
・体育の日 10月9日
・えびす講 10月20日
・誓文払い 10月20日
※2006.09.18 〜 10.20 の「カレンダー・暦 イベント」は
バックナンバーに載っています。
ご参考まで
▼なるほど!よくわかる!ホームページ運営 第14号
http://blog.mag2.com/m/log/0000199475/107700113.html
▼なるほど!よくわかる!ホームページ運営 第15号
http://blog.mag2.com/m/log/0000199475/107725254.html
◆━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━◆
Google ウェブマスターツール で robots.txt のテストが出来る!
◆───────────────────────────────◆
以前、このメルマガで「Googleにサイト情報を申請する」方法を
取り上げました。
▼ なるほど!よくわかる!ホームページ運営 第13号
http://blog.mag2.com/m/log/0000199475/107669667.html
実はこの「ウェブマスターツール」でGoogleに
「ここから先は見ないで〜〜っ!」という規制を入れる
robots.txt というファイルのテストが出来ます。
■ robots.txt とは
■■━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
robots.txt とは Googleをはじめとする検索エンジンのサイトを回ってくる
ロボット(コンピュータ)に対して
「ここはOK」「ここはNG」という規制をかけてあげるものです。
ただ、Google、gooなどはこの robots.txt に従うようですが、絶対的な
ものではなく「自主規制」的なものなので「絶対見られない」というもの
ではないことを理解してください。
■ 早速 robots.txt を書いてみましょう!
■■━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
------------------------------------------------------------------
■ robots.txt の配置場所
------------------------------------------------------------------
robots.txt は ホームページのトップページ(index.htmlなど)
と同じ階層にアップロードして使用します。
------------------------------------------------------------------
■ robots.txt の記述
------------------------------------------------------------------
今回は Google ウェブマスターツール を使用して書いていきましょう。
▼ Google ウェブマスターツール(日本語)
https://www.google.com/webmasters/sitemaps/siteoverview?hl=ja
上記URLを開いていただくとログイン画面が現れます。
このとき、「ウェブマスターツールに入ってしまった!」という方は
それで結構です。
GoogleにログインされたままになっていたということですのでOKです。
アカウントを持っている方はそのままログイン処理を行ってください。
持っていない方はバックナンバーにアカウント作成について書いております
ので参考にして、まずアカウント作成をお願いします。
▼ なるほど!よくわかる!ホームページ運営 第12号
http://blog.mag2.com/m/log/0000199475/107647908.html
●ログインできましたら・・・
サイトの一覧が出てきます。
ここで登録を行っていないかたは
下記バックナンバーを参考に「サイトの登録」を行ってください。
▼ なるほど!よくわかる!ホームページ運営 第13号
http://blog.mag2.com/m/log/0000199475/107669667.html
●サイトを選びます!
登録されているサイトから今回 robots.txt を記述したいサイトを
選びます。
サイトを選ぶと「概要」という画面が表示されます。
●左側のサイドメニューから「robots.txt解析」をクリックします!
「キャッシュに保存された robots.txtの分析」という画面が表示されます
ここで robots.txt をすでにアップロードされている方は
その内容が表示されていると思います。
まだの方は「ステータス」という箇所に赤い字で
「404 見つかりませんでした」
と表示されているはずです。
今回はまず、この画面中央にある小窓のような編集可能エリアにてテスト
をしながら記述したいと思います。
まず、サンプルから
------------------------------------------------------------------
■ robots.txt サンプル
------------------------------------------------------------------
−−−−−−−−−↓−−キリトリ−−↓−−−−−−−−−−−−−−
User-agent: *
Disallow: /images/
Disallow: /logs/
Disallow: /cgi-bin/
−−−−−−−−−↑−−キリトリ−−↑−−−−−−−−−−−−−−
「この robots.txt ファイルをテストして変更をチェック」の下に
記述されたファイルが存在すればその内容が表示されていますので
そこから変更します。
上記はあくまでもサンプルです。
この場合は
「User-agentがなにであろうが・・・」
・imagesフォルダの中は調べないでね
・dataフォルダの中も調べちゃダメよ
・もちろんlogsだって中身拾っていかないで!
・あ、わかってると思うけど cgi-bin フォルダはもってのほかだから
ということになります。
「 User-agent: * 」というのは
検索ロボットの種類を指定しています。
「 * 」というのは「すべて」ということです。
これは ディレクトリ(フォルダ)ごとでなくてもOKで
たとえば
Disallow: /secret.html
とか
Disallow: /data.txt
という指定もできます。
逆に
Disallow: /
としてしまうと そのサイト すべてが検索対象外になってしまいますので
ご注意を!!!
それでは実験してみましょう!
すぐ上で「ご注意を!」と言っているくせに「すべて検索対象外!」を
テストしてみましょう!
「この robots.txt ファイルをテストして変更をチェック」の下にある
テキストボックスに
User-agent: *
Disallow: /
とだけ書いて
「この robots.txt ファイルに対して URL をテスト」の下に自サイトの
URLを記述(そのまま記述されていると思いますのでそのままでOK)して
一番下にある「テスト」ボタンを押します。
テストなので本当にそうなるわけではありません!!
気軽に押してみてください。
●すると・・・
「次のメールでブロック 2: Disallow: / ディレクトリとして
検出されました。ファイルによっては固有の制限がある可能性があります」
とやばそうなメッセージが現れました。
こんな指定は絶対しないと思いますがこれで
入ってこれないということが証明されたわけです。
●それでは ただしく設定しましょう!
先ほどのサンプルの通りなのですが、もうちょっと詳細を記述します。
適宜修正して使用してください。
−−−−−−−−−↓−−キリトリ−−↓−−−−−−−−−−−−−−
# User-agent
# 検索ロボットの指定をします。
# 例)すべてに対して有効
# User-agent: *
# 例)Googleのみの場合
# User-agent: Googlebot
User-agent: *
# Disallow: /ディレクトリ名 で
# その指定ディレクトリ内を巡回しなくなります。
# Disallow: /*.gif$ という指定により
# GIF画像を検索対象としないという設定も出来ます。
#
# Disallow: / とだけ記述するとすべてが巡回できなくなりますので注意!
Disallow: /images/
Disallow: /logs/
Disallow: /cgi-bin/
−−−−−−−−−↑−−キリトリ−−↑−−−−−−−−−−−−−−
● テストしてみよう!
ご自分のサイトに合わせた書き方が出来たらテストしてみましょう!
先ほどと同様
「この robots.txt ファイルをテストして変更をチェック」の下にある
テキストボックスに書いた内容を貼り付けます。
「この robots.txt ファイルに対して URL をテスト」の下に自サイトの
URLを記述します。
このとき、この中に
http://www.○○.com/ だけでなく実際に規制をかけたディレクトリを
記述します。
例)※リンクにならないように先頭hは全角にしております。
http://www.○○.com/
http://www.○○.com/images/
http://www.○○.com/logs/
http://www.○○.com/cgi-bin/
そして、一番下にある「テスト」ボタンを押してみましょう!
実際には規制をかけたいのに「許可」と表示されている箇所は記述が
まちがっていますのでやり直しましょう。
何度かやってみて、納得がいったら
本番のサーバーにアップロードしてください。
アップロードしてからGoogleにキャッシュされたら次回は
その内容が表示されるようになります。
ご健闘を祈ります!
■ robots.txt によって秘密を知られる危険性
■■━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
▼ All About より
ロボットが見なくても人が見るかも… Robots.txtで秘密がバレる!?
http://allabout.co.jp/internet/hpcreate/closeup/CU20021125A/index2.htm
上記、記事の通りなのですが、robots.txtに「Googleの検索結果」として
挙げて欲しくないディレクトリ(フォルダ)を指定したはずなのに
http://○○.com/robots.txt と直接指定することで
人間が見ることが出来てしまいます。
それにより「なんとなく」見て欲しくないところを
見られてしまう!
ということがあるのでご注意ください。
上記の記事にあるとおり、絶対見て欲しくないところは
認証をかけることを強くおすすめします!
◆━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━◆
編集後記
◆───────────────────────────────◆
第16号いかがでしたでしょうか。
今回は、13号の Googleサイトマップについての
記事へご感想をいただいた中から 「robots.txt について知りたい」
というリクエストにお応えいたしました。
参考になさってください!
今後もこのメルマガで取り上げて欲しいこと、質問など
受け付けておりますのでお気軽にメールをくださいますよう
お願いいたします!
もうすぐ10月、肌寒く感じる日も多くなってまいりました。
ご健康に留意して元気にすごしましょう!
このメルマガの記事はわたしのブログでも掲載しております。
▼ブログ「ホームページ運営コンサルタント−さとうたけし」
http://blog.comsize.com/
ご感想は上記ブログに「コメント」という形でも受け付けております!
是非、読んでみてください!
よろしくお願いします!
「ホームページを優秀な営業マンに!」
私もそのお手伝いをします!
◎ このメールマガジンを読んだご感想・ご意見・ご質問、また仕事依頼
などございましたらなんなりとお気軽にメールをください。
お返事は必ず書きます!
------------------------------------------------------------------
☆ ホームページ運営コンサルタント
☆ 発行人: 株式会社コンサイズ さとう たけし
☆ 弊社HP: < http://www.comsize.com/ >
☆ メール: < mail@comsize.com >
★ 購読・解除はこちらでできます!
まぐまぐ →→ http://www.mag2.com/m/0000199475.html
------------------------------------------------------------------