実践ガイド
あなたのサイト、AIクローラーを締め出していませんか? robots.txtの確認方法と許可設定
先に結論
AI検索に出たいなら、まず確認すべきは記事の中身でも被リンクでもない。robots.txtでAIのクローラーを弾いていないかだ。
「AIに勝手に学習されたくない」——その気持ちでGPTBotやClaudeBotをブロックしているサイトは多い。気持ちはわかる。でもそれは、ChatGPTやPerplexityの回答に自社が引用される道も同時に閉じている。AI検索からの流入を、自分で断っていることになる。
まず自分のサイトの「https://あなたのドメイン/robots.txt」を開いてほしい。話はそれからだ。
なぜrobots.txtがAI検索を左右するのか
robots.txtは、クローラー(自動巡回プログラム)に「どこを見ていいか」を伝える、サイト直下の小さなテキストファイル。検索エンジンのbotも、AI各社のbotも、まずここを読む。
ここで Disallow されていれば、行儀のいいクローラーは引き返す。読まれなければ、AIの回答に引用されることもない。引用されないものは、AI検索の世界では存在しないのと同じになる。
当社が運営するメディアで流入の8割がBingとAIだったケースでも、効いていた要因のひとつが「AIクローラーを締め出していなかった」ことだった。派手な施策ではない。扉を閉めていなかった、それだけ。
主要なAIクローラー一覧
代表的なものを挙げる。会社ごとに「学習用」と「検索用」でbotが分かれていることがある点に注意してほしい。
| 運営 | クローラー名 | おもな用途 |
|---|---|---|
| OpenAI | GPTBot | モデルの学習 |
| OpenAI | OAI-SearchBot | ChatGPT検索の表示 |
| OpenAI | ChatGPT-User | ユーザー操作時の取得 |
| Anthropic | ClaudeBot | 学習・取得 |
| Perplexity | PerplexityBot | 検索インデックス |
| Google-Extended | Gemini等への利用可否 | |
| Microsoft | Bingbot | Bing検索(AI検索の土台) |
| Common Crawl | CCBot | 各種AIの学習データ元 |
| Apple | Applebot-Extended | Apple系AIへの利用可否 |
ボット名と仕様は各社が随時更新する。導入前に必ず各社の公式ドキュメントで最新を確認してほしい。ここでは「弾いていないか」を見る入口として使う。
確認のしかた(3分)
- ブラウザで「https://あなたのドメイン/robots.txt」を開く
User-agent:の行を探す。上の表のbot名が並んでいないか見る- その下に
Disallow: /があれば、そのbotはサイト全体を弾いている
User-agent: GPTBot の下に Disallow: / ——これを見つけたら、AI検索への扉が閉じている。WordPressのSEOプラグインや、過去の設定で知らないうちに入っていることがある。
許可する場合の書き方(コピペ可)
AI検索に出したいなら、最低限こう書く。全許可をベースに、主要botを明示しておく形だ。
User-agent: *
Allow: /
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Bingbot
Allow: /
Sitemap: https://あなたのドメイン/sitemap.xml
学習だけは避けたい場合は、学習系(GPTBot、CCBot等)を Disallow、検索系(OAI-SearchBot、Bingbot等)を Allow にする出し分けもできる。ただし、まず「全部弾いている」状態から抜けるのが先。多くのサイトの問題はそこにある。
llms.txt(AI向けにサイトの要約や重要ページを伝える新しい慣習のファイル)も置いておくと丁寧だが、優先度は高くない。先にrobots.txtの締め出しを解くほうがずっと効く。
よくある質問
Q. AIクローラーを弾くと何が起きますか? そのAIの学習や検索インデックスから外れ、ChatGPTやPerplexityの回答に引用されにくくなる。AI検索からの流入を失う。
Q. 学習はされたくないが、AI検索には出たい場合は? クローラーごとに目的が違う。OpenAIは学習用GPTBotと検索用OAI-SearchBotを分けている。検索系を許可し学習系を制限する出し分けが可能。仕様は変わるので公式ドキュメントで最新を確認する。
Q. robots.txtはどこにありますか? ドメイン直下。「https://あなたのドメイン/robots.txt」で中身が見える。無い場合は全許可扱いだが、明示しておくのが安全。
順位を上げる施策の前に、まず扉が開いているか。ここを直すのに費用はかからない。今日できる。