実践ガイド

あなたのサイト、AIクローラーを締め出していませんか? robots.txtの確認方法と許可設定

先に結論

AI検索に出たいなら、まず確認すべきは記事の中身でも被リンクでもない。robots.txtでAIのクローラーを弾いていないかだ。

「AIに勝手に学習されたくない」——その気持ちでGPTBotやClaudeBotをブロックしているサイトは多い。気持ちはわかる。でもそれは、ChatGPTやPerplexityの回答に自社が引用される道も同時に閉じている。AI検索からの流入を、自分で断っていることになる。

まず自分のサイトの「https://あなたのドメイン/robots.txt」を開いてほしい。話はそれからだ。


なぜrobots.txtがAI検索を左右するのか

robots.txtは、クローラー(自動巡回プログラム)に「どこを見ていいか」を伝える、サイト直下の小さなテキストファイル。検索エンジンのbotも、AI各社のbotも、まずここを読む。

ここで Disallow されていれば、行儀のいいクローラーは引き返す。読まれなければ、AIの回答に引用されることもない。引用されないものは、AI検索の世界では存在しないのと同じになる。

当社が運営するメディアで流入の8割がBingとAIだったケースでも、効いていた要因のひとつが「AIクローラーを締め出していなかった」ことだった。派手な施策ではない。扉を閉めていなかった、それだけ。


主要なAIクローラー一覧

代表的なものを挙げる。会社ごとに「学習用」と「検索用」でbotが分かれていることがある点に注意してほしい。

運営クローラー名おもな用途
OpenAIGPTBotモデルの学習
OpenAIOAI-SearchBotChatGPT検索の表示
OpenAIChatGPT-Userユーザー操作時の取得
AnthropicClaudeBot学習・取得
PerplexityPerplexityBot検索インデックス
GoogleGoogle-ExtendedGemini等への利用可否
MicrosoftBingbotBing検索(AI検索の土台)
Common CrawlCCBot各種AIの学習データ元
AppleApplebot-ExtendedApple系AIへの利用可否

ボット名と仕様は各社が随時更新する。導入前に必ず各社の公式ドキュメントで最新を確認してほしい。ここでは「弾いていないか」を見る入口として使う。


確認のしかた(3分)

  1. ブラウザで「https://あなたのドメイン/robots.txt」を開く
  2. User-agent: の行を探す。上の表のbot名が並んでいないか見る
  3. その下に Disallow: / があれば、そのbotはサイト全体を弾いている

User-agent: GPTBot の下に Disallow: / ——これを見つけたら、AI検索への扉が閉じている。WordPressのSEOプラグインや、過去の設定で知らないうちに入っていることがある。


許可する場合の書き方(コピペ可)

AI検索に出したいなら、最低限こう書く。全許可をベースに、主要botを明示しておく形だ。

User-agent: *
Allow: /

User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Bingbot
Allow: /

Sitemap: https://あなたのドメイン/sitemap.xml

学習だけは避けたい場合は、学習系(GPTBot、CCBot等)を Disallow、検索系(OAI-SearchBot、Bingbot等)を Allow にする出し分けもできる。ただし、まず「全部弾いている」状態から抜けるのが先。多くのサイトの問題はそこにある。

llms.txt(AI向けにサイトの要約や重要ページを伝える新しい慣習のファイル)も置いておくと丁寧だが、優先度は高くない。先にrobots.txtの締め出しを解くほうがずっと効く。


よくある質問

Q. AIクローラーを弾くと何が起きますか? そのAIの学習や検索インデックスから外れ、ChatGPTやPerplexityの回答に引用されにくくなる。AI検索からの流入を失う。

Q. 学習はされたくないが、AI検索には出たい場合は? クローラーごとに目的が違う。OpenAIは学習用GPTBotと検索用OAI-SearchBotを分けている。検索系を許可し学習系を制限する出し分けが可能。仕様は変わるので公式ドキュメントで最新を確認する。

Q. robots.txtはどこにありますか? ドメイン直下。「https://あなたのドメイン/robots.txt」で中身が見える。無い場合は全許可扱いだが、明示しておくのが安全。


順位を上げる施策の前に、まず扉が開いているか。ここを直すのに費用はかからない。今日できる。

AL

AIO Lab 主筆

広告運用 × データ分析のマーケター(40代・エンジニア出身)

Meta・Google・TikTok広告のインハウス運用が最も得意。ROAS・CPA起点の高速PDCAで伸ばし、広告と検索(SEO・GEO)の両面から集客を設計します。強みはデータの「見える化」——GA4・BigQuery・日次広告レポートで、数字を判断に変えること。大手予約サービスのマーケ部長を経て、現在はD2Cスタートアップでマーケ/データ責任者。複数の自社メディアを運営し、Bing・AI検索の流入を実データで検証しています。数値はすべて実測、出典のないデータは扱いません。運営者について →

AI検索の実践知

AIに見つかる構造を、実データから設計する。

ChatGPTやBing経由で実際に流入を取った一次データから、AIに見つけられるサイトの条件を発信しています。

実証事例を読む 記事一覧へ