学習はされたくないが、AI検索には出たい場合はどうすれば？

クローラーごとに目的が分かれます。たとえばOpenAIは学習用のGPTBotと検索用のOAI-SearchBotを分けています。検索系を許可し学習系を制限する、という出し分けが可能です。ただし仕様は変わるため各社の公式ドキュメントで最新を確認してください。

実践ガイド

あなたのサイト、AIクローラーを締め出していませんか？ robots.txtの確認方法と許可設定

Q: AIクローラーを弾くと何が起きますか？

そのAIの学習や検索インデックスから外れ、ChatGPTやPerplexityなどの回答にあなたのサイトが引用されにくくなります。AI検索からの流入を失う可能性があります。

Q: robots.txtはどこにありますか？

ドメイン直下です。ブラウザで「https://あなたのドメイン/robots.txt」を開けば中身が見えます。ファイルが無い場合は全許可とみなされますが、明示的に書いておくのが安全です。

AIO Lab編集部 / 2026.05.28 /　約4分で読めます

robots.txtGPTBotAIクローラーGEOLLMO

先に結論

AI検索に出たいなら、まず確認すべきは記事の中身でも被リンクでもない。robots.txtでAIのクローラーを弾いていないかだ。

「AIに勝手に学習されたくない」——その気持ちでGPTBotやClaudeBotをブロックしているサイトは多い。気持ちはわかる。でもそれは、ChatGPTやPerplexityの回答に自社が引用される道も同時に閉じている。AI検索からの流入を、自分で断っていることになる。

まず自分のサイトの「https://あなたのドメイン/robots.txt」を開いてほしい。話はそれからだ。

なぜrobots.txtがAI検索を左右するのか

robots.txtは、クローラー（自動巡回プログラム）に「どこを見ていいか」を伝える、サイト直下の小さなテキストファイル。検索エンジンのbotも、AI各社のbotも、まずここを読む。

ここで Disallow されていれば、行儀のいいクローラーは引き返す。読まれなければ、AIの回答に引用されることもない。引用されないものは、AI検索の世界では存在しないのと同じになる。

当社が運営するメディアで流入の8割がBingとAIだったケースでも、効いていた要因のひとつが「AIクローラーを締め出していなかった」ことだった。派手な施策ではない。扉を閉めていなかった、それだけ。

主要なAIクローラー一覧

代表的なものを挙げる。会社ごとに「学習用」と「検索用」でbotが分かれていることがある点に注意してほしい。

運営	クローラー名	おもな用途
OpenAI	GPTBot	モデルの学習
OpenAI	OAI-SearchBot	ChatGPT検索の表示
OpenAI	ChatGPT-User	ユーザー操作時の取得
Anthropic	ClaudeBot	学習・取得
Perplexity	PerplexityBot	検索インデックス
Google	Google-Extended	Gemini等への利用可否
Microsoft	Bingbot	Bing検索（AI検索の土台）
Common Crawl	CCBot	各種AIの学習データ元
Apple	Applebot-Extended	Apple系AIへの利用可否

ボット名と仕様は各社が随時更新する。導入前に必ず各社の公式ドキュメントで最新を確認してほしい。ここでは「弾いていないか」を見る入口として使う。

確認のしかた（3分）

ブラウザで「https://あなたのドメイン/robots.txt」を開く
User-agent: の行を探す。上の表のbot名が並んでいないか見る
その下に Disallow: / があれば、そのbotはサイト全体を弾いている

User-agent: GPTBot の下に Disallow: / ——これを見つけたら、AI検索への扉が閉じている。WordPressのSEOプラグインや、過去の設定で知らないうちに入っていることがある。

許可する場合の書き方（コピペ可）

AI検索に出したいなら、最低限こう書く。全許可をベースに、主要botを明示しておく形だ。

User-agent: *
Allow: /

User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Bingbot
Allow: /

Sitemap: https://あなたのドメイン/sitemap.xml

学習だけは避けたい場合は、学習系（GPTBot、CCBot等）を Disallow、検索系（OAI-SearchBot、Bingbot等）を Allow にする出し分けもできる。ただし、まず「全部弾いている」状態から抜けるのが先。多くのサイトの問題はそこにある。

llms.txt（AI向けにサイトの要約や重要ページを伝える新しい慣習のファイル）も置いておくと丁寧だが、優先度は高くない。先にrobots.txtの締め出しを解くほうがずっと効く。

よくある質問

Q. AIクローラーを弾くと何が起きますか？ そのAIの学習や検索インデックスから外れ、ChatGPTやPerplexityの回答に引用されにくくなる。AI検索からの流入を失う。

Q. 学習はされたくないが、AI検索には出たい場合は？ クローラーごとに目的が違う。OpenAIは学習用GPTBotと検索用OAI-SearchBotを分けている。検索系を許可し学習系を制限する出し分けが可能。仕様は変わるので公式ドキュメントで最新を確認する。

Q. robots.txtはどこにありますか？ ドメイン直下。「https://あなたのドメイン/robots.txt」で中身が見える。無い場合は全許可扱いだが、明示しておくのが安全。

順位を上げる施策の前に、まず扉が開いているか。ここを直すのに費用はかからない。今日できる。

AIO Lab 主筆

広告運用 × データ分析のマーケター（40代・エンジニア出身）

Meta・Google・TikTok広告のインハウス運用が最も得意。ROAS・CPA起点の高速PDCAで伸ばし、広告と検索（SEO・GEO）の両面から集客を設計します。強みはデータの「見える化」——GA4・BigQuery・日次広告レポートで、数字を判断に変えること。大手予約サービスのマーケ部長を経て、現在はD2Cスタートアップでマーケ／データ責任者。複数の自社メディアを運営し、Bing・AI検索の流入を実データで検証しています。数値はすべて実測、出典のないデータは扱いません。運営者について →