検索エンジンからページのクロールをブロックする方法

2025.06.18 SEO相談室記事一覧

「クローラー」という言葉をご存知ですか。簡単にいうと、インターネット上を巡回して情報を集めるロボットのことです。

クローラーにWebサイトを巡回してもらうことで、Google検索などの検索結果に表示されます。そのため、クローラーにWebサイトを巡回してもらうことは、SEOで重要です。しかし、一見重要に見えるこのクロールですが、クロールをブロックしたほうがSEO上で効果的な場合があります。

ここでは、検索エンジンからのクロールをブロックするべき理由と、ブロックを検討すべきページの見分け方、具体的なブロック手法についてご説明します。

1 クローラーとは
2 検索エンジンからのコンテンツのクロールをブロックする主な理由
3 こんなページはブロックすることを推奨します！
4 URL削除ツールを使ったほうがいい場合
5 クロールをブロックする3つの方法
6 robots.txtを利用する方法
- 6.1 robots.txt の書き方
- 6.2 robots.txtのアップロード先
7 noindexを利用する方法
- 7.1 noindex の記述方法
- 7.2 robots.txtとは併用しないこと
8 .htaccessを利用する方法
- 8.1 .htaccessファイルの記述方法
- 8.2 .htaccessファイルのアップロード先
9 おわりに

クローラーとは

クローラーを理解するには、Googleなど検索エンジンが提供するGoogle検索の仕組みを知る必要があります。

Googleなどの検索エンジンは、

インターネット上をロボットが巡回して情報を収集
収集した情報をデータベースに登録
Webサイトの情報をランク付け
検索キーワードに従って、関連するページをランク順に表示

という仕組みで動いています。

この情報収集をするロボットを「クローラー」と呼び、ロボットがWebサイトの情報を収集することを「クロールする」と言います。検索エンジンのクローラーに検知されて（クロールされて）初めて、Webサイトは検索エンジンに掲載されることになります。

クローラーの機能詳細とご自分のサイト内でどのように設定されているか確認する方法はこちらにまとめていますので気になる方はご覧ください。

⇒クローラーとは？SEOに必須なクローリングを最適にする方法

検索エンジンからのコンテンツのクロールをブロックする主な理由

Webページが検索エンジンでヒットするためには、検索エンジンにクロールされる必要があり、クローラーに検知されて検索エンジンに掲載されることを「インデックスされる」と表現します。いくらサイトを作っても誰も訪問してくれない…という場合、検索エンジンに検知されていない＝インデックスされていない可能性があります。

⇒Googleにサイトがインデックスされない…原因と対策方法とは？

その一方で、あえて検索エンジンからのクロールをブロックする方がいい場合があります。例えば、テスト中でまだ公開したくないページや、会員限定のページの場合、インデックス不要なページなので、クロールをしてもらう必要はありません。この場合は、クローラーに対してクロールが不要であることを伝える対策が有効です。

また、SEO上不利とされる低品質な重複コンテンツ（類似記事がある、画像メインのLP、問い合わせやサンクスページなどの中身が少ないページ）をクロールさせてしまうと、質の良いページへのクロール頻度が減ってしまう可能性があるため、クロールをさせるページとさせないページを制御する必要があるのです。

「クローラーをブロックする」というと、何やら危なげな施策というイメージが浮かぶかもしれませんが、正しく理解して活用することで、Webサイトの運営にとって大きなメリットを生み出すことができます。

こんなページはブロックすることを推奨します！

では、どのようなページをブロックすべきなのでしょうか。

例としては、

サイト構造上必要なページだが、クロールされると低品質なコンテンツと判断されるリスクがあるページ
プログラムによって生成されたコンテンツなどのユーザーにとって役立たないページ
テストページや会員限定ページなど、検索エンジンからアクセスされると不利益があるページ

などが挙げられます。
それぞれのページ内容について、以下でもう少し具体的に説明します。

低品質なコンテンツ

まずブロックすべきなのは、クロールされることでSEO上不利になってしまうページです。

例えば、サイト構造上は必要だけれど、他のページに似たような内容がすでにあり、コピーコンテンツにみなされてしまう可能性がある場合などが考えられます。また、お問い合わせページやサンクスページなどは、キーワード集客を目的に公開しているページではありません。

こういった「SEO上は意味のないページ」をブロックしておけば、公開されている記事はすべて質の良い記事ということになり、Webサイト全体の評価向上が期待できます。

ユーザーには意味のないページ

設定によっては、プログラムで自動生成されるページもあります。CMSを利用している場合、タグやカテゴリを一覧化しただけのページが作られることがありますよね。これらはわざわざ検索するユーザーもいないので、あえてクロールされる必要はありません。

見られたくないページ

検索エンジンから訪問されると支障があるページもあります。

具体的には、

テスト中のページ
会員限定ページ
WordPressの管理画面など、システムに関わるページ（セキュリティ面から、外部からアクセスできる状況は避けるべきです）
Webサイトからは導線のない隠しページ※などが挙げられます。

※例えば、メルマガからリンクを貼っている特設ページなど。こういうページの場合、Webサイトからの導線とは切り離したページである場合が多いと思います。もし検索エンジンからアクセスできてしまうと、メルマガから訪問したお客さんの特別感が失われます。

URL削除ツールを使ったほうがいい場合

ここではサイトを検索エンジンに掲載させないための方法をご紹介していますが、「すでに検索エンジンにクロールされているページのインデックスを削除したい」という場合もあると思います。

例えば、

Webサイトやページを削除したので、検索エンジンから見つかると困る場合
テストページが間違ってインデックスされてしまった場合

などが該当します。

ここで紹介する方法は、あくまでも検索エンジンに登録されないようにするための方法なので、上記の状況になった場合に設定しても、検索エンジンからのインデックスがなくなるわけではありません。

そこで、すぐに検索エンジンからのインデックスを削除したい場合は、URL削除ツールを使うことをオススメします。具体的な設定方法については、以下の記事でご紹介しますので、あわせてご確認ください。

⇒URL削除ツールでページを検索結果から削除する方法

クロールをブロックする3つの方法

検索エンジンからのクロールをブロックする方法として、以下3つの方法をご紹介します。これらは、Google Search Console ヘルプにも記載されている方法です。

robots.txtを利用する方法：クローラーにクローリングを「しない」という命令をします。
noindexを利用する方法：ページはクローリングしますが、その結果検索結果に「インデックスしない」という指示をします。
.htaccessを利用する方法：パスワードで保護し、そもそもクローリングをできなくします。

以下、詳しく解説します。

robots.txtを利用する方法

「robots.txt」というファイルを作成し、クロールをブロックしたいディレクトリにアップロードする方法です。

robots.txtとは、検索エンジンのクローラーの動きを制御する命令を書くためのファイルです。クロールしてほしくないページとクロールしてほしいページを伝える役割があります。その他にはsitmap.xmlの場所をクローラーに知らせる役割もあります。

robots.txtについては、以下の記事で解説していますので、詳しくはご覧ください。

⇒XMLサイトマップ（sitemap.xml）とロボッツテキスト（robots.txt）の記述方法

robots.txt の書き方

では、具体的なrobots.txtの書き方を説明します。

クロールをブロックしたい場合の基本的な書き方は、以下のとおりです。
/test/というディレクトリ以下のクロールをブロックしたい場合の例として記述します。

User-Agent: *
Disallow: /test/

「User-agent:」とは、制御したいクローラーを記載する部分です。Googlebotなど検索エンジンを指定したい場合は細かく書くこともできますが、「*（アスタリスク）」を記載すればすべてのクローラーが対象となります。基本的には*を記載しましょう。

「Disallow:」でクローラーの訪問をブロックしたいページについて指定します。特定ディレクトリ以下をブロックしたい場合は、「/ディレクトリ名/」と書きます。このとき、「/」と記載するとサイト全体のクロールが拒否されてしまい、検索エンジンに登録されない事態になってしまいます。注意しましょう。

ディレクトリ限定ではなく、特定のページのクロールをブロックしたい場合は、「Disallow:/test/sample.html」のようにディレクトリに続けてファイル名を指定します。

作成できたら、記述内容が正しいかをテストしましょう。Google Search Consoleの中に「robots.txtテスター」というツールが準備されているので活用してください。

robots.txtのアップロード先

robots.txtが作成できたら、FTPソフトを利用してアップロードをします。アップロード先は、「https://digital-marketing.jp/robots.txt」のようにルートディレクトリ（一番上の階層）に指定します。アップロード先を間違ってしまうと、いくら正しく記述できていても動作しないので注意しましょう。

noindexを利用する方法

htmlファイル内のメタタグの記述でクローラーをブロックする方法です。これを指定しておくと、そのページへのリンクを知っているユーザーはアクセスできますが、検索結果には表示されなくなります。ページごとに設定できるので、複数のページに設定したい場合には便利な方法です。

noindexと同じく、クローラーに指示を与えるタグにnofollowがあります。Noindexはクロールをブロックするためのタグですが、nofollowはクローラーがリンクをたどるのを禁止するタグです。意味合いは全く違うので、正しく理解しましょう。詳しくは以下の記事でご紹介していますので、ご参照ください。

⇒noindexとnofollowの違いと活用の仕方

noindex の記述方法

html内の～で囲まれた部分に、以下のタグを記述します。

robots.txtとは併用しないこと

この方法を利用するときの注意点は、robots.txtと併用しないことです。robots.txtでファイルへのクロールそのものをブロックしてしまうと、クローラーはmetaタグに記載されたnoindexを認識しません。

Robots.txtを利用したブロックの場合、他のサイトからリンクされていればインデックスされてしまうという特徴があります。そのため、robots.txtと併用すると「noindexが認識されず、他のページからリンクされているので、ページが検索結果に引き続き表示されてしまう」という事態になる可能性があります。