クローリングとは？クローリングの確認方法とSEOのポイント4つ

2022.11.04 SEO相談室記事一覧

クローリングとは、ページのリンクを辿って新しいWebページのURLやリンクを発見して、別の新しいページに移動し続けることを意味します。リンクを辿って移動し続けるので、Webサイトを巡回するのがクローリングと言い換えることが出来ます。どんな有益なコンテンツもクローリングで発見されなければ、検索結果に表示されることはありません。そのためクローリングはSEOで評価されるために必要な対策項目となっています。

今回の記事では、クローリングの概要やクローラーの種類、おもなクローリング対策についてまとめて解説いたします。

1 クローリングとは？
- 1.1 クローリングとスクレイピングの違い
- 1.2 クローリングから検索結果に表示されるまで
2 クローラーの種類
- 2.1 Googleのクローラー「Googlebot」
- 2.2 Google以外のクローラー
3 Webサイトがクローリングされているかの確認方法
- 3.1 【初級～中級】Googleサーチコンソールで確認する
- 3.2 【上級】サーバーの生ログを確認する
4 クローリングのSEOポイント4つ
5 クローリングに関するよくある質問
6 おわりに

クローリングとは？

クローリングとは、検索エンジンのロボットであるクローラーがサイト内のリンクをたどって、新しいページを移動し続けることを言います。作成したコンテンツが検索エンジンに知られて検索結果に掲載されるには、必ず「クローリング」が行われています。また、クローラーはWebサイトのHTMLを読み込み、HTML内のリンクを辿ってサイト間を移動しています。蜘蛛の巣のように張り巡らされたリンクを渡り歩く様子から「スパイダー」とも言われています。

クローリングとスクレイピングの違い

クローリングが、リンクのURLを発見して新しいページのリンクを辿り続けるWebサイトの巡回をすることに対して、スプレイピングは収集した情報の抽出を行う点で異なります。Webサイトの統計・及び分析するプロジェクトでは、クローリングとスクレイピング双方の過程を得て行います。混同されやすいので、違いを理解しましょう。

クローリングから検索結果に表示されるまで

自社サイトの記事がクローリングから検索結果に表示されるまでは、いくつかの工程があります。まず行われるのが、Webサイトのクローリングです。

クローリングされたWebサイトの情報を抽出して検索エンジンのデータベースに格納されます。このデータベースに格納される工程のことをインデックス（インデキシング）といいます。検索エンジンにインデックスされたうえで、検索エンジンのアルゴリズムに基づきコンテンツを評価して、検索キーワードごとに検索結果の表示順位が決まります。

順位づけの基準は明確にはされていませんが、Googleが示す基本の判断基準は「ユーザーにとっていかに有益であるかどうか」です。そのため中身がスカスカな記事は、クローリングされたとしても検索結果の上位には上がらず、ユーザーの目には止まりにくくなります。

クローラーの種類

Webサイトをクローリングするクローラーは、多くの種類が存在します。多くの検索エンジンは別々のクローラーでWebサイトを巡回しています。ここでは代表的なクローラーの種類を紹介します。

Googleのクローラー「Googlebot」

もっとも有名なのは、Googleのクローラー「Googlebot」です。コンピューターの規模も他の追随を許さないレベルなため、一回のクローリングで多くの情報を収集します。そのため、サーバーに負担がかからないのが特徴です。

Google以外のクローラー

Googlebot以外にも、主な検索エンジンには下記の名前のクローラーが存在しています。

たとえば、マイクロソフト社の検索エンジンBingの「Bingbot」、中国の検索エンジン百度の「Baiduspider」、韓国で利用される検索エンジンNEVERの「Yetibot」、さらに日本ではおなじみのYahoo!JAPAN「Y!J」などが知られています。

日本国内のユーザーにおいて、Yahoo!とGoogleの検索エンジンを利用しているのが多数を占めています。しかし、Yahoo!の検索エンジンは、Googleのアルゴリズムを利用しています。そのため、日本のサイトオーナーはGoogleのSEO対策に重きを置いてサイト運営をしているケースがほとんどです。

Webサイトがクローリングされているかの確認方法

自分が運営するWebサイトが検索エンジンに正しくクローリングされているか確認する方法はあるのでしょうか？次に「初級〜中級」「上級」に分けて、クローリングの状態を確認する流れをお伝えします。

【初級～中級】Googleサーチコンソールで確認する

自社サイトがクローリングされているかは、「Google Search Console」を使って知ることができます。Googleサーチコンソールの「インデックス　＞　カバレッジ」でみることができるURLはクローリングされた対象ページになっています。カバレッジ情報を見ることで、インデックスされているかどうかを確認することができます。

Googleサーチコンソールのインデックス状況の統計情報確認

特定ページがクローリングできているかを確認する場合は、Googleサーチコンソールの「URL検査」も有効です。対象のページがクローリングできるかを含めて確認することができます。

GoogleサーチコンソールのURL検査

Googleのクローラーによるサイト巡回の統計情報は、Google Search Consoleの「クロールの統計情報」で確認することができます。クローリングは、SEOの健康診断項目として定点観測が必要です。

Googleサーチコンソールのクロール統計情報

1日どのくらい巡回されたのか、期間内の最高値と平均値、最低値が確認できます。さらに1日にクローラーがダウンロードしたデータ量も把握可能です。
クロールの統計情報には、ページのダウンロード時間を見ることができます。ページのダウンロード時間が長すぎると、サーバーの過負荷を回避するため、検索エンジンがクローリングを控えるケースもあります。安定したクローリングを誘導するために、必要な統計上を見ることができます。

【上級】サーバーの生ログを確認する

上級者向けのクローリング状況の確認方法に生ログの分析があります。生ログを確認することで、どのクローラーがいつ、どのページに訪れたのか、行動や頻度をより詳しくモニタリングすることが出来ます。

また、クローラーに限らず、Googleサーチコンソールだけではわからない情報も生ログで確認できる場合が多くあります。確認方法は、アクセスログをダウンロード後、テキストエディタを開きます。「Googlebot」など、クローラーの名前で検索をかけてヒットすれば、そこからいつどのページに訪れたのかが把握できます。

クローリングのSEOポイント4つ

クローリングはサイトコンテンツを検索エンジンに表示させる、最初の工程です。つまり、SEOの基本の中の基本ともいえます。それにもかかわらず、あまり意識をしていないサイトオーナーが多く、SEOにおいてクローリングはほとんど意識されないポイントです。

正しいクローリング対策で、SEO効果を高めるようにしましょう。

内部リンクの設置

クローリング対策の初歩は、内部リンクの設置でページのリンクを辿って新しいページを辿り続けさせることです。内部リンクがあることで、まだクローリングをしていないページの存在を知ることが出来ます。間違った内部リンクの設置で非効率なクローリングとならないようにSEOに効果的な内部リンク設置を意識するとよいでしょう。

大規模なサイトはクローリングを加味した内部リンク設計によって、サイトのSEO効果が違いますので配慮が必要です。

sitemap.xmlを作成・更新する

クローリングして欲しいURLをサイト側から検索エンジンに必要なのは、sitemap.xmlの作成と更新です。sitemap.xmlは、クローリング必要なURLのページや画像・動画情報をリストで検索エンジンに教えることが出来ます。

検索エンジンにsitemap.xmlを知らせるためには、XMLサイトマップ（sitemap.xml）とロボッツテキスト（robots.txt）の記述方法を理解することが必要です。xmlサイトマップを作成した後は、Googleサーチコンソールのサイトマップ送信を行います。

RSSフィードを作成する

RSSフィードとは、新しいページができたことを、検索エンジンに知らせることができるシステムです。自社サイトに作成をすれば、クローラーが更新情報一覧を素早くチェックし、クローリングが円滑に進みます。

RSSフィードはGoogle Search Consoleに登録ができます。sitemap.xmlの送信と同様の手順で行うことが出来ます。

リンク切れページを無くす

大きなサイトであればあるほど、リンク切れページが目につきます。

リンク切れが多くあったりリンク先が適切でなかったりする場合、インデックスに登録されなくなります。しかしひとつひとつのリンクを一度に目視でチェックするのは手間なため、リンク切れのチェックツールの使用やこまめなリンクチェックなどを行いましょう。

表示速度を向上させる

サーバーが遅いサイトのクローリングを大量にしてしまうと、サーバーを落としてしまうかもしれません。その可能性を考慮して、多くの検索エンジンは表示速度が遅いサイトのクローリング数を抑えます。つまり、表示速度に問題があるサイトは、Googleなどの検索エンジンのクローリングが進まない可能性を持っています。

クローリングだけの問題ではなく、表示速度はSEOの順位に影響しますので表示速度が遅い場合は対策優先度を上げる必要があります。

不要なクローリングをさせない

不要なクローリングを防ぐことで、効率的なクローリングを実現することが可能です。そのため、SEOで価値が無いページは、クローリングをさせない制御をするとよいでしょう。この制御をおこなわない場合は、本来クローリングをさせるべきページのクローリングを妨げてしまう可能性があります。例えば、サイトの公開予定がないページやテスト中のページは、クローラーにそれらを巡回させてインデックスされても、意味がありません。

クローリングの制御方法によってクローリングをさせない方法は以下4つの方法を知っておくとよいでしょう。

nofollow
meta robots nofollow
robots.txt
.htaccess

nofollow

HTML内の記述された特定リンクをたどらせないために、アンカーリンクに「no follow」を設定します。no followは、特定リンク先が信頼できない、保証できないなどでGoogleの評価が落ちそうな場合に、<a>タグ内に<a rel=”nofollow” href=””> と記述します。

meta robots nofollow

特定のアンカーリンクをたどらせないのではなく、ページ全てのアンカーリンクにnofollowを設定する場合は、該当するページの<head></head>タグの間に、<meta name=”robots” content=”nofollow”>と記述します。クローリング不要なリンクがある場合に設定しましょう。

robots.txt

robots.txtのファイルをサーバー内に設置することで、クローラーの制御をすることができます。クローリング不要なページをたどらせない制御をすることができるので、効率よいクロールを促すことができます。迷惑なクローラーの制御をすることができるので、サーバー運用保守の観点からrobots.txtの記述方法と設置方法は知っておきましょう。

.htaccess

大手の検索エンジンはクローラーのUA（ユーザーエージェント）を明示していますが、UAを偽装することもできるので迷惑なクローラーを.htaccessのIPアドレスで防ぐことができます。また、テストサイトをクロールさせたくない場合は、ベーシック認証を掛けることで制御することもできます。クリーリングの制御に.htaccessの操作や記述方法の把握は必要です。