WEBマーケティングのトータルサポートならディーエムソリューションズ株式会社
0120-934-226受付時間 平日9:00~18:00

クローリングとは?クローリングの確認方法とSEOのポイント4つ

クローリングとは?SEOに効果的なサイトをクロールさせる意味!
このエントリーをはてなブックマークに追加

クローリングとは、ページのリンクを辿って新しいWebページのURLやリンクを発見して、別の新しいページに移動し続けることを意味します。リンクを辿って移動し続けるので、Webサイトを巡回するのがクローリングと言い換えることが出来ます。どんな有益なコンテンツもクローリングで発見されなければ、検索結果に表示されることはありません。そのためクローリングはSEOで評価されるために必要な対策項目となっています。

今回の記事では、クローリングの概要やクローラーの種類、おもなクローリング対策についてまとめて解説いたします。

誰でも簡単にSEO対策ができるIntimateSEO

クローリングとは?

クローリングとは、検索エンジンのロボットであるクローラーがサイト内のリンクをたどって、新しいページを移動し続けることを言います。作成したコンテンツが検索エンジンに知られて検索結果に掲載されるには、必ず「クローリング」が行われています。また、クローラーはWebサイトのHTMLを読み込み、HTML内のリンクを辿ってサイト間を移動しています。蜘蛛の巣のように張り巡らされたリンクを渡り歩く様子から「スパイダー」とも言われています。

クローリングとスクレイピングの違い

クローリングが、リンクのURLを発見して新しいページのリンクを辿り続けるWebサイトの巡回をすることに対して、スプレイピングは収集した情報の抽出を行う点で異なります。Webサイトの統計・及び分析するプロジェクトでは、クローリングとスクレイピング双方の過程を得て行います。混同されやすいので、違いを理解しましょう。

クローリングから検索結果に表示されるまで

自社サイトの記事がクローリングから検索結果に表示されるまでは、いくつかの工程があります。まず行われるのが、Webサイトのクローリングです。

クローリングされたWebサイトの情報を抽出して検索エンジンのデータベースに格納されます。このデータベースに格納される工程のことをインデックス(インデキシング)といいます。検索エンジンにインデックスされたうえで、検索エンジンのアルゴリズムに基づきコンテンツを評価して、検索キーワードごとに検索結果の表示順位が決まります。

順位づけの基準は明確にはされていませんが、Googleが示す基本の判断基準は「ユーザーにとっていかに有益であるかどうか」です。そのため中身がスカスカな記事は、クローリングされたとしても検索結果の上位には上がらず、ユーザーの目には止まりにくくなります。

クローラーの種類

Webサイトをクローリングするクローラーは、多くの種類が存在します。多くの検索エンジンは別々のクローラーでWebサイトを巡回しています。ここでは代表的なクローラーの種類を紹介します。

Googleのクローラー「Googlebot」

もっとも有名なのは、Googleのクローラー「Googlebot」です。コンピューターの規模も他の追随を許さないレベルなため、一回のクローリングで多くの情報を収集します。そのため、サーバーに負担がかからないのが特徴です。

Google以外のクローラー

Googlebot以外にも、主な検索エンジンには下記の名前のクローラーが存在しています。

たとえば、マイクロソフト社の検索エンジンBingの「Bingbot」、中国の検索エンジン百度の「Baiduspider」、韓国で利用される検索エンジンNEVERの「Yetibot」、さらに日本ではおなじみのYahoo!JAPAN「Y!J」などが知られています。

日本国内のユーザーにおいて、Yahoo!とGoogleの検索エンジンを利用しているのが多数を占めています。しかし、Yahoo!の検索エンジンは、Googleのアルゴリズムを利用しています。そのため、日本のサイトオーナーはGoogleのSEO対策に重きを置いてサイト運営をしているケースがほとんどです。

Webサイトがクローリングされているかの確認方法

自分が運営するWebサイトが検索エンジンに正しくクローリングされているか確認する方法はあるのでしょうか?次に「初級〜中級」「上級」に分けて、クローリングの状態を確認する流れをお伝えします。

【初級~中級】Googleサーチコンソールで確認する

自社サイトがクローリングされているかは、「Google Search Console」を使って知ることができます。Googleサーチコンソールの「インデックス > カバレッジ」でみることができるURLはクローリングされた対象ページになっています。カバレッジ情報を見ることで、インデックスされているかどうかを確認することができます。

Googleサーチコンソールのインデックス状況の統計情報確認

特定ページがクローリングできているかを確認する場合は、Googleサーチコンソールの「URL検査」も有効です。対象のページがクローリングできるかを含めて確認することができます。

GoogleサーチコンソールのURL検査

Googleのクローラーによるサイト巡回の統計情報は、Google Search Consoleの「クロールの統計情報」で確認することができます。クローリングは、SEOの健康診断項目として定点観測が必要です。

Googleサーチコンソールのクロール統計情報

1日どのくらい巡回されたのか、期間内の最高値と平均値、最低値が確認できます。さらに1日にクローラーがダウンロードしたデータ量も把握可能です。
クロールの統計情報には、ページのダウンロード時間を見ることができます。ページのダウンロード時間が長すぎると、サーバーの過負荷を回避するため、検索エンジンがクローリングを控えるケースもあります。安定したクローリングを誘導するために、必要な統計上を見ることができます。

【上級】サーバーの生ログを確認する

上級者向けのクローリング状況の確認方法に生ログの分析があります。生ログを確認することで、どのクローラーがいつ、どのページに訪れたのか、行動や頻度をより詳しくモニタリングすることが出来ます。

また、クローラーに限らず、Googleサーチコンソールだけではわからない情報も生ログで確認できる場合が多くあります。確認方法は、アクセスログをダウンロード後、テキストエディタを開きます。「Googlebot」など、クローラーの名前で検索をかけてヒットすれば、そこからいつどのページに訪れたのかが把握できます。

クローリングのSEOポイント4つ

クローリングはサイトコンテンツを検索エンジンに表示させる、最初の工程です。つまり、SEOの基本の中の基本ともいえます。それにもかかわらず、あまり意識をしていないサイトオーナーが多く、SEOにおいてクローリングはほとんど意識されないポイントです。

正しいクローリング対策で、SEO効果を高めるようにしましょう。

内部リンクの設置

クローリング対策の初歩は、内部リンクの設置でページのリンクを辿って新しいページを辿り続けさせることです。内部リンクがあることで、まだクローリングをしていないページの存在を知ることが出来ます。間違った内部リンクの設置で非効率なクローリングとならないようにSEOに効果的な内部リンク設置を意識するとよいでしょう。

大規模なサイトはクローリングを加味した内部リンク設計によって、サイトのSEO効果が違いますので配慮が必要です。

sitemap.xmlを作成・更新する

クローリングして欲しいURLをサイト側から検索エンジンに必要なのは、sitemap.xmlの作成と更新です。sitemap.xmlは、クローリング必要なURLのページや画像・動画情報をリストで検索エンジンに教えることが出来ます。

検索エンジンにsitemap.xmlを知らせるためには、XMLサイトマップ(sitemap.xml)とロボッツテキスト(robots.txt)の記述方法を理解することが必要です。xmlサイトマップを作成した後は、Googleサーチコンソールのサイトマップ送信を行います。

RSSフィードを作成する

RSSフィードとは、新しいページができたことを、検索エンジンに知らせることができるシステムです。自社サイトに作成をすれば、クローラーが更新情報一覧を素早くチェックし、クローリングが円滑に進みます。

RSSフィードはGoogle Search Consoleに登録ができます。sitemap.xmlの送信と同様の手順で行うことが出来ます。

リンク切れページを無くす

大きなサイトであればあるほど、リンク切れページが目につきます。

リンク切れが多くあったりリンク先が適切でなかったりする場合、インデックスに登録されなくなります。しかしひとつひとつのリンクを一度に目視でチェックするのは手間なため、リンク切れのチェックツールの使用やこまめなリンクチェックなどを行いましょう。

表示速度を向上させる

サーバーが遅いサイトのクローリングを大量にしてしまうと、サーバーを落としてしまうかもしれません。その可能性を考慮して、多くの検索エンジンは表示速度が遅いサイトのクローリング数を抑えます。つまり、表示速度に問題があるサイトは、Googleなどの検索エンジンのクローリングが進まない可能性を持っています。

クローリングだけの問題ではなく、表示速度はSEOの順位に影響しますので表示速度が遅い場合は対策優先度を上げる必要があります。

不要なクローリングをさせない

不要なクローリングを防ぐことで、効率的なクローリングを実現することが可能です。そのため、SEOで価値が無いページは、クローリングをさせない制御をするとよいでしょう。この制御をおこなわない場合は、本来クローリングをさせるべきページのクローリングを妨げてしまう可能性があります。例えば、サイトの公開予定がないページやテスト中のページは、クローラーにそれらを巡回させてインデックスされても、意味がありません。

クローリングの制御方法によってクローリングをさせない方法は以下4つの方法を知っておくとよいでしょう。

  • nofollow
  • meta robots nofollow
  • robots.txt
  • .htaccess

nofollow

HTML内の記述された特定リンクをたどらせないために、アンカーリンクに「no follow」を設定します。no followは、特定リンク先が信頼できない、保証できないなどでGoogleの評価が落ちそうな場合に、<a>タグ内に<a rel=”nofollow” href=””> と記述します。

meta robots nofollow

特定のアンカーリンクをたどらせないのではなく、ページ全てのアンカーリンクにnofollowを設定する場合は、該当するページの<head></head>タグの間に、<meta name=”robots” content=”nofollow”>と記述します。クローリング不要なリンクがある場合に設定しましょう。

robots.txt

robots.txtのファイルをサーバー内に設置することで、クローラーの制御をすることができます。クローリング不要なページをたどらせない制御をすることができるので、効率よいクロールを促すことができます。迷惑なクローラーの制御をすることができるので、サーバー運用保守の観点からrobots.txtの記述方法と設置方法は知っておきましょう。

.htaccess

大手の検索エンジンはクローラーのUA(ユーザーエージェント)を明示していますが、UAを偽装することもできるので迷惑なクローラーを.htaccessのIPアドレスで防ぐことができます。また、テストサイトをクロールさせたくない場合は、ベーシック認証を掛けることで制御することもできます。クリーリングの制御に.htaccessの操作や記述方法の把握は必要です。

クローリングに関するよくある質問

なぜクローリングが必要なの?

クローリングは、クローラーがページ内の情報を収集し、複製・保存することを指します。クローリングが行われないと、そもそも検索結果に記事が掲載されないため非常に重要な役割をしています。

クローラーはすべてのサイトを常に巡回しているの?

すべてのサイトを定期的に巡回しているわけではなく、収集する情報量も異なります。クローラーはプログラムによって自動化されており、巡回頻度や収集するデータはGoogleのアルゴリズムによって決定されます。

クローリングされないのはどのようなサイトですか?

クローラーに対する巡回優先度を伝えていないサイトであったり、クローラー対策の設計が出来ていないケースなどが該当します。クローラーがうまく巡回できるような設計が必要です。

クローラーの巡回頻度は検索順位に影響するの?

クローラーの巡回頻度と検索順位に直接的な関係性はありませんが、上位表示が出来ているサイトとそうでないサイトで違いが発生している可能性はあります。

クローリングされない原因が分からない場合はどうしたらいいですか?

クローリングはSEO施策においてとても重要な役割です。クロールエラーやインデックスに登録されないと検索エンジンにサイトが掲載されません。問題が解決できないときはSEOに強い制作会社へ相談しましょう。

おわりに

クローリングはサイトのSEO効果を最大化するために無視できない存在です、あまり強く意識しているサイトオーナーは少ないかもしれません。円滑にクローリングができる環境をよく道筋をひとつずつ立てて、SEO効果を最大化させるサイト運営を目指しましょう。

 

このエントリーをはてなブックマークに追加
The following two tabs change content below.
Avatar photo

デジタルマーケティング研究所編集部

デジタルマーケティング研究所では、デジタルマーケティングの施策・広告・技術を、分析・実装・検証して、WEB担当者・マーケティング担当者の方の役立つ情報を発信していきます。
Avatar photo

>最新記事 by デジタルマーケティング研究所編集部 (全て見る)

お役立ち資料ダウンロード
SNSでフォロー
問い合わせ数5倍 1,000社以上の実績
ウルロジ EC事業特化型 物流アウトソーシング
セルマーケ
月額3万円で始められるSEO対策なら「IntimateSEO」

今話題のAIによるコンテンツ自動生成機能も!SEO対策に本当に必要な機能だけを搭載した使いやすさとコストパフォーマンスに優れたWeb集客支援ツールです。


Contactお問い合わせ

Webマーケティングに関わる施策全般をワンストップで
ご提供します。
お気軽にご相談ください。

関連資料ダウンロードはこちら
サービスのお問い合わせはこちら

Webマーケティング最新ニュースのレポートや無料セミナーの先行案内が届く、お得なメルマガ配信中!

Webマーケティング最新情報をお届けするDMSメールマガジン
東京営業所
東京都武蔵野市御殿山1-1-3 クリスタルパークビル2F
電話番号 0422-77-1087 FAX番号 0422-57-2761
大阪営業所
大阪府大阪市北区堂島1丁目5-30 堂島プラザビル10F
電話番号 06-7176-3367 FAX番号 06-7176-3368
Copyright © 2024 DM SOLUTIONS Co.,Ltd. All rights reserved.