SEOで評価されるためには、「良質な記事」「有益な情報」をユーザーに届けることが大事ですがWebサイトにクローリングを促すことも重要です。Google等の検索エンジンのクローラーがスムーズにクローリングできることで、SEO効果を高めることができます。
今回の記事では、クローリングの概要やクローラーの種類、おもなクローリング対策についてまとめて解説いたします。
目次
クローリングとは、検索エンジンのロボットであるクローラーがサイト内のリンクをたどって、ページ内の情報を収集して複製・保存することを指します。
作成した記事が検索エンジンに掲載される際には、必ず「クローリング」が行われています。
クローラーはWebサイトのHTMLを読み込み、HTML内のリンクを辿ってサイト間を移動しています。蜘蛛の巣のように張り巡らされたリンクを渡り歩く様子から「スパイダー」とも言われています。
Googleのクローラーがどのくらいのページをいつ巡回したかの統計情報はGoogle Search Consoleの「クロールの統計情報」で確認することができます。ページ単位でクロールしたかどうかを知るには、サーバーの生ログ情報で解析する必要があります。クローリングされないとSEOの検索結果に表示されないので、SEOで重要な意味を持つページがクローリングされているかは重要です。
自社サイトの記事が検索結果に表示されるまでには、いくつかの工程があります。まず行われるのが、Webサイトのクローリングです。その後、クローリングされたWebサイトの情報は検索エンジンのデータベースに格納されます。
このデータベースに格納される工程のことをインデックス(インデキシング)といいます。検索エンジンにインデックスされたうえで、検索エンジンのアルゴリズムに基づき検索クエリごとの表示順位が決まるのです。
順位づけの基準は明確にはされていませんが、Googleが示す基本の判断基準は「ユーザーにとっていかに有益であるかどうか」です。そのため中身がスカスカな記事は、クローリングされたとしても検索結果の上位には上がらず、ユーザーの目には止まりにくくなります。
Webサイトをクロールするクローラーは多くの種類が存在します。検索エンジンにはそれぞれ、別のクローラーが存在しています。代表的なクローラーの種類を紹介します。
もっとも有名なのは、Googleのクローラー「Googlebot」です。コンピューターの規模も他の追随を許さないレベルなため、一回のクローリングで多くの情報を収集します。そのため、サーバーに負担がかからないのが特徴です。
Googlebot以外にも、主な検索エンジンには下記の名前のクローラーが存在しています。
たとえば、マイクロソフト社の検索エンジンBingの「Bingbot」、中国の検索エンジン百度の「Baiduspider」、韓国で利用される検索エンジンNEVERの「Yetibot」、さらに日本ではおなじみのYahoo!JAPAN「Y!J」などが知られています。
日本国内のユーザーにおいて、Yahoo!とGoogleの検索エンジンを利用しているのが多数を占めています。しかし、Yahoo!の検索エンジンは、Googleのアルゴリズムを利用しています。そのため、日本のサイトオーナーはGoogleのSEO対策に重きを置いてサイト運営をしているケースがほとんどです。
自分が運営するWebサイトが検索エンジンに正しくクローリングされているか確認する方法はあるのでしょうか?次に「初級〜中級」「上級」に分けて、クローリングの状態を確認する流れをお伝えします。
自社サイトがクローリングされているかは、「Google Search Console」を使って知ることができます。
Googleサーチコンソールの「インデックス > カバレッジ」でみることができるURLはクローリングされた対象ページになっています。カバレッジ情報を見ることで、インデックスされているかどうかを確認することができます。
特定ページがクローリングできているかを確認する場合は、Googleサーチコンソールの「URL検査」も有効です。対象のページがクローリングできるかを含めて確認することができます。
サイト全体的なクローリング状況をモニタリングしたい場合は、メニューから、「クロール→クロールの統計情報」で確認をしてみましょう。
1日どのくらい巡回されたのか、期間内の最高値と平均値、最低値が確認できます。さらに1日にクローラーがダウンロードしたデータ量も把握可能です。
クロールの統計情報には、ページのダウンロード時間を見ることができます。ページのダウンロード時間が長すぎると、サーバーの過負荷を回避するため、検索エンジンがクローリングを控えるケースもあります。安定したクローリングを誘導するために、必要な統計上を見ることができます。
もう少し上級者向けのクローラー確認の方法として、生ログのチェックがあげられます。生ログを確認することで、どのクローラーがいつ、どのページに訪れたのか、行動や頻度をより詳しくチェックできます。
また、クローラーに限らず、Googleサーチコンソールだけではわからない情報も生ログで確認できる場合が多くあります。確認方法は、アクセスログをダウンロード後、テキストエディタを開きます。「Googlebot」など、クローラーの名前で検索をかけてヒットすれば、そこからいつどのページに訪れたのかが把握できます。
クローリングはサイトコンテンツを検索エンジンに表示させる、最初の工程です。つまり、SEOの基本の中の基本ともいえます。それにもかかわらず、あまり意識をしていないサイトオーナーが多く、SEOにおいてクローリングはほとんど意識されないポイントです。
正しいクローリング対策で、SEO効果を高めるようにしましょう。
まず、コンテンツが完成したら、クローラーを呼び込んでクローリングを開始させましょう。クローリングを行うことで、検索結果の表示が見込めます。逆にクローリングされていない記事は、いくら良質なものであっても日の目を浴びることはありません。
新しい記事を更新したのであれば、早くクローラーを呼び込むことで機会損失も防げるでしょう。
クローリングを開始させるには、Google Search Consoleを使います。
以前はクローラー呼び込みにFetchasGoogleを使うケースもありましたが、現在は利用ができなくなりました(2019/03/28以降使用不可)。そのため、代わりにURL検査を使用することができます。
Google Search Consoleの左側のメニューから、URL検査を選択し、クロールをしたいページURLを記入、「インデックス登録をリクエスト」をクリックします。これで、クローラーが巡回にやってきますが、すぐに検索エンジンに表示がされるわけではありません。ページに問題がないかチェックをされたのちインデックス登録、その後、順位づけがなされます。
URL検査によってクローリングを促すことができますが、多くのURLをクローリングさせるには効率的ではありません。クローリングを促してインデックスをさせたいURLは、後述するsitemap.xmlを活用するのがよいでしょう。
クローラーによるSEO向上をはかるのであれば、クローリングをスムーズに行えるよう、促進の手立てをしておくのも重要です。
クローリングの弊害になるものが多いサイトでは、クローラーがスムーズに巡回を行えません。その結果、Googleに「ユーザーにとって有益なコンテンツ」とは認識されなくなってしまいます。
一方でクローリングが円滑に進むサイトは、Googleが「有益なサイト」と判断する指標になります。するとインデックス登録から表示までのスピードもアップ。鮮度が命ともいえる記事の場合は、このスピード感がSEO順位を左右する場合も少なくないのです。
より早く記事を検索エンジンに公開するために、クローラーがスピーディにサイト巡回をできるようにしましょう。
クローラー促進方法のひとつが、「XMLサイトマップ」です。XMLサイトマップとは、クローラーにサイト内のページURLや動画情報を告知するファイルです。クローラーはXMLサイトマップを手にすることで、効率的に巡回が可能となります。クローラーにとってのサイト巡回のための地図・パンフレットといったところです。
XMLサイトマップの作成は、コーディングによる記述かプラグインもしくは動的に生成して作成します。下記記事に詳しく記載してありますので、参考にしてください。
RSSフィードとは、新しいページができたことを、検索エンジンに知らせることができるシステムです。自社サイトに作成をすれば、クローラーが更新情報一覧を素早くチェックし、クローリングが円滑に進みます。
RSSフィードはGoogle Search Consoleに登録ができます。Google Search Consoleの左側のメニューから「サイトマップ」→「新しいサイトマップの追加」→「feed」と入力し、送信ボタンで完了です。
これまでクローリングをさせる手法を説明してきましたが、クローリングをさせないことでクローリングを図る考え方も理解する必要があります。
しかし、ページをクローリングさせない方がSEO効果がある場合もあります。
例えば、サイトの中に公開予定のないページや、テスト中のページなどはないでしょうか。クローラーにそれらを巡回させてインデックスされても、意味がありません。
それどころか、クローラーがそれらのページ巡回に手間取ってしまい、本命のページのクローリングが遅れてしまい、記事掲載まで時間がかかってしまう可能性もあります。
このように、SEOに効果を及ばさないであろうページはクローリングをさせないよう、あらかじめ制御が必要です。
クローリングを制御させる方法は、いくつかあります。
HTML内の記述された特定リンクをたどらせないために、アンカーリンクに「no follow」を設定します。no followは、特定リンク先が信頼できない、保証できないなどでGoogleの評価が落ちそうな場合に、<a>タグ内に<a rel=”nofollow” href=””> と記述します。
特定のアンカーリンクをたどらせないのではなく、ページ全てのアンカーリンクにnofollowを設定する場合は、該当するページの<head></head>タグの間に、<meta name=”robots” content=”nofollow”>と記述します。クローリング不要なリンクがある場合に設定しましょう。
robots.txtのファイルをサーバー内に設置することで、クローラーの制御をすることができます。クローリング不要なページをたどらせない制御をすることができるので、効率よいクロールを促すことができます。迷惑なクローラーの制御をすることができるので、サーバー運用保守の観点からも設置することがおススメです。
特定のディレクトリはクロールさせないなどの制御ができますので、設置や記述方法は下記詳細を参考にしてください。
大手の検索エンジンはクローラーのUA(ユーザーエージェント)を明示していますが、UAを偽装することもできるので迷惑なクローラーを.htaccessのIPアドレスで防ぐことができます。
また、テストサイトをクロールさせたくない場合は、ベーシック認証を掛けることで制御することもできます。どちらもクロールの制御をすることができますが、必要なクローラーを制御しないように注意が必要です。
.htaccessの操作や記述方法は以下のページを参照ください。
「クローラビリティを高める」とは、クローラーがサイト巡回をしやすいよう、サイト内の道筋を整備することを指します。
クロールのしやすさを意識したサイトは、情報が整えられ、Googleからも高評価を得られます。クローラーがスムーズにクローリングができるよう、サイトマップの活用や内部リンクの整備、URLを簡素化したりといった、サイト作りの基本に帰ることが大切です。
大きなサイトであればあるほど、リンク切れページが目につきます。
リンク切れが多くあったりリンク先が適切でなかったりする場合、インデックスに登録されなくなります。しかしひとつひとつのリンクを一度に目視でチェックするのは手間なため、リンク切れのチェックツールの使用やこまめなリンクチェックなどを行いましょう。
サイトのクローラビリティを向上するには、表示速度も重要です。表示速度が遅いサイトは、サイト全体のクローリングが進まず評価されづらくなる環境になりかねません。表示速度もSEO効果を高める観点から監視したいところです。
クローリングはサイトのSEO効果を最大化するために無視できない存在です、あまり強く意識しているサイトオーナーは少ないかもしれません。円滑にクローリングができる環境をよく道筋をひとつずつ立てて、SEO効果を最大化させるサイト運営を目指しましょう。
サイト運営する上で、注意しなければいけないのがGoogleペナルティです。 Webサイトの流入が急に減った…そんな時、実はGoogleからペ…
Webサイトの記事が増えてくると起こる可能性のある問題が、キーワードのカニバリゼーション(共食い)です。あまり大きく取り上げられる概念ではな…
あなたは「パーマリンク」という言葉を耳にしたことはありますか? SEOを進めたことがある方であれば、一度は耳にしたことがあるパーマリンク。 …
サイトマップとは、「Webサイトの地図」のことで、サイト全体のページ構成を記述しています。サイトマップには、大きく2種類が存在しており、サイ…
SEOで上位表示をするためにも、おすすめしたいのがGoogleサーチコンソールのサイトマップ送信です。 Googleサーチコンソールにサイト…
Googleは、“Core Web Vitals(コアウェブバイタル)”と呼ばれる新たな指標を検索ランキング要因として追加しました。Core…