クローリングとは?スクレイピングとの違い、仕組みや対策方法について解説

クローリングとは?スクレイピングとの違い、仕組みや対策方法について解説

公開日:2022/11/25
 最終更新日:2023/12/29

ホームページを運営されている方であれば、SEO対策でクローリング(クローラー)とスクレイピングという言葉を聞いたことがあるのではないでしょうか。

本記事では、Googleなどの検索エンジンがサイトの情報収集に利用しているクローリングの種類や、その重要性を解説し、対策についてもあわせてご紹介していきます。

なお、ホームページ作成をご検討なら、Wepageをご検討ください。


01クローリングとは「プログラムがインターネットを巡回、情報を収集すること」

Googleなどの検索エンジンは、インターネット内の情報を収集するためのプログラムを有しています。
それらがウェブサイトの中を回遊するイメージから、水泳の泳法の1つ「クロール」が由来で「クローリング」と呼ばれています。

また、ページ内のリンクを辿りながら巡回するイメージから、情報収集を行うプログラムは「クローラー」と呼ばれるようになりました。
ウェブ(蜘蛛の巣)を巡回するという意味で「スパイダー」と呼ばれることもあります。

常に新しい情報が追加され、爆発的に情報が肥大化している現代のインターネット。
利用者に最新の検索結果を表示するために、クローラー(スパイダー)によるクローリング作業は必要不可欠になっています。

クローリングとはどういう意味?

1-1.クローラーとクローラビリティとは

ウェブサイトの情報収集を行う「クローラー」は、複数のプログラムで構成されています。
スマホアプリのように利用者がタップして起動するアプリとは異なります。

クローラーは、決められたルールに沿って自律的に、インターネットで稼働しているウェブサイト内のページを読み取り、その内容をデータベースに保存し続けます。
そのためボット(ロボット)と呼ばれることがあります。

検索エンジンは、クローラーが蓄えたデータベースを元にして、目録(インデックス)を作成します。
そしてそれらを元に、素早く検索結果が表示されるよう日々更新を行っています。

「クローラビリティ」は、クローラーが情報を収集しやすいウェブサイトの環境を整える手法です。
クローラーが活動しやすいサイトを構築して、検索結果を優位にするために使われます。

1-2.クローリングとスクレイピングとの違い

ウェブページの内容から、必要な情報を削り取る(スクレイプ:scrape)ことを「スクレイピング」と呼んでいます。

具体的には、クローラーがウェブサイトから収集した各ページのHTMLから、「タイトル」や「見出し」など、タグを利用して必要な情報を取得する作業、などが挙げられます。

クローリングで蓄えられた膨大な情報は、すべてが有用ではありません。
そのため、検索エンジンは無用な情報を削り取るように加工します。
その中の残った情報から、検索結果として表示するサイトの評価を行っています。

このように、集める「クローリング」と削る「スクレイピング」は、それぞれ異なる作業になっています。
ですが、収集した膨大な情報から必要な情報を得る流れとして、これらはセットで考えられています。

また、「クローリング・スクレイピング」の技術は、検索エンジン以外でも膨大な情報から必要な情報を抜き出す技術として、市場調査や販売戦略などのマーケテイングの世界でも利用されています。

1-3.クローリング対象のファイルの種類について

クローラーは、ウェブサイト内の様々なファイルを読み込んで情報収集を行います。
クローリングの対象になるファイルとしては、次のような形式が挙げられます。

  • HTMLファイル
  • PHPファイル
  • PDFファイル
  • JavaScriptファイル
  • CSSファイル
  • 画像(PNG、JPGなど)ファイル
  • 動画(MP4など)ファイル

非常に多くの形式が対象になりますが、クローラーによってHTMLファイルだけを対象にする場合や、画像や動画のリンク情報のみに限定するなど、特徴があります。

対象ファイルの中でも、HTMLやPHPなどテキストで構成されているファイルは特に重要です。
検索エンジンに対するSEO対策のためにも、クローラビリティを高めておく必要があります。

クローリングとはどういう意味?

02クローリングの重要性とは

クローリングの重要性とは

ウェブサイトにとって、多くの利用者に閲覧されることは重要な目的の1つです。

商用サイトであれば、自社商品やサービスを1人でも多くの人に知ってもらえることになります。
個人のブログでも、ページビュー(PV)が上がるということは、サイトを続けていくモチベーションを上げる要素になります。

実際には、サイトの集客力を上げるために重要になるのがクローリングです。
現代のインターネットでは、検索結果(それも上位)に挙がらなければ、利用者がサイトの存在を知る機会はなかなかありません。

そのため、検索結果に表示させるために、1秒でも早くウェブサイトをクローリングさせようと考えます。
そして、可能であれば優先的に読み込ませたいページをクローラーに伝えることが、サイトの集客力を上げる重要な作業になります。


03クローラーの種類

クローラーの種類とは

実際にウェブサイトのクローリングを行うのは、クローラーと呼ばれるプログラムです。

私たちがスマートフォンやパソコンの画面で操作するアプリケーションとは異なり、取り決められたルールに沿ってロボットのように休みなく、様々なウェブサイトから膨大な情報を収集しています。

クローラーは、検索エンジンやサービスを運営する会社が独自に開発していますが、日本ではGoogleとYahoo! JAPANの2社で、ほとんどのシェアを占めています。
また、Yahoo! JAPANは検索エンジンとしてGoogleを利用しているため、Googlebotとそれ以外という形で紹介します。

3-1.Googlebot(グーグルボット)

検索エンジンの最大手「Google」が利用しているクローラーです。
収集されたウェブサイトの情報は、Googleはもちろん、Yahoo JAPANの検索結果として活用されます。

Googlebotは画像検索用の「Googlebot-Image」や、動画検索用の「Googlebot-Video」、ニュース検索用の「Googlebot-News」など目的別に複数のクローラーがウェブサイトを巡回しています。

最近では、スマートフォン専用のクローラーなど、新しいGooglebotも準備されています。
詳しいクローラーの一覧は「Google クローラの概要」から確認できます。

日本では、検索エンジンのシェアがGoogleとYahoo! JAPANで91%(2022年 StatCounter調べ)を超えてしまいます。
そのため、Googlebotを意識したウェブサイトのクローラビリティが重要になります。

3-2.その他

マイクロソフトの検索エンジンBingが利用する「Bingbot」や、AppleのSiriやSpotlight検索に利用している「Applebot」などのクローラーも存在します。

また、検索エンジン以外にも、求人情報サービスを提供する「indeed」や、旅行比較サイトを提供している「トラベルコ」が、クローラーを稼働させてウェブサイトから情報提供を受けています。

求人情報や旅行サービスなど、ウェブサイトを特定のサービスに対応する場合には、Googlebot以外にもクローラビリティを意識した作業が必要になる場合があります。


04Googleのクローリングの仕組み

Googleのクローリングの仕組み

ホームページを運用する場合には、Googleのクローリングについて、より理解を深めておくべきでしょう。

ここでは、Googleのクローリングの仕組みや注意点について、以下の項目を詳しく解説します。

  • クローラーがページを検出してクローリングする
  • クローリング情報データを読み込む
  • 高頻度でクローリングしてもらう条件
  • クローラーに巡回させないページもある

それぞれの項目について理解すれば、より適切なクローリングを行い、検索順位によい影響を与えられるので、ぜひ覚えておきましょう。

4-1.クローラーがページを検出してクローリングする

主に以下の2つの方法を用いて、クローラーにページを検出してもらい、クローリングさせるのが一般的です。

  • インデックス済みのページに貼られたリンク先
  • 提供されたXMLサイトマップ

Googleのクローラーは、インデックスされているページに貼られたリンクを辿って新たにクローリングを行う特徴があります。
また、ページ内容について知らせるためのXMLサイトマップをこちらから送信することでも、クローラーはページを検出可能です。

Webサイトが世界で17億以上あるとされている中で、自社のページをクローラーに自発的に見つけてもらい、クローリングしてもらうのは困難かつ時間がかかります。

クローラーがページを検出させやすくする点においては、上記2つの方法が主流なので、ぜひ覚えておきましょう。

4-2.クローリング情報データを読み込む

クローラーは検出したページをクローリングし、記載されている以下のような情報データを読み込みます。

  • HTMLファイル
  • Google Earth
  • プログラミング言語のソースコード(C++・Java・Pythonなど)
  • WordやExcel
  • テキストファイル
  • 画像・動画

上記からわかるように、ホームページを構成するファイルなら、読み込んでくれるものと考えていいでしょう。

ただし、あくまで読み込むのはテキストデータであり、今時点では画像・動画を読み込んだとしてもどのようなものかをクローラーは理解することはできません

そのため、altタグのように表示されている画像の意味を説明するテキストを設置するのも、クローラーに正しく情報を読み込ませるコツになります。

4-3.高頻度でクローリングしてもらう条件

できるだけ高頻度でクローリングしてもらう方が、全ての情報を読み取ってもらいやすく、結果として評価にもつながると考えられます。

高頻度でのクローリングの条件は以下のとおりです。

  • 更新頻度
  • ホームページおよびコンテンツの質
  • ホームページの表示速度
  • ホームページの人気度

人気度は主に、アクセス数やクリック数、被リンク数などを総合的に評価しています。

人気の高いページは、常に情報の鮮度が保たれるよう、頻繁にクロールするとGoogleの公式でも提言しているほどです。
そのためには、コンテンツの質や表示速度を高めて、ユーザビリティの高い、ユーザーファーストなホームページを目指すべきでしょう。

4-4.クローラーに巡回させないページもある

では全てのページをクローリングしてもらうべきかと問われると、決してそうではありません。
特に、以下のようなページは、クローラーに巡回させない方が、結果として検索エンジンからの評価は高まります。

  • 会員・運営者限定ページ
  • テスト公開のページ
  • 個人情報や決済に関連するページ
  • 重要性の低いファイル

上記のようなページをクローリングすると、重複ページやサイトの質を低下させると誤認させてしまうものが含まれている場合もあります。

そのため、上記のようなページ・コンテンツを作成している場合には、「robots.txt」を用いて、クロールしないようにコントロールすることが必要です。


05Webサイトがきちんとクローリングされているかを確認する2つの方法

Webサイトがきちんとクローリングされているかを確認する2つの方法

クローラビリティ対策の作業後などは、ウェブサイトが正しくクローラーに情報が収集されているか、気になるところです。
ウェブサイトがクローリングされているかは、次の方法で確認できます。

5-1.GoogleSearchConsoleを使って確認

1つめは、Googleが用意しているツール「Google Search Console」を利用する方法です。
あらかじめウェブサイトを登録しておくと、[URL検査]画面に対象のURLを入力することで現在のクローリング状況を確認できます。

クローリングされていない場合でも、[インデックス登録をリクエスト]操作からクローリングを要求する機能もあります。

また、サイト全体のクローリング状況を[設定|クロールの統計情報]で表示されたレポート画面で確認できます。
サイトがクローリングされている場合には、[クロール リクエストの合計数]、[合計ダウンロード サイズ]や[平均応答時間]などが、数値やグラフで表示されます。

その他にも[クロールリクエストの詳細]画面で、レスポンス・ファイル形式・Googlebotのタイプなど、対象毎に詳しい内容が表示されます。
レポート内の[ページアクセス エラー]の数値は、サイト側のトラブルでクローラーが正しく情報収集ができていない場合の原因調査にも役立ちます。

クローリングの確認以外にも、「Google Search Console」にはウェブサイトのSEO対策として便利な機能が備わっています。
詳しい内容は下記記事で解説しておりますのでぜひご覧ください。

5-2.Webサーバーのログを確認

2つめの方法は、サーバー上に記録されるアクセスログ(生ログ)で確認する方法です。

アクセスログには、URLにアクセスされた時間や参照元などが記録されています。
そのため、Googlebotなどからのアクセスを検索して、クローリングされた形跡の調査ができます。

この方法は、サーバー上からファイルのダウンロードをしたり、テキスト検索を行ったりするなど、「Google Search Console」を使う方法より手間が必要になります。
ですが、より詳しいクローリングの状況確認が可能です。

例えば、アクセスログをキーワード[google.com]でテキスト検索すると、次のようなログが見つかります。

  • 66.249.77.63 - - [30/Sep/2022:23:26:09 +0900] "GET /sample.html HTTP/1.1" 200 13014 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.5195.125 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

最近では、Googlebotをなりすましたアクセスもあるため、見つかったログのIPアドレスをhostコマンドなどで参照元を調べる必要があります。
検索したログのURLやディレクトリなどを確認して、ウェブサイトへのクローリング状況を細かく確認できます。


06SEO効果UP!クローリング対策6選

SEO効果UP!クローリング対策6選

ウェブサイトをGoogleの検索結果に表示させるためには、クローラーにサイト情報を収集してもらう必要があります。

ただし、クローリングされるだけでは検索結果の上位には表示されにくいです。
そのため、クローリングしやすいサイトとしてSEO対策を行う必要があります。

下記の記事では、クローリング対策以外にも、サイトのSEO対策として重要なポイントをご紹介しています。

6-1.URL検査(GoogleSearchConsole)

Googlebot専用の対策になりますが、Google Search Consoleの「URL検査」画面で、新しく追加したURLのクローリング要求を行います。
具体的には「URL検査」画面で対象のURLを検索し、「インデックス登録をリクエスト」を行います。

ただし、リクエスト操作は次回のクローラーのスケジュールに追加してもらうための操作です。
すぐにクローリングが開始されるわけではないので、注意が必要です。

また、「URL検査」画面からのクローリングの要求操作は、URL単位で行う必要があります。
複数のURLを対象にしたクローリングには向いていません。

複数のURLやサイト単位でのクローリングの対策を行うには、次のサイトマップやRSSフィードを作成した方が効率的です。

6-2.サイトマップを作成する

サイトマップを作成する

クローラーの巡回を効率化するには、ウェブサイト内のURLをXML形式で一覧化(サイトマップ)したファイルを配置します。

クローラーはサイト内の基準となるページ(トップページやホームページ)を読み取ります。
そしてHTML内に設置されたリンク情報を頼りに、サイト内のページを移動しながら情報を収集していきます。

その際に、サイト内のすべてのページを網羅したサイトマップが用意されていると、効率的にクローリング作業が行われます。
また、ランディンページやミニサイトなど、他ページとリンクしてないページもサイトマップを使ってクローリングを受けられます

新しいURLの追加やサイトのリニューアルなど、サイトを更新した場合には、都度サイトマップも更新してクローリング対策をしましょう。

作成したサイトマップは、Google Search Consoleの「サイトマップ」画面からクローリングを要求できます。
サイトマップの作成に関する詳しい内容については、こちらをご覧ください。

6-3.RSSフィードを作成する

RSSフィードを作成する

RSSフィードは、ブラウザーやメーラーなどでサイトの更新情報を取得する際に使われています。

これを配置することでも、クローリングの対策が期待できます。

RSSフィードは、主にニュースサイトやブログ、ショッピングサイトで、サイトの更新情報を伝達する手段として利用されています。

サイトマップと同様に、クローラーはRSSフィードをサイトの更新情報として利用します。
そのため、サイトの更新情報としてRSSフィードを追加して、クローラビリティを高めることができます。

また、RSSフィードはGoogle Search Consoleの「サイトマップ」画面で、クローリングのリクエストとして指定が可能です。

6-4.WebSubを利用する

以前は、「PubSubHubbub」と呼ばれていた、サイトの更新をリアルタイムでクローラーに伝達する仕組みです。

WebSub は、RSSフィードと同様に、サイトの更新情報を伝達する仕組みのことです。
しかしRSSフィードと異なりWebSubは更新情報をリアルタイムで通知するため、クローラーへの伝達も速くなります。

WebSubをサイトで利用するには、PHP言語を使って実装を行う必要があります。
WordPressを利用している場合には「WebSub/PubSubHubbub」プラグインを利用して、手軽にWebSubを使ったクローリング対策ができます。

6-5.クローリングさせない

Google Search ConsoleのURL検査やサイトマップは、積極的にクローラーへの要求を行い、ウェブサイトの情報収集を効率化します。
それ以外にも、特定のURLをクローリングの対象から除外するというSEO対策があります。

例えば、エラー時に表示されるURLや、検索結果が無かった場合に表示されるページなどが、除外すべきURLに該当します。

これらのページは、利用者にとっては必要な情報が含まれています。
ですが、検索エンジンが有益な情報だと判断する内容は含まれないため、サイトの評価が下がる可能性があるのです。

そのため、robots.txtや.htaccessを利用して、特定のURLをクローリングから除外します。
例えば、robots.txtを使って特定のページを除外する場合には次の様に記載します。

  • User-agent: *
    Disallow: /no_index.html

このように、利用者に必要なコンテンツのすべてが検索エンジンの評価に有効に働くわけではありません。
そのためクローリング対策には細心の注意が必要です。


07SEO対策するならWepage

Wepage

最近のウェブサイト運営では、ウェブサイトの目的達成するためGoogleなどの検索エンジンの検索結果で上位表示を狙うSEO対策は必須になっています。

SEO対策では、サイトマップやRSSフィードなどで積極的にクローラーをウェブサイトに引き込む設定をする、反対にrobots.txtや.htaccessの設定で特定ページへのクローリングを抑制する、といった複雑な対応が求められます。

また、検索サービスも細分化されています。
動画や旅行、求人などの特定のサービスに特化した検索エンジンへのクローリング対策も必要になるケースが多くなってきています。

Wepageでは、IndeedやGoogleの求人検索などに対応したSEOに関する対策をサポートする機能をご用意しています。

SEO対策以外にも、ホームページのアクセス状況を確認するGoogle Analyticsとの連携や、不正ログインへの対応など、お客様の要望に応じて様々な機能をパッケージ化したプランを選択していただけます。

Wepageでは無料プランもご用意しておりますので、まずはお気軽にご利用ください!


08まとめ

今回は、Googlebotなどのクローラーがサイトの情報を収集するクローリングについてご紹介しました。
ホームページがGoogleの検索結果に表示されるのは、ウェブサイトに多くの集客を行う第一歩になります。

また、現代のウェブサイトではSEO対策として、検索エンジンのクローラーに最適化されたクローラビリティを高めておくことが、必要不可欠になっています。

そのためには、ページに表示される文章や画像以外にも、サイトマップや、RSSフィード、robots.txtなど、様々な手段を使って検索エンジンのクローリングに対応する必要があります。
ぜひ、ホームページの作成をする際に参考になさってください。

もしホームページの作成をご検討されている場合には、簡単な操作で作成ができる弊社の「Wepage」もご検討ください。
専門的な知識が必要なく直感的な操作でページを制作が可能です。

また、Wepageでは無料プランをご用意しておりますので、まずはお気軽にご利用ください!


関連記事



― Let's Share! ―