SEO/MEO対策

クロールバジェットの浪費を防ぐ|不要なページをクロールさせない方法

「新しい記事を公開してもなかなかインデックスされない」「サイトの規模が大きくなるにつれ、SEOの効率が悪くなっている気がする」——このような悩みを抱えているサイト運営者は少なくありません。

その原因の一つとして考えられるのが、クロールバジェットの浪費です。Googleのクローラーがサイトをクロールできる量には限りがあり、不要なページに多くのリソースを使ってしまうと、本当に重要なページのクロールが遅れてしまいます。

この記事では、クロールバジェットの基本概念から、浪費を防ぐための具体的な対策、大規模サイトでの最適化戦略まで、実践的なノウハウを徹底的に解説します。検索エンジンの仕組みを理解した上で、効率的なクロール環境を構築しましょう。

クロールバジェットとは?基本の理解

クロールバジェットの定義

クロールバジェット(Crawl Budget)とは、Googlebot(クローラー)が特定のサイトに対して、一定期間内にクロールできるページ数・リソース量の上限のことです。

Googleは世界中の無数のウェブサイトをクロールする必要があるため、各サイトに割り当てられるクロールリソースには限りがあります。この限られたリソースを「クロールバジェット」と呼びます。

クロールバジェットを構成する2つの要素

Googleの公式ドキュメントによると、クロールバジェットは以下の2つの要素で決まります。

1. クロールレート上限(Crawl Rate Limit)

サーバーに負荷をかけすぎないように設定される、クロールの速度制限です。

  • サーバーの応答速度が速い → クロールレートが上がる
  • サーバーの応答速度が遅い → クロールレートが下がる
  • サーバーエラー(5xx)が多い → クロールレートが大幅に下がる

2. クロール需要(Crawl Demand)

Googleがそのサイトをどれだけクロールしたいかという需要です。

  • 人気度:インターネット上で人気のあるURLはより頻繁にクロール
  • 鮮度:コンテンツが古くならないよう、定期的にクロール
  • サイト全体の変更:大規模な変更があるとクロール需要が増加

クロールバジェットが重要になるサイト

Googleは公式に「ほとんどのサイトでは、クロールバジェットを気にする必要はない」と述べています。では、どのようなサイトでクロールバジェットが重要になるのでしょうか。

クロールバジェットを意識すべきサイト

サイトの種類 ページ数の目安 理由
大規模サイト 1万ページ以上 全ページをクロールするのに時間がかかる
ECサイト 数千〜数万商品 商品ページ、カテゴリページ、フィルター結果が大量に生成
ニュースサイト 更新頻度が高い 新しいコンテンツを素早くインデックスする必要がある
動的生成サイト パラメータで無限生成 URLパラメータで大量のページが生成される
多言語サイト 言語数×ページ数 同一コンテンツの言語版が大量に存在

クロールバジェットをあまり気にしなくてよいサイト

  • ページ数が数百〜数千程度の小〜中規模サイト
  • 更新頻度が低い静的サイト
  • パラメータやフィルターによるページ生成がないサイト

クロールバジェットの浪費とは

クロールバジェットの浪費とは、SEOにとって価値のない(または低い)ページのクロールにリソースが使われ、重要なページのクロールが遅れる・されない状態のことです。

浪費の具体例

  • 検索結果ページやフィルター結果など、無限に生成されるページ
  • パラメータ違いで同一コンテンツが複数存在
  • インデックスすべきでない管理画面、テストページ
  • 低品質で価値のないページ
  • 404エラーページの大量クロール
  • 無限カレンダー、セッションID付きURL

クロールとインデックスの関係

検索エンジンの仕組みで解説しているように、ページが検索結果に表示されるまでには「クロール → インデックス → ランキング」というステップがあります。

クロールされなければインデックスされないため、クロールバジェットの最適化はインデックス登録の前提条件となります。

クロールバジェットの現状を把握する

Googleサーチコンソールでの確認方法

Googleサーチコンソールを使って、クロールの状況を確認しましょう。

クロールの統計情報の確認

  1. サーチコンソールにログイン
  2. 左メニュー「設定」→「クロールの統計情報」を選択
  3. 過去90日間のクロール状況が表示される

確認すべき指標

指標 内容 注目ポイント
クロールリクエストの合計 期間内のクロールリクエスト総数 急激な増減がないか
合計ダウンロードサイズ クロールしたデータ量 ページサイズの最適化状況
平均応答時間 サーバーの応答速度 遅い場合は改善が必要
ホスト ステータス クロールの可用性 エラーが発生していないか

クロールリクエストの内訳

「クロールリクエストの内訳」セクションでは、以下を確認できます。

  • レスポンス別:200(成功)、301/302(リダイレクト)、404(見つからない)、5xx(サーバーエラー)の割合
  • ファイルタイプ別:HTML、画像、CSS、JavaScript等の割合
  • 目的別:更新、検出の割合
  • Googlebotの種類別:スマートフォン用、PC用の割合

問題の兆候

  • 404エラーの割合が高い → 不要なURLへのクロールが多い
  • リダイレクトの割合が高い → リダイレクトチェーンの問題
  • 5xxエラーがある → サーバーの問題
  • 平均応答時間が長い(1秒以上)→ サーバー性能の問題

インデックスカバレッジレポートでの確認

インデックスカバレッジレポート(現在は「ページ」レポート)でも、クロール関連の問題を確認できます。

確認手順

  1. サーチコンソールで「ページ」レポートを開く
  2. 「インデックスに登録されなかった理由」を確認

クロール関連の主なステータス

ステータス 意味 対処
クロール済み – インデックス未登録 クロールされたがインデックスされなかった コンテンツ品質の改善
検出 – インデックス未登録 検出されたがクロールされていない クロールバジェット不足の可能性
クロールエラー クロール時にエラーが発生 サーバー・URL問題の修正
robots.txtによりブロック robots.txtでブロックされている 意図的かどうか確認

サーバーログの分析

より詳細な分析には、サーバーのアクセスログを確認します。

確認すべき項目

  • Googlebotのアクセス頻度・パターン
  • どのURLが頻繁にクロールされているか
  • クロールされていないURLはあるか
  • クロール時のHTTPステータスコード

ログ分析ツール

  • Screaming Frogのログファイル分析機能
  • Botify、DeepCrawlなどの専門ツール
  • ELK Stack(Elasticsearch、Logstash、Kibana)での自作分析

クロールバジェット浪費の主な原因

原因1:無限に生成されるURL

動的パラメータによって、無限または非常に多くのURLが生成されるケースです。

具体例

  • サイト内検索結果:/search?q=〇〇
  • フィルター・ソート結果:/products?color=red&size=L&sort=price
  • カレンダー:/calendar?year=2025&month=12 → 無限に過去・未来に遷移可能
  • セッションID:/page?sessionid=abc123
  • ページネーション:/blog?page=1, /blog?page=2, … /blog?page=1000

原因2:重複コンテンツ

重複コンテンツが大量に存在すると、同じコンテンツを何度もクロールすることになります。

具体例

  • wwwあり/なし:example.com と www.example.com
  • http/https:http://example.com と https://example.com
  • 末尾スラッシュ:/page と /page/
  • 大文字/小文字:/Page と /page
  • パラメータ順序:?a=1&b=2 と ?b=2&a=1
  • トラッキングパラメータ:?utm_source=google&utm_medium=cpc

原因3:低品質・価値のないページ

インデックスすべきでない低品質なページがクロールされているケースです。

具体例

  • タグページ、アーカイブページ(コンテンツが薄い)
  • コメントページ、リプライページ
  • 印刷用ページ、PDF版ページ
  • テストページ、開発中ページ
  • 管理画面、ログインページ
  • エラーページ(404、500)

原因4:ソフト404エラー

存在しないページが200(成功)ステータスを返す「ソフト404」は、Googlebotを混乱させ、クロールバジェットを浪費します。

ソフト404の例

  • 「ページが見つかりません」と表示されるが、HTTPステータスは200
  • 空のコンテンツだが、ステータスは200
  • 検索結果ゼロのページ

原因5:ファセットナビゲーション

ECサイトなどで使われるファセットナビゲーション(絞り込み検索)は、大量のURL組み合わせを生成します。

例:アパレルECの場合

  • カテゴリ:メンズ、レディース、キッズ(3種類)
  • カラー:10色
  • サイズ:5サイズ
  • 価格帯:5段階
  • ソート:5種類

組み合わせ:3 × 10 × 5 × 5 × 5 = 3,750パターン × 基本商品カテゴリ数

原因6:リダイレクトチェーン

リダイレクトが連鎖(チェーン)していると、1つのページをクロールするのに複数のリクエストが必要になります。

A → B → C → D(目的のページ)
→ 1ページのクロールに4リクエストが必要

原因7:大きすぎるページサイズ

ページサイズが大きいと、クロールに時間がかかり、クロールバジェットを圧迫します。

問題となるケース

  • 巨大な画像ファイル
  • 最適化されていないJavaScript/CSS
  • 不要なコードの肥大化

原因8:サーバーの応答速度が遅い

サーバーダウンや応答速度の低下は、クロールレートを下げる原因になります。

影響

  • 応答が遅い → クロールレート上限が下がる → 結果的にクロールバジェット減少
  • サーバーエラーが頻発 → クロールが抑制される

クロールバジェット浪費を防ぐ具体的な対策

対策1:robots.txtでクロールをブロック

robots.txtを使って、クロールすべきでないURLパターンをブロックします。

基本構文

User-agent: *
Disallow: /search
Disallow: /admin/
Disallow: /*?sessionid=
Disallow: /*?sort=
Disallow: /*?filter=

ブロックすべきURLの例

URL種類 robots.txt設定
サイト内検索結果 Disallow: /search
管理画面 Disallow: /admin/
ログイン関連 Disallow: /login
カート・決済 Disallow: /cart
セッションID付き Disallow: /*?sessionid=
ソートパラメータ Disallow: /*?sort=
印刷用ページ Disallow: /*?print=

注意点

  • robots.txtでブロックしても、外部リンクがあるとURLだけがインデックスされることがある
  • 完全にインデックスさせたくない場合はnoindexと併用
  • 変更後はサーチコンソールのrobots.txtテスターで検証

対策2:noindexタグの活用

noindexタグは、クロールは許可するがインデックスはさせない設定です。

使い分け

目的 robots.txt noindex
クロールさせない(バジェット節約) ×
インデックスさせない
両方 ○(併用)

noindexが適切なケース

  • タグページ、アーカイブページ
  • サンクスページ、完了ページ
  • 重複コンテンツページ(canonicalと併用も検討)
  • 一時的なキャンペーンページ

実装例

<meta name="robots" content="noindex, follow">

「noindex, follow」は、インデックスはさせないが、ページ内のリンクは辿ることを許可する設定です。

対策3:canonicalタグで正規URLを指定

canonicalタグを使って、重複コンテンツの正規版を明示します。

実装例

<!-- パラメータ付きURLから、パラメータなしURLを正規版として指定 -->
<link rel="canonical" href="https://example.com/products/item-001/">

canonicalが有効なケース

  • ソート順の違い(?sort=price, ?sort=name)
  • トラッキングパラメータ付きURL
  • 同一商品の色違いページ(場合による)
  • 印刷用ページ

注意点

  • canonicalはヒントであり、Googleが必ず従うわけではない
  • 明らかに別コンテンツにcanonicalを設定しない
  • 相対URLではなく絶対URLを使用

対策4:URLパラメータの処理

パラメータ付きURLの処理を適切に行うことで、クロールの効率化が可能です。

パラメータの種類と対処法

パラメータの種類 推奨対処
ソート順 ?sort=price canonical、robots.txt
フィルター ?color=red canonical、noindex
ページネーション ?page=2 rel=”prev/next”(非推奨)、noindex
トラッキング ?utm_source=google canonical
セッション ?sessionid=abc robots.txt、URLから除去

URLパラメータツール(廃止済み)

以前はサーチコンソールに「URLパラメータツール」がありましたが、現在は廃止されています。代わりに、robots.txt、canonical、noindexを組み合わせて対処します。

対策5:ページネーションの最適化

ページネーションのSEO対策はクロールバジェットにも影響します。

対策オプション

  • 無限スクロール + 静的ページ:ユーザーには無限スクロール、Googlebotには静的ページを提供
  • 「もっと見る」ボタン:ページネーションではなく、同一ページで追加読み込み
  • 2ページ目以降をnoindex:1ページ目のみインデックス
  • View All ページ:全件表示ページを作成し、canonicalを設定

ベストプラクティス

  1. 1ページ目は必ずインデックス対象
  2. 2ページ目以降は状況に応じてnoindexまたはcanonical
  3. ページ番号が極端に多い場合は、カテゴリ分割を検討

対策6:サイト構造の最適化

サイト構造設計を改善し、クローラーが効率的に巡回できるようにします。

最適化のポイント

  • フラットな構造:重要なページはトップから2〜3クリック以内
  • 明確な階層構造:カテゴリ → サブカテゴリ → 詳細ページ
  • 内部リンクの充実:関連ページ同士をリンク
  • 孤立ページの解消:どこからもリンクされていないページをなくす

クローラビリティを高める方法も参考にしてください。

対策7:XMLサイトマップの最適化

XMLサイトマップを適切に設定することで、Googleに重要なページを明示できます。

最適化のポイント

  • インデックスさせたいページのみ含める:noindexページ、robots.txtでブロックしているページは含めない
  • lastmodを正確に設定:実際の更新日を反映
  • サイトマップを分割:大規模サイトでは種類別(商品、ブログ、カテゴリ等)に分割
  • サイトマップインデックス:複数サイトマップをまとめるインデックスファイルを作成

サイトマップの例

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/products/item-001/</loc>
    <lastmod>2025-01-10</lastmod>
  </url>
</urlset>

対策8:404エラーの適切な処理

存在しないURLが大量にクロールされている場合は、対処が必要です。

対処法

  • 正しい404ステータスを返す:ソフト404を解消
  • リダイレクト:削除したページは類似ページに301リダイレクト
  • 外部リンクの修正依頼:可能であれば、誤ったURLへのリンクを修正してもらう
  • robots.txtでブロック:特定パターンの不要URLをブロック

対策9:リダイレクトチェーンの解消

リダイレクトチェーン(A→B→C)を、直接リダイレクト(A→C)に修正します。

確認方法

  1. Screaming Frogでサイトをクロール
  2. 「Redirect Chains」レポートを確認
  3. チェーンになっているリダイレクトを特定

修正方法

  • .htaccessまたはリダイレクトプラグインで、直接最終URLにリダイレクト
  • 中間のリダイレクトを削除

対策10:サーバー応答速度の改善

ページ表示速度を改善することで、クロールレート上限が向上します。

改善施策

サイト種類別のクロールバジェット最適化戦略

ECサイトの場合

ECサイトのSEO対策において、クロールバジェットは特に重要な課題です。

ECサイト特有の問題

  • ファセットナビゲーション:色、サイズ、価格帯などの組み合わせで大量のURL生成
  • 商品バリエーション:同一商品の色違い、サイズ違いページ
  • 在庫切れページ:販売終了商品のページが残存
  • ソート・フィルター:並び替え、絞り込みのパラメータ

対策の優先順位

  1. ファセットナビゲーションの制御
    • 主要なフィルター組み合わせのみインデックス対象
    • それ以外はrobots.txtでブロックまたはnoindex
    • JavaScriptでフィルターを実装し、URLを変更しない方法も検討
  2. 商品バリエーションの統合
    • 色違い・サイズ違いは1つの商品ページに統合
    • または、代表バリエーションにcanonicalを集約
  3. 在庫切れ商品の処理
    • 一時的な在庫切れ:ページを維持、在庫切れ表示
    • 完全な販売終了:類似商品へリダイレクトまたは404
  4. ソートパラメータの処理
    • すべてのソート結果からデフォルトソートにcanonical
    • または、robots.txtでソートパラメータをブロック

ECサイト向けrobots.txt例

User-agent: *
# ファセットナビゲーション
Disallow: /*?color=
Disallow: /*?size=
Disallow: /*?price=
Disallow: /*?brand=

# ソート・表示件数
Disallow: /*?sort=
Disallow: /*?order=
Disallow: /*?per_page=

# カート・決済
Disallow: /cart
Disallow: /checkout
Disallow: /my-account

# 検索
Disallow: /search

# 複合パラメータ(&を含むURL)
Disallow: /*?*&*

Sitemap: https://example.com/sitemap.xml

ニュースサイト・メディアサイトの場合

ニュースサイトでは、新しい記事を素早くインデックスさせることが特に重要です。

特有の問題

  • 記事の大量生成:毎日多数の記事が公開される
  • アーカイブページ:日付別、カテゴリ別、著者別など多数存在
  • タグページ:タグの組み合わせで大量生成
  • コメントページ:記事へのコメントがページ化

対策

  1. アーカイブページの制御
    • 日付アーカイブはnoindexに
    • 著者ページは重要な著者のみインデックス
  2. タグページの整理
    • 記事数が少ないタグはnoindex
    • 類似タグの統合
  3. XMLサイトマップの活用
    • News Sitemapの導入
    • 新着記事を優先的にクロールさせる
  4. ページネーションの処理
    • 一覧ページの2ページ目以降はnoindex

多言語サイトの場合

多言語サイトのSEO対策では、言語版ごとにページが増えるため、クロールバジェットへの配慮が必要です。

特有の問題

  • ページ数の倍増:10言語対応なら単純計算で10倍のページ数
  • 未翻訳ページ:一部言語でコンテンツがない場合
  • 重複コンテンツ:自動翻訳による低品質な翻訳ページ

対策

  1. hreflangタグの正確な実装
    • hreflangタグで言語版の関係を明示
    • Googleが効率的に各言語版をクロール
  2. 未翻訳ページの処理
    • 翻訳版がない言語へのリンクを非表示
    • または、デフォルト言語にリダイレクト
  3. 言語別XMLサイトマップ
    • 言語ごとにサイトマップを分割
    • 各言語のコンテンツ状況を把握しやすくする

大規模コーポレートサイトの場合

大企業のコーポレートサイトでは、部門ごとのコンテンツが蓄積し、肥大化しがちです。

特有の問題

  • 古いコンテンツの蓄積:過去のプレスリリース、イベント情報
  • 部門別サイト:各部門が独自にコンテンツを追加
  • PDFファイルの大量存在:資料、レポートのPDF

対策

  1. 古いコンテンツの整理
    • 価値のないページは削除またはnoindex
    • リライトで最新化できるものは更新
  2. PDFの最適化
    • 重要なPDFは専用HTMLページを作成
    • 不要なPDFはrobots.txtでブロック
  3. サブドメイン/サブディレクトリの整理
    • 不要になったサブドメインの整理
    • サイト構造の見直し

高度なクロールバジェット最適化テクニック

動的レンダリングの活用

JavaScriptサイトの場合、動的レンダリング(Dynamic Rendering)を活用することで、クローラーの負荷を軽減できます。

仕組み

  1. ユーザーからのリクエスト → 通常のJavaScript版を返す
  2. Googlebotからのリクエスト → 事前にレンダリングした静的HTML版を返す

メリット

  • Googlebotがレンダリングする必要がなくなり、クロール効率が向上
  • JavaScriptレンダリングの問題を回避

注意点

  • クローキングにならないよう、コンテンツは同一にする
  • Googleは将来的にSSRを推奨としており、動的レンダリングは暫定的な解決策

クロール優先度の制御

重要なページを優先的にクロールさせるためのテクニックです。

内部リンク構造による制御

  • 重要なページへのリンクを増やす:トップページ、グローバルナビ、サイドバーからリンク
  • 不要なページへのリンクを減らす:フッターの肥大化を避ける
  • リンクの位置:ページ上部のリンクが優先されやすい

XMLサイトマップでの優先度

XMLサイトマップの<priority>タグは、Googleによると「あまり考慮されない」とされていますが、lastmodは重要です。

  • lastmodを正確に:更新されたページは新しい日付を設定
  • 頻繁に更新されるページ:サイトマップも頻繁に更新

クロール頻度のモニタリングと分析

定期的にクロール状況をモニタリングし、問題を早期に発見します。

モニタリング項目

項目 確認頻度 ツール
クロールの統計情報 週次 サーチコンソール
インデックス状況 週次 サーチコンソール
サーバーログ 月次 ログ分析ツール
クロールエラー 週次 サーチコンソール

異常の兆候

  • クロール数の急激な減少
  • 404エラーの増加
  • 新しいページのインデックスが遅い
  • 重要なページがインデックスされない

A/Bテストとクロールバジェット

A/Bテストを行う際、クロールバジェットへの影響を考慮する必要があります。

注意点

  • テストバリエーションをGooglebotに見せると、重複コンテンツと判断される可能性
  • URLを変えるA/Bテストは、ページ数が増加しクロールバジェットを消費

推奨アプローチ

  • サーバーサイドでのA/Bテスト
  • Googlebotには常にオリジナル版を表示
  • canonicalタグでオリジナルを指定

WordPressサイトでのクロールバジェット最適化

WordPressで発生しやすい問題

WordPressのSEO設定において、クロールバジェット関連の問題が発生しやすいポイントです。

よくある問題

  • タグ・カテゴリアーカイブ:大量のタグページが生成
  • 日付アーカイブ:年/月/日ごとのアーカイブページ
  • 著者アーカイブ:著者ごとの記事一覧
  • 添付ファイルページ:画像ごとにページが生成
  • ページネーション:/page/2/, /page/3/…の大量生成
  • 検索結果:/?s=〇〇の無限パターン

SEOプラグインでの対策

Yoast SEOの場合

Yoast SEOで以下の設定を行います。

  1. 「検索での見え方」→「タクソノミー」
    • タグアーカイブを「検索結果に表示しない」(noindex)に設定
  2. 「検索での見え方」→「アーカイブ」
    • 日付アーカイブを「無効化」または「noindex」
    • 著者アーカイブを「無効化」(単一著者の場合)
  3. 「検索での見え方」→「メディア」
    • 添付ファイルページを「添付ファイルURLを添付先にリダイレクト」に設定

All in One SEOの場合

All in One SEOでも同様の設定が可能です。

Rank Mathの場合

Rank Mathでは、より細かい制御が可能です。

functions.phpでの制御

プラグインを使わずに、functions.phpでも制御できます。

// 検索結果をnoindexに
function add_noindex_to_search() {
    if (is_search()) {
        echo '<meta name="robots" content="noindex, follow">';
    }
}
add_action('wp_head', 'add_noindex_to_search');

// 日付アーカイブを無効化
function disable_date_archives() {
    if (is_date()) {
        wp_redirect(home_url('/'));
        exit();
    }
}
add_action('template_redirect', 'disable_date_archives');

robots.txtの設定

WordPressのrobots.txt例:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /?s=
Disallow: /search/
Disallow: /*?replytocom=
Disallow: /tag/*/page/
Disallow: /category/*/page/

Sitemap: https://example.com/sitemap_index.xml

クロールバジェット最適化のチェックリスト

初期診断チェックリスト

現状把握

  • □ サーチコンソールで「クロールの統計情報」を確認
  • □ 「ページ」レポートでインデックス状況を確認
  • □ site:検索でインデックス数を確認
  • □ 実際のページ数とインデックス数を比較

問題の特定

  • □ 404エラーの割合を確認
  • □ リダイレクトの割合を確認
  • □ 「検出 – インデックス未登録」のページを確認
  • □ 重複コンテンツの有無を確認
  • □ パラメータ付きURLの状況を確認

対策実施チェックリスト

robots.txt

  • □ 不要なディレクトリをブロック
  • □ 検索結果ページをブロック
  • □ パラメータ付きURLをブロック
  • □ robots.txtテスターで検証

noindex設定

  • □ タグ・アーカイブページをnoindex
  • □ 薄いコンテンツのページをnoindex
  • □ 重複ページをnoindex(またはcanonical)

canonical設定

  • □ パラメータ違いページにcanonical
  • □ 正規URLへの統一
  • □ 自己参照canonicalの確認

XMLサイトマップ

  • □ インデックス対象ページのみ含める
  • □ noindexページを除外
  • □ lastmodを正確に設定
  • □ サーチコンソールで送信

サイト構造

  • □ リダイレクトチェーンを解消
  • □ 404エラーの処理
  • □ 内部リンク構造の最適化

定期メンテナンスチェックリスト

週次

  • □ サーチコンソールでクロールエラーを確認
  • □ 新規ページのインデックス状況を確認

月次

  • □ クロールの統計情報の推移を確認
  • □ インデックス数の推移を確認
  • □ 新たな重複コンテンツがないか確認

四半期

  • Screaming Frogで全体診断
  • □ robots.txtの内容見直し
  • □ XMLサイトマップの内容確認
  • □ 不要になったコンテンツの整理

よくある質問(FAQ)

Q1: クロールバジェットは具体的に何ページですか?

A: Googleはクロールバジェットの具体的な数値を公開していません。サイトの規模、品質、更新頻度、サーバー性能などによって動的に決まります。サーチコンソールの「クロールの統計情報」で、実際のクロール数を確認できます。

Q2: 小規模サイトでもクロールバジェットを気にすべきですか?

A: 数百〜数千ページ程度の小〜中規模サイトでは、通常クロールバジェットを気にする必要はありません。ただし、パラメータで大量のURLが生成される場合や、重複コンテンツが多い場合は対策が必要です。

Q3: robots.txtでブロックするのとnoindexを設定するのは何が違いますか?

A: robots.txtはクロール自体をブロックするため、クロールバジェットを節約できます。noindexはクロールは許可するがインデックスはさせない設定です。外部からリンクされているページは、robots.txtでブロックしてもURLだけがインデックスされることがあるため、確実にインデックスさせたくない場合はnoindexを使用します。

Q4: クロールバジェットを増やすことはできますか?

A: 直接的に「増やす」ことはできませんが、以下の施策でクロールレート上限を高めることができます。①サーバーの応答速度を改善、②サーバーエラーを解消、③サイト全体の品質を向上、④被リンクを増やし人気度を上げる。

Q5: XMLサイトマップのpriority(優先度)は効果がありますか?

A: Googleは公式に「priorityはあまり考慮しない」と述べています。lastmod(最終更新日)の方が重要です。priorityを設定するより、不要なページをサイトマップから除外することに注力しましょう。

Q6: 「検出 – インデックス未登録」が多いのはクロールバジェットの問題ですか?

A: 必ずしもそうとは限りません。「検出 – インデックス未登録」は、URLは検出されたがまだクロールされていない状態を示します。原因として、①クロールバジェット不足、②ページの優先度が低い、③サイト構造の問題(内部リンクがない)、などが考えられます。重要なページがこの状態にある場合は、内部リンクの強化やXMLサイトマップへの追加を検討してください。

Q7: サイトリニューアル時にクロールバジェットで注意すべきことは?

A: サイトリニューアル時のSEO対策を参照してください。特に、①旧URLから新URLへの301リダイレクト設定、②リダイレクトチェーンを避ける、③XMLサイトマップの更新、④不要になったページの整理、が重要です。

Q8: JavaScriptサイトはクロールバジェットに影響しますか?

A: はい、影響します。JavaScriptサイトのSEO対策で解説していますが、Googlebotは2段階(クロール→レンダリング)でJavaScriptを処理するため、通常のHTMLサイトより多くのリソースを消費します。SSR(サーバーサイドレンダリング)の導入を検討してください。

まとめ:クロールバジェットの最適化でSEO効率を最大化

クロールバジェットの最適化は、特に大規模サイトにおいてSEOの成功に直結する重要な施策です。本記事で解説した内容をまとめると、以下のポイントが重要です。

クロールバジェット最適化の基本原則

  1. まず現状を把握する
  2. 不要なクロールを排除する
  3. 重要なページを優先させる
    • 内部リンク構造の最適化
    • XMLサイトマップの整備
    • サイト構造の改善
  4. サーバー性能を向上させる
  5. 継続的にモニタリングする
    • 定期的なクロール状況の確認
    • 問題発生時の早期対応

今日から始められるアクション

  1. 現状確認:サーチコンソールの「クロールの統計情報」を確認し、問題がないかチェック
  2. robots.txt確認:現在のrobots.txtの内容を確認し、不要なURLがブロックされているか確認
  3. インデックス状況確認:「ページ」レポートで「検出 – インデックス未登録」のページを確認
  4. サイトマップ確認:XMLサイトマップにnoindexページが含まれていないか確認
  5. 優先度の高い問題から対処:404エラー、リダイレクトチェーン、重複コンテンツの順に対処

クロールバジェットの最適化は、テクニカルSEOの重要な要素です。インデックス登録の問題や、インデックスから消えた記事の復活と併せて対策することで、サイト全体のSEO効率を最大化できます。

クロールバジェットの問題でお困りの方や、大規模サイトのテクニカルSEO診断をご希望の方は、ぜひOMNIWEBにご相談ください。サイトの規模や特性に応じた最適なクロール戦略をご提案いたします。

    ご希望サービスをすべてお選びください 必須

    業種 必須

    お名前 必須

    電話番号 必須

    メールアドレス 必須

    ご要望があれば内容をご記入ください

    使用したい写真は公式LINEよりお送りください

    タップ → @763qkbqf

    関連記事