「同じ内容のページが複数あると、SEOに悪影響がある?」
「重複コンテンツはペナルティを受けるの?」
「どうやって重複コンテンツを見つけて対処すればいい?」
重複コンテンツ(コピーコンテンツ)は、SEOに取り組む上で避けて通れない問題です。同じ内容のコンテンツが複数存在すると、検索エンジンがどのページを評価すべきか混乱し、検索順位に悪影響を与える可能性があります。
しかし、重複コンテンツは意図せずして発生することも多く、知らないうちにSEO上の問題を抱えているサイトも少なくありません。
本記事では、重複コンテンツとは何かをわかりやすく解説します。SEOへの影響、発生原因、見つけ方から具体的な対処法まで、重複コンテンツ対策に必要な知識を網羅的にお伝えします。
重複コンテンツとは
まず、重複コンテンツの基本的な定義と種類を理解しましょう。
重複コンテンツの定義
重複コンテンツ(Duplicate Content)とは、同一または非常に類似した内容のコンテンツが、複数のURLで存在している状態を指します。
Googleの公式定義によると、「1つのサイト内または複数のサイト間で、他のコンテンツと完全に同じか非常に似通った内容を持つコンテンツのブロック」とされています。
具体例として、同じ記事が「http://」と「https://」の両方でアクセスできる、「www.あり」と「www.なし」で同じページが表示される、パラメータ違いで同じコンテンツが複数URLで存在する、他サイトから記事をコピーして掲載する、自サイト内で同じ内容のページを複数作成するなどがあります。
重複コンテンツの種類
重複コンテンツは、大きく分けて以下の種類があります。
サイト内重複(Internal Duplicate)として、同一サイト内で同じコンテンツが複数のURLで存在する状態です。技術的な原因で意図せず発生することが多いです。
サイト外重複(External Duplicate)として、異なるドメイン間で同じコンテンツが存在する状態です。コンテンツの盗用(スクレイピング)や、許可を得たコンテンツのシンジケーション(配信)などがあります。
完全一致重複として、コンテンツが完全に同一の状態です。
類似重複(Near-Duplicate)として、コンテンツの大部分が同じで、一部のみ異なる状態です。例えば、商品名だけが異なる商品ページなどがこれに該当します。
重複コンテンツと「コピペ」の違い
重複コンテンツとコピペ(盗用)は、似ているようで異なる概念です。
重複コンテンツは、意図的・非意図的に関わらず、同じコンテンツが複数存在する状態を指します。技術的な問題で発生することも多いです。
コピペ・盗用は、他者のコンテンツを無断でコピーして使用する行為です。著作権侵害にもなり得る、明確に問題のある行為です。
Googleは、技術的な理由による重複コンテンツと、意図的なコピーを区別して対応しています。
重複コンテンツがSEOに与える影響
重複コンテンツがSEOにどのような影響を与えるのかを解説します。
Googleの公式見解
Googleは、重複コンテンツについて以下のような見解を示しています。
ペナルティではなく「評価の分散」が問題として、Googleは、重複コンテンツの存在自体でペナルティを与えることはないと明言しています。ただし、検索結果の操作を目的とした悪質な重複コンテンツは、スパムとして対処される可能性があります。
技術的な重複は「想定内」として、Googleは、Webの構造上、重複コンテンツは一定程度存在することを理解しており、大部分のケースでは自動的に対処しています。
SEOへの具体的な悪影響
重複コンテンツがSEOに与える悪影響には、以下のようなものがあります。
影響1:評価の分散(リンクジュースの分散)として、同じコンテンツが複数のURLで存在すると、被リンクの評価が分散してしまいます。本来1つのURLに集中すべき評価が、複数のURLに分かれることで、どのURLも上位表示されにくくなります。
影響2:クロールバジェットの浪費として、Googleのクローラーが重複したページを何度もクロールすることで、クロールバジェット(クロールの割り当て)が無駄に消費されます。大規模サイトでは、本来クロールすべき重要なページがクロールされにくくなる可能性があります。
影響3:意図しないページのインデックスとして、Googleが重複コンテンツの中から「正規のURL」を選択しますが、必ずしも運営者が意図したURLが選ばれるとは限りません。意図しないURLがインデックスされ、検索結果に表示される可能性があります。
影響4:検索結果での競合として、同じサイト内の重複ページが、検索結果で互いに競合してしまう「カニバリゼーション」が発生する可能性があります。
ペナルティを受けるケース
通常の重複コンテンツではペナルティを受けませんが、以下のような悪質なケースでは対処される可能性があります。
ペナルティの対象となり得るケースとして、検索結果を操作する目的で大量の重複ページを作成、他サイトのコンテンツを無断でコピーして大量に掲載、自動生成された低品質な重複コンテンツの大量公開などがあります。
これらは「スパム」と見なされ、Googleサーチコンソールでの手動対策(ペナルティ)の対象となる可能性があります。
重複コンテンツが発生する原因
重複コンテンツが発生する主な原因を理解しましょう。意図せずして重複が発生しているケースも多くあります。
原因1:URLの正規化ができていない
最も一般的な原因が、URLの正規化ができていないことです。
具体例として、「http://」と「https://」の両方でアクセス可能、「www.あり」と「www.なし」の両方でアクセス可能、末尾の「/」(スラッシュ)の有無、「index.html」の有無、大文字・小文字の違いなどがあります。
これらは技術的には異なるURLですが、同じコンテンツを表示するため、重複コンテンツとなります。
原因2:URLパラメータ
URLパラメータによって、同じコンテンツが複数のURLで存在することがあります。
具体例として、
・example.com/product?color=red
・example.com/product?color=blue
・example.com/product?color=red&size=m
・example.com/product?utm_source=twitter
セッションID、トラッキングパラメータ、並び替えパラメータ、フィルターパラメータなどが、意図しない重複コンテンツを生み出す原因になります。
原因3:印刷用ページ・モバイル用ページ
印刷用ページやモバイル用ページが、別URLで存在する場合に重複が発生します。
具体例として、
・example.com/article (通常ページ)
・example.com/article/print (印刷用ページ)
・m.example.com/article (モバイル用ページ)
現在はレスポンシブデザインが主流ですが、過去に作成されたモバイル用の別URLが残っているケースもあります。
原因4:同じ商品の複数ページ(ECサイト)
ECサイトでは、同じ商品が複数のカテゴリに属することで、重複ページが発生しやすいです。
具体例として、
・example.com/mens/shoes/sneaker001
・example.com/brand/nike/sneaker001
・example.com/sale/sneaker001
同じ商品が、カテゴリ別、ブランド別、セール用など、複数のURLで存在することがあります。
原因5:ページネーション
一覧ページのページネーション(ページ分割)も、類似重複コンテンツの原因になることがあります。
具体例として、
・example.com/blog (1ページ目)
・example.com/blog/page/2 (2ページ目)
・example.com/blog/page/3 (3ページ目)
ヘッダーやサイドバーなどの共通部分が多いと、類似コンテンツと見なされる可能性があります。
原因6:コンテンツシンジケーション
同じコンテンツを複数のサイトに配信する「シンジケーション」も、重複コンテンツの原因になります。
具体例として、プレスリリースの配信、ニュース記事の転載、アフィリエイトサイトでの商品説明、パートナーサイトへのコンテンツ提供などがあります。
原因7:コンテンツの盗用(スクレイピング)
悪意のある第三者が、自サイトのコンテンツを無断でコピーすることで、外部に重複コンテンツが発生します。
スクレイピングの問題として、自サイトのコンテンツが他サイトにコピーされると、最悪の場合、コピーした側が先にインデックスされ、オリジナルが「重複」と見なされる可能性もあります。
重複コンテンツの見つけ方
重複コンテンツを発見するための方法を解説します。
方法1:Googleサーチコンソールで確認
Googleサーチコンソールは、重複コンテンツの発見に役立ちます。
確認方法として、「インデックス」→「ページ」を選択、「ページがインデックスに登録されなかった理由」を確認、「重複しています」と表示されているページをチェックします。
確認できる項目として、「重複しています。ユーザーが選択した正規URLがあります」(canonical指定あり)、「重複しています。Googleが選択した正規URLがこのページと異なります」(canonical指定なしでGoogleが選択)、「重複しています。正規URLとしてGoogleが選択しました」などがあります。
方法2:site:検索で確認
Googleの「site:」検索を使って、インデックス状況を確認できます。
確認方法として、Google検索で「site:example.com」と検索、インデックスされているページ数を確認、重複の疑いがあるURLがないかチェックします。
特定のコンテンツの重複確認として、「site:example.com “特定のフレーズ”」と検索すると、同じフレーズを含むページを抽出できます。
方法3:重複チェックツールを使用
重複コンテンツを検出する専用ツールを活用できます。
代表的なツールとして、Screaming Frog SEO Spider(サイト内重複の検出)、Siteliner(サイト内の類似コンテンツ検出)、Copyscape(外部との重複検出)、CopyContentDetector(日本語対応の重複チェック)などがあります。
方法4:SEOツールで確認
Ahrefs、SEMrush、MozなどのSEOツールでも、重複コンテンツを検出できます。
確認できる項目として、重複タイトル、重複メタディスクリプション、重複コンテンツの検出、canonical設定の確認などがあります。
方法5:手動でURL変形を確認
自サイトのURLを手動で変形させて、重複がないか確認します。
確認すべきパターンとして、http:// と https://<、www.あり と www.なし、末尾の / あり と なし、index.html あり と なし、大文字 と 小文字などがあります。
それぞれのURLにアクセスして、同じコンテンツが表示されるか、正しくリダイレクトされるかを確認します。
重複コンテンツの対処法
重複コンテンツを発見したら、適切に対処する必要があります。主な対処法を解説します。
対処法1:canonicalタグの設定
最も一般的な対処法が、canonicalタグ(rel=”canonical”)の設定です。
canonicalタグとはとして、重複するページの中で「正規のURL(優先して評価してほしいURL)」を検索エンジンに伝えるためのHTMLタグです。
設定方法として、重複しているすべてのページのhead内に、以下のタグを設置します。
<link rel="canonical" href="https://example.com/正規のURL" />
設定例:
・example.com/product?color=red
・example.com/product?color=blue
・example.com/product
上記がすべて同じ商品ページの場合、すべてのページに以下を設置します。<link rel="canonical" href="https://example.com/product" />
注意点として、canonicalはあくまで「ヒント」であり、Googleが必ず従うとは限りません。301リダイレクトの方が確実です。
対処法2:301リダイレクト
301リダイレクトは、重複ページから正規ページへ恒久的にリダイレクトする方法です。
301リダイレクトとはとして、「このURLは恒久的に移動しました」というHTTPステータスコードです。ユーザーも検索エンジンも、自動的に正規URLに転送されます。
設定方法(.htaccessの例)として、Redirect 301 /old-page https://example.com/new-page
適用すべきケースとして、http → https の統一、www.あり/なし の統一、古いURLから新しいURLへの移行、重複ページの完全な統合などがあります。
canonicalと301の使い分けとして、301リダイレクトはcanonicalより強力で確実です。可能であれば301リダイレクトを使用し、技術的に難しい場合にcanonicalを使用します。
対処法3:URLパラメータの処理
URLパラメータによる重複は、Googleサーチコンソールで処理を指定できます。
設定方法として、Googleサーチコンソールの「設定」→「URL パラメータ」を選択し、各パラメータについて、ページコンテンツに影響するかどうかを設定します。
ただし、この機能は廃止予定のため、canonicalタグでの対処を推奨します。
対処法4:noindexの設定
重複ページを検索結果に表示させたくない場合、noindexを設定できます。
設定方法として、<meta name="robots" content="noindex">
適用すべきケースとして、印刷用ページ、内部検索結果ページ、管理用ページ、テストページなどがあります。
注意点として、noindexはページをインデックスさせないだけで、リンクの評価は渡りません。リンク評価を統合したい場合は、canonicalか301を使用します。
対処法5:コンテンツの統合・削除
実際に不要な重複ページがある場合は、コンテンツの統合または削除を検討します。
統合のケースとして、似た内容の複数ページを1つの充実したページに統合し、古いページからは301リダイレクトを設定します。
削除のケースとして、価値のない重複ページは削除し、404または410を返すか、必要に応じて301リダイレクトを設定します。
対処法6:サイト構造の見直し
重複コンテンツが頻発する場合は、サイト構造自体を見直す必要があります。
見直すべきポイントとして、URLの設計ルールを統一する、カテゴリ構造を整理する、パラメータの使い方を見直す、CMSの設定を確認するなどがあります。
canonicalタグの詳細と設定方法
canonicalタグについて、より詳しく解説します。
canonicalタグの仕組み
canonicalタグは、重複ページの中で「このURLが正規版です」と検索エンジンに伝えるシグナルです。
動作の仕組みとして、検索エンジンがページをクロールする際にcanonicalタグを認識し、指定されたURLを「正規URL」として認識します。正規URL以外のページは、インデックスから除外されるか、正規URLと統合されます。被リンクなどの評価は、正規URLに集約されます。
canonicalタグの正しい書き方
基本的な書き方として、<link rel="canonical" href="https://example.com/page/" />
書き方のルールとして、headタグ内に記述する、絶対URL(https://から始まる完全なURL)を使用する、1ページに1つのcanonicalタグのみ設置する、自己参照canonical(そのページ自身を指すcanonical)も設置することが推奨されます。
自己参照canonicalの重要性
正規ページにも、自分自身を指す「自己参照canonical」を設置することが推奨されます。
自己参照canonicalのメリットとして、パラメータ付きでアクセスされた場合でも正規URLを示せる、コンテンツがコピーされた場合に正規URLを主張できる、Googleに明確に正規URLを伝えられるなどがあります。
canonicalタグの設定場所
HTMLに直接記述として、<head> <link rel="canonical" href="https://example.com/page/" /> </head>
HTTPヘッダーで指定として、PDFなど、HTMLではないファイルの場合はHTTPヘッダーで指定します。Link: <https://example.com/file.pdf>; rel="canonical"
WordPressでのcanonical設定
WordPressでは、Yoast SEOやRank MathなどのSEOプラグインで簡単にcanonicalを設定できます。
設定方法(Yoast SEOの場合)として、各投稿・ページの編集画面を開き、「Yoast SEO」セクションの「詳細設定」を開き、「正規URL」欄に正規URLを入力します。
空欄の場合は、自動的に自己参照canonicalが設定されます。
canonicalタグの注意点
注意点1:絶対URLを使用するとして、相対URLではなく、絶対URL(完全なURL)を使用します。
注意点2:実際にアクセス可能なURLを指定するとして、404エラーやリダイレクトされるURLを指定してはいけません。
注意点3:異なるコンテンツに設定しないとして、内容が大きく異なるページに同じcanonicalを設定すると、無視される可能性があります。
注意点4:canonicalチェーン・ループを避けるとして、A→B→Cのようなcanonicalのチェーンや、A→B→Aのようなループは避けます。
注意点5:定期的に確認するとして、canonicalが正しく設定されているか、定期的にチェックします。
サイト内重複コンテンツの具体的対策
サイト内で発生しやすい重複コンテンツの対策を、具体的に解説します。
対策1:httpとhttpsの統一
「http://」と「https://」の両方でアクセスできる場合、どちらかに統一します。
推奨される対策として、httpsに統一する(セキュリティの観点からも必須)、httpからhttpsへ301リダイレクトを設定する、すべての内部リンクをhttpsに更新する、Googleサーチコンソールでhttpsバージョンを登録するなどがあります。
.htaccessでの設定例として、RewriteEngine On RewriteCond %{HTTPS} off RewriteRule ^(.*)$ https://%{HTTP_HOST}%{REQUEST_URI} [R=301,L]
対策2:www.あり/なしの統一
「www.example.com」と「example.com」の両方でアクセスできる場合、どちらかに統一します。
対策として、どちらかに決めて、もう一方から301リダイレクトを設定します。Googleサーチコンソールで優先するバージョンを登録します。
.htaccessでの設定例(www.ありに統一)として、RewriteEngine On RewriteCond %{HTTP_HOST} ^example\.com [NC] RewriteRule ^(.*)$ https://www.example.com/$1 [R=301,L]
対策3:末尾スラッシュの統一
「example.com/page」と「example.com/page/」の両方でアクセスできる場合、どちらかに統一します。
対策として、サイト全体で一貫したルールを決める、どちらかに301リダイレクトを設定する、CMSの設定を確認するなどがあります。
対策4:トラッキングパラメータの処理
UTMパラメータなどのトラッキングパラメータによる重複を対処します。
対策として、すべてのページに自己参照canonicalを設置する(パラメータなしのURLを指定)、Google Tag Managerを使用してパラメータを追跡する(URLを変更せずに)などがあります。
対策5:ページネーションの処理
一覧ページのページネーションの対処法を紹介します。
対策として、各ページに自己参照canonicalを設置する(1ページ目を指すのではなく、各ページ自身を指す)、rel=”prev”とrel=”next”を設置する(現在Googleは無視していますが、他の検索エンジンでは有効)、「すべて表示」ページを用意し、canonicalで指定する(場合によって)などがあります。
対策6:類似商品ページの処理(ECサイト)
色やサイズ違いの商品ページの対処法を紹介します。
対策オプション1として、バリエーションをすべて1つのページにまとめる(JavaScriptで切り替え)方法があります。
対策オプション2として、各バリエーションページに、メインの商品ページを指すcanonicalを設置する方法があります。
対策オプション3として、各バリエーションページを独立したページとして扱い、自己参照canonicalを設置する方法があります(各ページに独自のコンテンツがある場合)。
外部との重複コンテンツ対策
自サイトのコンテンツが他サイトにコピーされた場合や、正当な理由で他サイトにコンテンツを配信する場合の対策を解説します。
コンテンツ盗用(スクレイピング)への対策
自サイトのコンテンツが無断でコピーされた場合の対処法を紹介します。
発見方法として、Copyscape等のツールで定期的にチェック、自サイト特有のフレーズで検索、Google アラートを設定するなどがあります。
対処法として、相手サイトの運営者に削除を依頼する、GoogleのDMCA申請(著作権侵害の申し立て)を行う、相手サイトのホスティング会社に報告するなどがあります。
予防策として、RSS フルフィードを避ける(抜粋のみにする)、すべてのページに自己参照canonicalを設置する、公開日を明確に表示するなどがあります。
コンテンツシンジケーションの対策
正当な理由で他サイトにコンテンツを配信する場合の対策を紹介します。
対策1:配信先にcanonicalを設置してもらうとして、配信先のサイトに、オリジナル(自サイト)を指すcanonicalタグを設置してもらいます。
対策2:配信先にnoindexを設置してもらうとして、配信先のページにnoindexを設置してもらい、インデックスさせないようにします。
対策3:オリジナルへのリンクを含めるとして、配信するコンテンツに、オリジナル記事へのリンクを含めます。
対策4:時間差を設けるとして、オリジナルを先に公開し、インデックスされてから配信することで、オリジナルが認識されやすくなります。
プレスリリースの重複対策
プレスリリースを配信する場合の対策を紹介します。
対策として、プレスリリースサイトのページにcanonicalを設定してもらう(可能な場合)、自サイトにもプレスリリースを掲載し、先に公開する、プレスリリースサイトへの配信は「ニュース性」を重視し、SEO目的にしないなどがあります。
CMSごとの重複コンテンツ対策
主要なCMSでの重複コンテンツ対策を解説します。
WordPress
WordPressでの重複コンテンツ対策を紹介します。
よくある重複の原因として、カテゴリページとタグページの重複、作者アーカイブページ、日付アーカイブページ、添付ファイルページなどがあります。
対策方法として、SEOプラグイン(Yoast SEO、Rank Math)でcanonical設定、不要なアーカイブページをnoindex設定、添付ファイルページを親ページにリダイレクト、パーマリンク設定の見直しなどがあります。
Yoast SEOでの設定として、「SEO」→「検索での見え方」→「タクソノミー」で、タグや著者アーカイブのnoindex設定ができます。
Shopify
Shopifyでの重複コンテンツ対策を紹介します。
よくある重複の原因として、コレクション経由の商品URL(/collections/xxx/products/yyy)、バリエーション別のURL、ページネーションなどがあります。
対策方法として、Shopifyは自動的にcanonicalを設置しますが、テーマによっては正しく設定されないことがあるため確認が必要です。カスタマイズが必要な場合は、テーマのコードを編集します。
その他のCMS
使用しているCMSに応じて、以下を確認します。
確認すべき項目として、自動的にcanonicalが設置されるか、URL構造の設定オプション、リダイレクトの設定方法、SEO関連のプラグイン・拡張機能などがあります。
重複コンテンツ対策のチェックリスト
重複コンテンツ対策のチェックリストをまとめます。
URL正規化チェック
http→httpsのリダイレクトは設定されているか確認してください。www.あり/なしは統一されているか確認してください。末尾スラッシュは統一されているか確認してください。index.htmlなしでアクセスできるか確認してください。大文字/小文字は統一されているか確認してください。
canonicalタグチェック
すべてのページに自己参照canonicalが設置されているか確認してください。canonicalは絶対URLで記述されているか確認してください。canonicalが指すURLは実際にアクセス可能か確認してください。canonicalチェーン・ループはないか確認してください。重複ページには正規URLへのcanonicalが設置されているか確認してください。
Googleサーチコンソールチェック
「重複しています」のエラーは確認したか確認してください。意図しないページがインデックスされていないか確認してください。正規URLとして意図したページが選択されているか確認してください。
サイト構造チェック
同じコンテンツが複数のURLで存在していないか確認してください。カテゴリ構造による重複はないか確認してください。パラメータによる重複は対処されているか確認してください。ページネーションは適切に処理されているか確認してください。
外部重複チェック
自サイトのコンテンツが他サイトにコピーされていないか確認してください。シンジケーション先にcanonicalは設置されているか確認してください。プレスリリースの重複は対処されているか確認してください。
重複コンテンツに関するよくある質問(FAQ)
重複コンテンツに関するよくある質問にお答えします。
Q1. 重複コンテンツがあるとペナルティを受けますか?
A. 通常の重複コンテンツでペナルティを受けることはありません。
Googleは、重複コンテンツの存在自体でペナルティを与えないと明言しています。ただし、検索結果を操作する目的で悪質に重複コンテンツを作成した場合は、スパムとして対処される可能性があります。
Q2. 引用や参考文献を載せれば重複にならない?
A. 引用元を明記しても、大量のコンテンツをコピーすれば重複コンテンツと見なされます。
引用は適切な範囲で行い、自分のオリジナルコンテンツを主体とすることが重要です。引用部分はblockquoteタグで明示し、引用元へのリンクを設置しましょう。
Q3. 同じコンテンツを複数ページに掲載したい場合はどうすれば?
A. canonicalタグを使用して、正規URLを指定します。
同じコンテンツを複数のカテゴリページなどに掲載したい場合は、すべてのページに正規URLを指すcanonicalを設置します。可能であれば、1つのURLに統一し、カテゴリ間で内部リンクを張る方が理想的です。
Q4. 自分のサイト内の記事を引用して別記事を書くのは重複?
A. 適切な範囲での引用は問題ありませんが、大部分が重複する場合は対策が必要です。
自サイト内の記事を参考にして新しい記事を書く場合、オリジナルの内容を主体とし、引用は最小限にとどめましょう。類似した内容の記事が複数ある場合は、統合を検討してください。
Q5. 商品説明文をメーカーからコピーするのは問題?
A. 多くのサイトで同じ説明文が使われるため、SEO上は不利になります。
メーカー提供の説明文は、他のECサイトでも使用されているため、重複コンテンツになります。可能であれば、独自の説明文を追加し、オリジナルコンテンツとして差別化しましょう。
Q6. canonicalを設定したのに重複が解消されません
A. canonicalはGoogleへの「ヒント」であり、必ず従うとは限りません。
canonicalが無視される原因として、canonical先がアクセス不可、内容が大きく異なる、canonicalが矛盾している、他のシグナルと矛盾しているなどがあります。設定を見直し、可能であれば301リダイレクトを検討してください。
Q7. 昔の記事をリライトして新しいURLで公開するのは重複?
A. 古いURLから新しいURLへ301リダイレクトを設定すれば問題ありません。
リライトして新しいURLで公開する場合は、古いURLからの301リダイレクトを必ず設定しましょう。リダイレクトなしで両方のURLが存在すると、重複コンテンツになります。
まとめ:重複コンテンツを正しく理解して対処しよう
本記事では、重複コンテンツについて徹底解説しました。最後に、重要なポイントをまとめます。
重複コンテンツの基本
重複コンテンツとは、同一または非常に類似した内容が複数のURLで存在する状態です。意図せず発生することも多く、URLの正規化やパラメータの問題が主な原因です。
SEOへの影響
重複コンテンツ自体でペナルティを受けることはありませんが、評価の分散、クロールバジェットの浪費、意図しないページのインデックスなど、SEOに悪影響を与える可能性があります。
主な対処法
canonicalタグで正規URLを指定する、301リダイレクトで統合する、noindexでインデックスを防ぐ、コンテンツを統合・削除するなどの対処法があります。
定期的なチェックが重要
重複コンテンツは意図せず発生することが多いため、GoogleサーチコンソールやSEOツールを使って定期的にチェックし、問題があれば速やかに対処しましょう。
本記事で紹介した対策を実践して、重複コンテンツによるSEOへの悪影響を防ぎましょう。
関連記事として、テクニカルSEOの基本、クロールバジェットとは、サイト構造の設計も合わせてご覧ください。
重複コンテンツの検出ツール詳細ガイド
重複コンテンツを検出するための主要なツールについて、詳しく解説します。
Screaming Frog SEO Spider
Screaming Frog SEO Spiderは、サイト内の重複コンテンツを検出する強力なツールです。
主な機能として、サイト全体のクロールと分析、重複タイトル・メタディスクリプションの検出、重複ページの検出、canonicalタグの確認、リダイレクトチェーンの検出などがあります。
使い方として、ツールを起動し、サイトURLを入力してクロールを開始します。クロール完了後、「Page Titles」タブで重複タイトル、「Meta Description」タブで重複メタディスクリプションを確認します。「Duplicate」フィルターで重複ページを抽出できます。
料金:500URLまで無料、それ以上は年間約2万円程度
Siteliner
Sitelinerは、サイト内の類似コンテンツを検出するオンラインツールです。
主な機能として、サイト内の重複コンテンツ割合の算出、類似ページの特定、リンク切れの検出、ページサイズの分析などがあります。
使い方として、Sitelinerのサイトにアクセスし、URLを入力するだけで分析が開始されます。重複コンテンツの割合がパーセンテージで表示され、どのページ間で重複があるかを確認できます。
料金:月間250ページまで無料
Copyscape
Copyscapeは、外部サイトとの重複を検出する代表的なツールです。
主な機能として、特定のページと類似するWebページの検出、自サイトコンテンツの盗用チェック、一括チェック機能(Premium版)などがあります。
使い方として、Copyscapeのサイトにアクセスし、チェックしたいページのURLを入力します。類似するWebページがあれば、一覧で表示されます。
料金:基本機能は無料、Premium版は検索ごとに課金(1検索約3〜5円程度)
CopyContentDetector
CopyContentDetectorは、日本語に対応した無料のコピーチェックツールです。
主な機能として、テキストの重複チェック、類似率の算出、類似サイトの特定などがあります。
使い方として、サイトにアクセスし、チェックしたいテキストを貼り付けてチェックを実行します。類似率がパーセンテージで表示されます。
料金:4000文字まで無料、それ以上は有料プラン
Googleサーチコンソール
Googleサーチコンソールは、Googleが実際に認識している重複を確認できる公式ツールです。
確認できる項目として、Googleが認識している正規URL、重複として除外されたページ、canonicalの認識状況などがあります。
確認方法として、「インデックス」→「ページ」で「ページがインデックスに登録されなかった理由」を確認します。「URL検査」で個別ページの正規URL認識を確認できます。
Ahrefs / SEMrush
SEOツールのAhrefsやSEMrushでも、サイト監査機能で重複コンテンツを検出できます。
検出できる項目として、重複タイトル・メタディスクリプション、重複コンテンツ、canonical設定の問題、内部リンクの重複などがあります。
重複コンテンツとSEO指標の関係
重複コンテンツが各種SEO指標に与える影響について解説します。
検索順位への影響
重複コンテンツは、直接的なペナルティではありませんが、検索順位に間接的な影響を与えます。
影響のメカニズムとして、被リンクの評価が分散し、個々のページの評価が下がる、Googleが「正規」と判断したURLが、運営者の意図と異なる場合がある、類似コンテンツ間でカニバリゼーションが発生するなどがあります。
対策の効果として、重複コンテンツを解消することで、評価が正規URLに集約され、順位向上につながる可能性があります。
インデックス数への影響
重複コンテンツは、インデックス数にも影響します。
影響として、重複ページはインデックスから除外される、意図したページがインデックスされないことがある、インデックス数が実際のページ数と大きく異なる場合は、重複の可能性があるなどがあります。
クロールバジェットへの影響
大規模サイトでは、クロールバジェットへの影響も無視できません。
影響として、重複ページのクロールに時間を費やす、重要なページのクロール頻度が下がる可能性がある、新しいページの発見が遅れる可能性があるなどがあります。
特に影響を受けやすいサイトとして、大規模EC サイト、メディアサイト、ユーザー生成コンテンツの多いサイトなどがあります。
ユーザー体験への影響
重複コンテンツは、ユーザー体験にも影響を与えることがあります。
影響として、検索結果に似たページが複数表示され、混乱を招く、意図しないページにランディングする可能性がある、サイト内検索で重複が表示されるなどがあります。
業種別の重複コンテンツ対策
業種ごとに発生しやすい重複コンテンツと、その対策を解説します。
ECサイト
ECサイトは、重複コンテンツが最も発生しやすい業種の1つです。
発生しやすい重複として、色・サイズ違いの商品ページ、複数カテゴリに属する商品、フィルター・並び替えによるURL、セッションIDやトラッキングパラメータ、セール用ページと通常ページなどがあります。
対策として、バリエーションは可能な限り1ページに統合する、カテゴリ間の重複はcanonicalで正規化する、フィルター・並び替えURLはcanonicalまたはnoindex、不要なパラメータはサーバー側で除去するなどがあります。
メディアサイト・ブログ
メディアサイトやブログでも、意図せず重複が発生することがあります。
発生しやすい重複として、カテゴリアーカイブとタグアーカイブ、日付アーカイブと投稿ページ、著者アーカイブ、印刷用ページ、ページネーションなどがあります。
対策として、不要なアーカイブページはnoindex設定、カテゴリとタグの使い分けを明確に、著者アーカイブが不要ならnoindex、印刷用ページは別途作らずCSSで対応などがあります。
不動産サイト
不動産会社のサイトでも、物件情報の重複が発生しやすいです。
発生しやすい重複として、同じ物件が複数のエリアページに掲載、条件検索結果ページ、複数ポータルサイトへの掲載などがあります。
対策として、物件ページは1つのURLに統一しcanonicalを設定、検索結果ページはnoindexまたはcanonical、ポータルサイトへの掲載は、オリジナルへのリンクを依頼するなどがあります。
多言語・多地域サイト
多言語サイトでは、言語版間の重複が問題になることがあります。
発生しやすい重複として、内容が似ている異なる言語版、同じ言語で異なる地域版(米英など)、翻訳されていないページの重複などがあります。
対策として、hreflangタグを正しく設定する、各言語版は独自のコンテンツとして扱われるよう、十分な翻訳・ローカライズを行う、canonicalは同じ言語版内で設定するなどがあります。
重複コンテンツとGoogleアルゴリズムの歴史
Googleが重複コンテンツにどう対応してきたか、歴史的な変遷を解説します。
パンダアップデート以前
パンダアップデート以前は、重複コンテンツやコピーコンテンツが上位表示されやすい状況がありました。
当時の問題として、スクレイピングサイトが上位表示される、コンテンツファームが検索結果を汚染、オリジナルより後発のコピーが上位に表示されるなどがありました。
パンダアップデート(2011年)
2011年のパンダアップデートで、低品質コンテンツや重複コンテンツへの対応が強化されました。
影響として、コンテンツファームの順位が大幅に下落、重複コンテンツの評価が厳格化、オリジナルコンテンツの価値が向上しました。
現在のアルゴリズム
現在のGoogleは、重複コンテンツを高度に処理しています。
現在の対応として、重複の自動検出と正規URLの選択、canonicalタグの認識と尊重、悪質な重複のみをスパムとして対処、E-E-A-Tを重視したオリジナルコンテンツの評価などがあります。
重複コンテンツ対策の優先順位
重複コンテンツ対策を行う際の優先順位について解説します。
最優先で対応すべき項目
URLの正規化として、http/https、www.あり/なし、末尾スラッシュの統一は、サイト全体に影響するため最優先で対応します。
対応方法:301リダイレクトで統一
高優先度の項目
主要ページのcanonical設定として、トップページ、主要なランディングページ、アクセスの多いページには、自己参照canonicalを確実に設定します。
重複が多いセクションの対策として、商品ページ(EC)、物件ページ(不動産)など、重複が多発しやすいセクションを優先的に対策します。
中優先度の項目
パラメータによる重複として、トラッキングパラメータ、フィルターパラメータなどによる重複を、canonicalで対策します。
アーカイブページとして、カテゴリ、タグ、日付アーカイブなどの重複を、noindexやcanonicalで対策します。
低優先度の項目
印刷用ページなどとして、アクセスが少なく、SEOへの影響が限定的なページは、後回しでも問題ありません。ただし、対策が簡単であれば早めに行いましょう。
重複コンテンツ対策の効果測定
重複コンテンツ対策を行った後の効果を測定する方法を解説します。
測定すべき指標
Googleサーチコンソールの指標として、インデックス数の変化、「重複しています」エラーの減少、正規URLの認識状況、クロール統計の変化などがあります。
検索パフォーマンスの指標として、対象ページの検索順位、表示回数・クリック数の変化、オーガニック流入の変化などがあります。
効果が現れるまでの期間
重複コンテンツ対策の効果は、すぐには現れないことがあります。
目安として、canonicalの認識まで数日〜数週間、評価の統合まで数週間〜数ヶ月、検索順位への反映まで1〜3ヶ月程度かかることがあります。
注意点として、効果を急いで判断せず、数ヶ月単位で経過を観察することが重要です。
効果が出ない場合の対処
対策後も効果が出ない場合は、以下を確認します。
確認すべき項目として、canonicalが正しく設定されているか、canonical先が正しいURLか、Googleがcanonicalを認識しているか(サーチコンソールで確認)、他に重複の原因がないかなどがあります。
重複コンテンツに関する追加FAQ
重複コンテンツに関する追加の質問にお答えします。
Q. 短い文章(数行程度)でも重複になりますか?
A. 短い文章だけでは、通常、重複コンテンツとは見なされません。
Googleは、ヘッダー、フッター、ボイラープレート(定型文)などの短い共通部分は無視し、メインコンテンツで重複を判断します。ただし、メインコンテンツの大部分が同じ場合は問題になります。
Q. 法的に必要な文章(利用規約など)の重複は問題?
A. 利用規約やプライバシーポリシーなど、サイト運営に必要な定型文は問題ありません。
これらのページは、SEOを目的としているわけではなく、Googleも理解しています。心配な場合は、noindexを設定することもできます。
Q. 自分の過去の記事をSNSに再投稿するのは重複?
A. SNSへの投稿は、通常、検索エンジンにインデックスされないため、SEO上の重複とは見なされません。
ただし、はてなブログやnoteなどにそのまま転載する場合は、重複コンテンツになる可能性があります。その場合は、canonicalの設定を検討してください。
Q. 複数の言語で同じ内容を書くのは重複?
A. 異なる言語のコンテンツは、重複コンテンツとは見なされません。
ただし、hreflangタグを正しく設定して、各言語版の関係をGoogleに伝えることが重要です。機械翻訳そのままの低品質なコンテンツは避けましょう。
Q. 他サイトにコンテンツを寄稿する場合、どちらが正規?
A. 状況によりますが、通常はオリジナルを先に公開した方を正規とすべきです。
対策オプションとして、自サイトを先に公開し、寄稿先にはcanonicalで自サイトを指定してもらう、寄稿先用にリライトして、独自コンテンツとする、寄稿先にnoindexを設定してもらうなどがあります。
Q. テスト環境やステージング環境の重複は問題?
A. テスト環境がインデックスされると、本番環境との重複になります。
対策として、テスト環境全体にnoindexを設定する、robots.txtでクロールをブロックする、ベーシック認証をかけるなどがあります。
重複コンテンツ対策の実践ワークフロー
重複コンテンツ対策を実践する際のワークフローを紹介します。
ステップ1:現状把握(1〜2週間)
実施内容として、Googleサーチコンソールで重複状況を確認、Screaming Frogなどでサイト全体をクロール、重複コンテンツの一覧を作成、優先度を判断するなどがあります。
ステップ2:URL正規化(1〜2週間)
実施内容として、http/https、www.あり/なしの301リダイレクト設定、末尾スラッシュの統一、index.htmlの処理などがあります。
ステップ3:canonical設定(2〜4週間)
実施内容として、全ページへの自己参照canonical設置、重複ページへのcanonical設定、設定が正しく行われているか確認するなどがあります。
ステップ4:追加対策(必要に応じて)
実施内容として、noindex設定が必要なページへの対応、パラメータ処理の設定、コンテンツの統合・削除などがあります。
ステップ5:効果測定と継続的な監視
実施内容として、Googleサーチコンソールで変化を確認、検索パフォーマンスの変化を監視、定期的な重複チェックを継続するなどがあります。
このワークフローを参考に、自サイトの状況に合わせて重複コンテンツ対策を進めてください。
本記事で紹介した対策を実践して、重複コンテンツによるSEOへの悪影響を防ぎ、検索エンジンから適切な評価を受けられるサイトを目指しましょう。
canonicalタグとhreflangタグの関係
多言語サイトにおける、canonicalタグとhreflangタグの正しい使い方を解説します。
canonicalとhreflangの違い
canonicalタグは、重複ページの中で「正規URL」を指定するものです。
hreflangタグは、同じコンテンツの異なる言語・地域版を指定するものです。
両者は異なる目的を持っており、多言語サイトでは両方を正しく設定する必要があります。
多言語サイトでのcanonical設定
多言語サイトでは、各言語版を「独立したコンテンツ」として扱います。
正しい設定として、各言語版には、その言語版自身を指す自己参照canonicalを設定します。異なる言語版を指すcanonicalは設定しません。
例:
・日本語版(example.com/ja/page)→ canonical: example.com/ja/page
・英語版(example.com/en/page)→ canonical: example.com/en/page
hreflangとの併用
canonicalとhreflangは、併用して設定します。
設定例:
日本語版のhead内:<link rel="canonical" href="https://example.com/ja/page" /> <link rel="alternate" hreflang="ja" href="https://example.com/ja/page" /> <link rel="alternate" hreflang="en" href="https://example.com/en/page" /> <link rel="alternate" hreflang="x-default" href="https://example.com/en/page" />
よくある間違い
間違い1:すべての言語版のcanonicalを1つの言語版に向ける
→ これは間違いです。各言語版は独立したコンテンツなので、自己参照canonicalにします。
間違い2:hreflangを設定せず、canonicalだけ設定する
→ Googleが言語版の関係を理解できません。両方設定しましょう。
JavaScriptとcanonicalの注意点
JavaScriptを使用したサイトでの、canonical設定の注意点を解説します。
JavaScriptでcanonicalを動的に生成する場合
SPA(シングルページアプリケーション)など、JavaScriptでコンテンツを動的に生成するサイトでは、canonicalの設定に注意が必要です。
問題点として、Googleがレンダリングする前のHTMLにcanonicalがないと、認識されない可能性がある、JavaScriptのレンダリングが遅れると、canonicalの認識も遅れるなどがあります。
対策として、可能であれば、サーバーサイドレンダリング(SSR)でcanonicalを出力する、Prerender.ioなどのサービスを活用する、Google Search Consoleでレンダリング結果を確認するなどがあります。
History APIとcanonical
History API(pushState)を使ってURLを変更するサイトでは、canonicalも動的に更新する必要があります。
対策として、URLが変わるたびに、head内のcanonicalも更新する、サーバーサイドでも正しいcanonicalが返されるようにするなどがあります。
AMP(Accelerated Mobile Pages)と重複コンテンツ
AMPを導入しているサイトでの重複コンテンツ対策を解説します。
AMPページと通常ページの関係
AMPを導入すると、通常ページとAMPページの2つのバージョンが存在します。
URL例:
・通常ページ:example.com/article
・AMPページ:example.com/article/amp または amp.example.com/article
正しいcanonical設定
AMPページと通常ページの関係を、canonicalとamphtml属性で正しく設定します。
通常ページの設定:<link rel="canonical" href="https://example.com/article" /> <link rel="amphtml" href="https://example.com/article/amp" />
AMPページの設定:<link rel="canonical" href="https://example.com/article" />
AMPページのcanonicalは、通常ページを指します。
AMP専用サイトの場合
通常ページがなく、AMPページのみのサイトの場合は、AMPページに自己参照canonicalを設定します。
モバイル別URL(m.サブドメイン)の重複対策
レスポンシブデザインではなく、モバイル用に別URLを持つサイトの重複対策を解説します。
PCサイトとモバイルサイトの関係
過去に作成されたサイトでは、PCとモバイルで別URLを持つケースがあります。
URL例:
・PCサイト:www.example.com/page
・モバイルサイト:m.example.com/page
正しい設定方法
PCサイトの設定:<link rel="canonical" href="https://www.example.com/page" /> <link rel="alternate" media="only screen and (max-width: 640px)" href="https://m.example.com/page" />
モバイルサイトの設定:<link rel="canonical" href="https://www.example.com/page" />
モバイルサイトのcanonicalは、PCサイトを指します。
推奨される対応
現在はモバイルファーストインデックスが導入されており、レスポンシブデザインへの移行が推奨されます。
モバイル別URLを維持する場合は、上記の設定を正しく行い、両サイトのコンテンツを同期させることが重要です。
重複コンテンツとサイト移転
サイト移転時の重複コンテンツ対策を解説します。
ドメイン変更時の対策
ドメインを変更する際は、重複を防ぐために適切な対応が必要です。
対策として、旧ドメインから新ドメインへ301リダイレクトを設定、Googleサーチコンソールの「アドレス変更」機能を使用、旧ドメインのリダイレクトは少なくとも1年以上維持するなどがあります。
URL構造変更時の対策
ドメインは同じだが、URL構造を変更する場合も注意が必要です。
対策として、旧URLから新URLへ301リダイレクトを設定、内部リンクを新URLに更新、サイトマップを更新するなどがあります。
HTTPSへの移行
HTTPからHTTPSへの移行時も、重複を防ぐ対策が必要です。
対策として、httpからhttpsへ301リダイレクトを設定、すべての内部リンクをhttpsに更新、サーチコンソールでhttpsバージョンを登録、canonicalをhttpsに更新するなどがあります。
重複コンテンツとインデックス管理
インデックス管理の観点から、重複コンテンツ対策を解説します。
robots.txtとの関係
robots.txtでクロールをブロックしても、重複コンテンツの問題は解決しません。
注意点として、robots.txtでブロックしても、外部からリンクがあればインデックスされる可能性がある、canonicalの評価渡しには影響しないなどがあります。
重複ページをインデックスさせたくない場合は、noindexを使用するか、canonicalで正規URLを指定します。
サイトマップとの関係
XMLサイトマップには、正規URLのみを含めるべきです。
ポイントとして、重複ページや、canonicalで別のURLを指定しているページは、サイトマップに含めない、正規URLのみをサイトマップに記載する、サイトマップと canonicalの情報が矛盾しないようにするなどがあります。
インデックス登録リクエスト
サーチコンソールでインデックス登録をリクエストする場合も、正規URLで行います。
重複ページでリクエストしても、Googleが正規URLを選択してインデックスする可能性があります。
本記事で解説した重複コンテンツ対策を実践して、サイトのSEOパフォーマンスを向上させてください。重複コンテンツは意図せず発生することも多いため、定期的なチェックと対策が重要です。
関連記事として、テクニカルSEOの基本、クロールバジェットとは、サイト構造の設計も合わせてご覧ください。