コンテンツの重複をチェックする方法

重複コンテンツの見つけ方
「設定 > コンテンツ > 重複」を通じて、「重複検索」を有効にする
「設定」→「コンテンツ」→「エリア」で解析のための「コンテンツエリア」を調整する
ウェブサイトをクロールする
「コンテンツ」タブで重複を表示する
「クロール解析 > 開始」をクリックして、「Near Duplicates」フィルターを設定します
「コンテンツ」タブと「完全」「近接」重複フィルタの表示
1. Exact Duplicates
2. Near Duplicates
重複するURLを「重複の詳細」タブで表示する
重複コンテンツの一括エクスポート
最後のヒント類似度のしきい値とコンテンツ領域を絞り込み、クロール解析を再実行する
まとめ

重複コンテンツの見つけ方

検索エンジンにとって、あるクエリに対してどのバージョンを上位に表示させるかを決めるのが難しくなるため、ウェブサイト全体で重複するコンテンツは最小限に抑える必要があります。
重複コンテンツのペナルティ」はSEOの神話ですが、非常に類似したコンテンツは、クロールの非効率性を引き起こし、PageRankを低下させ、統合、削除、改善すべきコンテンツの兆候となる可能性があります。

重複コンテンツや類似コンテンツは、ウェブの自然な一部であり、検索エンジンにとっては問題ではないことが多いことを覚えておくとよいでしょう。しかし、規模が大きくなると、より大きな問題になる可能性があります。

重複コンテンツを防ぐことで、検索エンジン任せにするのではなく、何がインデックスされ、ランキングされるかをコントロールすることができます。クロールの予算の無駄を抑え、インデックスとリンクシグナルを統合してランキングに役立てることができます。

このチュートリアルでは、Screaming Frog SEO Spiderを使って、完全な重複コンテンツと、ウェブサイト内のページ間でテキストが一部一致するほぼ同一のコンテンツの両方を見つける方法を説明します。

SEO Spiderを含むどのツールによっても特定された重複コンテンツは、文脈の中で見直す必要があります。ビデオを見るか、以下のガイドをご覧ください。

まずは、SEO Spiderをダウンロードしましょう。500URLまでなら無料でクロールできます。最初の2つのステップは、ライセンスがないと利用できません。無料ユーザーの方は、このガイドの3番まで読み飛ばしてください。

「設定 > コンテンツ > 重複」を通じて、「重複検索」を有効にする

デフォルトでは、SEOスパイダーは自動的に完全な重複ページを特定します。しかし、’Near Duplicates’を識別するためには、各ページのコンテンツを保存できるように設定を有効にする必要があります。

SEO Spiderは類似度90％でニアデュプリケートを特定しますが、より低い類似度の閾値でコンテンツを見つけるように調整することができます。

また、SEO Spiderは「インデックス可能な」ページのみ重複をチェックします（完全な重複とほぼ同じ重複の両方について）。

つまり、2つのURLが同じで、一方がもう一方に正規化されている（つまり「インデックスされない」）場合、このオプションが無効になっていなければ、報告されないということです。

クロールの予算の問題を見つけたい場合は、「インデックス可能なページのみ重複をチェックする」オプションのチェックを外すと、クロールの無駄の可能性がある領域を見つけることができます。

「設定」→「コンテンツ」→「エリア」で解析のための「コンテンツエリア」を調整する

重複に近い解析に使用するコンテンツを設定することができます。新規クロールの場合は、デフォルトの設定を使用し、後で分析に使用するコンテンツを確認し、検討できるようになってから、設定を変更することをお勧めします。

SEOスパイダーは自動的にナビとフッターの両要素を除外し、メインボディのコンテンツに焦点を当てます。しかし、すべてのウェブサイトがこれらのHTML5要素を使用して構築されているわけではないので、必要に応じて分析に使用するコンテンツ領域を絞り込むことができます。HTMLタグ、クラス、IDを分析に「含める」または「除外」することができます。

たとえば、Screaming Frogのウェブサイトでは、nav要素の外側にモバイルメニューがあり、デフォルトでコンテンツ分析に含まれます。これはあまり問題ではありませんが、この場合、ページの本文に焦点を合わせるために、そのクラス名「mobile-menu__dropdown」を「除外するクラス」ボックスに入力することが可能です。

これにより、メニューは重複コンテンツ解析アルゴリズムに含まれなくなります。詳しくは後述します。

ウェブサイトをクロールする

SEOスパイダーを開き、「Enter URL to spider」ボックスにクロールしたいウェブサイトを入力またはコピーして、「Start」をクリックします。

クロールが終了して100%になるまで待ちますが、リアルタイムでいくつかの詳細を表示することも可能です。

「コンテンツ」タブで重複を表示する

コンテンツ」タブには、「完全な重複」と「近い重複」の2つの重複コンテンツに関するフィルターがあります。

クロール中にリアルタイムで閲覧できるのは「完全な重複」のみです。Near Duplicates」は、クロール終了後に「Crawl Analysis」で計算を行い、データを入力する必要があります。

右側の「概要」ペインでは、クロール後の解析が必要なフィルターに対して「(Crawl Analysis Required)」というメッセージが表示され、データを取り込むことができます。

「クロール解析 > 開始」をクリックして、「Near Duplicates」フィルターを設定します

Near Duplicates」フィルター、「Closest Similarity Match」、「No. Near Duplicates」カラムを入力するには、クロール終了時にボタンをクリックするだけです。

ただし、以前に「クロール分析」を設定したことがある場合は、「クロール分析 > 設定」で「Near Duplicates」にチェックが入っていることを再確認してください。

また、クロール後の解析が必要な他の項目のチェックを外すことで、この手順を短時間で行うことができます。

クロール解析が完了すると、「解析」プログレスバーが100%になり、フィルターに「(クロール解析が必要)」というメッセージが表示されなくなります。

これで、入力されたニアディプリケートフィルタとカラムを確認することができます。

「コンテンツ」タブと「完全」「近接」重複フィルタの表示

ポストクロール解析を行うと、「Near Duplicates」フィルター、「Closest Similarity Match」、「No. Near Duplicates」カラムが入力されるようになります。選択した類似度閾値以上のコンテンツを持つURLのみがデータを含み、その他は空白のままとなります。この場合、Screaming Frogのウェブサイトは2つだけです。

BBCのような大規模なウェブサイトをクロールすると、さらに多くのことがわかります。

以下の項目でフィルタリングすることができます。

Exact Duplicates

このフィルターは、MD5アルゴリズムを使用して、各ページの「ハッシュ」値を計算し、「ハッシュ」列で見ることができる、互いに同一のページを表示します。このチェックはページの完全なHTMLに対して行われます。ハッシュ値が一致する、まったく同じページがすべて表示されます。完全に重複したページは、PageRankシグナルの分割やランキングの予測不可能性につながる可能性があります。あるURLの正規バージョンは1つだけ存在し、内部的にリンクされている必要があります。他のバージョンはリンクされるべきではなく、正規のバージョンに301リダイレクトされるべきです。

Near Duplicates

このフィルターは、ミンハッシュアルゴリズムを使用して設定された類似性のしきい値に基づき、類似したページを表示します。このしきい値は「設定 > Spider > Content」で調整でき、デフォルトでは90%に設定されています。Closeest Similarity Match’欄には、他のページとの類似度が最も高いページが表示されます。No. Near Duplicates」列には、類似度のしきい値に基づき、そのページと類似しているページの数が表示されます。このアルゴリズムは、完全な重複のようなHTML全体ではなく、ページ上のテキストに対して実行されます。この分析に使用するコンテンツは、「Config > Content > Area」で設定することができます。ページの類似度は100%でも、完全な複製ではなく「ほぼ複製」である場合があります。これは、完全な重複をニアデュプリケートとして除外することで、二重にフラグが立つことを避けるためです。また、類似度のスコアは四捨五入されるため、99.5%以上の場合は100%として表示されます。
特定の属性で検索ボリュームがある製品のバリエーションなど、コンテンツが非常に類似しているページには多くの正当な理由があるため、ニアデュプリケートページは手動で確認する必要があります。

しかし、ほぼ重複と判定されたURLは、ユーザーにとってユニークな価値があるため別のページとして存在すべきか、あるいはコンテンツをより深くユニークにするために削除、統合、改善すべきかを検討するために見直す必要があります。