45 For Trash

しごうするのか、されるのか。

Googleアナリティクスでのリファラ―スパム排除はブログ初心者ほどやっておきたい。

ブログを開設したばかりの初心者の方もGoogle Analyticsを導入している人は多いと思います。最初はなかなかアクセスも集まらないのに、早くアクセスが集まって欲しいという思いから、かえってアナリティクスを毎日見てしまうという人も多いのではないでしょうか。

しかし、アナリティクスのデータを不正確にしてしまう迷惑な存在があります。リファラ―スパムです。

今日はちょうど開設1ヶ月を迎えたこのブログの状況を見ながら、Googleアナリティクスからリファラ―スパムを除外する設定について書きます。

f:id:shigo45:20160114002821j:plain
Photo credit: bluefountainmedia via Visualhunt.com / CC BY

リファラ―スパムとは

まず、リファラーとはあるページにリンクしているウエブページ等のアドレスのことを言います。これを見れば、あるページに訪問者がどこを経由してアクセスしているのがわかるもので、アクセスログに記録されています。平たく言えば、どこからのリンクを通じてページにアクセスしているかどうか、ということですね。

HTTPリファラ(英: HTTP referer)あるいは単にリファラは、HTTPヘッダの1つで、インターネット上の1つのウェブページまたはリソースから見て、それにリンクしているウェブページやリソースのアドレス[1]を指す。リファラを参照することで、どこからそのページに要求が来たのかを知ることができる。リファラをログすることでウェブサイトやウェブサーバで訪問者がどこから来ているかを把握でき、プロモーションやセキュリティの目的に使うことができる。

HTTPリファラ - Wikipedia

リファラー(Referral)は、Google Analyticsのデータ中、「集客」の項目で見ることができるデータです。

そして、リファラースパムとは、実際にはリンクがはられているわけでもないのに、Googleアナリティクスのデータにアクセス記録とリファラー情報を置いていくスパムです。

目的

リファラースパムの目的は主に次の2つが考えらえます。

スパムサイトへのアクセス・PV増加

アナリティクス上、リファラー情報はリンクになっているため、これをクリックすればどのようなページからサイトへ訪問しているのか見ることができます。

リファラースパムはアナリティクスのデータにリファラー情報を残していくことで、ウエブマスターがスパムサイトを訪問することを狙っているのです。実際、リンクをクリックすると海外のECサイトに飛ばされることも多いです。

ただそれだけなら腹が立つだけで済むかもそれでもリンクをクリックしてはいけません。次のような問題もあるからです。

悪意のあるサイトへの誘導

確かにリファラースパムはアクセス増加・PV増加を狙うものが多いのですが、中には、リンク先に悪意のあるコードが設置されていることもあるようです。そうなれば、ただ腹が立つだけでは済みません。スパムサイトを訪問してしまわないように注意することが大切です。

リファラースパムのリンクをクリックしてはいけないのです。

実害

こうやって見ていくと、リファラ―スパムによる実害は次のようなものと言えます。

1. 悪意のあるサイトに誘導される可能性がある。
1. Googleアナリティクスのデータを不正確にしてしまう。

Googleアナリティクスを使っている人なら、不用意にリンクをクリックする機会を無くすため、また正確なアクセス解析を行うためには、リファラ―スパム対策を行ったほうが良いということになります。

種類

リファラースパムには様々なものがあります。次々と新しいものが現れ、一方で古いものは活動を停止しているものもあります。

ご自分のアナリティクスデータに不審なリファラーを見つけたら、不用意にリンクをクリックしたりせずに、リファラースパムではないかとまずは疑ってみてください。

参考に、リファラースパムの一覧を作成してくれているまとめがありましたのでリンクをはっておきます。

matome.naver.jp

確認するには

尚、上の一覧にないものなど、自分でリファラースパムかどうかを確認する方法としては、下のような調査サイトがあります。URLを入力すればサイトの背景情報を調査できます。他のサイトにリダイレクトされていないか、悪意のあるコードが設置されていないかどうかがわかります。

www.aguse.jp

注意したいのは、何か情報はないかとリファラスパムが残したURLをグーグルなどで検索して情報を得ようとする時です。最近のブラウザはアドレスバーに検索ワードを入力して検索することもできますが、それをやってしまうと検索ではなく直接そのサイトに飛んでしまいます。実は私も一度これをやらかしてしまいました。幸い悪意のあるコードが設置されているようなサイトではなかったのですが、いつもの癖でついやらかしてしまう可能性もありますので、皆さんはご注意ください。

アクセス数とリファラ―スパムの数の関係

開設わずかでもリファラスパムはやってくる

このブログはまだ開設約1ヶ月ですが、それでもアナリティクスのデータはいくつかのリファラ―スパムの影響を受けています。

尚、アナリティクスのデータでリファラスパムを見つける場合には下記の方法が簡単かも知れません。

  1. {集客」→「すべてのトラフィック」→「参照サイト」で参照サイトの一覧を表示させる。
  2. 表の上の「セカンダリディメンション」から「ユーザー」→「言語」で言語を表示させる。
  3. 表見出しの「言語」をクリックして言語順にソートする。

多くのリファラースパムが日本語以外の言語になっているか、言語が「not set」になっているため、こうすると発見しやすいと思います(運営サイトが日本語の場合にのみ使える方法ではありますが…)。

ちなみに、このブログのアナリティクスデータに影響を与えている現時点でのリファラスパムは下記の通りです。

【注意】繰り返しますが下記にアクセスしてはいけません。

1538806.forum.nufaq.com
build-a-better-business.2your.site
share-buttons.xyz
topseoservices.co
traffic2cash.xyz
w3javascript.com
website-stealer-warning.hdmoviecamera.net
website-stealer.nufaq.com
с.новым.годом.рф

時間の経っているサイトのリファラスパム

時間の経っているサイトのリファラスパムの一例をして、とあるサイトのアナリティクスデータをとりあげてみます。このサイトは5年弱運営しており、1ヶ月当たり17,000セッション、28,000PVぐらいのサイトです。

このサイトで直近1ヶ月間にアナリティクスデータに悪影響を与えているリファラスパムは下記の通りです。

【注意】繰り返しますが下記にアクセスしてはいけません。

build-a-better-business.2your.site
googlemare.com
new-look.for-your.website
rusexy.xyz
santasgift.ml
share-buttons.xyz
smarter-content.for-your.website
topseoservices.co
traffic2cash.xyz
trafficgenius.xyz
w3javascript.com
website-analyzer.info
website-stealer-warning.hdmoviecamera.net
с.новым.годом.рф

こののブログに比べると、リファラスパムの種類は少し多いです。しかし、それほどでもありません。数年間の記録となるとこの何倍もの種類のリファラ―スパムが来てはいますが、しばらくすると来なくなることも多いので、開設からわずかのサイトと比較してものすごく多いということでもありません。また、サイトの成り立ちによってもリファラ―スパムが来やすいかどうかは異なると思います。

アクセス数が少ないほどリファラスパムの影響は大きい。

ちなみに、このブログのアナリティクスデータに影響を与えているリファラースパムのセッション数は約300、比較しているサイトへのスパムのセッション数は約200です。アクセスが多いからと言ってリファラスパムが多いとは限らない気がします *1。このブログがはてなブログであること、もう一方がWordPressで作成されていること、正常なリファラーによるアクセス比率(検索やダイレクトとの比較)が大きく異なるサイトであることも関係があるかも知れません。

こう見てみると、リファラ―スパムがアナリティクスデータに与える悪影響は、アクセス数が少ないサイト程大きいと言えるのではないでしょうか。

ちなみに、さきほど挙げた例で比較してみると下の表のようになります *2

--- 直近1ヶ月間のデータ ---

  セッション数 スパムのセッション数 スパムの占有率
他のサイト 約17,000 約200 1.18%
このブログ 約4,200 約300 7.14%

比較した他のサイトもビジネスサイトではなく、アクセスをあまり気にせずのんびり運営しているため、アナリティクスのデータを見る機会も非常に少ないです。そのため、リファラ―スパムの存在には気づいていたもののずっと放置されていました。しかし、一定のアクセス数があるため、全セッションに占めるリファラ―スパムの割合は1%台に過ぎず、データに与える影響は大きくありません。

もちろん、ビジネスのためのサイトなど、シビアにアクセス解析が必要な場合はこの程度の悪影響も排除すべきですが、そうでなければ放置しても大した問題はありません(スパムサイトを訪問しなければ、ですが)。

しかし、アクセスのまだ少ない当ブログでは、リファラスパムによるセッションは7%以上にもなりますので影響はそこそこあると言えます。

また、リファラースパムのアクセスログは、

  • 直帰率 100%
  • ページセッション  1
  • セッション時間  00:00:00

という特徴を備えていることがほとんどですが、データの集計時には当然この数値が含まれてしまいます。サイトの改善の指標としての信頼性が大きく損なわれることになります。

少ないアクセスであってもアナリティクスのデータを見ながらサイト改善の方針を決めていくのなら、リファラ―スパムの影響をデータから排除しておくべきでしょう。

それに「お!アクセス増えた。」と思ったら、その多くをリファラースパムが占めていたなんてこともあり得ます。リファラ―スパムが残すアクセスログは、データ上も実質的にも何の意味もありません。ぬか喜びなんてことになるのも気分悪いですものね。

リファラ―スパムを除外するGoogleアナリティクスの設定

では、実際にリファラースパムを除外するGoogleアナリティクスの設定について見ていきましょう。

説明している順序通りの順番で対策をしていけば良いと思います。

Googleが把握しているスパムを除外する

まず、Googleが既に把握しているスパムについて除外する設定です。Googleが把握・対策するまでのタイムラグはあるものの、既知のbotによるスパムはこれで排除できます。

アナリティクスの画面の一番上にある「アナリティクス設定」をクリックします。

f:id:shigo45:20160114001122j:plain

次に一番右にある「すべてのウエブサイトのデータ」の下にある「ビュー設定」をクリック。

f:id:shigo45:20160114001142j:plain

次の画面で「既知のボットやスパイダーからのヒットすべて除外する」にチェックを入れ、一番下の保存をクリックします。

f:id:shigo45:20160114001147j:plain

これでGoogleが対策している既知のbotによるスパムは除外できます。ただし、Googleがまだ対策していないものは除外できないので、これでもリファラースパムが残るなら次の設定をします。

言語でフィルタをかける

言語のデータは、ブラウザで表示する言語の種類ごとにセッションを分類して記録するものです。しかし、言語データが(not set)になっているログがあります。

ほとんどの場合、(not set)となっているデータはスパムによるものです。一応、上に述べたようにソートをかけてボットであることを確認の上、大丈夫そうなら、言語によるフィルタでスパムを除外します。

「アナリティクス設定」をクリック。

f:id:shigo45:20160114001122j:plain

「フィルタ」をクリック。

f:id:shigo45:20160114001222j:plain

「+フィルタの追加」の赤いボタンをクリック。

f:id:shigo45:20160114001234j:plain

次の画面で

  1. 「フィルタ名」に適当なフィルタ名を入力。
  2. 「フィルタの種類」で「カスタム」を選択。
  3. 「フィルターフィールド」で「言語設定」を選択。
  4. 「フィルタパターン」に"not set"を入力(スペースを含め全て半角)。
  5. 一番下の「保存」をクリック。

f:id:shigo45:20160114001247j:plain

これで言語データが(not set)になっているスパムを除外できました。しかし、言語データが"en" "en-us" "es"などになっているリファラスパムは除外できません。これらの言語でフィルタをかけることもありですが、外国からのアクセスを全く記録しないわけにも行かないとも思います。

そこで、ここまでの設定でも除外できないリファラースパムについては、面倒ですが次の方法でフィルタをかけていきます。

ドメインでフィルタをかける

リファラスパムの残したドメインデータを使ってフィルタをかける方法です。

「アナリティクス設定」をクリック。

f:id:shigo45:20160114001122j:plain

「フィルタ」をクリック。

f:id:shigo45:20160114001222j:plain

「+フィルタの追加」の赤いボタンをクリック。

f:id:shigo45:20160114001234j:plain

次の画面で、

  1. 「フィルタ名」に適当なフィルタ名を入れる。
  2. 「フィルタの種類」で「カスタム」を選択。
  3. 「フィルタフィールド」に「参照」を選択。
  4. 「フィルタパターン」にスパムフィルタの残したドメインをコピペする(図に載せたドメインはリファラースパムの一例です)。
  5. 一番下の「保存」をクリック。

f:id:shigo45:20160114001305j:plain

これでリファラースパムのドメインによる除外ができました。数が多い場合はひとつひとつフィルタを設定するのは面倒ですが、上の2つの対策をやった後、様子を見て残ったスパムだけこの設定をするなら、それほど多くはないと思います。

ここまでやってもすり抜けてくる場合

上のような設定をしてもすり抜けてくるリファラスパムもあります。例えば

【注意】下記にアクセスはしないでください。

с.новым.годом.рф

これは最近現れたロシア方面からのスパムですが、上に挙げたような設定をしてもすり抜けてきます。

ここまできたらこれも除外してしまいたいところで、例えば「国」単位でのフィルタをかける方法も考えられます。しかし、このスパム、このブログのアナリティクスデータで確認したところ、既に17か国からのアクセスを偽装しています。今後も「国」が増える可能性はありあまり良い方法とは思えません。

あまりにも面倒なので、私は今のところこのスパムは放置しています。当サイトのアクセスも増加しており、データに与える影響も大きくなくなってきましたし、リンクをクリックすることもないので、まあ大丈夫かなという判断です。目に入るとウザったいですが、気にしないことにしています。

元に戻す可能性もあるならビューの新規作成を

なお、アナリティクスにフィルタ設定をすると、その後はフィルタで除外されたデータを見ることはできません。仮に、後からこれらのデータを含めたものを見たい可能性がある場合は、フィルタ設定前に新しい「ビュー」を作成しておく必要があります。ビューを複数作成しておけば、フィルタを設定する前とした後のデータを比較することもできます。

新しいビューを作成するには「アナリティクス設定」から一番右の「すべてのウエブサイトのデータ」の部分をクリックし、ドロップダウンから「新しいビューを作成」を選択します。

f:id:shigo45:20160119141930j:plain

まとめ

リファラスパムは、データを汚し、危険なサイトに誘導する可能性がある迷惑な存在です。出来るだけ目にしないように設定するのが得策だと思います。

他にもリファラスパムを除外する設定はあると思いますが、比較的簡単にできる方法を紹介してみました。

ただ、アクセスさえしなければ(ここだけは重要)、そう神経質に追いかける必要もないと個人的には思います。アナリティクスばかり見ていてもアクセスが増えるわけではないですものね。


This is a post from 45 For Trash

*1:とはいえ私の知る限りであって客観的なデータではありません。

*2:詳細なデータはアドセンス規約との関係もあるのでぼかした数値となっています。

POLICY :1. このサイトへのリンクは自由です。 2. できるだけ誤りのないように書いているつもりですが、当サイトに掲載する情報の正確性は保証できません。また掲載している情報は執筆日現在の情報です。 3. 当サイト、当サイトリンク先、広告リンク先の利用によって生じたいかなる損害についても一切の責任を負いません。 4. 当サイトはGoogleアドセンス、Amazonアソシエイト、その他アフィリエイトの広告を掲載している場合があります。 5. 当サイトご利用の場合は上記の事項に同意したものとみなします。