1月に以下の記事をアップしましたが、あれからも少しずつgoogleアナリティクスのリファラスパム対策をしてきたもののイタチごっこはまだ続いています。   リファラスパムを撲滅せよ!>> ゴーストリファラ対策~リファラスパムとつきあう方法~>>   その中で、Googleアナリティクスの対策として手っ取り早い有効方法を見つけたのでご紹介します。とはいえ、まだ検証中で一時的な対策にしかなりませんが…。    

 

おさらい:リファラスパム(参照元スパム)とは?

リファラスパムとは、ウェブのアクセス解析データの参照元情報を不正に送り記録すること。機械的にアクセス情報を残していくわけですが、Googleアナリティクスのような外部の解析ツールでは、実際にウェブサイトにアクセスすることなく、ユーザーが来たことを装い参照元の記録を残していく悪質なものが流行っています。darodar.com、simple-share-buttons.comやロシアのドメイン.ruがついたものなど、リファラスパムは次から次へと増えています。  

現状、Googleアナリティクスに蔓延るリファラスパムの簡単なイメージ

  ref_20150430_1   通常、ユーザーはウェブサイトを見ようとすると運営者のサーバーにアクセスをし閲覧します。ユーザーが閲覧するウェブサイトの情報にはアクセス解析を計測できるタグを含んでいるので、その情報と一緒に読み込みます。これをGoogleアナリティクスのサーバーが受取り、ユーザーがいつ、どこから、何で、といった詳しい情報を蓄積していきます。

サイト運営者はこの情報を分析していきます。   リファラスパムはこのアナリスト(分析者)の行動を逆手に取り、参照元情報をわざと残すことで自分のサイトに訪問を誘導します。 ref_20150430_2   私もそうですが、分析する者はサイトを向上させることがモットーですので、訪問の可能性がある他サイトがあるなら、当然のことながら情報収集するために参照しにいきます。まんまと罠にかかってしまうのです。   また、無償で使えるGoogleアナリティクスを導入したサイトの数は多いので、このGoogleアナリティクスを狙ったリファラスパムは、設定しているタグの変数を変え無作為に送りつけている状況です。自社サイトで解析している場合のアクセス拒否はサーバーで設定できますが、Googleアナリティクスに送られるリファラ情報はほとんど図解のように偽装されて直接Googleアナリティクスのサーバーに送られます。ほとんどは実際にサイトには訪れていません。   ですので、ゴーストリファラなどと呼ばれる所以もそんなところにあります。    

 

現状のGoogleアナリティクス対策

この「ウェブの実」のサイト分析がどんなことになっているかというと、いろいろ試しているためビューが多くなって大変です(笑)何が有効か突き止めようと思った結果、こうなりました。  

ref_20150430_3

 ブログでも紹介した通り、フィルターを使ったビューをつくることとセグメントでデータを見ることの両方を実践しています。

●フィルターを使いリファラスパムを対策する方法 リファラスパムを撲滅せよ!>>

●セグメントを使いリファラースパムを除外してデータを見る方法 ゴーストリファラ対策~リファラスパムとつきあう方法~>>

 

現状は、フィルターを設定したビューで、地味に参照元スパムを登録しています。同じように新たなものを見つけるとセグメントに追加をしていきます。   私は、(Elminate Spam)というビューに対してフィルターをかけています。このフィルターをかけたデータを軸にし、あわせてセグメントしたデータ(リファラスパムを除外したもの)を見ます。  

ref_20150430_4

 

図では、オレンジの線がセグメントでリファラスパム除外の登録したものです。少しだけ見えるブルーの線はすでにフィルターをかけてスパムの登録をしたものですが、差分が出ているのがお分かりでしょうか?どちらも同様の設定をしているので、数値の変動は同じはずなのですが、このように差分が出た時に新たなリファラースパムに疑いをかけます。

 

こうやって、地味にフィルタとセグメントを設定し、Googleアナリティクスを参照しているのが実情です。   この方法でセグメントのメンテナンスさえしっかりできていれば、複数管理する他サイトのデータもセグメントをかけて参照すれば、だいたい純粋に近いデータで分析することができます。(※ただし、他サイトが先行してリファラスパムに遭遇していて、それが見つかる場合もあります)    

 

新たなリファラスパム対策として

Googleアナリティクスのプロパティ2、3のデータならリファラスパムの影響を受けにくいのでは?という仮説です。 実際、これまで計測していたプロパティ1のデータは新たなスパムに遭遇していますが、新しく作成したプロパティ2のデータは影響を受けていませんでした。(データにスパムが訪れたという差分が見られないのです)  

 

上のグラフデータがこれまでのプロパティ1のデータ、下がプロパティ2のデータ ちなみにフィルタの設定もしていません。

ref_20150430_5

(グラフ軸の単位が異なるのでちょっと見にくいですが)

  Googleアナリティクスのプロパティ設定については、ここでは詳しく話しませんが、同一サイトで例えばスマホ用のサイトとPC用のサイトがあります。それぞれで分析したい…という時などにプロパティを分けて管理することがあります。ですが、同一のPCサイトにコードを埋め込み計測しているところです。

 

プロパティで計測を設定するとトラッキングコードのIDの枝番号が変わります。 UA-xxxxxxxx-2   通常の設定は、UA-xxxxxxxx-1になります。リファラスパムは、変数で無作為にデータを送りつけているわけですが、枝番2以降のものに対しては、データを送りつける可能性が低いようです。

 

実際、クライアントのサイトを見ていて、影響を受けていなかったウェブサイトの共通点がそんなところでした。   リファラスパムの生成する側も人が見ないものに送っても効率を下げるだけですので、今今スパムのプログラムには、プロパティ2以降のものに対してのロジックを組み込んでいる可能性が低いように感じました。自分も狙いをつけるとしたら、ターゲットが多いものに定めますし。   こちらの対策も確実ではなく、スパムのプログラムが高度になれば有効でなくなります。フィルターやセグメントの管理が煩わしければ、その作業を軽減するために多少なりの簡易措置になるのではというところです。現段階では影響を受けにくいというレベルでお考えください。 

 

トラフィックのデータを多いサイトに関しては、多少のアクセスは許容できるのですが、数値が少ないサイトについては、データに影響してくるので本当にどうにかしたいですよね。   まだ、こちらは先日試したばかりなので、また何か見えてきたら共有します。

 

それでは、ごきげんよう!