| « XHTML1.0 Transitional→Strict | コンテンツが存在しないページはインデックスさせない » |
robots雑感
先日、書いた
のb2evolutionに対する設定が反映されたせいか、ざっとHTTPDのログを見た感じ、検索エンジンのクローラーは、おとなしくなってる。
もっとも、まだ、日が浅いから安心は出来ないけど。既取得分も、意図を汲んで消えて行ってくれることを願います。
ちなみに、
<meta name="robots" content="NONE" />
は、
<meta name="robots" content="NOINDEX,NOFOLLOW" />
と同義。
スパムクローラー
幸いこのブログの方には、現在、スパム目的と思しきクローラーは、そんなに、来てないけど、Wikiの方には、それなりに来てる。
大体、毎日来てるのは、
といった感じのリファラスパムで、こまめに、USER_AGENTやアクセス元を変え、宣伝リファラを送ってきてるけど、なぜかREQUEST_URIが特定しやすいので、
RewriteRule ^wiki/\+(?:.*?-\+-.*)-\+\.html$ - [F,L]
と書いておくだけで済むので、助かってる。
メールアドレス取得系のものもそこそこ来てる。代表的なのは、いわゆる全信協スパムクローラーと呼ばれるもので、これもUSER_AGENT等で特定しやすいので、対処は案外楽。はじき方は、
が参考になると思う。
やっかいなのは、USER_AGENTで特定できないタイプ。でも、robots.txtに従わないことが常なので、現在、対処方として、通常のコンテンツにJavaScriptのIncludeを経由して、COOKIEを書き込ませ、robots.txtで禁止しているURIへのアクセスには、そのCOOKIEを必須とさせる。大体、絨毯爆撃を仕掛けてくるので、大量に、403エラーが出てれば、スパム認定する、といった方針。
ま、でも、このサイトにわざわざ来ても、労力に見合わないと思うが・・
Trackback address for this post
Trackback URL (right click and copy shortcut/link location)
Feedback awaiting moderation
This post has 156 feedbacks awaiting moderation...