FC2ブログ

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

bingのクローラー

最近たらたらとapacheのログを眺めることがおおいのですが、
bingのクローラーがよくくるようになりました。
サイトを作った当初は、robots.txtとトップページを読んでいって、
その後1週間くらいは、こなくて、またrobots.txtとトップページを読むという感じで
bingはやる気があるのかなと思っていました。
ところが、最近は一日に何度も訪れて、いろんなページを読んで行きます。
少しはやる気が出てきたのかな。
あるいは、Microsoftのリソースが少なくて、新しくできたサイトはなるべくいかず、
少しアクセスが多くなってから頻繁に訪問するようにしているんですかね。
GoogleやNaverやspiderは最初からよくきたんですけどね。

http://chattera.net/
http://chattera.net/chaberilist.php
スポンサーサイト

間違ったCSSのアクセスがある

アクセスログの中に

GET /chaberilistfile.php/css/chatlist.css

という間違ったパスのログがあります。
正しくは

GET /css/chatlist.css

なのですが
なぜか、chaberilistfile.phpが前についています。
調べてみると、googleやyahooの検索エンジンからきた場合に

GET /chaberilistfile.php/

という「/」が最後についた形式できているものがあります。
すべてついているわけではなく、「/」が最後についていない正しい形式もあります。
「/」が最後についていると、


のところで、cssの前にchaberilistfile.php/がついてしまうんですよね。。
仕方がないのでlinkのsrcを修正して

のように /cssにしておきました。

googleがphp/のように「/」が最後についた形式で取り込むのがなぜかわかりませんね。。
どっかに間違った記述をしているのかな。

http://chattera.net/
http://chattera.net/chaberilist.php

Y!J-BRJ/YATS crawler はなんだろう

Y!J-BRJ/YATS crawler(http://listing.yahoo.co.jp/support/faq/int/other/other_001.html)というクローラーが来ました。
調べてみると

インタレストマッチでは適切な広告サービスの提供のため、以下の目的でクローラーを利用しています。 

提携パートナーサイトのサイトコンテンツ解析
広告を表示するコンテンツを解析し、より適合性の高い広告を表示します。
広告主様のサイト審査
広告が入稿されたときに広告からの飛び先のページとWebサイトをクロールし、内容を審査します。
インタレストマッチのクローラーのユーザーエージェントおよびIPアドレスの帯域は、以下のとおりです。
【ユーザーエージェント】
 ・Y!J-BRJ/YATS crawler
 ・Y!J-BRL/YATSS crawler
 ・Y!J-BRM/YATSD crawler
 ・Y!J-BRN/YATSA crawler
 ・Y!J-BRY/YATSH crawler
 ・Y!J-BRZ/YATSHA crawler
【IPアドレス】
 114.111.95.64 ~ 114.111.95.127
 124.83.223.0 ~ 124.83.223.63



ということのようですが、広告は出していませんし、このサイトにも広告を表示していません・・・
しかもrobots.txtを読んでいるのに、robots.txtでDisallow設定のファイルも読んでいます・・・
いったいなんだろう。

http://chattera.net/
http://chattera.net/chaberilist.php

iexplore.exeという名のUserAgent

アクセスログの中に、iexplore.exeという名のUserAgentというUserAgentがありました。
その部分のログを見ると

"GET /chaberilist.php HTTP/1.1" 200 54926 "http://chattera.net/chaberilistfile.php?file=20120622xxxxxx.dat" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; GTB7.3; .NET CLR 1.1.4322; YTB730; YJSG3)"
"GET /http://analyzer52.fc2.com/ana/processor.php?uid=xxxxxxx HTTP/1.1" 404 318 "-" "iexplore.exe"

のような感じになっていて、これが何度も繰り返されています。
最初のchaberilistfile.phpのアクセスは普通のIE8のUserAgentですが、このページにアクセスした際に、アクセスログ解析用のタグが貼ってあって、http://analyzer52.fc2.comはそのタグに相当します。
普通はそのままhttp://analyzer52.fc2.comに飛んでいってアクセス解析用のログが作られるはずなのですが、
そのURLを実行するのを間違えて、前に「/」をつけてしまったので、このサイトのアクセスログに404として記録されたような感じです。
問題はなぜこのようなことが起こるのかということですね。
IE8に特殊な何かを埋め込んで実行しているんでしょうかね。
よくわかりませんね。

http://chattera.net/
http://chattera.net/chaberilist.php

2日も応答を待っているプロセス

チャベリ誰がいたでは、某サイトにアクセスして、そこからチャベリ一覧を
もらってきて情報を取り出しています。
今日psをみてみるとそこのサイトに接続したまま、固まっているプロセスがありました。

chat 23308 23302 0 Jun16 ? 00:00:00 nc xxxx.org 80

6月16日のプロセスなので2日も応答を待っていることになります。
仕方がないのでkillをしたら部分的には情報が取れていました。
このままpsしなかったらずっと待っていたんですかね。。
なぜ接続が切れなかったのか原因はわかりませんが、
こちら側のタイムアウトを設定しないといけないですかね。。

http://chattera.net/
http://chattera.net/chaberilist.php

selectとepoll

チャットサーバプロセスは、非同期で複数のチャットクライアントからの
接続を受けたり、データの受信を受けたりします。
この目的で使うシステムコールはselect()を思いつきますが、
epoll()というものもあります。
どちらも同じようなことをしますが、以前別のシステムの開発をしていたときの経験で
epollの方が性能がよくて、多くの接続がある場合に、かなり処理時間に差が出ていました。
そこで、チャットサーバプロセスではepollを使っています。

epollの使い方は、selectと差がないくらい簡単で、
・epoll_create()でディスクリプタを作成し
・epoll_ctl()でsocketのディスクリプタをepollに登録します。
・epoll_wait()で待ち受けて、反応のあったディスクリプタの処理をします。
こんな感じです。

http://chattera.net/
http://chattera.net/chaberilist.php

アクセス解析のタグ

アクセス解析のタグを貼っているのですが、
トップページや、チャベリ誰がいたに貼るには問題がないのですが、
チャットルームに貼ると、なぜか、初期表示の際に、一度上部に隙間ができて
その後に隙間が消えて正しい表示になります。
それがいやなので、チャッとルームにはタグを貼っていません。。
何が悪いんだろう。
Javascriptを使いまくって画面を作成しているので、タグのJavascriptとうまくいってないのかな。
そのうちいろいろ試してみよう。

http://chattera.net/
http://chattera.net/chaberilist.php
プロフィール

chattera.net

Author:chattera.net
フリーでソフト開発の仕事をしています。
自作したこのチャットシステムは、何か世の中に役に立つこともあるかと思いますので、お呼びがかかるとうれしいですね。

連絡先は chatteranet@gmail.com です。

また、ソフト開発関連のお誘いもうけたまわっております。

最新記事
最新コメント
最新トラックバック
月別アーカイブ
カテゴリ
検索フォーム
RSSリンクの表示
リンク
ブロとも申請フォーム

この人とブロともになる

QRコード
QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。