document

S4をCentOS5.5に入れた時のログ

S4は"リアルタイムMapReduce?"と説明する向きもあるが、S4はストリーミングデータベースや複合イベント処理システムと比べるほうが適切だ。

Sampleを使ってみた感想としては、まぁ逐次twitterからデータ取ってきてるなってだけです。

まだパフォーマンスは分からない。

SUN JAVA

SUNのJAVAを入れる

環境変数にJAVA_HOMEを設定していること

あとは

Getting Started ― s4 documentation (v0.3.0) http://docs.s4.io/tutorials/getting_started.html

こちらのサイトの通りにコマンドを打つ

Set Up S4

Clone s4 to a source directory (<source_base>)

	cd <source_base>
	git clone git://github.com/s4/s4.git
	cd s4
	git checkout tags/v0.3.0
	./gradlew allImage
	cd build/s4-image/
	export S4_IMAGE=`pwd`

Set up the Example Application

   cd <source_base>
   git clone git://github.com/s4/twittertopiccount.git
	cd twittertopiccount
	git checkout tags/v0.3.0
	./gradlew install
	#Deploy the application: 
	./gradlew deploy
	cd build/install/twitter_feed_listener
	export TWIT_LISTENER=`pwd`

Run sample

サンプルを走らせる時にメモリが足りない問題が起きた。(対策は下記)

Start an S4 node:

	S4_IMAGE/scripts/start-s4.sh -r client-adapter

Run the adapter:

	$S4_IMAGE/scripts/run-client-adapter.sh -s client-adapter \
	-g s4 -d $S4_IMAGE/s4-core/conf/default/client-stub-conf.xml &

Start the Twitter feed listener. Replace <your-twitter-user> and <your-twitter-password> with a valid Twitter account userid and password:

	$TWIT_LISTENER/bin/twitter_feed_listener <your-twitter-user> <your-twitter-password> &

結果

/tmp/top_n_hashtags.

に人気のハッシュタグが逐次記録される

メモリが足りない

s4をのsampleをrunしようとすると、割り当てるメモリが足りなくてエラーになってしまう

エラー内容 "Could not reserve enough space for object heap"

1.割り当てられる上限を探る CATALINA_OPTSで1024MB以上のメモリが割り当てられない − Java Solution − @IT <http://www.atmarkit.co.jp/bbs/phpBB/viewtopic.php?topic=32757&forum=12>

EC2のインスタンツは1.7GBだったから

# java -Xmx1600m -version

はうまく1600MBを使うことにする。

2.スクリプト書き換え

# vi $S4_IMAGE/scripts/start-s4.sh

   134 #if [ "x$MEM_OPTS" == "x" ] ; then
   135 #  MEM_OPTS="-Xms800m -Xmx2000m"
   136 #fi
   137 MEM_OPTS="-Xms800m -Xmx1600m"

S4関連資料

"リアルタイムMapReduce?"と説明する向きもあるが、S4はストリーミングデータベースや複合イベント処理システムと比べるほうが適切だ。

公式での動作確認

Red Hat Enterprise Linux 4

    Ubuntu 10.10
    Ubuntu 10.10 Desktop on VMWare で検証
   予想に反して、サイトの手順通りに進めればすんなり動く
   (ただしHashTagのカウント結果が生成されるまで少し時間が
   かかる)

性能:5分が速いかどうかは求めるシステムによると思われる

実験より(....より)

   ライブサーチのCTRを解析
       Click through rate (CTR) = クリック数/広告が表示された件数
   一日で250,000人が..用。100万件のクエリ
   ピーク時では、1600 events per second
   マシン環境
       16 servers, each with 4 32-bit processors and 2 GB of    memory
   従来は、24時間ごとのCTRを測定していたが、S4により5分ごとのCTRを測定可能になった
   → このデータにより、CTRを3%向上できた

リンク

S4 http://www.slideshare.net/natiueno/s4-6033912

いろいろ役に立つ。

Yahoo!のリアルタイムMapReduce?「S4」メモ(1) - 科学と非科学の迷宮 http://d.hatena.ne.jp/shiumachi/20101104/1288874076

S4: Distributed Stream Computing Platform | Yahoo! Labs http://labs.yahoo.com/node/476

マスコミ系リンク

濃縮還元オレンジニュース:米Yahoo!,リアルタイムなMapReduce?フレームワーク「S4」公開|gihyo.jp … 技術評論社 http://gihyo.jp/dev/clip/01/orangenews/vol60/0002

InfoQ: Yahoo!、リアルタイム分散処理プラットフォームのS4をリリース http://www.infoq.com/jp/news/2010/11/yahoo-releases-s4


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2011-09-27 (火) 19:04:12 (2821d)