2010年7月21日水曜日

7/21 締め切り二日前

締め切り二日前にも関わらず悠長に実験しているのだが、
Hadoopと統合実行するとレイテンシが発散してしまう。
どうやら、Hadoopのジョブの粒度が大きすぎるせいのようだ。

Hadoopで処理するファイルは現在合計178MBのテキストファイルなのだが、
現在は1時間ごとのデータなのでたった24個のファイルしか存在せず、
一つのジョブの粒度が数メガ単位になってしまっている。
これでは思うようにジョブの切り替えが行えないので、
ファイルをsplitコマンドで1万行ごとに区切ることに。

1000行で分割すると、ファイルが多すぎてHadoopの処理が極端に遅くなるため、
今は10000行ずつ分割するパターンで試している。
1000行ずつ分割すると2000個以上のファイルができるが、10000行ずつだと225個のファイルとなる。


この実験に差し掛かる前に、Hadoopへのコマンドがうまく渡せないというエラーがあったが、
SPADEのコードをコメントアウトしていたのを忘れていただけだった。まぬけだ。

0 件のコメント:

コメントを投稿