restofwaterimpのぎじゅつMemo

SIerに所属。企画から運用まで幅広くやってます。C#中心に書いてます。

【メモ】Hadoop 事始め・・・

大容量データを早く捌きたい・・・という重いと、前から興味があった技術であり、

個人的にもWebとかサーバ系への抵抗感が少なくなってきた(ワタシ的には)ので、

そろそろ手をつけようと。

 

会社のメンバーでSakura VPSを借りて、使っていこうということで、

とりあえず、sakura vpsを借りて、hadoopをインストール

 

Hadoop 第3版
Hadoop 第3版
posted with amazlet at 14.02.24
Tom White
オライリージャパン
売り上げランキング: 187,602

 

を見つつかつ

http://javatechnology.net/service/vps-java-tomcat/

http://toriaezu-engineer.hatenablog.com/entry/2013/09/10/000838

を見ながら、設定は完了

 

やっとこさ

# hadoop version

Hadoop 2.2.0

Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768

Compiled by hortonmu on 2013-10-07T06:28Z

Compiled with protoc 2.5.0

From source with checksum 79e53ce7994d1628b240f09af91e1af4

 

This command was run using /usr/local/hadoop-2.2.0/share/hadoop/common/hadoop-common-2.2.0.jar

までこれました。

 

日常の仕事は汎用機なので、linuxwgetとかtarコマンドを使う機会が少ないので、

これからこういうのも知れればと。

 

まずは、スタンドアロンモードと擬似分散モードを学習だ!と。

で、2章に乗っているawk と hadoopでの処理速度の違いをまずは体験をしてみよう。。