竹嵜さんにご招待いただいてクラウド研究会に参加しました。
今回のネタは丸山先生のMapReduce。 Googleの論文からはじまり、Map, GroupBy (Shuffling), Reduce の各部分で何をするのかといった内容とか、この環境での Fault tolerant とか。
昔のY社にいたときには、大量のログを分析するとか、大量にあるテキストを処理するとか、そういうネタがあって MapReduce な環境がほしかったんだけど、最近だとそれほどの量のデータを扱う仕事がないからなぁ。。 仕事がないのなら仕事を作り上げればいいんだろうけど。
あとは「どんな状況の時にMapReduceが使えるのか」なんていう話があったのだが、僕的には「大量のデータがあって、それをバッチ処理なりで回すといった使い方には使いやすいんじゃないか」なんて思うんですけどね。
久しぶりに大規模データの取り扱いなネタのお話で、楽しかったです。
おもしろそうー<br>仕事としてるのは責任大きいけど<br>興味としては聞いてみたいなー
昔 okachan が「sort|uniq ってやると out of memory って出るんだけど」とか言っていた頃が懐かしい。 あの手のでかいデータを自由に加工できる環境ってすばらしいですよ。 現役時代に欲しかった、あったらもっといろいろできたのに、なんて思います。