【AWS】EMRとは?概念を解説

2019年3月11日

本稿ではAmazon Web Service(AWS)のEMRについて説明していきます。

 

 

AWS EMRとは?

Amazon Web Service Elastic MapReduceの略称で、大量のデータを効率的に処理することを容易にするWebサービスです。

AWS EMRでは、Hadoop処理と複数のAWS製品の組み合わせで下記タスクを実行します。

  • Webインデックス作成
  • データマイニング
  • ログファイル分析
  • 機械学習
  • 科学的シミュレーション
  • データウェアハウス

 

次項でEMRの構成を見ていきましょう。

 

AWS EMRの構成

 

S3

  • Input用のファイル置き場
  • Output用のファイル置き場
  • ソースコード置き場

 

EMR Job Flow

  • EC2 + Hadoopで構成されたインスタンス

 

CloudWatch

  • Hadoopの稼働時に、EC2インスタンスの状態をチェックできる

 

EMRのメリット

オンプレミスでサーバー構築する必要がない

オンプレミスでサーバー構築すると以下のような検討と対応が必要ですがそれらから解放されます。

  • サーバーが故障した際のリカバリ方法はどうするか?
  • サーバー拡張する時の手段/運用はどうするか?
  • 構築する際の人/時間のリソースをどう確保するか

 

AWSサービスとの連携が容易に行える

S3を始めとしたAWS一式を使えて、処理に組み込むことが容易に行えます。

 

ソフトウェア更新を手動で行う必要がない

自分でソフトウェア更新する必要がなく、AWSに任せることができるので手間が省けます。

 

CUI/GUIで使える

動作環境としてCUI/GUIの両方に対応しているので、ユーザが操作しやすい環境で操作することができます。

 

 

NetworkAWS

Posted by Hiro