ページの先頭です。
サイト内の現在位置を表示しています。
  1. ホーム
  2. 製品・ソリューション
  3. Tableau(タブロー)
  4. Tableau技術コラム
  5. 第5回 最近のトレンド「Hadoop」との連携は?
ここから本文です。

Tableau技術コラム

第5回 最近のトレンド「Hadoop」との連携は?

第5回 最近のトレンド「Hadoop」との連携は?

Tableau 技術コラムも5回目となりました。
今回は、最近のトレンドとして「Hadoop」を取り上げます。

データレイク(Hadoop)とTableauの連携検証

昨今、「データレイク」との概念を耳にする様になりましたが、日々増大し続けるデータを有効に使うためにHadoopを導入している、または検討している方も多いのではないでしょうか。

当社としても、データレイク(Hadoop)とTableauの連携検証を以前より実施してきました。
本日は、そこで得た知見(検証結果)をお伝えします。

データの概要

本検証では、同一のスタースキーマ―の検索性能を、RDBMSとHadoopで測定しました。
検証に使用したデータは以下の通りです。

検証データ概要図

SparkSQL、Hive on Tez、LLAPの3パターンで、各種検証を行いましたが、それぞれ特徴はあるものの、運用に耐えられる結果を得ることが出来ました。
51億件中→25百万件ヒット→75件の集計結果を表示(2マスタテーブルのJoin有)で、約100~150秒の検索結果でした。

検証結果

検証結果のサマリは以下の通りです。

4マスタ連携

[拡大する]拡大する

2マスタ連携

[拡大する]拡大する

今回の検証では

  • SparkSQLは平均的にいい感じ
  • Hive on Tezも速い、特にヒット件数少ない場合は優秀
  • LLAPはヒット件数少ない場合、Hive on Tezより更に倍速い

HadoopのDWH(データウェアハウス)利用も、運用に耐えられるレベルに到達したと感じます。

評価環境

評価環境は、インメモリ並列分散処理に最適なサーバ「Micro Modular Server DX1000」とHortonworks社の分散処理ミドルウェア「Hortonworks Data Platform(HDP)」を使用しました。詳細は以下をご参照ください。

NEC、IoT時代の大規模分散処理基盤の短期導入を支援するリファレンス情報を提供

NEC DX2000Micro Modular Server

ETL・サーバ・Hadoopの全てをトータル的にご提供

当社は、Tableauのみならず、ETL・サーバ・Hadoopの全てをトータル的にご提供可能です。

ETL・サーバ・Hadoop

ご要望がありましたら、ぜひ、お問い合わせください。

Tableauについてのお問い合わせ

当社支援サービスや価格など、Tableauについてのご質問やご相談などがございましたらお気軽にお問い合わせください。

お問い合わせはこちらから

ページの先頭へ戻る