サイト内の現在位置

ETLやデータプレパレーションのデータ加工で全社データを最適化

Tableau(タブロー)

ETLやデータプレパレーションは、データ加工のプロセスで用いられるものです。データを分析する場合、異なるシステムで管理されている複数のデータソースを参照して分析することがありますが、同じ意味を示すデータでも型の異なる状態で管理されているため加工をしないと分析に使えないケースはよくあります。効果的なデータ利活用を実現するためにもデータ加工のプロセスはとても重要で、効率に差が出やすいポイントでもあるため「ETL」と「データプレパレーション」の概要を理解しておくことも重要です。そこで本コラムでは、ETLとデータプレパレーションの違いと概要、ETLやデータプレパレーションに関連する用語を確認しながら、双方のデータ加工について解説します。

データ活用やDXが進まない理由と対策
~1万人規模の組織を動かすデータ活用事例~


データ活用やDX推進を行うという大方針は決まっていているものの、実態として進んでいないというケースがよくあります。よくある課題や対策、また、当社のデータ活用事例についてまとめたebookです。ぜひご活用ください。

ダウンロード

データ活用やDXが進まない理由と対策~1万人規模の組織を動かすデータ活用事例~

ETLとデータプレパレーションの違い

データ加工のプロセスで用いられる手法には、大きく「ETL」と「データプレパレーション」があります。これら両者の違いは、データ加工プロセスを利用する想定ユーザーの違いです。

  • ETLの想定ユーザー:ある程度のプログラミング知識があるユーザーが利用できる
  • データプレパレーションの想定ユーザー:プログラミングの知識の有無に関わらずGUIで誰でもデータ準備(加工)ができる

ここでは、ETLとデータプレパレーションについて、ひとつずつ解説します。

ETLとデータプレパレーションの違い

ETLとは

ETLとは、データ加工を行うときのプロセスである「Extract(抽出)」「Transform(変換・加工)」「Load(格納)」を順番に頭文字をとった略称です。ETLは1970年代ごろからある概念で、現代においては、BIで利用されるDWH(データウェアハウス)のデータ格納までのプロセスに使われています。ETLのプロセスは、ETLツールを利用することで、ある程度のプログラミング知識があればプロセスを簡素化できます。

■ETLツールとは

企業に蓄積されている膨大なデータを加工するために必要な機能は、ETLツールとして提供されています。ETLツールを利用すれば、直感的な操作でデータ加工・統合のためのプログラムを構築できるため、多少のプログラミング(SQLなど)に関する知識は必要ですが、深い専門的な知識はそれほど必要なく、雑多なデータを適切な型に変換して、DWHに保存できます。

ETLツールを利用すれば、BIを利用するための「DWHに保存するデータ」を構築するプロセスが簡素化でき、開発工数を削減できるというメリットがあるのです。

■ETLによるデータ加工プロセス

ETLのデータ加工プロセスは上述した通り、大きく3つのプロセスで成り立ちます。

【Extract(抽出)】
Extractでは、企業が現在データを蓄積しているデータベースやExcelファイルなどからデータの抽出を行うプロセスです。利用したい分析結果を明確にして、それに即したデータを抜き出し、不要なデータは排除することで、その後のTransformやLoadのプロセスをスムーズにします。

【Transform(変換・加工)】
Transformは、抽出したデータを分析しやすい形に変換・加工を行うプロセスです。抽出したデータの形式が統一されていなかったり、毎回加工が必要となる場合には、この過程で多くの時間を割くことになります。しかし、すぐに分析ができる形式でデータ抽出が行える場合には、このプロセスを省くことも可能です。

【Load(格納)】
Loadは、変換・加工されたデータをDWHへ書き出すプロセスです。これにより、各所から集めたデータが同じ形式で同じ場所に集められ、その後の可視化やデータ分析がしやすくなるのです。

データプレパレーションとは

データプレパレーションとは、ETLと同じようにデータを加工するプロセスです。ETLとの大きな違いは、プログラミングなどを含めたITに関する深い知識がない人でも、簡単にデータ加工プロセスを行えることです。ほとんどの工程をマウスでオペレーションできるため、直感的にデータ加工を行えます。

また、データ収集から足りないデータの補完、表記の揺れ(例えば「Excel」と「excel」といった大文字小文字の揺れなど)も、GUIをマウスで操作するだけで簡単に統一できるため、効率的なデータ加工処理が可能です。

用意するものはデータベースやExcelデータなど、ETLと同じですが、それらデータをパソコンの画面で直感的に操作してデータを形成できます。データプレパレーションに必要なのは、IT知識ではなく、データプレップツールの操作方法だけなのです。

なぜETLやデータプレパレーションが必要なのか

それでは、なぜETLやデータプレパレーションが必要とされているのでしょうか。それは、全社データを統合したデータマネジメントを行うための準備として、手作業ではできない膨大なデータの加工が必要だからです。

業務系システムには膨大なデータがあり、これらデータを経営に役立てるにはデータを加工し統合して、集約したDWHが必要です。この一連の作業を手作業で行う作業工数は計り知れません。そこで、ETLやデータプレパレーションを用いることで、DWHにデータを書き込むまでのプロセスを効率的に行うのです。

DWHに統合されたデータが一元的に格納されることで、BIツールを利用してデータマネジメントを推進できるようになります。

データマネジメントについては「DX時代のデータマネジメントを徹底的に見直す~全社におけるデータ活用に備えるポイント~」で詳しく解説していますので参考にしてください。

データ加工に関連する用語の確認

ETLやデータプレパレーションを利用して効率よくデータ加工を行うために、関連する用語を知っておくことは大切です。ここでは、データ加工に関連する用語を確認しておきましょう。

■DWH(Data Warehouse)

DWHはETLやデータプレパレーションによって最適な型に加工されたデータを格納する倉庫のことです。一般的なシステムで利用されるデータベースとは保管形態が異なり、分析に最適化されたデータが保管されていることが特徴です。また、一般的なデータベースよりもデータの保存容量が大きいため、データベースほど保存容量を気にする必要もありません。

■データプレパレーション

データプレパレーションとは、データの準備をするプロセスのことです。処理や分析をする前段階のデータの型を最適化したり、データのゆらぎを修正したりして、分析をしやすい形に変換・加工します。データプレパレーションを行ったデータがDWHに格納され、そのデータを基に可視化や分析が行われます。

■BI(Business Intelligence)

BIとは、企業が意思決定をするために役立つ手段や技術のことを指します。データに基づいた経営戦略を立てるために、企業が日々の営利活動におけるデータを収集して蓄積し、データが活用できる状態にするBIツールはデータドリブン経営などに役立てられているのです。

データ分析プラットフォームTableauをより便利にトランスフォームする「Tableau Prep」と「Tableau Data Management」

データを活用するためにはデータを収集した後、最適化するための準備としてデータ加工が必要ですが、分析プラットフォームのTableauは、データプレパレーションを行える「Tableau Prep」を活用することができます。Tableau Prepは、既存のデータベースやExcelなどに蓄積しているデータについて、GUIにてマウスの操作でデータ分析の準備を行うことができる製品で、基となるデータの準備プロセス(データプレパレーション)を容易に行えます。また、「Tableau Data Management」を活用することで、Tableau Prepにて準備をしたデータソースがどのような流れでどのように加工されているのか、一連の流れを管理することができます。加工のプロセスが管理できることで、効率化とデータの信頼性を確立できます。

まとめ:データ加工は信頼できるデータを形成するための必要なプロセス

企業としてデータを基に意思決定をするには、全社データを収集し、活用しやすい形で統合し、信頼できる形で蓄積しなければなりません。ETLやデータプレパレーションは、信頼できるデータを形成するデータ収集・変換・加工のプロセスです。ETLとデータプレパレーションには利用するユーザーのITスキルによっても使い勝手が変わってきますので、その違いを理解した上で、使いやすいデータ加工プロセスを採用してデータマネジメントの基盤を構築しましょう。

データ活用やDXが進まない理由と対策
~1万人規模の組織を動かすデータ活用事例~


データ活用やDX推進を行うという大方針は決まっていているものの、実態として進んでいないというケースがよくあります。よくある課題や対策、また、当社のデータ活用事例についてまとめたebookです。ぜひご活用ください。

ダウンロード

データ活用やDXが進まない理由と対策~1万人規模の組織を動かすデータ活用事例~

お問い合わせ・資料ダウンロード