ビッグデータとは?基礎知識と活用事例を解説 | NECソリューションイノベータ

サイト内の現在位置

コラム

ビッグデータとは?基礎知識と活用事例を解説

UPDATE : 2022.03.18

ビッグデータ(Big Data)とは、人間では全体を把握することが難しい巨大なデータ群のことです。ビッグデータは近年、社会情勢の変化や関連技術の進化によって、これまで以上に注目を集めています。本記事では、改めてその定義やメリットをわかりやすく解説。またビッグデータ活用時に注意すべきポイントも紹介します。

INDEX

ビッグデータとは

ビッグデータ(Big Data)とは、人間では全体を把握することが困難な巨大なデータ群のことです。明確な定義は存在しませんが、一般的にはVolume(量)、Variety(多様性)、Velocity(速度あるいは頻度)の「3つのV」を高いレベルで備えていることが特徴とされています。また近年では、これにVeracity(正確性)とValue(価値)を加えた「5つのV」をビッグデータの特徴とするとも言われています。

下図はビッグデータの具体的な内容を示したもの。これらのビッグデータを収集、蓄積、分析することで、さまざまな成果を生み出します。活用範囲が幅広いため、あらゆる分野・業界でビッグデータの利活用が期待されています。

総務省によるビッグデータの解釈

総務省は『平成29年版 情報通信白書』において、個人と企業と政府が生み出すビッグデータの構成要素を大きく3つに分類して解説しています。まずは国や地方公共団体が提供する「オープンデータ」。続いて企業が保有するパーソナルデータ以外の幅広いノウハウなどのデータと、M2M (Machine to Machine)と呼ばれる産業用機械の機器間通信時のデータで構成される「産業データ」。最後が、個人の属性情報や移動・行動・購買履歴などの個人情報を含む「パーソナルデータ」です。

日本は現在、サイバー空間(仮想空間)とフィジカル空間(現実空間)を高度に融合させた次世代社会「Society 5.0」の実現を目指しています。そこで重要視されているのが、先の3つの構成要素を連携してデータを効果的に活用することです。ビッグデータの連携により、社会に新たなソリューションやイノベーションを生み出すことが期待されています。

構造化データ・半構造化データ・非構造化データ

ビッグデータを構成するデータは下図のように3種類に分類することも可能です。二次元の表形式で成立している「構造化データ」、内容に一定の規則性はあるものの表形式にはなっていない「半構造化データ」、内容に規則性のない「非構造化データ」です。ICTが進展しさまざまな情報を収集可能な現在では、ビッグデータの多くを占めるのは「非構造化データ」と「半構造化データ」です。ただしこれらを利活用するためにはデータの整理や変換が必要となるうえ、データ容量も大きくデータベースとしての運用も難しいため、高度な管理体制の構築が求められます。

ビッグデータのメリットと活用事例

ここでは、ビッグデータを適正に活用することで企業が享受できるメリットと活用シーンを合わせて紹介します。

●高精度な予測分析による最適化

膨大な情報量を含むビッグデータに基づく分析が機能すれば、これまでよりも精度の高い予測が可能です。さまざまなビジネスシーンにおいて、直感的な意思決定から、データに裏付けられた論理的な意思決定への転換を図れます。

生産管理と価格管理の脱“属人化”

経験が必要とされる生産管理・在庫管理の現場では、業務が担当者のノウハウに依存することがあるでしょう。そのため担当者の違いによる数値のばらつきや、熟練担当者不在による損失・停滞などを招くリスクがありました。しかしビッグデータの予測分析に基づく意思決定を徹底すれば、属人的な業務から脱却できます。また高度な需要予測に基づいた生産管理や在庫管理が機能すれば、在庫の過不足を抑えられるため、ムリ・ムダを省き事業を適正化するのに役立ちます。

こうした高度な予測に基づく脱“属人化”は、価格管理の場面においても有用。季節ニーズに応じたダイナミックプライシング(変動型価格)として実現しています。ホテルなどの宿泊施設や遊園地などのレジャー施設、航空チケットやスポーツ観戦チケットなどの価格管理に採用され、需給に合わせ価格調整を自動化することで収益の最大化に貢献しています。

“ヒット”の分析を活かした新商品の開発

ビッグデータを活用することで、製品・サービスへの反応もより詳しく分析できるようになります。例えば動画配信サービスを提供するNetflix社は、ユーザーの視聴動向を細かくトラッキングしてデータ蓄積し、ビッグデータとして分析しています。レコメンド機能の改善やコンテンツ開発に活用し、ユーザー個々人に“ピッタリ”なコンテンツを提供して、サービスの継続利用を支えています。
特に着目すべきは、自社制作コンテンツのテーマを決定する際にもビッグデータを活用して、ユーザーが望むコンテンツ(=ヒット作)の制作を実現した点です。製造業だけでなく、コンテンツ産業・エンターテインメント産業においても、新商品の開発にビッグデータが有用であることを示しました。

●リアルタイムでデータを「見える化」

昨今では分析技術の進化により、大量で多角的なビッグデータをリアルタイムに処理し「見える化」することが可能になりました。これにより、データの活用範囲が広がり、新しい価値創出に貢献しています。

IoT、M2Mデータで機械をリアルタイム制御

自動車の自動運転実現には、ビッグデータのリアルタイムな制御技術が欠かせません。自動運転は、自動車のカメラやセンサーから収集されるデータを瞬時に識別する必要があるからです。また自動運転をサポートする高精度なデジタル地図(=ダイナミックマップ)の整備には、周辺車両情報や歩行者情報などのさまざまな情報(=ビッグデータ)をリアルタイムに更新し続ける必要があります。

製造業におけるスマートファクトリー化も、ビッグデータに支えられています。例えば機械の故障を事前に検知して事故を防ぐ「予知保全」は、工場の機械同士の通信や、設備に取り付けたセンサーから取得した情報をリアルタイムに解析することで実現しています。また製造ラインの画像や動画をリアルタイムにAIが解析することで「不良品の検出」を実現。精度の高い検品による品質や生産性の向上に貢献しています。

リアルタイムならではの高付加価値サービス

スポーツ産業におけるデータの見える化も加速度的に進んでいます。世界最高峰のプロ野球リーグであるMLB(Major League Baseball)では、スタットキャストというデータ解析ツールが導入されています。スタットキャストにより、変化球の変化量や打球軌道のビジュアル化、守備の際の捕球地点までの距離と到達時間の解析などを実現。トップ選手たちのファインプレーがデータで可視化され、スポーツ観戦というサービスに深みを与えています。
こうしたデータ解析技術は、トレーニングや実際の試合における戦術策定にも応用されています。バレーボールの試合では、コートサイドでタブレット端末を持つ監督の姿を見たことがあるでしょう。リアルタイムに収集・解析したデータをもとに、高度な戦術合戦が繰り広げられています。

●顧客に合わせた顧客体験サービスの実現

ビッグデータを顧客体験の向上に活用する動きも活性化しています。さまざまなデータを組み合わせ多角的な分析をすることで、高解像度な顧客理解に裏付けされた顧客サービスを展開できるようになります。

レコメンド機能で個人ごとに有用な提案

ECサイトでアップセルとクロスセルを促進するのに欠かせないレコメンド機能は、顧客情報やサイト上での行動を収集分析することで実現しています。また顧客データや購買データはマーケティングにも応用。データをもとにしたパーソナライズされたサービスや情報の提供により顧客体験(CX)を向上させ、LTVの最大化に寄与しています。
ビッグデータによるパーソナライズなサービスは、教育業界でも活用が期待されています。教育や学習のデータを収集・分析して教育現場に役立てることを目的とするラーニングアナリティクス(Learning Analytics)という取り組みです。ラーニングアナリティクスによる教育現場の見える化により、学ぶ側個々人への最適なコンテンツの提供や、教える側のスキルの標準化が見込まれています。

ビッグデータの課題と注意点

ビッグデータは正しく活用することで大きな成果を引き出せますが、反面、その取り扱いには難しさもあります。ここでは、その課題と注意点を解説します。

増大化する保守管理と運用の負荷

データのVolume(量)が膨大であるということは、留意すべきです。データを保存するためのストレージがデータ量に応じて必要であるほか、データの選定やクレンジング(前処理)の負荷も増大するからです。当然、データ選定や前処理をおざなりにすると、分析作業の効率や分析の精度を落としてしまいます。「どのデータを収集するのか」「どのように保存・蓄積するのか」「どのように利活用していくのか」といった保守管理と運用の方針を明確にしたうえで、コストメリットもあるクラウドサービスの活用を含めたITインフラの最適化が求められます。

セキュリティ対策

ビッグデータにはパーソナルなデータも含まれるため、セキュリティ対策が欠かせません。EUではGDPR (EU一般データ保護規則)が施行され、個人データ保護の取り組みが進みました。特にWebサイト上で取得するCookieによるブラウジング情報の取得・利用については、EUをはじめ世界的に注視されています。最新の法規制やルールに関する情報をキャッチアップして、適宜対応する必要があります。
また、カメラやセンサーなどのIoT機器を活用したデータ収集についても情報漏洩を防ぐためのセキュリティ設計が求められています。

ハイスキル人材の不足

ビッグデータを適正に運用するためには、データ活用に長じた高度なスキルを持った人材(データサイエンティスト・データアナリスト)の登用が有効です。また技術的知見に加えて、ビジネスに対する深い洞察力を有している人材が望ましいとされています。ビジネスにおけるデータの利活用の意義を把握していると、データ分析プロジェクトの費用対効果を組織に啓蒙できるからです。
しかしながら「データ」と「ビジネス」の両面を高いレベルで満たす人材は特に不足しているため、採用戦略以外に自社での人材育成を検討する必要があるでしょう。

ビッグデータを活用するために必要なこと

ビッグデータを正しく活用していくためにはどのような取り組みが必要なのでしょうか。ここではデータ利活用のために必要なポイントを解説していきます。

データ分析の青写真を描く

ビッグデータの利活用は、その目的を設定するところから始まります。目的に応じて分析課題を設定し、必要となるデータを収集、データをクレンジング(前処理)して蓄積、そして分析・見える化(利活用)するという流れです。重要なポイントは、手元にあるデータからできる方法を考えるというプロセスに陥らないこと。まず目的ありきで既存のデータを捉え直し、足りないデータがある場合は追加で収集することも検討しましょう。

活用を見据えてデータを集め、整える

データのクレンジングは、ビッグデータを活用したデータ分析において最も重要と言っても過言ではないパートです。総務省の『ICTスキル総合習得教材』では、「網羅性(Completeness)・唯一性(Uniqueness)・適時性(Timeliness)・正当性(Validity)・正確性(Accuracy)・一貫性(Consistency)」というDAMA(データマネジメント協会)UK支部のデータ品質基準を引用しています。こうした基準をもとに、欠陥がないか、重複していないか、表記揺れや誤表記がないかなどを検証することが大切です。品質の悪いデータによる分析では、誤った結論に行き着く恐れがあります。データ収集後は必ず、データクレンジングでデータの欠陥を修正し、データ品質を高めましょう。
またシステムを横断してデータを使用しやすくするために、データ形式やフォーマットの標準化を徹底し、根本からデータ品質対策を講じることも重要です。

適切な方法でデータを分析する

適切にクレンジングされたビッグデータは、さまざまな手法で分析できます。平均値や中央値、偏差などの基本的な統計や、複数項目を掛け合わせて集計するクロス集計、機械学習技術を用いた分析などです。知見は必要ですが、Python・Rなどのプログラミング言語を活用すればさらに高度な「見える化」も可能です。データを分析して利活用するところまでを見据えて、BIツールによる効率化を図ることも重要です。

ビッグデータの分析とセットで語られることの多いキーワードが「AI(人工知能)」「機械学習」「ディープラーニング」です。詳しい解説は省きますが、「ディープラーニング」は「機械学習」に内包される技術であり、「機械学習」は「AI」に内包される関係性にあります。そして「AI」の開発や発展には、学習するための大量な情報(ビッグデータ)が求められます。一方で、ビッグデータを効果的に利活用するために「機械学習」や「ディープラーニング」が用いられます。このように、ビッグデータと「AI」「機械学習」「ディープラーニング」は相互依存の関係にあります。

以下は、現在ビッグデータの解析に用いられている代表的な機械学習アルゴリズムです。

●決定木(けっていぎ)
目的に対して関連の高い項目から順に分岐させ、ツリー(樹形図)構造で分析する手法。結果(目的変数)に影響する要因(説明変数)を分かりやすく可視化して、有益な情報を発掘(データマイニング)できます。マーケティングにおいて特定の顧客属性に共通する特徴や傾向を見出すのに役立ちます。

●ロジスティック回帰分析
いくつかの要因(説明変数)が引き起こす、「商品を買う/買わない」「イエス/ノー」「起こる/起こらない」といった答えが2つである事象の確率を説明・予測する統計手法です。リピートの予測やサービス解約率・継続率の予測などに応用されています。

●主成分分析
複数の変数を、より少ない変数に置き換えて統合し分析する手法です。さまざまな要因(説明変数)が存在すると解釈に時間を要しますが、主成分分析を用いればデータの全体像を効率的に可視化できます。総合指標による評価が可能なため、アンケートなどの満足度調査やランキング調査に有用です。また総合評価に一番影響を与える要素を洗い出して、マーケティングや製品開発に活かすこともできます。

●K平均法
K平均法は、データ群を似た性質のグループに分けて分析する「クラスター分析」の一種です。K平均法では、あらかじめ設定した「K」個に分類して分析を行います。「高級志向」「コストパフォーマンス重視」「機能重視」など、分類したセグメントの分析を深めることで、それぞれのグループごとに最適化したマーケティング施策の展開が可能です。

●アソシエーション分析
「ある行動を取る人は、この行動を取る傾向にある」というように、行動間の関連性を発掘する分析手法です。「この商品を買った人は、こんな商品も買っています」といったECサイトのレコメンド機能のベースとなる技術です。アップセル・クロスセルの観点でも有用であるほか、大量の商品を扱うECサイトにとっては、顧客体験(CX)の向上という観点でも欠かせない技術です。

PoCで検証し、判断する

ビッグデータ分析を運用するにあたっては、PoC(Proof of Concept:概念実証)も重要です。PoCでは、「使用するIT機器で必要なデータを収集できるか」「活用するに十分な質と量のデータを確保できるか」「想定する分析手法や分析ツールでデータ利活用の“目的”に必要な情報を抽出できるか」「コストは見合っているか」など、IT環境やデータ分析手法の費用対効果を含んだ実現性や有効性を確認します。昨今では、切り替えが容易でコストメリットもあるクラウドサービスも充実しているので、最適な環境を構築すべく導入を検討すべきでしょう。
非常に重要なPoCですが、それ自体がゴールになってはいけません。スモールスタートで検証し、すみやかに意思決定の判断材料を獲得することも肝要です。またPoC段階の情報で、新たな目的が発生する可能性もあります。目的や検証事項を適正に設定し、改善の意識をもってPDCAを回転させて検証を続け、リスクを排したプロジェクトの実現を図りましょう。

ビッグデータを取り巻く状況と今後の展望

すでに多くの分野で活用が進んでいるビッグデータは、今後もさらに社会的な重要性が高まり、活用が進んでいくと目されています。

5G、IoTの普及による恩恵

ビッグデータの取得を加速させるためのテクノロジーが近年、いくつも花開いています。超大容量・超高速・超大量接続を実現する次世代データ通信技術「5G」、IoT機器の近い領域でデータ処理を可能にするエッジコンピューティング技術、そしてそれらを支えるセンサー、ストレージ、クラウド、セキュリティ技術の進化です。これらが相互に恩恵をもたらすことで、今まで使えていなかったデータの活用も進み、新たなビジネスやソリューションの創出につながることが期待されています。
一方で、データ活用人材の不足や不揃いなデータフォーマットなど、データ活用を阻害する課題への対応も求められています。

国家的なデータ戦略で広がるデータの利活用

日本では、2021年のデジタル庁発足、2022年4月施行の改正個人情報保護法におけるオープンデータの利活用推進、さらにはスマートシティ法案(国家戦略特別区域法案)による規制緩和・特例措置などによって、ビッグデータの利活用を促進すべく国家レベルでデジタル戦略が進んでいます。

しかしながら他国に比べると、データの利活用が進んでいるとは言えない状況です。総務省の『令和2年版 情報通信白書』によれば、個人データ以外のデータ利活用状況のアンケートで米国企業の約55%、ドイツ企業の約53%が「活用している」と回答した一方で、日本企業は約23%に留まりました。さらに内閣官房情報通信技術(IT)総合戦略室の『地方公共団体へのオープンデータの取組に関するアンケート結果』(令和3年)では、全国の地方公共団体の約48%が「オープンデータ関連の取組は何も行っていない」と回答しています。すでに民間企業や地方自治体が主体となってオープンデータを活用したサービスが創出されている状況ではありますが、まだまだ開拓の余地があるのも事実です。

ビッグデータ活用の新たな展開

日本では法整備が進んでいるほか、情報システム基盤の統一によるデータ標準化に取り組む動きがあります。またデータクレンジングサービスやツールの市場も成長を続けており、ビッグデータの利活用に貢献する環境整備や技術開発が進んでいます。
例えば「データ仮想化」も注目すべき技術の一つです。「データ仮想化」は、異なるデータソースやフォーマットのデータを仮想的に統合して一元処理を可能にします。データソースが多様化する中、ITインフラのコストと運用負荷を軽減する技術として注目を集めています。
発展するビッグデータ関連サービスの一方で、スモールデータの解析も注目を集めている分野です。「ビッグデータ」という枠組みにすらもとらわれず、プロジェクトの目的に向け最適解を目指し続けることが、これからのデータ利活用においては重要でしょう。

まとめ

さまざまなビジネスシーンで活用が進んでいるビッグデータ。すでに多くのITソリューションが登場し、データ利活用を身近なものにしています。ただし導入するには、コストやセキュリティ、プロジェクト体制の構築などの難題をクリアしなければなりません。最善手を打つためには、知見を有する専門企業に相談することも効果的です。自社をデータドリブンな組織へと導くためにも、最新情報をキャッチアップすることから始めてみてはいかがでしょうか。