データプレパレーションとは?概要と活用事例、ETLの違いを解説 | データサイエンス | DataVehicle

コラム

データプレパレーションとは?概要と活用事例、ETLの違いを解説

業務を通じてたまっていく膨大な量のデータ。これらのデータを前に、「データ量は十分なのに、分析しきれていない」「データ分析をしても知りたいことにたどり着けない」といった悩みを抱える企業は多いのではないでしょうか。こうした企業では、データ分析に不可欠な「データプレパレーション」を十分に活用できていない可能性があります。この記事ではデータプレパレーションの目的や方法、活用事例、また混同されがちなETLとの違いを解説します。

データプレパレーションとは?

データプレパレーション(Data Preparation)とは、データ分析の前に行うデータ収集、集計、統合、加工といったデータを分析できる形に変換する手法のことをさします。さまざまなデータ分析を行うにあたって、データプレパレーションは不可欠なプロセスです。

データプレパレーションの目的

データプレパレーションの目的は、生データを加工して分析に活用できる状態に整えることです。

業務データはデータ量の節約や整合性を重視した形で収集されるため、そのままの形では分析に活用することはできません。

例えば小売業では、データベースに顧客データのテーブルがあり、顧客1人につき1行のデータが存在しています。そして購買データのテーブルはまた別に存在していて、買い物が発生するごとにデータが1行追加されていきます。

個々のデータを見ただけでは、顧客と買い物との間に関連性を見つけることはできません。こうした別々に存在するデータを分析に活かすためには、顧客データと購買データを紐づける必要があります。

このように、データ分析に必要なデータを洗い出し、適した形に加工することで、より深い分析を行えるようになります

データプレパレーションの方法

データプレパレーションはどのような方法で行うのでしょうか。
3つの方法とそれぞれの課題を見ていきましょう。

Excelを活用する

Excelによるデータ加工は多くの企業で日常的に行われています。

多くのビジネスパーソンはExcelを扱い慣れており手軽に行える一方で、膨大なデータはパソコンで処理しきれなかったり、複雑な加工を行いにくいといった課題があります。また人の手による作業になるため、データ準備だけで時間がかかりすぎるというデメリットもあります。

SQLを活用する

SQLを駆使してデータベースを操作する方法です。

さまざまな業務データに対応できる柔軟性がありますが、データベース言語に精通している必要があるため、ITシステム部門のエンジニアでないと使いこなすのは難しいでしょう。非IT人材がSQLを習得するにはトレーニングが必須のため、教育への投資が必要になります。

データプレパレーションツールを利用する

Excelやデータベース言語を用いたデータプレパレーションは人の手による作業であるため、データが増えるほど処理に手間と時間がかかります。この課題を解決するため、近年では数々のデータプレパレーションツールが提供されています。

ツールの利用により、ITの専門知識を持たない人でも高速かつ正確にデータ準備を行え、データ準備にかかる時間と手間を減らすことに貢献しています。ツールの導入には費用がかかります。ツール導入によりコスト低減や生産性の向上につながるかどうかを精査して導入を検討しましょう。

このようにデータプレパレーションの方法はひとつではありません。
データ量やどんな分析をしたいのかによっても適した方法は異なります。
現状でデータプレパレーションにかかっているコストや手間を精査し、どの手法が自社に適しているかを検討しましょう。

データプレパレーションツールとETLツールの違い

データプレパレーションと混同されやすい仕組みに「ETL」があります。

ETLは「Extract(抽出)」、「Transform(変換)」、「Load(格納)」の頭文字を繋げた言葉です。

各プロセスについて具体的に見てみましょう。

  • Extract:データ群から特定のデータを抽出します。たとえば、売上データから「過去1年分」などのデータを抽出する場合です。
  • Transfom:ユーザーが定義する一連のルールに従って生データを変換します。生データたとえば、生データでは「1」「2」と数値で入力されていたものを「男性」「女性」と変換する場合です。
  • Load:抽出・変換が行われたデータをDWH(データウェアハウス:データを保存しておく場所)に格納する

上記の一連の作業をETLツールで行います。

生データを分析に利用しやすい形に整えるという点で、データプレパレーションとETLは似た役割を担っていますが、両者には以下の点で違いがあります。

データプレパレーションは「準備」に特化、ETLはより幅広い

データプレパレーションが「データ分析の前準備」であるのに対し、ETLツールは準備以外の場でも活用されます。

例えば商品の注文データを物流部門で活用したい場合、物流部門側で使用しているデータの形に合わせて注文データを変換する必要があります。

こうした分析用のデータ準備といったシーン以外でもETLツールは活用されます。

ターゲットユーザーの違い

ETLツールのユーザーは主にシステム開発部門のエンジニアであるのに対し、データプレパレーションツールのユーザーはデータサイエンティストやデータアナリストといった非IT部門のビジネスパーソンです。

IT知識の要否

データプレパレーションツールではマウスクリックによる操作が基本となっており、ITの専門知識がない人でも扱いやすいものです。

ETLにはコーディングが必要なものとノーコードで開発できるものがあり、コーディングを要するツールではプログラミングの知識が必須となります。ノーコードで開発できるツールであっても、データベースに関する基礎知識があった方が望ましいでしょう。

データプレパレーションの活用事例

データプレパレーションの具体例として、小売業での活用事例を見てみましょう。

小売業では日々膨大なデータが蓄積されていきます。

顧客データとしては氏名、住所、性別、年代といったデータが、売上データとしては一日/一週間/一か月ごとの売上、商品別の売上など、さまざまな種類のデータが増えていくはずです。

しかし、こうしたデータ単独からは「お客様の男女比」「年代の構成比」「ある商品の売上」といった単純集計の数値はわかりますが、複数の指標を合わせたデータまでは分析できません。

例えば、以下のことを知りたい場合には単独のデータでは分析できないため、データプレパレーションによりデータの加工・統合を行う必要があります。

  • 男女別で客単価がどう違うかを分析したい→男女別データと売上データを紐づける
  • 曜日別の売上を知りたい→日付を曜日に変換し、各曜日と売上データを紐づける
  • 顧客ごとの買い物の合計金額と、買い物に占める食品の割合を知りたい→顧客データと売上データを紐づけて顧客ごとの合計金額を出し、商品別の売上データと紐づけて食品の占める割合を導く

このように、同じ指標であっても組み合わせ方によってさまざまな分析ができます。

何を知りたいのかを明確にして適切にデータプレパレーションを行うことで、より高度な分析が可能になります。

データプレパレーションで有益なデータを生み出そう

どんなに豊富な種類のデータを集めても、それを有効活用できなければ宝の持ち腐れです。それどころか不要データが増えることで管理に手間がかかり、せっかくのデータも厄介なものになりかねません。

データを有益なものにするには、いかにそれらを「意味のある」「分析可能な」データに加工するかにかかっています。

本記事で解説したデータプレパレーションの目的や方法について確認し、データを価値あるものにしていきましょう。

データ分析や活用、DX推進に関するお悩み、弊社製品の機能についてご興味のある方は、お気軽にお問い合わせください。