精度/粒度/鮮度の違うビッグデータの活用―最適なIT技術の組み合わせとは?
作成者:奥野 和弘 投稿日:2013年6月25日
こんにちは、SAPジャパンの奥野です。昨年、本ブログで「BIツールが活用されない原因はデータの信頼性。では、情報の鮮度と精度を維持するには?」という記事を紹介しましたが、今回はビッグデータという時代のキーワードに即して少し掘り下げたいと思います。データの精度や粒度がバラバラである元データから、どのようにして自社のビジネスニーズに適した形でデータ抽出するか、またそのために活用すべき最適なIT技術の組み合わせについてお話していきたいと思います。
ビッグデータ活用には従来とは異なる「情報系システム」が必要
このところIT関連のニュースなどで「ビッグデータ」という言葉を目にしない日はありません。昨年はほとんどのお客様が「ビッグデータで何ができるのか?」を模索する段階にとどまっていました。それが今年に入ってからは「ビッグデータ」活用の成功事例の増加も手伝って、多くのお客様が具体的な活用ビジョンを持ち、その実現方法を模索する新しい段階に入っています。
こうした追い風を受けて、再び「情報系システム」に大きな注目が集まっています。とは言っても、それはかつての“何度も繰り返されるデータコピーと、分析用にデータを中間処理するバッチタスクの集合体”だった、いわゆる「情報系システム」とはまったく異なる次元のシステムを指しています。そこで今回は、この点をビッグデータ時代ともいうべき背景をもとに、さらに深掘りしていきたいと思います。
「タイムリーに正確な判断を行う」BIなどの情報系システムの目的は、ビッグデータ時代でも変わりませんが、その実現にはデータの精度に加え、粒度や鮮度をよりビジネスニーズに合わせて加工、精製していく必要があります。
また、ご存知の通りビッグデータには「3V」、つまり「Volume(量)」「Velocity(速度)」「Variety(多様性)」の3つの特長があります。このような大量で多様性を持ったデータを適切かつ迅速に処理し、「タイムリーに正確な判断を行う」ためには、さまざまなIT技術を複合的に組み合わせてゆく必要があるのです。
3つの特性に即したビッグデータとソリューションの考え方とは
それではもう一歩踏み込んで、ビッグデータの「3V」それぞれの特性に即した、IT技術やソリューションの考え方を見ていきましょう。
まず「Volume(量)」です。ビッグデータ処理といえば、SAPにはSAP HANAというすばらしいインメモリーデータベースがありますが、それではいつでもすべてのデータをまとめてSAP HANAに格納しておけばよいかというと、それは大きな誤りです。
たとえばソーシャル分析では、SNSやブログ、ツイッターなどから収集してきた大量のデータを、確率統計的な手法で分析して何らかの気づきを得たり、特定の事象に関連するものを抽出・比較します。当然、信頼性の高い情報を得るためには、分析元となるデータのボリュームがそれなりに大きくなければなりません。これはひるがえって見れば、個々のデータ1件あたりの情報の価値は必ずしも高くないということでもあります。
こうした情報を大量に投入するにはSAP HANAはあまりに高価だと思うお客様もいらっしゃるはずです。もちろんSAP HANAは他の商用データベースよりもむしろ安価であり、圧倒的なROIを誇っています。だからと言って個々の価値の低いデータを無分別に詰め込むのは不経済かもしれません。そのようなお客様にとってはソーシャル分析用のデータなどは、一旦Hadoopのような安価な基盤に置き、必要に応じてSAP HANAにロードする方が、より現実的な場合も多いでしょう。SAP HANAにはHadoop用のアダプタがあり、SAPのお客様の中にも、SAP HANAを用いたビッグデータ解析を行う際にHadoopとSAP HANAを組み合わせて利用している企業が少なくありません。
Velocity:増え続けるデータをいつまで保存しておくのか?
次に「Velocity(速度)」です。今日ビッグデータは急速に増え続け、それに伴って古いデータの価値はどんどん低下していきますが、問題はその低下速度がデータによって、またユースケースによって違うことです。
たとえば、顧客の住所や電話番号はほとんどの場合、最新のデータ以外には価値がありません。一方で、顧客が過去に購入した品物の情報などは、マーケティングを効率的に行う上で価値があり、履歴としてより長い期間保存しておく可能性が高いと思われます。ところが古い住所や電話番号であっても、引っ越し業者などにとっては、その顧客層がどれくらいの周期で引っ越しているかといった顧客動向を知る上で大きな価値を持つ場合もあります。
こうした中で「いつ、どのデータを破棄するのか」という課題は、以前よりもはるかに複雑さを増しています。そこで、タイムリーに正確な判断を下すために必要な鮮度でデータを提供し、かつ不要なデータの蓄積に年間何十億円もの投資を防ぐために、情報のライフサイクルを集中的に管理する専用のソリューション=「インフォメーション ライフサイクル マネジメント」という考え方が必要になってくるのです。
Variety:多様性を持ったデータを精製して、価値の高い情報を見つけ出す
3つ目の「Variety(多様性)」は、データを利用する企業にとってもっともチャレンジを要求されるところです。とりわけ精度や粒度がバラバラなデータから、どうやってビジネスニーズに適した形でデータを抽出するかというのは頭の痛い課題です。
たとえるなら、それは砂金から金を精製するような作業です。ほぼ無価値の膨大な砂利をより分けて、そこに含まれているごく少量の砂金を取り出し、さらに精製を重ね、ようやく価値ある金を得ることができるのです。
もちろん、それは簡単な作業ではありません。そしてビッグデータ活用にもまったく同じことが言えるのです。
ひとくちにビッグデータと言っても、次のようにいろいろな種類があります。
- マシンのログや計測機器からのデータのように比較的構造化されているもの
- テキストベースの報告書やメールなど、構造化はされていないが一定の価値があるもの
- ソーシャルメディアの書き込みのように、構造化されておらず価値も予測しにくいもの
とりわけ「3」のように多種多様なデータから価値ある情報を取り出すのは容易ではありませんが、それができればライバルよりも価値の高い情報を多く生み出せるようになります。不純物の多い“砂利”からどの競合他社よりも多くの、そして高品質の“金”を取り出せる企業が、現代の市場競争では圧倒的な優位を手にすることができるのです。そのデータの“精製”に欠かせない、テキストプロセッシングやデータクレンジングの技術こそは、ビッグデータ時代の情報系システムにおいては欠くことのできないツールだといえるでしょう。
「リアルタイムデータプラットフォーム」が実現する新しい情報ソリューション
新しい情報系システムには多くの新しい技術とツールが必要であることを、ごく簡単に説明してきましたが、これだけでも、もはや情報系システムがデータベースとETLツール、そしてBIツールだけで完結できる世界ではないことはご理解いただけたと思います。こうした時代背景を見すえてSAPでは、「リアルタイムデータプラットフォーム」という新しいコンセプトを掲げて、新しい時代に即した情報系システムの提供を開始しています。
* Information management は以下の製品により構成されています:SAP Data Services Enterprise, SAP Enterprise Master Data Management, SAP NetWeaver Information Lifecycle Management, SAP Enterprise ECM solutions by OpenText, SAP Sybase Replication Server
「リアルタイムデータプラットフォーム」とは、超高速インメモリーデータベースであるSAP HANAを中心として、ビッグデータ時代の情報系システムに必要とされる機能群を包括的に提供するプラットフォームの総称です。
たとえばデータストアの用途では、SAP HANAに加えて、その目的に応じて使い分けられる、以下の3つの追加データベースが提供されます。
- SAP Sybase IQ:大容量に対応できる優れた情報系データベース
- SAP Sybase ASE:高速での管理が容易なRDBMS
- SAP Sybase SQL Anywhere:モバイル機器やマシンへの組み込みに豊富な実績を持つ軽量データベース
さらに、下のようなツールも提供されており、ビッグデータ時代の情報系システムに必要なあらゆる要素がこのプラットフォームだけですべてそろうのが、最大の特長でありメリットでもあります。
- SAP Sybase Event Stream Processor (SAP Sybase ESP):発生したデータをデータベースに格納することなく、インメモリーでそのまま処理が可能
- SAP Sybase PowerDesigner:企業で取り扱うあらゆるデータを、一元的にモデリング
- SAP Data Servicesを中心としたIMソリューション群:データの“精製”とライフサイクル管理全般を担う
すでに海外では多くの事例が。国内でも年内に複数のソリューションが稼働開始
「リアルタイムデータプラットフォーム」を使った新しい情報系システムの試みは、現在さまざまな企業で進行しています。たとえば、SAP Sybase IQをSAP HANAのニアラインストレージとして利用するなどは、わかりやすい例でしょう。またSAP Sybase PowerDesignerを通してモデリングしたデータモデルを、企業内データ資産の統合マネジメントソリューションであるSAP BusinessObjects Information Stewardに取り込み、そこでデータの読み替えルールを追加定義した後、企業情報管理(EIM)基盤機能を提供するSAP Data Servicesで利用するといった、大がかりな統合化ソリューション例もあります。すでにこれら製品間のインテグレーションは進んでおり、今後もますますその度合いを強めていく予定です。
海外ではすでに、こうしたSAPの包括的ソリューションをベースとして、これまでとはまったく違う次元の情報系システムを構築されるお客様の例が増えてきています。
参考記事:走るトラックの「すべて」を24時間見える化、ビッグデータで運輸コストを抑制するARI
もちろん日本でもこうした情報系システムへのチャレンジは加速しており、2013年内にも、いくつかのお客様の環境で実際に稼働を開始するソリューションの構築が進行中です。大きな川の流れのようなビッグデータの中から、ライバルよりも効果的に価値ある情報を取り出すための情報系システムは、間違いなく、今年もっとも注目すべきソリューションの1つと言うことができるでしょう。
ご質問はチャットやWebからも受け付けております。お気軽にお問い合わせください。
●お問い合わせ先
チャットで質問する
Web問い合わせフォーム
電話: 0120-554-881(受付時間:平日 9:00~18:00)