ビッグデータはまだまだ現役！これからの可能性と進化の全貌

ビッグデータはAI以上に重要であり、依然として成長中

企業は大規模なデータセットを活用してAIと解析を推進

爆発的なデータ量とデータ生成率の増加が続いている

ビッグデータが再び注目を浴びています。米国の企業Databricksのアダム・コンウェイ氏は、「ビッグデータはAIよりも重要」と指摘しました。この数年、AIが盛り上がりを見せる中、実はビッグデータがその基盤を支えていることを忘れてはいけません。

今日の企業は、1ペタバイト(PB)を超えるデータセットを扱うことが一般的です。中には10PBから100PB、更には1エクサバイト（EB）を超えるデータを保持する企業も存在します。Databricksがクライアントのために1日あたり9EBのデータを処理するとのことからも、その膨大さがうかがえます。

ハードウェアとソフトウェアの進化により、私たちは以前の制約を超えてデータの活用を進めることができるようになりました。Amazon S3のようなBLOBストレージサービスは、理論上無限のデータを保存可能です。また、Amazon EC2などのクラウドコンピュートエンジンを使えば、コストの許す限り膨大なデータを処理できます。

現在、Apache Sparkはビッグデータ処理において重要な役割を果たしています。Sparkは、従来のMapReduceに代わるオープンソースのフレームワークとして、多様なビッグデータタスクに利用されています。バッチ処理のETLやSQLクエリの実行、リアルタイムデータのストリーム処理などがその用途です。

コンウェイ氏によれば、ビッグデータは企業内で大いに活用され、AIや解析を進めるのに不可欠な役割を果たしています。古くからのデータウェアハウスと共に、信頼性の高いデータを提供するためのレイクハウスも注目されています。「多くの重要な収益やコスト削減を狙ったAIワークロードは、巨大なデータセットに依存している」とコンウェイ氏は述べています。つまり、ビッグデータがなければAIは成立しないという現実があります。

Web 2.0やソーシャルメディアの勃興がビッグデータ革命を引き起こし、今日のデータ生成の爆発的な増加を支えています。このトレンドは今後も続き、データ管理の重要性がますます高まることが予想されます。