Spotfire®「データ前処理(データラングリング)」とは
分析からインサイトを導き出すための最初のステップは、整理された実用的なデータを確保することです。
しかし、分析時間の50~80%が、データを整理する前処理(ラングリング)に費やされているという調査結果が出ています。
Spotfire®は、ビッグデータを含むあらゆるデータソースに接続し、データの結合や複雑な前処理を簡単に行うことができます。データ前処理を担う「データキャンバス(ソースビュー)」は、接続、操作、変換に関する情報を自動的に記録し、データフローを生成するため、データモデルのトレーサビリティを確保できます。データ前処理のフローを分かりやすく可視化することで、データの編集、再利用、共有、分析のスケーリングを組織全体で行うことができます。
Spotfire®のデータ前処理を使用して、ビジネスユーザーは簡単にデータを整理することができます。さまざまなデータソースの列や行をマッシュアップしたり、データタイプ、カテゴリ、列名を変更し、ビジュアライゼーションの列名を動的にグループ化できます。また、誤った値や欠損値の置き換え、ワンクリックでのピボット解除も可能です。
Spotfire®の「データキャンバス(ソースビュー)」上にデータパイプラインを自動的に構築し、すべての変更を記録します。データソース、接続、操作、変換に関する情報が確認できるため、データモデルのトレーサビリティを確保することができます。
データ構造とリレーションシップの自動レコメンデーションにより、インメモリとインデータベースの時間を節約します。例えば、データが読み込まれる前に追加したテーブル行のプレビューを確認したり、テーブル間を紐づけるカラムを自動的に設定したり、ビッグデータを簡単に操作できるようにデータベース内カラムを分類するレコメンデーション機能があります。
ネイティブコネクタを使用することで、ユーザは複雑かつ大規模なデータに素早くアクセスすることができます。 RDB、NoSQL、OLAP、Apache Drill、Hadoop、Spark SQL、Impala、SAP HANAに対応しているだけでなく、Amazon Redshift、Databricks、RDS、Microsoft Azure SQL Database、Google Analytics、Salesforce、などのクラウドアプリケーションにも対応しています。また、カスタムコネクタを簡単に構築することもできます。
Spotfire®のアドオン製品「Spotfire® Automation Services」は、データの読み込み、整理、変換、書き出しなどのジョブを自動化します。豊富なAPIにより、特定のイベントに基づいて自動化を実行することも可能です。また、Spotfire® Serverの「スケジュール更新」機能を使用して、チームが分析結果をタイムリーに把握できるようにしたり、大容量ファイルのアップロードを業務時間外に行うこともできます。
ドライバやデータソースのドキュメントに簡単にアクセスできます。複数のデータセットをリンクすることもできます。また、優れたカラムマッチング機能により、ワンクリックでデータをマッシュアップすることができます。
データテーブルとワークフロー ステップを追加、削除、修正しながら分析を行えるため、時間を節約できます。インラインでの前処理もしくはデータキャンバス上での前処理、どちらかを選択できます。
クリックのみの操作もしくはAIによるレコメンデーションを使用して「データキャンバス(ソースビュー)」上で実行されるデータ変換の記録を簡単に編集することができます。
Spotfire®は、数万人規模のユーザー数まで拡張できます。スマートなメモリ共有により、リソースの負荷を軽減します。共有されたワークフローで、チームは編集可能なデータ処理手順にアクセスし、ニーズに合わせて作業を進めることができます。
Spotfire®は、データ前処理と分析をワンツールで提供します。分析中にデータを修正できるため、より速く、より正確な分析結果を得ることができます。複数のツール間を行ったり来たりして、プロセスが遅くなり、エラーが発生することはありません。
次の設定を行う前に、各テーブルのデータロードを待つ必要がありません。インラインでのデータ前処理(ラングリング)、設定可能なサンプリングに基づいた結果のプレビュー、データロード中にデータ型のレコメンドを表示することが可能です。