GCPのBigQueryについて
GCPのBigQueryについて
業務でGCPのBigQueryを利用する機会があったので、メモ残します。
BigQueryは、Google Cloud Platformで提供されるビッグデータ解析プラットフォームです。1PB(ペタバイト)あるいは10億行といった膨大なデータに対して、集計・分析処理を極めて高速に実行できます。処理はSQL風のクエリ言語で記述します。
BigQueryの特徴
めっちゃ早い
BigQueryの特徴はお驚くほど早くデータ取得できる点です。
例えば、100億レコードの場合、数十秒で解析結果を得ることが出来ます。
ちなみにこの高速処理を可能にしているのは、Googleの何千というサーバー群でクエリを並列処理している為です。
SQLの知識があれば誰でも利用できる。
ユーザーはSQLという使い慣れた言語によって、BigQuery上のビッグデータを解析することが可能になります。
管理不要なフルマネージドサービス
フルマネージドサービスなので、インフラ環境の運用、保守やデータベース管理の必要がありません。
基本概念
BigQueryを構成する抽象概念について説明します。
データセット
データセットは、テーブルの集合を所有するためのコンテナとなります。 RDBでいうところのテーブルスペースのような概念。
テーブル
テーブルは、構造化されたデータの集合です。 BigQueryはRDBと同様にスキーマを持ちます。
ビュー
ビューはSQLクエリによって定義することができる仮想テーブルです。
ジョブ
ジョブはクエリ実行、データ追加、テーブルのコピーなどの実行単位です。 ジョブは非同期で実行され、ユーザーは実行中のジョブステータスをポーリングによっていつでも確認できます。
図解