技術ブログ

(技術系中心)基本自分用備忘録なので、あくまで参考程度でお願いします。

GCPのBigQueryについて

GCPのBigQueryについて

業務でGCPのBigQueryを利用する機会があったので、メモ残します。

BigQueryは、Google Cloud Platformで提供されるビッグデータ解析プラットフォームです。1PB(ペタバイト)あるいは10億行といった膨大なデータに対して、集計・分析処理を極めて高速に実行できます。処理はSQL風のクエリ言語で記述します。

BigQueryの特徴

めっちゃ早い

BigQueryの特徴はお驚くほど早くデータ取得できる点です。

例えば、100億レコードの場合、数十秒で解析結果を得ることが出来ます。

ちなみにこの高速処理を可能にしているのは、Googleの何千というサーバー群でクエリを並列処理している為です。

SQLの知識があれば誰でも利用できる。

ユーザーはSQLという使い慣れた言語によって、BigQuery上のビッグデータを解析することが可能になります。

管理不要なフルマネージドサービス

フルマネージドサービスなので、インフラ環境の運用、保守やデータベース管理の必要がありません。

基本概念

BigQueryを構成する抽象概念について説明します。

データセット

データセットは、テーブルの集合を所有するためのコンテナとなります。 RDBでいうところのテーブルスペースのような概念。

テーブル

テーブルは、構造化されたデータの集合です。 BigQueryはRDBと同様にスキーマを持ちます。

ビュー

ビューはSQLクエリによって定義することができる仮想テーブルです。

ジョブ

ジョブはクエリ実行、データ追加、テーブルのコピーなどの実行単位です。 ジョブは非同期で実行され、ユーザーは実行中のジョブステータスをポーリングによっていつでも確認できます。

図解

f:id:lhiroki1205:20210412160321p:plain

クエリ利用方法

qiita.com

参考

GCPの教科書