2025年最新の認定サンプル問題Professional-Data-Engineer日本語問題集と練習試験合格させます
Professional-Data-Engineer日本語豪華セット学習ガイドにはオンライン試験エンジン
質問 # 185
フローロジスティックケーススタディ
会社概要
Flowlogisticは、主要なロジスティクスおよびサプライチェーンプロバイダーです。これらは、世界中の企業がリソースを管理し、最終目的地に輸送するのに役立ちます。同社は急速に成長し、鉄道、トラック、航空機、海上輸送などの製品を拡大しています。
会社背景
同社は地域のトラック運送会社としてスタートし、その後他のロジスティクス市場に拡大しました。彼らはインフラストラクチャを更新していないため、注文と出荷の管理と追跡がボトルネックになっています。 Flowlogisticは、運用を改善するために、小包レベルでリアルタイムに出荷を追跡する独自のテクノロジーを開発しました。ただし、Apache Kafkaに基づくテクノロジースタックが処理ボリュームをサポートできないため、デプロイできません。さらに、Flowlogisticは、注文と出荷をさらに分析して、リソースを最適に展開する方法を決定したいと考えています。
ソリューションコンセプト
Flowlogisticは、クラウドを使用して2つの概念を実装したいと考えています。
*荷物の場所を示すリアルタイムの在庫追跡システムで独自のテクノロジーを使用する
*構造化データと非構造化データの両方を含むすべての注文と出荷ログに対して分析を実行し、リソースを展開する最善の方法、情報を拡張する市場を決定します。また、予測分析を使用して、出荷が遅れる時期を早期に把握したいと考えています。
既存の技術環境
フローロジスティックアーキテクチャは、単一のデータセンターに存在します。
*データベース
* 2つのクラスターに8つの物理サーバー
* SQL Server-ユーザーデータ、インベントリ、静的データ
* 3台の物理サーバー
* Cassandra-メタデータ、追跡メッセージ
10台のKafkaサーバー-メッセージ集約とバッチ挿入の追跡
*アプリケーションサーバー-顧客フロントエンド、注文/税関用ミドルウェア
* 20台の物理サーバーにまたがる60台の仮想マシン
* Tomcat-Javaサービス
* Nginx-静的コンテンツ
*バッチサーバー
ストレージアプライアンス
*仮想マシン(VM)ホスト用のiSCSI
*ファイバーチャネルストレージエリアネットワーク(FC SAN)-SQLサーバーストレージ
*ネットワーク接続ストレージ(NAS)イメージストレージ、ログ、バックアップ
* 10個のApacheHadoop / Sparkサーバー
*コアデータレイク
*データ分析ワークロード
* 20のその他のサーバー
* Jenkins、監視、要塞ホスト、
ビジネス要件
*生産のスケーリングされたパンティーを使用して、信頼性と再現性のある環境を構築します。
*分析のために一元化されたデータレイクにデータを集約する
*履歴データを使用して、将来の出荷の予測分析を実行します
*独自の技術を使用して、世界中のすべての出荷を正確に追跡します
*新しいリソースの迅速なプロビジョニングを通じて、ビジネスの俊敏性とイノベーションの速度を向上させます
*クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する
*他のすべての要件が満たされている場合は、クラウドに完全に移行します
技術要件
*ストリーミングデータとバッチデータの両方を処理します
*既存のHadoopワークロードを移行する
*アーキテクチャがスケーラブルで弾力性があり、企業の変化する要求に対応できるようにします。
*可能な限りマネージドサービスを使用する
*データの飛行と静止を暗号化する
*本番データセンターとクラウド環境の間にVPNを接続するSEOステートメント私たちは急速に成長したため、インフラストラクチャをアップグレードできないことが、さらなる成長と効率を実際に妨げています。私たちは世界中の貨物を移動するのは効率的ですが、データを移動するのは非効率的です。
顧客がどこにいて、何を出荷しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTOステートメント
ITは私たちにとって優先事項ではありませんでした。そのため、データが増大するにつれて、テクノロジーに十分な投資をしていません。私にはITを管理する優れたスタッフがいますが、彼らはインフラストラクチャの管理に忙しく、データの整理、分析の構築、CFOの実装方法の理解などの本当に重要なことを彼らに行わせることができません。追跡技術。
CFOステートメント
私たちの競争上の優位性の一部は、出荷と配達が遅れた場合にペナルティを課すことです。出荷が常にどこにあるかを知ることは、当社の純利益と収益性に直接的な相関関係があります。さらに、サーバー環境の構築に資本を投入したくありません。
FlowlogisticのCEOは、顧客ベースについて迅速な洞察を得て、営業チームが現場でより多くの情報を得られるようにしたいと考えています。このチームはあまり技術的ではないため、BigQueryレポートの作成を簡素化するための視覚化ツールを購入しました。ただし、テーブル内のすべてのデータに圧倒されており、必要なデータを見つけようとするクエリに多額の費用を費やしています。あなたは最も費用効果の高い方法で彼らの問題を解決したいと思っています。あなたは何をするべきか?
- A. 仮想化のためにデータをGoogleスプレッドシートにエクスポートします。
- B. 必要な列のみを含む追加のテーブルを作成します。
- C. 仮想化ツールに提示するビューをテーブルに作成します。
- D. 適切な列にIDおよびアクセス管理(IAM)の役割を作成して、クエリに表示されるようにします。
正解:C
質問 # 186
インフラストラクチャには、一連の YouTube チャンネルが含まれています。YouTube チャンネルのデータを分析のために Google Cloud に送信するプロセスを作成するというタスクが与えられています。世界中のマーケティング チームが最新の YouTube チャンネル ログ データに対して ANSI SQL やその他のタイプの分析を実行できるソリューションを設計したいと考えています。Google Cloud へのログ データ転送をどのように設定すればよいでしょうか。
- A. Storage Transfer Service を使用して、オフサイト バックアップ ファイルを最終的な宛先として Cloud Storage のリージョン バケットに転送します。
- B. BigQuery Data Transfer Service を使用して、オフサイト バックアップ ファイルを最終的な宛先として Cloud Storage Multi-Regional ストレージ バケットに転送します。
- C. Storage Transfer Service を使用して、オフサイト バックアップ ファイルを最終的な宛先として Cloud Storage Multi-Regional ストレージ バケットに転送します。
- D. BigQuery Data Transfer Serviceを使用して、オフサイトバックアップファイルをCloud Storage Regionalに転送します。
正解:A
解説:
storage bucket as a final destination.
質問 # 187
既存の初期化アクションを使用して、起動時にすべてのCloudDataprocクラスターに追加の依存関係をデプロイする必要があります。会社のセキュリティポリシーでは、Cloud Dataprocノードがインターネットにアクセスできないため、パブリック初期化アクションでリソースをフェッチできません。あなたは何をするべきか?
- A. SSHトンネルを使用して、CloudDataprocクラスターにインターネットへのアクセスを許可します
- B. すべての依存関係をVPCセキュリティ境界内のCloudStorageバケットにコピーします
- C. Resource Managerを使用して、CloudDataprocクラスターが使用するサービスアカウントをネットワークユーザーロールに追加します
- D. CloudDataprocマスターにCloudSQLプロキシをデプロイします
正解:C
質問 # 188
SQL パイプラインを作成する必要があります。パイプラインは、2 時間ごとに BigQuery テーブルで集計 SOL 変換を実行し、その結果を別の既存の BigQuery テーブルに追加します。エラーが発生した場合に再試行するようにパイプラインを構成する必要があります。パイプラインが 3 回連続して失敗した場合に電子メール通知を送信するようにします。どうすればよいでしょうか。
- A. 2 時間ごとに繰り返すスケジュール オプションを使用して SQL 変換を実行する BigQuery スケジュール クエリを作成し、Pub/Sub トピックへの通知を有効にします。Pub/Sub と Cloud Functions を使用して、3 回の末尾実行後にメールを送信します。
- B. 2 時間ごとに繰り返すスケジュール オプションを使用して SOL 変換を実行する BigQuery スケジュール クエリを作成し、電子メール通知を有効にします。
- C. Cloud Composer で BigQuerylnsertJobOperator を使用し、再試行パラメータを 3 に設定し、email_on_failure パラメータを true に設定します。
- D. Cloud Composer で BigQueryUpsertTableOperator を使用し、再試行パラメータを 3 に設定し、email_on_failure パラメータを true に設定します。
正解:A
解説:
To create a robust and resilient SQL pipeline in BigQuery that handles retries and failure notifications, consider the following:
BigQuery Scheduled Queries: This feature allows you to schedule recurring queries in BigQuery. It is a straightforward way to run SQL transformations on a regular basis without requiring extensive setup.
Error Handling and Retries: While BigQuery Scheduled Queries can run at specified intervals, they don't natively support complex retry logic or failure notifications directly. This is where additional Google Cloud services like Pub/Sub and Cloud Functions come into play.
Pub/Sub for Notifications: By configuring a BigQuery scheduled query to publish messages to a Pub/Sub topic upon failure, you can create a decoupled and scalable notification system.
Cloud Functions: Cloud Functions can subscribe to the Pub/Sub topic and implement logic to count consecutive failures. After detecting three consecutive failures, the Cloud Function can then send an email notification using a service like SendGrid or Gmail API.
Implementation Steps:
Set up a BigQuery Scheduled Query:
Create a scheduled query in BigQuery to run your SQL transformation every two hours.
Configure the scheduled query to publish a notification to a Pub/Sub topic in case of a failure.
Create a Pub/Sub Topic:
Create a Pub/Sub topic that will receive messages from the scheduled query.
Develop a Cloud Function:
Write a Cloud Function that subscribes to the Pub/Sub topic.
Implement logic in the Cloud Function to track failure messages. If three consecutive failure messages are detected, the function sends an email notification.
Reference:
BigQuery Scheduled Queries
Pub/Sub Documentation
Cloud Functions Documentation
SendGrid Email API
Gmail API
質問 # 189
MJTelcoケーススタディ
会社概要
MJTelcoは、世界中の急速に成長し、サービスの行き届いていない市場でネットワークを構築することを計画している新興企業です。
同社は革新的な光通信ハードウェアの特許を取得しています。これらの特許に基づいて、安価なハードウェアで多くの信頼性の高い高速バックボーンリンクを作成できます。
会社背景
経験豊富な通信幹部によって設立されたMJTelcoは、宇宙での通信の課題を克服するために元々開発されたテクノロジーを使用しています。運用の基本として、リアルタイム分析を推進し、機械学習を組み込んでトポロジを継続的に最適化する分散データインフラストラクチャを作成する必要があります。彼らのハードウェアは安価であるため、ネットワークを過剰に展開して、動的な地域政治が場所の可用性とコストに与える影響を考慮できるようにすることを計画しています。
彼らの管理および運用チームは世界中に配置されており、データコンシューマー間で多対多の関係を構築し、システムで提供しています。慎重に検討した結果、彼らはパブリッククラウドが彼らのニーズをサポートするのに最適な環境であると判断しました。
ソリューションコンセプト
MJTelcoは、ラボで成功した概念実証(PoC)プロジェクトを実行しています。彼らには2つの主要なニーズがあります:
* PoCをスケーリングおよび強化して、50,000を超えるインストールに増加したときに生成される大幅に多くのデータフローをサポートします。
*機械学習サイクルを改善して、トポロジ定義の制御に使用する動的モデルを検証および改善します。
MJTelcoは、開発/テスト、ステージング、本番の3つの個別の動作環境も使用して、実験の実行、新機能の展開、本番の顧客へのサービス提供のニーズに対応します。
ビジネス要件
*最小限のコストで本番環境をスケールアップし、予測不可能な分散型通信ユーザーコミュニティで必要なときに必要な場所でリソースをインスタンス化します。
*独自のデータのセキュリティを確保して、最先端の機械学習と分析を保護します。
*分散した研究者からの分析のためのデータへの信頼できるタイムリーなアクセスを提供します
*顧客に影響を与えることなく、機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
テレメトリデータの安全で効率的な転送と保存を保証します
インスタンスを迅速にスケーリングして、それぞれ複数のフローを持つ10,000〜100,000のデータプロバイダーをサポートします。
約1億レコード/日を保存する最大2年間のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。テレメトリフローと本番学習サイクルの両方でのデータパイプラインの問題の認識に焦点を当てた監視インフラストラクチャの迅速な反復をサポートします。
CEOの声明
私たちのビジネスモデルは、特許、分析、動的な機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されているため、コスト面で有利です。信頼性と容量のコミットメントを満たすには、大規模な分散データパイプラインを迅速に安定させる必要があります。
CTOステートメント
当社のパブリッククラウドサービスは、宣伝どおりに動作する必要があります。データを拡張して安全に保つリソースが必要です。
また、データサイエンティストがモデルを注意深く研究し、迅速に適応できる環境も必要です。
データの処理は自動化に依存しているため、反復しながら機能する開発環境とテスト環境も必要です。
CFOステートメント
プロジェクトが大きすぎて、データと分析に必要なハードウェアとソフトウェアを維持できません。また、運用チームにこれほど多くのデータフィードを監視する余裕がないため、自動化とインフラストラクチャに依存します。 Google Cloudの機械学習により、定量的研究者は、データパイプラインの問題ではなく、価値の高い問題に取り組むことができます。
MJTelcoは、データを共有するためのカスタムインターフェイスを構築しています。これらには次の要件があります。
*ペタバイト規模のデータセットに対して集計を行う必要があります。
*非常に速い応答時間(ミリ秒)で特定の時間範囲の行をスキャンする必要があります。
Google Cloud Platform製品のどの組み合わせをお勧めしますか?
- A. BigQueryとCloud Bigtable
- B. CloudDatastoreとCloudBigtable
- C. BigQueryとクラウドストレージ
- D. CloudBigtableとCloudSQL
正解:A
質問 # 190
あなたの会社は、カンマ区切り値(CSV)ファイルをGoogleBigQueryに読み込んでいます。データは完全に正常にインポートされます。ただし、インポートされたデータは、バイトごとにソースファイルと一致していません。この問題の最も可能性の高い原因は何ですか?
- A. CSVデータはBigQueryに読み込まれる前にETLフェーズを通過していません。
- B. BigQueryに読み込まれたCSVデータは、BigQueryのデフォルトのエンコーディングを使用していません。
- C. BigQueryに読み込まれたCSVデータにはCSVのフラグが付けられていません。
- D. CSVデータに、インポート時にスキップされた無効な行があります。
正解:B
質問 # 191
FirebaseAnalyticsとGoogleBigQueryの無料統合を有効にしました。 Firebaseは、BigQueryでapp_events_YYYYMMDDの形式で新しいテーブルを毎日自動的に作成するようになりました。レガシーSQLで過去30日間のすべてのテーブルをクエリする必要があります。あなたは何をするべきか?
- A. SELECT IFを使用します。(日付> = YYYY-MM-DDAND日付<= YYYY-MM-DD
- B. YYYY-MM-DDとYYYY-MM-DDの間のWHERE日付を使用します
- C. WHERE_PARTITIONTIME疑似列を使用します
- D. TABLE_DATE_RANGE関数を使用します
正解:D
質問 # 192
2TBのリレーショナルデータベースをGoogleCloudPlatformに移行する必要があります。このデータベースを使用するアプリケーションを大幅にリファクタリングするためのリソースがなく、運用コストが主な懸念事項です。
データの保存と提供のためにどのサービスを選択しますか?
- A. Cloud Firestore
- B. Cloud Spanner
- C. Cloud SQL
- D. Cloud Bigtable
正解:C
質問 # 193
Dataflow ジョブのネットワークを構成しています。データ パイプラインは、変換ロジックに必要なライブラリがプリインストールされたカスタム コンテナー イメージを使用します。データ パイプラインは Cloud Storage からデータを読み取り、BigQuery にデータを書き込みます。パイプラインと Google API およびサービスの間で、費用対効果が高く安全な通信を確保する必要があります。あなたは何をするべきか?
- A. クラウド NAT を有効にして、ファイアウォール ルールを適用しながら送信インターネット接続を提供します。
- B. 外部 IP アドレスを無効にし、Private Service Connect エンドポイント IP アドレスを確立します。
- C. ワーカー VM からの外部 IP アドレスを無効にし、プライベート Google アクセスを有効にします。
- D. ファイアウォール ルールを適用している間、外部 IP アドレスをワーカー VM に割り当てたままにします。
正解:C
解説:
Private Google Access allows VMs without external IP addresses to communicate with Google APIs and services over internal routes. This reduces the cost and increases the security of the data pipeline. Custom container images can be stored in Container Registry, which supports Private Google Access. Dataflow supports Private Google Access for both batch and streaming jobs. Reference:
Private Google Access overview
Using Private Google Access and Cloud NAT
Using custom containers with Dataflow
質問 # 194
ソフトウェアは、すべてのメッセージに単純なJSON形式を使用します。これらのメッセージはGoogleCloud Pub / Subに公開され、Google Cloud Dataflowで処理されて、CFOのリアルタイムダッシュボードが作成されます。テスト中に、ダッシュボードに一部のメッセージが表示されないことに気付きました。ログを確認すると、すべてのメッセージがCloud Pub / Subに正常に公開されています。次に何をすべきですか?
- A. Cloud Dataflowを切り替えて、Cloud Pub / SubがメッセージをCloudDataflowにプッシュするのではなく、Cloud Pub / Subからメッセージをプルします。
- B. Cloud Pub / SubでのGoogleStackdriver Monitoringを使用して、欠落しているメッセージを見つけます。
- C. ダッシュボードアプリケーションをチェックして、正しく表示されていないかどうかを確認します。
- D. Cloud Dataflowパイプラインを介して固定データセットを実行し、出力を分析します。
正解:D
解説:
Explanation:
質問 # 195
組織では、マルチクラウド データ ストレージ戦略を採用しており、Cloud Storage にデータを保存し、Amazon Web Services (AWS) の S3 ストレージ バケットにデータを保存しています。すべてのデータは米国リージョンにあります。データがどのクラウドに保存されているかに関係なく、BigQuery を使用して最新のデータをクエリしたいと考えています。ストレージ バケット内のデータに直接アクセスすることなく、ユーザーが BigQuery からテーブルをクエリできるようにする必要があります。どうすればよいでしょうか。
- A. AWS S3 バケット データへの BigQuery Omni 接続を設定します。Cloud Storage および S3 データ上に外部テーブルを作成し、BigQuery を使用して直接データをクエリします。
- B. AWS S3 バケット データへの BigQuery Omni 接続を設定し、Cloud Storage および S3 データ上に BigLake テーブルを作成し、BigQuery を使用して直接データをクエリします。
- C. Storage Transfer Service を使用して、AWS S3 バケットから Cloud Storage バケットにデータをコピーします。Cloud Storage データ上に BigLake テーブルを作成し、BigQuery を使用して直接データをクエリします。
- D. Storage Transfer Service を使用して、AWS S3 バケットから Cloud Storage バケットにデータをコピーします。Cloud Storage データに対して外部テーブルを作成し、BigQuery を使用して直接データをクエリします。
正解:A
解説:
BigQuery Omni enables you to run BigQuery analytics directly on data stored in AWS S3 buckets without having to move or copy the data. This provides several benefits:
Reduced Data Movement Costs: Eliminates the need to egress data from AWS, potentially saving significant costs.
Real-Time Analytics: Allows you to query data in AWS S3 in real-time, providing up-to-date insights.
Simplified Architecture: Reduces the complexity of managing data pipelines and ETL processes.
Here's a breakdown of the steps involved in using BigQuery Omni:
Set up a BigQuery Omni connection: This involves configuring the connection between your Google Cloud project and your AWS S3 bucket. This connection establishes the secure link for BigQuery to access the data in AWS S3.
Create external tables: BigQuery external tables are a way to query data residing in external storage systems, such as AWS S3, without having to import the data into BigQuery. This enables you to directly query the data in its original location.
Query the data using BigQuery: Once the external tables are created, you can use standard SQL queries to analyze the data stored in both Cloud Storage and AWS S3, just as if it were native BigQuery data.
Why other options are not suitable:
Option A: BigLake tables are designed for storing large volumes of structured data within BigQuery itself, not for directly querying data in external storage systems.
Option C and D: While the Storage Transfer Service is useful for moving data between cloud providers, it introduces unnecessary data movement and latency if the goal is to simply query the data in its original location.
Key Points:
BigQuery Omni extends BigQuery's capabilities to analyze data stored in other cloud providers, such as AWS.
External tables provide a way to query data in external storage systems without having to import it into BigQuery.
By leveraging BigQuery Omni and external tables, you can efficiently and cost-effectively query data stored in multiple cloud environments using a single tool, BigQuery.
質問 # 196
世界中の何百万ものデバイスからloTセンサーデータを収集し、そのデータをBigQueryに保存しています。アクセスパターンは、次のクエリを使用してlocation_idとdevice_versionによって変更された最近のデータに基づいています。
コストとパフォーマンスについてクエリを最適化する必要があります。データをどのように構成する必要がありますか?
- A. create_dateによるパーティションテーブルデータtocation_idおよびdevice_versionによるクラスタテーブルデータ
- B. create_datelocation_idおよびdevice_versionによるクラスターテーブルデータ
- C. create_dateによるクラスターテーブルデータ、場所によるパーティション、device_version
- D. create_date、location_id、device_versionでテーブルデータを分割します
正解:B
質問 # 197
多数の連続した読み込みジョブと変換ジョブをスケジュールしたい場合 データ ファイルは上流プロセスによって Cloud Storage バケットに追加されます 新しいデータがいつ到着するかについての固定スケジュールはありません 次に、Dataproc ジョブがトリガーされ、いくつかの変換と書き込みが実行されますデータを BigQuery に送信します。次に、BigQuery で追加の変換ジョブを実行する必要があります。 変換ジョブはテーブルごとに異なります。 これらのジョブは完了するまでに数時間かかる場合があります。 数百のテーブルを処理し、最新のデータをエンドユーザーに提供するには、最も効率的で保守可能なワークフローを決定する必要があります。あなたは何をするべきか?
- A. 1Cloud Storage を使用して、順次タスクを含む Apache Airflow 有向非巡回グラフ (DAG) を Cloud Composer に作成します。データプロシージャ。および BigQuery 演算子
2 パイプラインを通過する必要があるすべてのテーブルに対して単一の共有 DAG を使用します。
3 DAG を 1 時間ごとに実行するようにスケジュールします。 - B. 1 Dataproc 演算子と BigQuery 演算子を使用して、Cloud Composer でシーケンシャル タスクを含む Apache Airflow 有向非巡回グラフ(DAG)を作成します。
2 パイプラインを通過する必要があるテーブルごとに個別の DAG を作成します
3 Cloud Storage オブジェクト トリガーを使用して、DAG をトリガーする Cloud Function を起動します - C. 1 Cloud Storage、Dataproc を使用して、順次タスクを含む Cloud Composer で Apache Airflow 有向非巡回グラフ (DAG) を作成します。および BigQuery 演算子
2 パイプラインを通過する必要があるテーブルごとに個別の DAG を作成します
3 DAG を 1 時間ごとに実行するようにスケジュールします。 - D. 1 Dataproc 演算子と BigQuery 演算子を使用して、Cloud Composer でシーケンシャル タスクを含む Apache Airflow 有向非巡回グラフ(DAG)を作成します。
2 パイプラインを通過する必要があるすべてのテーブルに対して単一の共有 DAG を使用します。
3 Cloud Storage オブジェクト トリガーを使用して、DAG をトリガーする Cloud Function を起動します
正解:B
解説:
This option is the most efficient and maintainable workflow for your use case, as it allows you to process each table independently and trigger the DAGs only when new data arrives in the Cloud Storage bucket. By using the Dataproc and BigQuery operators, you can easily orchestrate the load and transformation jobs for each table, and leverage the scalability and performance of these services12. By creating a separate DAG for each table, you can customize the transformation logic and parameters for each table, and avoid the complexity and overhead of a single shared DAG3. By using a Cloud Storage object trigger, you can launch a Cloud Function that triggers the DAG for the corresponding table, ensuring that the data is processed as soon as possible and reducing the idle time and cost of running the DAGs on a fixed schedule4 .
Option A is not efficient, as it runs the DAG hourly regardless of the data arrival, and it uses a single shared DAG for all tables, which makes it harder to maintain and debug. Option C is also not efficient, as it runs the DAGs hourly and does not leverage the Cloud Storage object trigger. Option D is not maintainable, as it uses a single shared DAG for all tables, and it does not use the Cloud Storage operator, which can simplify the data ingestion from the bucket. Reference:
1: Dataproc Operator | Cloud Composer | Google Cloud
2: BigQuery Operator | Cloud Composer | Google Cloud
3: Choose Workflows or Cloud Composer for service orchestration | Workflows | Google Cloud
4: Cloud Storage Object Trigger | Cloud Functions Documentation | Google Cloud
[5]: Triggering DAGs | Cloud Composer | Google Cloud
[6]: Cloud Storage Operator | Cloud Composer | Google Cloud
質問 # 198
バッチ処理ジョブ用の Dataflow パイプラインを設計しています。ジョブ送信時の複数のゾーン障害を軽減したいと考えています。あなたは何をするべきか?
- A. ジョブの送信時にゾーン障害が発生した場合にジョブを再送信するための Eventarc トリガーを作成します。
- B. -zone フラグを使用して、2 つの異なるゾーンに重複したパイプラインを送信します。
- C. -region フラグを使用してワーカー領域を指定します。
- D. パイプラインのステージング場所を地域の Cloud Storage バケットとして設定します。
正解:D
解説:
By specifying a worker region, you can run your Dataflow pipeline in a multi-zone or multi-region configuration, which provides higher availability and resilience in case of zonal failures1. The -region flag allows you to specify the regional endpoint for your pipeline, which determines the location of the Dataflow service and the default location of the Compute Engine resources1. If you do not specify a zone by using the -zone flag, Dataflow automatically selects a zone within the region for your job workers1. This option is recommended over submitting duplicate pipelines in two different zones, which would incur additional costs and complexity. Setting the pipeline staging location as a regional Cloud Storage bucket does not affect the availability of your pipeline, as the staging location only stores the pipeline code and dependencies2. Creating an Eventarc trigger to resubmit the job in case of zonal failure is not a reliable solution, as it depends on the availability of the Eventarc service and the zonal resources at the time of resubmission. Reference:
1: Pipeline troubleshooting and debugging | Cloud Dataflow | Google Cloud
3: Regional endpoints | Cloud Dataflow | Google Cloud
質問 # 199
ペタバイトの分析データがあり、そのためのストレージおよび処理プラットフォームを設計する必要があります。 Google Cloudのデータに対してデータウェアハウススタイルの分析を実行し、データセットを他のクラウドプロバイダーのバッチ分析ツールのファイルとして公開できる必要があります。あなたは何をするべきか?
- A. データセット全体をBigQueryに保存して処理します。
- B. データセット全体をCloudBigtableに保存して処理します。
- C. データセット全体をBigQueryに保存し、データの圧縮コピーをCloudStorageバケットに保存します。
- D. ウォームデータをファイルとしてCloud Storageに保存し、アクティブデータをBigQueryに保存します。この比率を次のように維持します
80%暖かく、20%アクティブ。
正解:D
質問 # 200
米国リージョンにあるすべてのデータを使用して、Google Cloud 上の BigQuery にリレーショナル データを保存して分析します。また、米国リージョンの Microsoft Azure とアマゾン ウェブ サービス (AWS) にもさまざまなオブジェクト ストアがあります。データの移動をできるだけ少なくして、BigQuery 内のすべてのデータを毎日クエリしたいと考えています。あなたは何をするべきか?
- A. BigQuery Data Transfer Service を使用して、Azure および AWS から BigQuery にファイルを読み込みます。
- B. BigQuery Omni 機能と BigLake テーブルを使用して、Azure と AWS 内のファイルをクエリします。
- C. Azure および AWS から BigQuery にファイルを取り込むための Dataflow パイプラインを作成します。
- D. Cloud Shell gautil rsync 引数を使用して、AWS および Azure から Cloud Storage にファイルを読み込みます。
正解:B
解説:
BigQuery Omni is a multi-cloud analytics solution that lets you use the BigQuery interface to analyze data stored in other public clouds, such as AWS and Azure, without moving or copying the data. BigLake tables are a type of external table that let you query structured data in external data stores with access delegation. By using BigQuery Omni and BigLake tables, you can query data in AWS and Azure object stores directly from BigQuery, with minimal data movement and consistent performance. References:
* 1: Introduction to BigLake tables
* 2: Deep dive on how BigLake accelerates query performance
* 3: BigQuery Omni and BigLake (Analytics Data Federation on GCP)
質問 # 201
以下に示すような顧客データを分析するために、GoogleのDataflowSDKを使用することを計画しています。プロジェクトの要件は、データソースから顧客名のみを抽出してから、出力PCollectionに書き込むことです。
トム、555Xストリート
ティム、553Yストリート
サム、111Zストリート
上記のデータ処理要件に最適な操作はどれですか?
- A. ソースAPI
- B. ParDo
- C. シンクAPI
- D. データ抽出
正解:B
解説:
In Google Cloud dataflow SDK, you can use the ParDo to extract only a customer name of each element in your PCollection.
Reference: https://cloud.google.com/dataflow/model/par-do
質問 # 202
「customers」という名前の BigQuery データセットがあります。すべてのテーブルは、「gdpr」という名前のデータ カタログ タグ テンプレートを使用してタグ付けされます。テンプレートには、ブール値を持つ「機密データあり」という必須フィールドが 1 つ含まれています。すべての従業員は、データセット内で「機密データあり」フィールドが true または false であるテーブルを簡単な検索で見つけられる必要があります。ただし、「機密データあり」フィールドが true であるテーブル内のデータは、人事 (HR) グループのみが表示できる必要があります。すべての従業員グループに、データセットの bigquery.metadataViewer ロールと bigquery.connectionUser ロールを付与します。構成のオーバーヘッドを最小限に抑える必要があります。次に何をすべきでしょうか。
- A. プライベート可視性を持つ「gdpr」タグ テンプレートを作成します。機密データを含むテーブルの HR グループに bigquery -dataViewer ロールを割り当てます。
- B. 公開可能な「gdpr」タグ テンプレートを作成します。このタグの datacatalog. tagTemplateViewer ロールをすべての employees.group に割り当て、機密データを含むテーブルの HR グループに bijquery.dataViewer ロールを割り当てます。
- C. 公開可能な「gdpr」タグ テンプレートを作成します。機密データを含むテーブルの HR グループに bigquery.dataViewer ロールを割り当てます。
- D. プライベート可視性を持つ「~gdpr」タグ テンプレートを作成します。このタグの datacatalog.tagTemplateViewer ロールをすべての従業員グループに割り当て、機密データを含むテーブルの HR グループに bigquery.dataViewer ロールを割り当てます。
正解:B
解説:
To ensure that all employees can search and find tables with GDPR tags while restricting data access to sensitive tables only to the HR group, follow these steps:
Data Catalog Tag Template:
Use Data Catalog to create a tag template named "gdpr" with a boolean field "has sensitive data". Set the visibility to public so all employees can see the tags.
Roles and Permissions:
Assign the datacatalog.tagTemplateViewer role to the all employees group. This role allows users to view the tags and search for tables based on the "has sensitive data" field.
Assign the bigquery.dataViewer role to the HR group specifically on tables that contain sensitive data. This ensures only HR can access the actual data in these tables.
Steps to Implement:
Create the GDPR Tag Template:
Define the tag template in Data Catalog with the necessary fields and set visibility to public.
Assign Roles:
Grant the datacatalog.tagTemplateViewer role to the all employees group for visibility into the tags.
Grant the bigquery.dataViewer role to the HR group on tables marked as having sensitive data.
Reference:
Data Catalog Documentation
Managing Access Control in BigQuery
IAM Roles in Data Catalog
質問 # 203
日付ごとにパーティション化された数百万行の販売データを含むテーブルがあるとします。さまざまなアプリケーションやユーザーがこのデータを 1 分間に何度もクエリします。クエリでは、avg を使用して値を集計する必要があります。最大。と合計を計算し、他のテーブルに結合する必要はありません。必要な集計は過去 1 年間のデータに対してのみ計算されますが、ベース テーブルに完全な履歴データを保持する必要があります。計算コストやメンテナンスのオーバーヘッドを削減しながら、クエリ結果には常にテーブルの最新データが含まれるようにしたいと考えています。 、および期間。あなたは何をするべきか?
- A. ベース テーブル データを集計するためのビューを作成します。パーティションの最後の年を指定するフィルター句を含めます。
- B. マテリアライズド ビューを作成してベース テーブル データを集約します。ベース テーブルにパーティションの有効期限を構成して、過去 1 年間のパーティションのみを保持します。
- C. 過去 1 年間のパーティションを指定するフィルター句を含む実体化ビュー (実体化ビュー) を作成してベース テーブル データを集計します。
- D. パーティションの最後の年を指定するフィルター句を含む、ベース テーブル データを集計する新しいテーブルを作成します。スケジュールされたクエリを設定して、1 時間ごとに新しいテーブルを再作成します。
正解:D
解説:
A materialized view is a database object that contains the results of a query, which can be updated periodically. It can improve the performance and efficiency of queries that involve aggregations, joins, or filters. By creating a materialized view to aggregate the base table data and include a filter clause to specify the last one year of partitions, you can ensure that the query results always include the latest data from the tables, while also reducing computation cost, maintenance overhead, and duration. The materialized view will automatically refresh when the base table data changes, and will only use the partitions that match the filter clause. Option A is incorrect because it will delete the historical data from the base table, which is not desired. Option C is incorrect because it will create a redundant table that needs to be updated manually by a scheduled query, which is more complex and costly than using a materialized view. Option D is incorrect because a view does not store any data, but only references the base table data, which means it will not reduce the computation cost or duration of the query. Reference:
Materialized views, ML models in data warehouse - Google Cloud
Data Engineering with Google Cloud Platform - Packt Subscription
質問 # 204
これらのソースのうち、BigQueryにデータを読み込めないのはどれですか?
- A. Google Cloud Storage
- B. Google Cloud SQL
- C. ファイルのアップロード
- D. Googleドライブ
正解:B
解説:
Explanation
You can load data into BigQuery from a file upload, Google Cloud Storage, Google Drive, or Google Cloud Bigtable. It is not possible to load data into BigQuery directly from Google Cloud SQL. One way to get data from Cloud SQL to BigQuery would be to export data from Cloud SQL to Cloud Storage and then load it from there.
Reference: https://cloud.google.com/bigquery/loading-data
質問 # 205
......
Professional-Data-Engineer日本語問題集レビュー専門クイズで学習材料:https://www.goshiken.com/Google/Professional-Data-Engineer-JPN-mondaishu.html