Professional-Data-Engineer日本語試験無料問題集（380題）「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版) 認定」

出題：1

市内の建設現場付近に設置された数百個のセンサーから騒音レベルデータを取り込むストリーミング Dataflow パイプラインを構築しています。センサーは10秒ごとに騒音レベルを測定し、レベルが70 dBAを超えるとデータをパイプラインに送信します。センサーから30分以上データが受信されたときに平均騒音レベルを検出する必要がありますが、15分間データが受信されなかった時点でウィンドウが終了します。どうすればよいでしょうか？

A. 15 分間のウィンドウと 30 分の周期でホッピングウィンドウを使用します。

B. 15 分間のウィンドウと 15 分のタンブリングウィンドウを使用します。withAllowedLateness 演算子。

C. 30 分間のギャップ期間を持つセッションウィンドウを使用します。

D. 15 分のギャップ期間を持つセッションウィンドウを使用します。

正解：D 解答を投票する

解説: (GoShiken メンバーにのみ表示されます)

出題：2

Cloud Dataproc クラスタを管理しています。クラスタで進行中の作業を失うことなく、コストを最小限に抑えながらジョブの実行を高速化する必要があります。どうすればよいでしょうか。

A. プリエンプティブワーカーノードを使用してクラスターのサイズを増やし、正常な廃止を使用するように構成します。

B. プリエンプティブワーカーノードを使用してクラスタサイズを増やし、Cloud Stackdriver を使用してスクリプトをトリガーして作業を保存します。

C. 非プリエンプティブワーカーを増やしてクラスターのサイズを増やします。

D. プリエンプティブワーカーノードを使用してクラスターのサイズを増やし、強制的に廃止するように構成します。

正解：A 解答を投票する

解説: (GoShiken メンバーにのみ表示されます)

出題：3

通信サービスプロバイダーの販売データを分析するために、BigQuery でデータウェアハウスを設計しています。顧客、製品、サブスクリプションのデータモデルを作成する必要があります。すべての顧客、製品、サブスクリプションは毎月更新できますが、すべてのデータの履歴レコードを維持する必要があります。現在および過去のレポートには視覚化レイヤーを使用する予定です。データモデルがシンプルで使いやすく、コスト効率に優れていることを確認する必要があります。何をすべきでしょうか。

A. ネストされたフィールドと繰り返しフィールドを持つ非正規化モデルを作成するテーブルを更新し、スナップショットを使用して履歴データを追跡する

B. 各エンティティのテーブルを含む正規化モデルを作成します。すべての入力ファイルを Cloud Storage バケットに保存して、履歴データを追跡します。

C. ネストされた繰り返しフィールドを持つ非正規化された追加専用モデルを作成します。取り込みタイムスタンプを使用して履歴データを追跡します。

D. 各エンティティのテーブルを含む正規化されたモデルを作成します。更新前のスナップショットを使用して履歴データを追跡します。

正解：C 解答を投票する

解説: (GoShiken メンバーにのみ表示されます)

出題：4

オンプレミスのデータウェアハウスを BigQuery に移行しています。移行の一環として、チーム間のコラボレーションを促進して、組織のデータから最大限の価値を引き出したいと考えています。組織内のチームが読み取り専用データをセルフサービス方式で安全に公開、検出、サブスクライブできるアーキテクチャを設計する必要があります。コストを最小限に抑えながら、データの鮮度を最大限に高める必要があります。どうすればよいでしょうか。

A. Analytics Hub を使用してデータ共有を容易にします。

B. 各チームのプロジェクトで共有するための新しいデータセットを作成します。サブスクライブしているチームにデータセットに対する bigquery.dataViewer ロールを付与します。

C. 承認されたデータセットを作成して、サブスクライブチームのプロジェクトで共有データを公開します。

D. BigQuery Data Transfer Service を使用して、データセットを一元化された BigQuery プロジェクトにコピーし、共有します。

正解：A 解答を投票する

解説: (GoShiken メンバーにのみ表示されます)

出題：5

Cloud Bigtable は、非常に大量の ____________________________ を保存する場合に推奨されるオプションですか?

A. 非常に低いレイテンシの単一キーデータ

B. 非常に低いレイテンシのマルチキーデータ

C. 非常に高いレイテンシを持つマルチキーデータ

D. 非常に高いレイテンシを持つ単一キーデータ

正解：A 解答を投票する

解説: (GoShiken メンバーにのみ表示されます)

出題：6

5 年間のログデータを Cloud Storage にアップロードしました。ユーザーから、ログデータの一部のデータポイントが想定範囲外にあり、エラーが発生しているとの報告がありました。コンプライアンス上の理由から、この問題に対処し、元のデータを保持しながら将来的にプロセスを再度実行できるようにする必要があります。どうすればよいですか?

A. Cloud Storage から BigQuery にデータをインポートし、新しい BigQuery テーブルを作成し、エラーのある行をスキップします。

B. Compute Engine インスタンスを作成し、Cloud Storage にデータの新しいコピーを作成します。エラーのある行をスキップします。

C. Cloud Storage からデータを読み取り、想定範囲外の値をチェックし、値を適切なデフォルトに設定し、更新されたレコードを Cloud Storage 内の同じデータセットに書き込む Cloud Dataflow ワークフローを作成します。

D. Cloud Storage からデータを読み取り、想定範囲外の値をチェックし、値を適切なデフォルトに設定し、更新されたレコードを Cloud Storage の新しいデータセットに書き込む Cloud Dataflow ワークフローを作成します。

正解：C 解答を投票する

出題：7

ユーザーのブログ投稿の件名ラベルを自動的に生成するアプリケーションを Google Cloud で開発しています。この機能を迅速に追加しなければならないという競争上のプレッシャーがあり、追加の開発者リソースがありません。チーム内に機械学習の経験者はいません。どうすればよいでしょうか。

A. TensorFlow を使用してテキスト分類モデルを構築およびトレーニングします。Kubernetes Engine クラスタを使用してモデルをデプロイします。アプリケーションからモデルを呼び出し、結果をラベルとして処理します。

B. アプリケーションから Cloud Natural Language API を呼び出します。生成されたエンティティ分析をラベルとして処理します。

C. アプリケーションから Cloud Natural Language API を呼び出します。生成された感情分析をラベルとして処理します。

D. TensorFlow を使用してテキスト分類モデルを構築およびトレーニングします。Cloud Machine Learning Engine を使用してモデルをデプロイします。アプリケーションからモデルを呼び出し、結果をラベルとして処理します。

正解：C 解答を投票する

出題：8

ある運送会社では、リアルタイムで Apache Kafka ストリームに送信されるライブの荷物追跡データがあり、その後 BigQuery に読み込まれます。会社のアナリストは、荷物のライフサイクルにおける地理空間の傾向を分析するために、BigQuery で追跡データをクエリしたいと考えています。テーブルは、もともと取り込み日付によるパーティション分割を使用して作成されました。時間が経つにつれて、クエリの処理時間が増加しました。BigQuery でのクエリパフォーマンスを向上させる変更を実装する必要があります。どうすればよいでしょうか。

A. パッケージの配達日にデータパーティションを使用してテーブルを再作成します。

B. 古いデータを Cloud Storage ファイルに階層化し、拡張テーブルを活用します。

C. パッケージ追跡 ID 列に対して BigQuery でクラスタリングを実装します。

D. BigQuery で取り込み日付列のクラスタリングを実装します。

正解：D 解答を投票する

出題：9

データパイプラインにセキュリティのベストプラクティスを実装しています。現在、プロジェクトオーナーとして手動でジョブを実行しています。これらのジョブを自動化するには、Google Cloud Storage から非公開情報を含む夜間バッチファイルを取得し、Google Cloud Dataproc クラスタで Spark Scala ジョブを使用して処理し、結果を Google BigQuery に格納します。
このワークロードを安全に実行するにはどうすればよいでしょうか?

A. バッチファイルの読み取りとBigQueryへの書き込み権限を持つサービスアカウントを使用する

B. サービスアカウントにプロジェクトオーナーのロールを付与し、それを使用してジョブを実行します。

C. Google Cloud Storage バケットを制限して、自分だけがファイルを閲覧できるようにします

D. Cloud Dataproc クラスタのプロジェクト閲覧者ロールを持つユーザーアカウントを使用してバッチファイルを読み取り、BigQuery に書き込みます。

正解：B 解答を投票する

出題：10

あなたの会社は最近急速に成長し、以前よりも大幅に高い速度でデータを取り込んでいます。あなたは Apache Hadoop で毎日のバッチ MapReduce 分析ジョブを管理しています。しかし、最近のデータの増加により、バッチジョブが遅れています。開発チームがコストを増やさずに分析の応答性を向上させる方法を提案するように求められました。あなたは開発チームに何を提案すべきでしょうか?

A. Hadoop クラスターのサイズを増やします。

B. Pig でジョブを書き換えます。

C. Hadoop クラスターのサイズを縮小しますが、Hive のジョブも書き換えます。

D. Apache Spark でジョブを書き換えます。

正解：B 解答を投票する

出題：11

外部の顧客が、データベースから毎日データをダンプして提供します。データは、カンマ区切り値 (CSV) ファイルとして Google Cloud Storage GCS に流れ込みます。このデータを Google BigQuery で分析したいのですが、データに形式が誤っている行や破損している行が含まれている可能性があります。このパイプラインをどのように構築すればよいでしょうか。

A. フェデレーションデータソースを使用し、SQL クエリでデータをチェックします。

B. gcloud CLI を使用してデータを BigQuery にインポートし、max_bad_records を 0 に設定します。

C. Google Cloud Dataflow バッチパイプラインを実行してデータを BigQuery にインポートし、エラーを別のデッドレターテーブルにプッシュして分析します。

D. Google Stackdriver で BigQuery モニタリングを有効にし、アラートを作成します。

正解：C 解答を投票する

出題：12

Dataflow SDK は最近どの Apache サービスに移行されましたか?

A. Apache Spark

B. アパッチカフカ

C. アパッチビーム

D. アパッチHadoop

正解：C 解答を投票する

解説: (GoShiken メンバーにのみ表示されます)

出題：13

あなたは中規模企業で働いており、運用システムのトランザクションデータをオンプレミスデータベースから GCP に移行する必要があります。データベースのサイズは約 20 TB です。どのデータベースを選択すればよいでしょうか。

A. クラウドビッグテーブル

B. クラウドスパナー

C. クラウドSQL

D. クラウドデータストア

正解：C 解答を投票する

出題：14

あなたは広告会社に勤めており、広告ブロックのクリックスルー率を予測する Spark ML モデルを開発しました。これまではすべてオンプレミスのデータセンターで開発してきましたが、現在、会社は Google Cloud に移行しています。データセンターは BigQuery に移行されます。Spark ML モデルを定期的に再トレーニングするため、既存のトレーニングパイプラインを Google Cloud に移行する必要があります。どうすればよいでしょうか。

A. 既存の Spark ML モデルのトレーニングに Cloud ML Engine を使用する

B. TensorFlow でモデルを書き直し、Cloud ML Engine を使い始めましょう

C. Compute Engine で Spark クラスタを起動し、BigQuery からエクスポートされたデータで Spark ML モデルをトレーニングします。

D. 既存の Spark ML モデルのトレーニングには Cloud Dataproc を使用しますが、BigQuery から直接データを読み取り始めます。

正解：D 解答を投票する

解説: (GoShiken メンバーにのみ表示されます)

出題：15

Pub/Sub を使用して、プッシュサブスクリプションに依存するイベント駆動型コンシューマーアプリでクリックストリームデータを処理するメッセージングシステムを設計しています。コンシューマーアプリの一時的なダウンタイムを処理できるほど信頼性の高いメッセージングシステムを構成する必要があります。また、サブスクライバーが消費できない入力メッセージを保存するメッセージングシステムも必要です。システムは、コンシューマーアプリの過負荷を回避しながら、失敗したメッセージを徐々に再試行し、最大 10 回の再試行後に失敗したメッセージをトピックに保存する必要があります。Pub/Sub サブスクリプションはどのように構成すればよいですか。

A. 確認応答期限を 10 分に延長します。

B. サブスクリプション再試行ポリシーとして指数バックオフを使用し、最大配信試行回数を 10 に設定して別のトピックへの配信不能メッセージ送信を構成します。

C. サブスクリプション再試行ポリシーとして指数バックオフを使用し、最大配信試行回数を 10 に設定して同じソーストピックへの配信不能メッセージ処理を構成します。

D. サブスクリプション再試行ポリシーとして即時再配信を使用し、最大配信試行回数を 10 に設定して別のトピックへの配信不能メッセージ処理を構成します。

正解：B 解答を投票する

Professional-Data-Engineer日本語試験無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版) 認定」