更新された2025年02月合格させるProfessional-Data-Engineer日本語試験リアル練習テスト問題 [Q136-Q151]

Share

更新された2025年02月合格させるProfessional-Data-Engineer日本語試験リアル練習テスト問題

無料ダウンロードGoogle Professional-Data-Engineer日本語リアル試験問題

質問 # 136
分析にはBigQueryのデータセットを使用します。サードパーティ企業に同じデータセットへのアクセスを提供したいと考えています。データ共有のコストを低く抑え、データが最新であることを確認する必要があります。どのソリューションを選択する必要がありますか?

  • A. BigQueryテーブルに承認済みのビューを作成してデータアクセスを制御し、サードパーティ企業にそのビューへのアクセスを提供します。
  • B. 共有する関連データを含む別のデータセットをBigQueryで作成し、サードパーティ企業に新しいデータセットへのアクセスを提供します。
  • C. CloudSchedulerを使用して定期的にデータをCloudStorageにエクスポートし、サードパーティ企業にバケットへのアクセスを提供します。
  • D. 頻繁な時間間隔でデータを読み取り、サードパーティ企業が使用できるように関連するBigQueryデータセットまたはCloudStorageバケットに書き込むCloudDataflowジョブを作成します。

正解:C


質問 # 137
あなたの会社は、過去のデータをクラウドストレージにアップロードする必要があります。セキュリティルールでは、外部IPからオンプレミスリソースへのアクセスは許可されていません。最初のアップロード後、既存のオンプレミスアプリケーションから毎日新しいデータを追加します。彼らは何をすべきですか?

  • A. FTPサーバーをCompute Engine VMにインストールしてファイルを受信し、クラウドストレージに移動します。
  • B. Cloud Dataflowを使用して、データをCloudStorageに書き込みます。
  • C. オンプレミスサーバーからgsutilrsyncを実行します。
  • D. Cloud Dataprocでジョブテンプレートを記述して、データ転送を実行します。

正解:B


質問 # 138
Cloud Machine Learning EngineのCUSTOM層では、どのタイプのクラスターノードの数を指定できますか?

  • A. ワーカーとパラメーターサーバー
  • B. パラメータサーバー
  • C. マスター、ワーカー、およびパラメーターサーバー
  • D. 労働者

正解:A

解説:
The CUSTOM tier is not a set tier, but rather enables you to use your own cluster specification. When you use this tier, set values to configure your processing cluster according to these guidelines:
You must set TrainingInput.masterType to specify the type of machine to use for your master node.
You may set TrainingInput.workerCount to specify the number of workers to use.
You may set TrainingInput.parameterServerCount to specify the number of parameter servers to use.
You can specify the type of machine for the master node, but you can't specify more than one master node.


質問 # 139
あなたの会社は独自のシステムを使用して、6時間ごとにクラウドのデータ取り込みサービスに在庫データを送信しています。送信されるデータには、いくつかのフィールドのペイロードと送信のタイムスタンプが含まれます。送信について懸念がある場合、システムはデータを再送信します。データを最も効率的に重複排除するにはどうすればよいですか?

  • A. 各データエントリのハッシュ値を計算し、それをすべての履歴データと比較します。
  • B. 各データエントリを主キーとして個別のデータベースに保存し、インデックスを適用します。
  • C. 各データエントリのハッシュ値とその他のメタデータを格納するデータベーステーブルを維持します。
  • D. 各データエントリにグローバル一意識別子(GUID)を割り当てます。

正解:C


質問 # 140
1000 個のセンサーのネットワークがあります。センサーは、タイムスタンプとともにセンサーごとに 1 秒あたり 1 つのメトリックという時系列データを生成します。すでに 1 TB のデータがあり、データは毎日 1 GB ずつ増加すると予想されます。このデータには 2 つの方法でアクセスする必要があります。最初のアクセス パターンでは、特定のタイムスタンプに保存された 1 つの特定のセンサーからメトリクスを中央値 1 桁ミリ秒の遅延で取得する必要があります。2 番目のアクセス パターンでは、データに対して結合を含む複雑な分析クエリを 1 日に 1 回実行する必要があります。このデータはどのように保存すればよいでしょうか?

  • A. Bigtable にデータを保存します。センサー ID とタイムスタンプを連結し、行キーとして使用します。BigQuery へのエクスポートを毎日実行します。
  • B. データを BigQuery に保存します。メトリックを主キーとして使用します。
  • C. BigQuery にデータを保存します。センサー ID とタイムスタンプを連結します。そしてそれを主キーとして使用します。
  • D. Bigtable にデータを保存します。センサー ID と指標を連結し、それを行キーとして使用します。BigQuery へのエクスポートを毎日実行します。

正解:A

解説:
To store your data in a way that meets both access patterns, you should:
* A. Store your data in Bigtable Concatenate the sensor ID and timestamp and use it as the row key Perform an export to BigQuery every day. This option allows you to leverage the high performance and scalability of Bigtable for low-latency point queries on sensor data, as well as the powerful analytics capabilities of BigQuery for complex queries on large datasets. By using the sensor ID and timestamp as the row key, you can ensure that your data is sorted and distributed evenly across Bigtable nodes, and that you can easily retrieve the metric for a specific sensor and time. By performing an export to BigQuery every day, you can transfer your data to a columnar storage format that is optimized for analytical queries, and take advantage of BigQuery's features such as partitioning, clustering, and caching.
* B. Store your data in BigQuery Concatenate the sensor ID and timestamp. and use it as the primary key. This option is not optimal because BigQuery is not designed for low-latency point queries, and using a concatenated primary key may result in poor performance and high costs. BigQuery does not support primary keys natively, and you would have to use a unique constraint or a hash function to enforce uniqueness. Moreover, BigQuery charges by the amount of data scanned, so using a long and complex primary key may increase the query cost and complexity.
* C. Store your data in Bigtable Concatenate the sensor ID and metric, and use it as the row key Perform an export to BigQuery every day. This option is not optimal because using the sensor ID and metric as the row key may result in data skew and hotspots in Bigtable, as some sensors may generate more metrics than others, or some metrics may be more common than others. This may affect the performance and availability of Bigtable, as well as the efficiency of the export to BigQuery.
* D. Store your data in BigQuery. Use the metric as a primary key. This option is not optimal because using the metric as a primary key may result in data duplication and inconsistency in BigQuery, as multiple sensors may generate the same metric at different times, or the same sensor may generate different metrics at the same time. This may affect the accuracy and reliability of your analytical queries, as well as the query cost and complexity.


質問 # 141
Cloud Dataprocは、_____課金で実際に使用したものに対してのみ課金します。

  • A. 分ごと
  • B. 週ごと
  • C. 時間ごと
  • D. 月ごと

正解:A

解説:
One of the advantages of Cloud Dataproc is its low cost. Dataproc charges for what you really use with minute-by-minute billing and a low, ten-minute-minimum billing period.
Reference: https://cloud.google.com/dataproc/docs/concepts/overview


質問 # 142
メディアストリーミングサービスであるモバイルアプリケーション用の新しいストレージシステムを展開しています。最適なのはGoogleCloudDatastoreです。複数のプロパティを持つエンティティがあり、そのうちのいくつかは複数の値を取ることができます。たとえば、エンティティ「Movie」では、プロパティ「actors」とプロパティ「tags」には複数の値がありますが、プロパティ「datereleased」にはありません。一般的なクエリでは、actor = <actorname>のすべての映画をdate_releasedで並べ替えるか、tag = Comedyのすべての映画をdate_releasedで並べ替えます。インデックス数の組み合わせ爆発をどのように回避する必要がありますか?

  • A. オプションB。
  • B. オプションD
  • C. オプションA
  • D. オプションC

正解:C


質問 # 143
あなたは、都市全体の建設現場の近くに設置された何百ものセンサーから騒音レベル データを取り込むストリーミング Dataflow パイプラインを構築しています。センサーは 10 秒ごとに騒音レベルを測定し、レベルが 70 dBA を超えるとそのデータをパイプラインに送信します。30 分以上データを受信したときにセンサーから平均ノイズ レベルを検出する必要がありますが、15 分間データを受信しないとウィンドウが終了します。どうすればよいでしょうか?

  • A. 15 ミュート ウィンドウと 30 分の期間を持つホッピング ウィンドウを使用します。
  • B. 15 分のギャップ期間を持つセッション ウィンドウを使用します。
  • C. 15 ミュート ウィンドウと 15 分のタンブリング ウィンドウを使用します。withAllowedLateness 演算子。
  • D. 30 分のギャップ期間を持つセッション ウィンドウを使用します。

正解:C

解説:
Session windows are dynamic windows that group elements based on the periods of activity. They are useful for streaming data that is irregularly distributed with respect to time. In this case, the noise level data from the sensors is only sent when it exceeds a certain threshold, and the duration of the noise events may vary. Therefore, session windows can capture the average noise level for each sensor during the periods of high noise, and end the window when there is no data for a specified gap duration. The gap duration should be 15 minutes, as the requirement is to end the window when no data has been received for 15 minutes. A 30-minute gap duration would be too long and may miss some noise events that are shorter than 30 minutes. Tumbling windows and hopping windows are fixed windows that group elements based on a fixed time interval. They are not suitable for this use case, as they may split or overlap the noise events from the sensors, and do not account for the periods of inactivity. Reference:
Windowing concepts
Session windows
Windowing in Dataflow


質問 # 144
ローカルマシンでBigQueryソースを含むパイプラインを実行すると、引き続きアクセス許可拒否エラーが発生します。その理由は何でしょうか?

  • A. ローカルマシンからBigQueryにアクセスできません
  • B. マシンにgcloudがありません
  • C. gcloudはBigQueryリソースにアクセスできません
  • D. パイプラインはローカルで実行できません

正解:C

解説:
Explanation
When reading from a Dataflow source or writing to a Dataflow sink using DirectPipelineRunner, the Cloud Platform account that you configured with the gcloud executable will need access to the corresponding source/sink Reference:
https://cloud.google.com/dataflow/java-sdk/JavaDoc/com/google/cloud/dataflow/sdk/runners/DirectPipelineRun


質問 # 145
米国を拠点とする会社が、ユーザーの行動を評価して対応するためのアプリケーションを作成しました。
プライマリテーブルのデータ量は、1秒あたり250,000レコードずつ増加します。多くのサードパーティは、アプリケーションのAPIを使用して、独自のフロントエンドアプリケーションに機能を組み込みます。アプリケーションのAPIは、次の要件に準拠している必要があります。
*単一のグローバルエンドポイント
* ANSISQLのサポート
*最新のデータへの一貫したアクセス
あなたは何をするべきか?

  • A. NorhtAmericaでマスターを使用してCloudSQL for PostgreSQLを実装し、アジアとヨーロッパでレプリカを読み取ります。
  • B. 北米のプライマリクラスターとアジアとヨーロッパのセカンダリクラスターでCloudBigtableを実装します。
  • C. 北米のリーダーとアジアとヨーロッパの読み取り専用レプリカでCloudSpannerを実装します。
  • D. ストレージまたは処理用にリージョンを選択せず​​にBigQueryを実装します。

正解:C


質問 # 146
BigQueryデータウェアハウスのメインインベントリテーブルを読み取るほぼリアルタイムのインベントリダッシュボードを作成する必要があります。過去の在庫データは、アイテムおよび場所ごとの在庫残高として保存されます。 1時間ごとに数千の在庫更新があります。ダッシュボードのパフォーマンスを最大化し、データが正確であることを確認する必要があります。あなたは何をするべきか?

  • A. ストリームの変更を毎日の在庫移動テーブルにストリーミングするBigQueryを使用します。履歴在庫残高テーブルに結合するビューで残高を計算します。在庫バランステーブルを毎晩更新します。
  • B. 在庫バランステーブルをアイテムごとに分割して、在庫の更新ごとにスキャンされるデータの量を減らします。
  • C. BigQuery UPDATEステートメントを活用して、変化する在庫残高を更新します。
  • D. BigQueryバルクローダーを使用して、在庫の変更を毎日の在庫移動テーブルにバッチロードします。
    履歴在庫残高テーブルに結合するビューで残高を計算します。在庫バランステーブルを毎晩更新します。

正解:C


質問 # 147
あなたは、顧客が e コマース サイトで購入する可能性を予測する、新しいディープ チーミング モデルを開発しています。元のトレーニング データと新しいテスト データの両方に対してモデルの評価を実行すると、モデルがデータを過剰適合していることがわかります。新しいデータを予測する際のモデルの精度を向上させたいと考えています。あなたは何をするべきか?

  • A. トレーニング データセットのサイズを減らし、入力特徴の数を増やします。
  • B. トレーニング データセットのサイズを減らし、入力フィーチャの数を減らします。
  • C. トレーニング データセットのサイズを増やし、入力フィーチャの数を減らします。
  • D. トレーニング データセットのサイズを増やし、入力フィーチャの数を増やします。

正解:C

解説:
https://machinelearningmastery.com/impact-of-dataset-size-on-deep-learning-model-skill-and-performance-estim


質問 # 148
データをパーティションテーブルに配置するためにサポートされている方法ではないのはどれですか?

  • A. パーティションテーブルを作成し、毎日新しいレコードをストリーミングします。
  • B. クエリを実行して、既存のテーブルから特定の日のレコードを取得し、宛先テーブルについて、その日で終わるパーティションテーブルを「$ YYYYMMDD」の形式で指定します。
  • C. 既存のデータが毎日別々のファイルにある場合は、パーティションテーブルを作成し、各ファイルを適切なパーティションにアップロードします。
  • D. ORDER BYを使用してテーブルの行を時系列に並べてから、テーブルのタイプを次のように変更します。
    「パーティション化」。

正解:D

解説:
You cannot change an existing table into a partitioned table. You must create a partitioned table from scratch.
Then you can either stream data into it every day and the data will automatically be put in the right partition, or you can load data into a specific partition by using "$YYYYMMDD" at the end of the table name.
Reference: https://cloud.google.com/bigquery/docs/partitioned-tables


質問 # 149
オンライン証券会社は、大量の取引処理アーキテクチャを必要としています。ジョブをトリガーする安全なキューイングシステムを作成する必要があります。ジョブはGoogleCloudで実行され、取引を実行するために会社のPythonAPIに対応します。ソリューションを効率的に実装する必要があります。あなたは何をするべきか?

  • A. Pub/Subトピックへのプッシュサブスクリプションを作成するComputeEngineインスタンスでホストされるアプリケーションを作成します
  • B. NoSQLデータベースにキューを作成するアプリケーションを作成します
  • C. Pub / Subプッシュサブスクリプションを使用してCloudFunctionをトリガーし、PythonAPIを結び付けるデータを渡します。
  • D. CloudComposerを使用してPub/ Subトープをサブスクライブし、PythonAPIをサブスクライブできます。

正解:B


質問 # 150
あなたの会社は、航空会社、ホテル、配車サービスの 3 つの分野で事業を展開しています。各分野には、アナリティクス チームとデータ サイエンス チームの 2 つのチームがあり、中央データ プラットフォーム チームの支援を受けて BigQuery でデータ資産を作成しています。しかし、各分野が急速に進化するにつれて、中央データ プラットフォーム チームがボトルネックになりつつあります。これにより、データから分析情報を引き出すのに遅れが生じ、パイプラインが最新の状態に保たれていないとデータが古くなります。ボトルネックを解消するには、Dataplex を使用してデータ メッシュ アーキテクチャを設計する必要があります。どうすればよいですか?

  • A. 1 ドメインごとに 1 つのレイクを作成します。各レイク内に、チームごとに 1 つのゾーンを作成します。
    2. 各チームによって作成された各 BigQuery データセットをアセットとしてそれぞれのゾーンにアタッチします。
    3. 各ドメインに独自のレイクのデータ資産を管理するよう指示します。
  • B. 1 チームごとに 1 つのレイクを作成します。各レイク内に、ドメインごとに 1 つのゾーンを作成します。
    2. 各チームが作成した BigQuory データセットを、それぞれのゾーンのアセットとして添付します。
    3. 各ドメインに、独自のゾーンのデータ資産を管理するように指示します。
  • C. 1. チームごとに 1 つのレイクを作成します。各レイク内に、ドメインごとに 1 つのゾーンを作成します。
    2. 各チームによって作成された各 BigQuery データセットをアセットとしてそれぞれのゾーンにアタッチします。
    3. 中央データ プラットフォーム チームがすべてのゾーンのデータ資産を管理します。
  • D. 1 ドメインごとに 1 つのレイクを作成します。各レイク内に、チームごとに 1 つのゾーンを作成します。
    2. 各チームによって作成された各 BigQuery データセットをアセットとしてそれぞれのゾーンにアタッチします。
    3. 中央データ プラットフォーム チームがすべてのレイクのデータ資産を管理します。

正解:B

解説:
To design a data mesh architecture using Dataplex to eliminate bottlenecks caused by a central data platform team, consider the following:
Data Mesh Architecture:
Data mesh promotes a decentralized approach where domain teams manage their own data pipelines and assets, increasing agility and reducing bottlenecks.
Dataplex Lakes and Zones:
Lakes in Dataplex are logical containers for managing data at scale, and zones are subdivisions within lakes for organizing data based on domains, teams, or other criteria.
Domain and Team Management:
By creating a lake for each team and zones for each domain, each team can independently manage their data assets without relying on the central data platform team.
This setup aligns with the principles of data mesh, promoting ownership and reducing delays in data processing and insights.
Implementation Steps:
Create Lakes and Zones:
Create separate lakes in Dataplex for each team (analytics and data science).
Within each lake, create zones for the different domains (airlines, hotels, ride-hailing).
Attach BigQuery Datasets:
Attach the BigQuery datasets created by the respective teams as assets to their corresponding zones.
Decentralized Management:
Allow each domain to manage their own zone's data assets, providing them with the autonomy to update and maintain their pipelines without depending on the central team.
Reference:
Dataplex Documentation
BigQuery Documentation
Data Mesh Principles


質問 # 151
......

Professional-Data-Engineer日本語問題集100パー合格保証には最新のサンプル:https://www.goshiken.com/Google/Professional-Data-Engineer-JPN-mondaishu.html