
有効なGoogle Cloud Certified Professional-Data-Engineer日本語問題集はあなたの合格を必ず保証します
Professional-Data-Engineer日本語問題集でリアル試験問題でテストエンジン問題集でトレーニング
質問 # 134
フローロジスティックケーススタディ
会社概要
Flowlogisticは、主要なロジスティクスおよびサプライチェーンプロバイダーです。これらは、世界中の企業がリソースを管理し、最終目的地に輸送するのに役立ちます。同社は急速に成長し、鉄道、トラック、航空機、海上輸送などの製品を拡大しています。
会社背景
同社は地域のトラック運送会社としてスタートし、その後他のロジスティクス市場に拡大しました。彼らはインフラストラクチャを更新していないため、注文と出荷の管理と追跡がボトルネックになっています。 Flowlogisticは、運用を改善するために、小包レベルでリアルタイムに出荷を追跡する独自のテクノロジーを開発しました。ただし、Apache Kafkaに基づくテクノロジースタックが処理ボリュームをサポートできないため、デプロイできません。さらに、Flowlogisticは、注文と出荷をさらに分析して、リソースを最適に展開する方法を決定したいと考えています。
ソリューションコンセプト
Flowlogisticは、クラウドを使用して2つの概念を実装したいと考えています。
*荷物の場所を示すリアルタイムの在庫追跡システムで独自のテクノロジーを使用する
*構造化データと非構造化データの両方を含むすべての注文と出荷ログに対して分析を実行し、リソースを展開する最善の方法、情報を拡張する市場を決定します。また、予測分析を使用して、出荷が遅れる時期を早期に把握したいと考えています。
既存の技術環境
フローロジスティックアーキテクチャは、単一のデータセンターに存在します。
*データベース
* 2つのクラスターに8つの物理サーバー
* SQL Server-ユーザーデータ、インベントリ、静的データ
* 3台の物理サーバー
* Cassandra-メタデータ、追跡メッセージ
10台のKafkaサーバー-メッセージ集約とバッチ挿入の追跡
*アプリケーションサーバー-顧客フロントエンド、注文/税関用ミドルウェア
* 20台の物理サーバーにまたがる60台の仮想マシン
* Tomcat-Javaサービス
* Nginx-静的コンテンツ
*バッチサーバー
ストレージアプライアンス
*仮想マシン(VM)ホスト用のiSCSI
*ファイバーチャネルストレージエリアネットワーク(FC SAN)-SQLサーバーストレージ
*ネットワーク接続ストレージ(NAS)イメージストレージ、ログ、バックアップ
* 10個のApacheHadoop / Sparkサーバー
*コアデータレイク
*データ分析ワークロード
* 20のその他のサーバー
* Jenkins、監視、要塞ホスト、
ビジネス要件
*生産のスケーリングされたパンティーを使用して、信頼性と再現性のある環境を構築します。
*分析のために一元化されたデータレイクにデータを集約する
*履歴データを使用して、将来の出荷の予測分析を実行します
*独自の技術を使用して、世界中のすべての出荷を正確に追跡します
*新しいリソースの迅速なプロビジョニングを通じて、ビジネスの俊敏性とイノベーションの速度を向上させます
*クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する
*他のすべての要件が満たされている場合は、クラウドに完全に移行します
技術要件
*ストリーミングデータとバッチデータの両方を処理します
*既存のHadoopワークロードを移行する
*アーキテクチャがスケーラブルで弾力性があり、企業の変化する要求に対応できるようにします。
*可能な限りマネージドサービスを使用する
*データの飛行と静止を暗号化する
*本番データセンターとクラウド環境の間にVPNを接続するSEOステートメント私たちは急速に成長したため、インフラストラクチャをアップグレードできないことが、さらなる成長と効率を実際に妨げています。私たちは世界中の貨物を移動するのは効率的ですが、データを移動するのは非効率的です。
顧客がどこにいて、何を出荷しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTOステートメント
ITは私たちにとって優先事項ではありませんでした。そのため、データが増大するにつれて、テクノロジーに十分な投資をしていません。私にはITを管理する優れたスタッフがいますが、彼らはインフラストラクチャの管理に忙しく、データの整理、分析の構築、CFOの実装方法の理解などの本当に重要なことを彼らに行わせることができません。追跡技術。
CFOステートメント
私たちの競争上の優位性の一部は、出荷と配達が遅れた場合にペナルティを課すことです。出荷が常にどこにあるかを知ることは、当社の純利益と収益性に直接的な相関関係があります。さらに、サーバー環境の構築に資本を投入したくありません。
FlowlogisticのCEOは、顧客ベースについて迅速な洞察を得て、営業チームが現場でより多くの情報を得られるようにしたいと考えています。このチームはあまり技術的ではないため、BigQueryレポートの作成を簡素化するための視覚化ツールを購入しました。ただし、テーブル内のすべてのデータに圧倒されており、必要なデータを見つけようとするクエリに多額の費用を費やしています。あなたは最も費用効果の高い方法で彼らの問題を解決したいと思っています。あなたは何をするべきか?
- A. 仮想化のためにデータをGoogleスプレッドシートにエクスポートします。
- B. 適切な列にIDおよびアクセス管理(IAM)の役割を作成して、クエリに表示されるようにします。
- C. 仮想化ツールに提示するビューをテーブルに作成します。
- D. 必要な列のみを含む追加のテーブルを作成します。
正解:C
質問 # 135
銀行業界の政府規制は、クライアントの個人情報(PII)の保護を義務付けています。会社では、PIIを暗号化してアクセス制御し、主要なデータ保護標準に準拠する必要があります。CloudData Loss Prevention(Cloud DIP)を使用することに加えて、Googleが推奨する慣行に従い、サービスアカウントを使用してPIIへのアクセスを制御する必要があります。あなたは何をするべきか?
- A. 必要なIDおよびアクセス管理(IAM)の役割をすべての従業員に割り当て、保護リソースにアクセスするための単一のサービスアカウントを作成します
- B. クラウドストレージを使用して、主要なデータ保護基準に準拠します。IAMグループに関連付けられた複数のサービスアカウントを使用して、各グループに適切なアクセスを許可します
- C. クラウドストレージを使用して、主要なデータ保護基準に準拠します。すべてのユーザーが共有する1つのサービスアカウントを使用する
- D. 1つのサービスアカウントを使用してCloud SQLデータベースにアクセスし、人間のユーザーごとに個別のサービスアカウントを使用します
正解:B
質問 # 136
Cloud Dataprocクラスターのスケーリングには、通常、____が含まれます。
- A. ワーカーノードの数を増減します
- B. マスターノードの数を増減する
- C. 単一ノードでより多くのアプリケーションを実行するためにメモリを移動する
- D. 未使用のノードからアプリケーションを定期的に削除する
正解:A
解説:
Explanation
After creating a Cloud Dataproc cluster, you can scale the cluster by increasing or decreasing the number of worker nodes in the cluster at any time, even when jobs are running on the cluster. Cloud Dataproc clusters are typically scaled to:
1) increase the number of workers to make a job run faster
2) decrease the number of workers to save money
3) increase the number of nodes to expand available Hadoop Distributed Filesystem (HDFS) storage Reference: https://cloud.google.com/dataproc/docs/concepts/scaling-clusters
質問 # 137
Cloud Dataprocクラスターのスケーリングには、通常、____が含まれます。
- A. ワーカーノードの数を増減します
- B. マスターノードの数を増減する
- C. 単一ノードでより多くのアプリケーションを実行するためにメモリを移動する
- D. 未使用のノードからアプリケーションを定期的に削除する
正解:A
解説:
After creating a Cloud Dataproc cluster, you can scale the cluster by increasing or decreasing the number of worker nodes in the cluster at any time, even when jobs are running on the cluster. Cloud Dataproc clusters are typically scaled to:
1) increase the number of workers to make a job run faster
2) decrease the number of workers to save money
3) increase the number of nodes to expand available Hadoop Distributed Filesystem (HDFS) storage Reference: https://cloud.google.com/dataproc/docs/concepts/scaling-clusters
質問 # 138
Dataprocクラスター内の仮想マシンがジョブを実行できるようにするために使用するサービスアカウントに、どのロールを割り当てる必要がありますか?
- A. Dataprocワーカー
- B. Dataprocランナー
- C. Dataprocビューアー
- D. Dataprocエディター
正解:A
解説:
Service accounts used with Cloud Dataproc must have Dataproc/Dataproc Worker role (or have all the permissions granted by Dataproc Worker role).
Reference: https://cloud.google.com/dataproc/docs/concepts/service-accounts#important_notes
質問 # 139
CloudDataprocクラスター上でスケジュールに従って実行されるSparkジョブがいくつかあります。一部のジョブは順番に実行され、一部のジョブは同時に実行されます。このプロセスを自動化する必要があります。あなたは何をするべきか?
- A. Cloud SDKを使用してクラスターを作成し、ジョブを実行してから、クラスターを破棄するBashスクリプトを作成します
- B. CloudDataprocワークフローテンプレートを作成します
- C. ジョブを実行するための初期化アクションを作成します
- D. CloudComposerで有向非巡回グラフを作成する
正解:D
解説:
References:
質問 # 140
Google Cloud BigtableインスタンスのSSDストレージとHDDストレージを切り替えるために推奨されるアクションは何ですか?
- A. 一方がHDDでもう一方がSDDである並列インスタンスを実行します
- B. 選択は最終的なものであり、同じストレージタイプの使用を再開する必要があります
- C. 3番目のインスタンスを作成し、バッチジョブを介して2つのストレージタイプのデータを同期します
- D. 既存のインスタンスからデータをエクスポートし、新しいインスタンスにデータをインポートします
正解:D
解説:
Explanation
When you create a Cloud Bigtable instance and cluster, your choice of SSD or HDD storage for the cluster is permanent. You cannot use the Google Cloud Platform Console to change the type of storage that is used for the cluster.
If you need to convert an existing HDD cluster to SSD, or vice-versa, you can export the data from the existing instance and import the data into a new instance. Alternatively, you can write a Cloud Dataflow or Hadoop MapReduce job that copies the data from one instance to another.
Reference: https://cloud.google.com/bigtable/docs/choosing-ssd-hdd-
質問 # 141
HadoopジョブをオンプレミスクラスターからDataprocおよびGoodStorageに移行しました。Sparkジョブは複雑な分析ワークロードであり、多くのシャッフル操作で構成され、初期データは寄木細工のつま先です(それぞれ平均200〜400 MBのサイズ)Dataprocへの移行後にパフォーマンスが低下するため、最適化する必要がありますそれ。組織は非常にコストに敏感であるため、このワークロードのプリエンプティブ(プリエンプティブルでないワーカーが2つのみ)でDataprocを引き続き使用することをお勧めします。あなたは何をするべきか?
- A. 寄木細工のファイルの代わりにTFRecords形式(Weあたり約200 MB)に切り替えます
- B. HDDからSSDに切り替えます。初期データをCloudStorageからHadoop分散ファイルシステム(HDFS)にコピーし、Sparkジョブを実行して、結果をCloudStorageにコピーします。
- C. 寄木細工のファイルの表示を増やして、最小1GBになるようにします
- D. HODからSSDに切り替えると、プリエンプティブVM構成が上書きされ、ブートディスクのサイズが大きくなります
正解:D
質問 # 142
Cloud Machine Learning Engineを使用して自分のコンピューターでTensorFlowトレーニングジョブを実行するには、コマンドは何から始まりますか?
- A. gcloudml-engineジョブがトレーニングを送信
- B. gcloudml-engineローカルトレイン
- C. gcloudml-engineジョブがローカルでトレーニングを送信
- D. Cloud MLEngineを使用して自分のコンピューターでTensorFlowプログラムを実行することはできません。
正解:B
解説:
Explanation
gcloud ml-engine local train - run a Cloud ML Engine training job locally This command runs the specified module in an environment similar to that of a live Cloud ML Engine Training Job.
This is especially useful in the case of testing distributed models, as it allows you to validate that you are properly interacting with the Cloud ML Engine cluster configuration.
Reference: https://cloud.google.com/sdk/gcloud/reference/ml-engine/local/train
質問 # 143
これらのうち、Dataprocクラスターインスタンスのソフトウェアをカスタマイズする方法ではないものはどれですか?
- A. Cloud DeploymentManagerを使用してクラスターを構成します
- B. クラスタープロパティを使用して構成ファイルを変更する
- C. 初期化アクションを設定します
- D. マスターノードにログインし、そこから変更を加えます
正解:A
解説:
You can access the master node of the cluster by clicking the SSH button next to it in the Cloud Console.
You can easily use the --properties option of the dataproc command in the Google Cloud SDK to modify many common configuration files when creating a cluster.
When creating a Cloud Dataproc cluster, you can specify initialization actions in executables and/or scripts that Cloud Dataproc will run on all nodes in your Cloud Dataproc cluster immediately after the cluster is set up. [https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/init-actions] Reference: https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/cluster-properties
質問 # 144
Bigtableの時系列データのホットスポットを回避するために使用する推奨される方法はどれですか?
- A. ランダム化
- B. ハッシュ
- C. フィールドプロモーション
- D. Salting
正解:C
解説:
By default, prefer field promotion. Field promotion avoids hotspotting in almost all cases, and it tends to make it easier to design a row key that facilitates queries.
質問 # 145
データウェアハウスをGoogleCloudに移行し、オンプレミスのデータセンターを廃止します。これは会社の優先事項であるため、クラウドへの最初のデータ読み込みに帯域幅を利用できるようになります。転送されるファイルの数は多くありませんが、各ファイルは90 GBです。さらに、トランザクションシステムでGoogle Cloudのウェアハウスをリアルタイムで継続的に更新する必要があります。データを移行し、書き込みを継続するためにどのツールを使用する必要がありますかあなたの倉庫に?
- A. 移行用のストレージ転送サービス、リアルタイム更新用のPub / SubおよびCloudData Fusion
- B. 移行とリアルタイム更新の両方に対応するgsutil
- C. 移行用のgsutil;リアルタイム更新のためのPub / SubおよびDataflow
- D. BigQuery Data Transfer Service、またはリアルタイム更新用の移行、Pub / Sub、Dataproc
正解:C
質問 # 146
データウェアハウスをGoogleCloudに移行し、オンプレミスのデータセンターを廃止します。これは会社の優先事項であるため、クラウドへの最初のデータ読み込みに帯域幅が利用できるようになります。転送されるファイルの数は多くありませんが、各ファイルは90 GBです。さらに、トランザクションシステムでGoogle Cloudのウェアハウスをリアルタイムで継続的に更新する必要があります。データを移行し、書き込みを継続するためにどのツールを使用する必要がありますかあなたの倉庫に?
- A. 移行用のgsutil; リアルタイム更新のためのPub/SubおよびDataflow
- B. 移行用のBigQueryデータ転送サービス、リアルタイム更新用のPub/SubおよびDataproc
- C. 移行とリアルタイム更新の両方のgsutil
- D. 移行用のストレージ転送サービス、リアルタイム更新用のPub/SubおよびCloudDataFusion
正解:D
質問 # 147
時系列メトリックを集約してCloudBigtableに書き込むCloudDataflowジョブを含むデータパイプラインがあります。このデータは、組織全体の何千人ものユーザーが使用するダッシュボードにフィードされます。追加の同時ユーザーをサポートし、データの書き込みに必要な時間を短縮する必要があります。あなたはどちらの2つの行動を取るべきですか? (2つ選択してください。)
- A. ローカル実行を使用するようにCloudDataflowパイプラインを構成します
- B. PipelineOptionsでmaxNumWorkersを設定して、CloudDataflowワーカーの最大数を増やします
- C. CloudBigtableクラスター内のノードの数を増やします
- D. Cloud Bigtableに書き込む前に、CoGroupByKeyトランスフォームを使用するようにCloudDataflowパイプラインを変更します
- E. Cloud Bigtableに書き込む前に、Flattenトランスフォームを使用するようにCloudDataflowパイプラインを変更します
正解:B、C
質問 # 148
数百万台のコンピューターの時系列のCPUとメモリの使用量を保存するデータベースを選択する必要があります。このデータを1秒間隔のサンプルに保存する必要があります。アナリストは、データベースに対してリアルタイムのアドホック分析を実行します。実行されたすべてのクエリに対して課金されることを避け、スキーマ設計がデータセットの将来の拡張を可能にすることを保証する必要があります。どのデータベースとデータモデルを選択する必要がありますか?
- A. ComputerEngineのコンピューター識別子と毎秒のサンプル時間を組み合わせた行キーを使用してCloudBigtableに狭いテーブルを作成します
- B. Cloud Bigtableで、コンピューター識別子と1分ごとのサンプル時間を組み合わせた行キーを使用して幅の広いテーブルを作成し、1秒ごとの値を列データとして組み合わせます。
- C. BigQueryで幅の広いテーブルを作成し、毎秒のサンプル値の列を作成し、毎秒の間隔で行を更新します
- D. BigQueryでテーブルを作成し、CPUとメモリの新しいサンプルをテーブルに追加します
正解:A
解説:
A tall and narrow table has a small number of events per row, which could be just one event, whereas a short and wide table has a large number of events per row. As explained in a moment, tall and narrow tables are best suited for time-series data. For time series, you should generally use tall and narrow tables. This is for two reasons: Storing one event per row makes it easier to run queries against your data. Storing many events per row makes it more likely that the total row size will exceed the recommended maximum (see Rows can be big but are not infinite). https://cloud.google.com/bigtable/docs/schema-design-time-series#patterns_for_row_key_design
質問 # 149
あなたは、オンライン販売機能をGoogleHomeなどのさまざまな在宅アシスタントと統合したいと考えている小売業者です。顧客の音声コマンドを解釈し、バックエンドシステムに注文を出す必要があります。
どのソリューションを選択する必要がありますか?
- A. Dialogflow Enterprise Edition
- B. Cloud Natural Language API
- C. Cloud Speech-to-Text API
- D. クラウドAutoML自然言語
正解:A
質問 # 150
航空宇宙会社は、独自のデータ形式を使用して夜間データを保存しています
a。この新しいデータソースをBigQueryに接続し、データをBigQueryにストリーミングする必要があります。できるだけ少ないリソースを消費するBigQueryにデータを効率的にインポートする必要があります。あなたは何をするべきか?
- A. Apache Hiveを使用して、データをCSV形式でBigQueryにストリーミングするDataprocジョブを記述します
- B. 標準のデータフローパイプラインを使用して生データをBigQueryに保存し、後でデータが使用されるときに形式を変換します。
- C. 新しいデータソースで定期的なETLバッチジョブを実行するクラウド関数をトリガーするシェルスクリプトを記述します
- D. Apache Beamカスタムコネクタを使用して、データをAvro形式でBigQueryにストリーミングするDataflowパイプラインを記述します
正解:D
質問 # 151
FlowlogisticのCEOは、顧客ベースについて迅速な洞察を得て、営業チームが現場でより多くの情報を得られるようにしたいと考えています。このチームはあまり技術的ではないため、BigQueryレポートの作成を簡素化するための視覚化ツールを購入しました。しかし、彼らはテーブル内のすべてのデータに圧倒されており、必要なデータを見つけようとするクエリに多額の費用を費やしています。あなたは最も費用効果の高い方法で彼らの問題を解決したいと思っています。あなたは何をするべきか?
- A. 仮想化のためにデータをGoogleスプレッドシートにエクスポートします。
- B. 適切な列にIDおよびアクセス管理(IAM)の役割を作成して、クエリに表示されるようにします。
- C. 仮想化ツールに提示するビューをテーブルに作成します。
- D. 必要な列のみを含む追加のテーブルを作成します。
正解:C
質問 # 152
キャンセルしたい仕事があります。これはストリーミングパイプラインであり、処理中のデータが処理されて出力に書き込まれるようにする必要があります。パイプラインジョブを停止するためにDataflow監視コンソールで使用できるコマンドは次のうちどれですか?
- A. キャンセル
- B. 排水
- C. 終了
- D. 停止
正解:B
解説:
Using the Drain option to stop your job tells the Dataflow service to finish your job in its current state. Your job will immediately stop ingesting new data from input sources, but the Dataflow service will preserve any existing resources (such as worker instances) to finish processing and writing any buffered data in your pipeline.
Reference: https://cloud.google.com/dataflow/pipelines/stopping-a-pipeline
質問 # 153
あなたは、顧客の販売転換につながる要因を特定するモデルを開発しています。データの処理が完了しました。モデル開発ライフサイクルを継続したいと考えています。次に何をすべきでしょうか?
- A. 厳選されたデータに基づいてモデルをテストおよび評価し、モデルのパフォーマンスがどの程度優れているかを判断します。
- B. モデルのパフォーマンスを監視し、必要な調整を行います。
- C. どのデータがテストに使用され、どのデータがモデルのトレーニングに使用されるかを説明します。
- D. モデルを使用して、新しい顧客入力データに対して予測を実行します。
正解:A
解説:
After processing your data, the next step in the model development lifecycle is to test and evaluate your model on the curated data. This is crucial to determine the performance of the model and to understand how well it can predict sales conversions for your customers. The evaluation phase involves using various metrics and techniques to assess the accuracy, precision, recall, and other relevant performance indicators of the model. It helps in identifying any issues or areas for improvement before deploying the model in a production environment. References: The information provided here is verified by the Google Professional Data Engineer Certification Exam Guide and related resources, which outline the steps and best practices in the model development lifecycle
質問 # 154
次のうち、Dataflowがサポートする3つの主要なタイプのトリガーの1つではないものはどれですか?
- A. バイト単位の要素サイズに基づいてトリガーします
- B. 時間に基づいてトリガー
- C. 要素数に基づいてトリガー
- D. 他のトリガーの組み合わせであるトリガー
正解:A
解説:
There are three major kinds of triggers that Dataflow supports: 1. Time-based triggers 2. Data-driven triggers. You can set a trigger to emit results from a window when that window has received a certain number of data elements. 3. Composite triggers. These triggers combine multiple time-based or data-driven triggers in some logical way
質問 # 155
projects.regions.clusters.create操作を使用して新しいCloudDataprocクラスターを作成する場合、プロジェクト、リージョン、名前、および____の4つの値が必要です。
- A. ラベル
- B. タイプ
- C. ゾーン
- D. ノード
正解:C
解説:
Explanation
At a minimum, you must specify four values when creating a new cluster with the projects.regions.clusters.create operation:
The project in which the cluster will be created
The region to use
The name of the cluster
The zone in which the cluster will be created
You can specify many more details beyond these minimum requirements. For example, you can also specify the number of workers, whether preemptible compute should be used, and the network settings.
Reference:
https://cloud.google.com/dataproc/docs/tutorials/python-library-example#create_a_new_cloud_dataproc_cluste
質問 # 156
Google Cloud BigtableのストレージとしてHDD(ハードディスクドライブ)を選択するための有効な使用例ではないものは次のうちどれですか?
- A. 少なくとも10TBのデータを保存する必要があります。
- B. 少数の行のランダムな読み取りを頻繁に実行するのではなく、スキャンと書き込みを使用してバッチワークロードを実行することがほとんどです。
- C. ユーザー向けまたは遅延の影響を受けやすいアプリケーションをバックアップするためにデータを使用することはありません。
- D. GoogleBigQueryと統合する必要があります。
正解:D
解説:
Explanation
For example, if you plan to store extensive historical data for a large number of remote-sensing devices and then use the data to generate daily reports, the cost savings for HDD storage may justify the performance tradeoff. On the other hand, if you plan to use the data to display a real-time dashboard, it probably would not make sense to use HDD storage-reads would be much more frequent in this case, and reads are much slower with HDD storage.
Reference: https://cloud.google.com/bigtable/docs/choosing-ssd-hdd
質問 # 157
GoogleのDataflowSDKを使用してソフトウェアアプリケーションを開発しており、条件付きのforループやその他の複雑なプログラミング構造を使用して分岐パイプラインを作成したいと考えています。データ処理操作に使用されるコンポーネントはどれですか?
- A. 変換
- B. パイプライン
- C. PCollection
- D. シンクAPI
正解:A
解説:
Explanation
In Google Cloud, the Dataflow SDK provides a transform component. It is responsible for the data processing operation. You can use conditional, for loops, and other complex programming structure to create a branching pipeline.
Reference: https://cloud.google.com/dataflow/model/programming-model
質問 # 158
......
Google Professional-Data-Engineer日本語問題を提供していますGoogle Cloud Certified問題集と完璧な解答付き:https://www.goshiken.com/Google/Professional-Data-Engineer-JPN-mondaishu.html