2023年最新の100%無料Professional-Data-Engineer日本語日常練習試験には270問があります
Professional-Data-Engineer日本語試験資料Google学習ガイド
質問 # 74
会社用に新しいリアルタイムデータウェアハウスを構築しており、GoogleBigQueryストリーミングインサートを使用します。データが1回だけ送信されるという保証はありませんが、データの各行に一意のIDとイベントのタイムスタンプがあります。データをインタラクティブにクエリするときに、重複が含まれないようにする必要があります。どのクエリタイプを使用する必要がありますか?
- A. 一意のID列とタイムスタンプ列にGROUP BYを使用し、値にSUMを使用します。
- B. 行が1に等しいWHEREとともに、一意のIDによるPARTITIONでROW_NUMBERウィンドウ関数を使用します。
- C. LAGウィンドウ関数を一意のIDによるPARTITIONとともに、WHERE LAG IS NOTNULLとともに使用します。
- D. タイムスタンプ列にORDER BY DESKを含め、1に制限します。
正解:B
解説:
Explanation
https://cloud.google.com/bigquery/docs/reference/standard-sql/analytic-function-concepts
質問 # 75
開発チームと外部チームは、プロジェクトビューアのIdentity and Access Management(1AM)ロールmaフォルダにVisualizationという名前を付けます。開発チームがCloudStorageとBigQueryの両方からデータを読み取れるようにする必要がありますが、外部チームはBigQueryからのみデータを読み取ることができる必要があります。あなたは何をするべきか?
- A. 外部チームCIDR範囲からのすべての入力トラフィックを拒否するacme-raw-dataprotectに仮想プライベートクラウド(VPC)ファイアウォールルールを作成します
- B. acme-raw-dataプロジェクトの外部チームに対するCloudStorageIAM権限を削除します
- C. 保護とCloudStorageの両方を制限付きAPIとして含むVPCServiceControls境界を作成します。開発チームのユーザーを境界のアクセスレベルに追加します
- D. 保護とBigQueryの両方を制限付きAPIとして含むVPCサービスコントロール境界を作成します外部チームユーザーを境界のアクセスレベルに追加します
正解:D
質問 # 76
次のうち、データフローパイプラインについて正しくないものはどれですか?
- A. データフローパイプラインはJavaでプログラムできます
- B. DataflowパイプラインはDataflowに関連付けられており、他のランナーで実行することはできません
- C. データフローパイプラインは他のGoogleCloudサービスからのデータを消費する可能性があります
- D. データフローパイプラインは統合プログラミングモデルを使用しているため、ストリーミングデータソースとバッチデータソースの両方で機能します
正解:B
解説:
Dataflow pipelines can also run on alternate runtimes like Spark and Flink, as they are built using the Apache Beam SDKs
質問 # 77
Google Cloud Bigtableは、各行の単一の値にインデックスを付けます。この値は_______と呼ばれます。
- A. 一意のキー
- B. 主キー
- C. マスターキー
- D. 行キー
正解:D
解説:
Cloud Bigtable is a sparsely populated table that can scale to billions of rows and thousands of columns, allowing you to store terabytes or even petabytes of data. A single value in each row is indexed; this value is known as the row key.
質問 # 78
データセットに、生年月日、国、収入の個々の人と列を含む行が含まれている場合、連続している列とカテゴリ別の列はいくつありますか?
- A. 3連続
- B. 1つの連続と2つのカテゴリ
- C. 3つのカテゴリ
- D. 2つの連続と1つのカテゴリ
正解:D
解説:
The columns can be grouped into two types-categorical and continuous columns:
A column is called categorical if its value can only be one of the categories in a finite set. For example, the native country of a person (U.S., India, Japan, etc.) or the education level (high school, college, etc.) are categorical columns.
A column is called continuous if its value can be any numerical value in a continuous range. For example, the capital gain of a person (e.g. $14,084) is a continuous column.
Year of birth and income are continuous columns. Country is a categorical column.
You could use bucketization to turn year of birth and/or income into categorical features, but the raw columns are continuous.
質問 # 79
特定の日に雨が降るかどうかを予測するモデルを構築しています。何千もの入力特徴があり、モデルの精度への影響を最小限に抑えながら、いくつかの特徴を削除することでトレーニング速度を向上できるかどうかを確認したいと考えています。あなたは何ができますか?
- A. 相互依存性の高い機能を1つの代表的な機能に結合します。
- B. トレーニングレコードの50%を超える値がnullである機能を削除します。
- C. 各機能を個別にフィードする代わりに、3つのバッチでそれらの値を平均します。
- D. 出力ラベルとの相関が高い機能を削除します。
正解:A
質問 # 80
Cloud Dataprocクラスターのスケーリングには、通常、____が含まれます。
- A. 単一ノードでより多くのアプリケーションを実行するためにメモリを移動する
- B. ワーカーノードの数を増減します
- C. マスターノードの数を増減する
- D. 未使用のノードからアプリケーションを定期的に削除する
正解:B
解説:
Explanation
After creating a Cloud Dataproc cluster, you can scale the cluster by increasing or decreasing the number of worker nodes in the cluster at any time, even when jobs are running on the cluster. Cloud Dataproc clusters are typically scaled to:
1) increase the number of workers to make a job run faster
2) decrease the number of workers to save money
3) increase the number of nodes to expand available Hadoop Distributed Filesystem (HDFS) storage Reference: https://cloud.google.com/dataproc/docs/concepts/scaling-clusters
質問 # 81
Dataflowプログラムをローカルで実行するために使用できるJavaSDKクラスはどれですか?
- A. LocalPipelineRunner
- B. LocalRunner
- C. MachineRunner
- D. DirectPipelineRunner
正解:D
解説:
DirectPipelineRunner allows you to execute operations in the pipeline directly, without any optimization. Useful for small local execution and tests
質問 # 82
次のジョブタイプのどれがCloudDataprocでサポートされていますか(3つの回答を選択してください)?
- A. 豚
- B. スパーク
- C. YARN
- D. ハイブ
正解:A、B、D
解説:
Explanation
Cloud Dataproc provides out-of-the box and end-to-end support for many of the most popular job types, including Spark, Spark SQL, PySpark, MapReduce, Hive, and Pig jobs.
Reference: https://cloud.google.com/dataproc/docs/resources/faq#what_type_of_jobs_can_i_run
質問 # 83
データ処理パイプラインを設計しています。パイプラインは、負荷の増加に応じて自動的にスケーリングできる必要があります。メッセージは少なくとも1回処理する必要があり、1時間以内に注文する必要があります。ソリューションをどのように設計する必要がありますか?
- A. メッセージの取り込みにはApache Kafkaを使用し、ストリーミング分析にはCloudDataprocを使用します。
- B. メッセージの取り込みにはCloud Pub / Subを使用し、ストリーミング分析にはCloudDataprocを使用します。
- C. メッセージの取り込みにはApache Kafkaを使用し、ストリーミング分析にはCloudDataflowを使用します。
- D. メッセージの取り込みにはCloud Pub / Subを使用し、ストリーミング分析にはCloudDataflowを使用します。
正解:B
質問 # 84
人間の顔が含まれているかどうかについてそれぞれラベルが付けられた画像のデータセットがあるとします。このラベル付けされたデータセットを使用して画像内の人間の顔を認識するニューラルネットワークを作成するには、どのアプローチが最も効果的である可能性がありますか?
- A. K-meansクラスタリングを使用して、ピクセル内の顔を検出します。
- B. 複数の隠れ層を持つニューラルネットワークを作成してディープラーニングを使用し、顔の特徴を自動的に検出します。
- C. ピクセルの入力層、非表示層、および2つのカテゴリの出力層でニューラルネットワークを構築します。
- D. 特徴エンジニアリングを使用して、目、鼻、口の特徴を入力データに追加します。
正解:B
解説:
Traditional machine learning relies on shallow nets, composed of one input and one output layer, and at most one hidden layer in between. More than three layers (including input and output) qualifies as "deep" learning. So deep is a strictly defined, technical term that means more than one hidden layer.
In deep-learning networks, each layer of nodes trains on a distinct set of features based on the previous layer's output. The further you advance into the neural net, the more complex the features your nodes can recognize, since they aggregate and recombine features from the
previous layer.
A neural network with only one hidden layer would be unable to automatically recognize high-level features of faces, such as eyes, because it wouldn't be able to "build" these features using previous hidden layers that detect low-level features, such as lines.
Feature engineering is difficult to perform on raw image data.
K-means Clustering is an unsupervised learning method used to categorize unlabeled data.
質問 # 85
projects.regions.clusters.create操作を使用して新しいCloudDataprocクラスターを作成する場合、プロジェクト、リージョン、名前、および____の4つの値が必要です。
- A. ラベル
- B. タイプ
- C. ノード
- D. ゾーン
正解:D
解説:
Explanation
At a minimum, you must specify four values when creating a new cluster with the projects.regions.clusters.create operation:
The project in which the cluster will be created
The region to use
The name of the cluster
The zone in which the cluster will be created
You can specify many more details beyond these minimum requirements. For example, you can also specify the number of workers, whether preemptible compute should be used, and the network settings.
Reference:
https://cloud.google.com/dataproc/docs/tutorials/python-library-example#create_a_new_cloud_dataproc_cluste
質問 # 86
最近の価格履歴に基づいて特定の株式の価格を予測する機械学習モデルを作成する場合、どのタイプの推定量を使用する必要がありますか?
- A. クラスタリング推定量
- B. 教師なし学習
- C. リグレッサー
- D. 分類子
正解:C
解説:
Explanation
Regression is the supervised learning task for modeling and predicting continuous, numeric variables.
Examples include predicting real-estate prices, stock price movements, or student test scores.
Classification is the supervised learning task for modeling and predicting categorical variables. Examples include predicting employee churn, email spam, financial fraud, or student letter grades.
Clustering is an unsupervised learning task for finding natural groupings of observations (i.e. clusters) based on the inherent structure within your dataset. Examples include customer segmentation, grouping similar items in e-commerce, and social network analysis.
Reference: https://elitedatascience.com/machine-learning-algorithms
質問 # 87
何百万ものモノのインターネット(IoT)デバイスから送信されたテレメトリデータを処理するためにNoSQLデータベースを選択しています。データの量は年間100TBで増加しており、各データエントリには約100の属性があります。
データ処理パイプラインは、原子性、一貫性、分離、および耐久性(ACID)を必要としません。
ただし、高可用性と低遅延が必要です。
個々のフィールドに対してクエリを実行して、データを分析する必要があります。要件を満たす3つのデータベースはどれですか? (3つ選択してください。)
- A. MySQL
- B. カサンドラ
- C. MongoDB
- D. Hiveを使用したHDFS
- E. HBase
- F. Redis
正解:C、D、E
質問 # 88
Cloud Dataprocは、マネージドApacheHadoopおよびApache_____サービスです。
- A. イグナイト
- B. スパーク
- C. ブレイズ
- D. 火
正解:B
解説:
Cloud Dataproc is a managed Apache Spark and Apache Hadoop service that lets you use open source data tools for batch processing, querying, streaming, and machine learning.
質問 # 89
人間の顔が含まれているかどうかについてそれぞれラベルが付けられた画像のデータセットがあるとします。このラベル付けされたデータセットを使用して画像内の人間の顔を認識するニューラルネットワークを作成するには、どのアプローチが最も効果的である可能性がありますか?
- A. K-meansクラスタリングを使用して、ピクセル内の顔を検出します。
- B. 複数の隠れ層を持つニューラルネットワークを作成してディープラーニングを使用し、顔の特徴を自動的に検出します。
- C. ピクセルの入力層、非表示層、および2つのカテゴリの出力層でニューラルネットワークを構築します。
- D. 特徴エンジニアリングを使用して、目、鼻、口の特徴を入力データに追加します。
正解:B
解説:
Explanation
Traditional machine learning relies on shallow nets, composed of one input and one output layer, and at most one hidden layer in between. More than three layers (including input and output) qualifies as "deep" learning.
So deep is a strictly defined, technical term that means more than one hidden layer.
In deep-learning networks, each layer of nodes trains on a distinct set of features based on the previous layer's output. The further you advance into the neural net, the more complex the features your nodes can recognize, since they aggregate and recombine features from the previous layer.
A neural network with only one hidden layer would be unable to automatically recognize high-level features of faces, such as eyes, because it wouldn't be able to "build" these features using previous hidden layers that detect low-level features, such as lines.
Feature engineering is difficult to perform on raw image data.
K-means Clustering is an unsupervised learning method used to categorize unlabeled data.
Reference: https://deeplearning4j.org/neuralnet-overview
質問 # 90
BigQuery、Cloud Dataflow、CloudDataprocで実行されているデータパイプラインがあります。ヘルスチェックを実行してその動作を監視し、パイプラインが失敗した場合はパイプラインを管理しているチームに通知する必要があります。また、複数のプロジェクト間で作業できる必要があります。プラットフォームの機能のマネージド製品を使用することをお勧めします。あなたは何をするべきか?
- A. ログをBigQueryにエクスポートし、その情報を読み取ってログに障害が見つかった場合にメールを送信するようにAppEngineを設定します
- B. 情報をCloud Stackdriverにエクスポートし、アラートポリシーを設定します
- C. Airflowを使用してCompute Engineで仮想マシンを実行し、情報をStackdriverにエクスポートします
- D. GCP API呼び出しを使用してログを消費するAppEngineアプリケーションを開発し、ログに障害が見つかった場合はメールを送信します
正解:C
質問 # 91
あなたの会社は1時間に20,000個のファイルを作成しています。各データファイルは、4 KB未満のコンマ区切り値(CSV)ファイルとしてフォーマットされます。すべてのファイルは、処理する前にGoogle CloudPlatformに取り込む必要があります。会社のサイトはGoogleCloudに対して200ミリ秒の遅延があり、インターネット接続の帯域幅は50Mbpsに制限されています。現在、データ取り込みポイントとしてGoogle Compute Engineの仮想マシンにセキュアFTP(SFTP)サーバーをデプロイしています。ローカルSFTPクライアントは専用マシンで実行され、CSVファイルをそのまま送信します。目標は、前日のデータを含むレポートを経営幹部が利用できるようにすることです。
毎日午前10時。この設計では、帯域幅の使用率がかなり低くても、現在のボリュームにほとんど追いつくことができません。
季節性があるため、会社は今後3か月でファイル数が2倍になると予想していると言われています。あなたはどちらの2つの行動を取るべきですか? (2つ選択してください。)
- A. 1,000個のファイルをテープアーカイブ(TAR)ファイルにアセンブルします。代わりにTARファイルを送信し、受信時にクラウドでCSVファイルを逆アセンブルします。
- B. ネットワークにS3互換のストレージエンドポイントを作成し、Google Cloud Storage TransferServiceを使用してオンプレミスデータを指定のストレージバケットに転送します。
- C. 各ファイルにデータ圧縮を導入して、ファイル転送の速度を上げます。
- D. gsutilツールを使用してCSVファイルをストレージバケットに並行して送信するように、データ取り込みプロセスを再設計します。
- E. インターネットサービスプロバイダー(ISP)に連絡して、最大帯域幅を少なくとも100Mbpsに増やしてください。
正解:B、D
質問 # 92
Cloud Machine Learning EngineのCUSTOM層では、どのタイプのクラスターノードの数を指定できますか?
- A. パラメータサーバー
- B. 労働者
- C. ワーカーとパラメーターサーバー
- D. マスター、ワーカー、およびパラメーターサーバー
正解:C
解説:
Explanation
The CUSTOM tier is not a set tier, but rather enables you to use your own cluster specification. When you use this tier, set values to configure your processing cluster according to these guidelines:
You must set TrainingInput.masterType to specify the type of machine to use for your master node.
You may set TrainingInput.workerCount to specify the number of workers to use.
You may set TrainingInput.parameterServerCount to specify the number of parameter servers to use.
You can specify the type of machine for the master node, but you can't specify more than one master node.
Reference: https://cloud.google.com/ml-engine/docs/training-overview#job_configuration_parameters
質問 # 93
Hadoop with Hiveの代わりとなるGoogleCloud Platformサービスはどれですか?
- A. クラウドデータストア
- B. クラウドデータフロー
- C. BigQuery
- D. Cloud Bigtable
正解:C
解説:
Apache Hive is a data warehouse software project built on top of Apache Hadoop for providing data summarization, query, and analysis.
Google BigQuery is an enterprise data warehouse.
質問 # 94
BigQuery MLで線形回帰モデルを使用して、顧客が会社の製品を購入する可能性を予測しています。モデルは、モデルをトレーニングして提供するために、主要な予測コンポーネントとして都市名変数を使用します。データは列に編成する必要があります。予測可能な変数を維持しながら、最小限のコーディングを使用してデータを準備する必要があります。あなたは何をするべきか?
- A. Cloud Data Fusionを使用して、各都市を1、2、3、4、または5のラベルが付いた地域に割り当て、その番号を使用してモデル内の都市を表します。
- B. 都市情報を含む列を含まないBigQueryを使用して新しいビューを作成します。
- C. BigQueryでSQLを使用して、ワンホットエンコーディング方式を使用して古い列を変換し、各都市をバイナリ値の列にします。
- D. TensorFlowを使用して、語彙リストを含むカテゴリ変数を作成します。語彙ファイルを作成し、モデルの一部としてBigQueryMLにアップロードします。
正解:A
質問 # 95
あなたは物流会社を経営しており、車両ベースのセンサーのイベント配信の信頼性を向上させたいと考えています。
これらのイベントをキャプチャするために世界中の小さなデータセンターを運営していますが、イベント収集インフラストラクチャからイベント処理インフラストラクチャへの接続を提供する専用回線は信頼性が低く、遅延は予測できません。最も費用効果の高い方法でこの問題に対処したいと考えています。あなたは何をするべきか?
- A. イベントをバッファリングするためにデータセンターに小さなKafkaクラスターをデプロイします。
- B. すべてのリモートデータセンターとGoogleの間にクラウド相互接続を確立します。
- C. データ収集デバイスにCloud Pub / Subにデータを公開させます。
- D. セッションウィンドウ内のすべてのデータを集約するCloudDataflowパイプラインを記述します。
正解:A
質問 # 96
大規模なチーム向けの重要なレポートをGoogleData Studio 360で作成します。レポートでは、データソースとしてGoogleBigQueryを使用します。ビジュアライゼーションに1時間未満のデータが表示されていないことがわかります。
あなたは何をするべきか?
- A. 過去1時間のブラウザの履歴をクリアしてから、仮想化を表示しているタブを再読み込みします。
- B. テーブルの詳細を編集してBigQueryのキャッシュを無効にします。
- C. レポート設定を編集してキャッシュを無効にします。
- D. ビジュアライゼーションを表示しているブラウザタブを更新します。
正解:C
質問 # 97
......
有効な問題最新版を試そうProfessional-Data-Engineer日本語テスト解釈Professional-Data-Engineer日本語有効な試験ガイド:https://www.goshiken.com/Google/Professional-Data-Engineer-JPN-mondaishu.html