Professional-Data-Engineer日本語認定で究極のガイド [2023年更新]
Professional-Data-Engineer日本語練習試験と学習ガイドは厳密検証された
質問 # 16
内部ITアプリケーションの1つとGoogleBigQueryを統合しているため、ユーザーはアプリケーションのインターフェースからBigQueryにクエリを実行できます。個々のユーザーにBigQueryへの認証を許可したり、データセットへのアクセスを許可したりする必要はありません。 ITアプリケーションからBigQueryに安全にアクセスする必要があります。あなたは何をするべきか?
- A. シングルサインオン(SSO)プラットフォームと統合し、クエリ要求とともに各ユーザーの資格情報を渡します
- B. ダミーユーザーを作成し、そのユーザーにデータセットアクセスを許可します。そのユーザーのユーザー名とパスワードをファイルシステム上のファイルに保存し、それらの認証情報を使用してBigQueryデータセットにアクセスします
- C. サービスアカウントを作成し、そのアカウントへのデータセットアクセスを許可します。サービスアカウントの秘密鍵を使用してデータセットにアクセスします
- D. ユーザーのグループを作成し、それらのグループにデータセットへのアクセスを許可します
正解:C
質問 # 17
あなたは、それぞれ異なるサプライヤから最大750の異なるコンポーネントを調達する製造会社で働いています。一意のコンポーネントごとに平均1000個の例があるラベル付きデータセットを収集しました。
あなたのチームは、倉庫作業員がコンポーネントの写真に基づいて入ってくるコンポーネントを認識するのに役立つアプリを実装したいと考えています。このアプリの最初の動作バージョン(概念実証として)を数営業日以内に実装したいと考えています。あなたは何をするべきか?
- A. Cloud Vision AutoMLを使用しますが、データセットを2回削減します。
- B. 転移学習技術を活用して独自の画像認識モデルをトレーニングします。
- C. 既存のデータセットでCloud VisionAutoMLを使用します。
- D. 認識のヒントとしてカスタムラベルを提供することにより、Cloud VisionAPIを使用します。
正解:C
質問 # 18
最近の価格履歴に基づいて特定の株式の価格を予測する機械学習モデルを作成する場合、どのタイプの推定量を使用する必要がありますか?
- A. リグレッサー
- B. 教師なし学習
- C. クラスタリング推定量
- D. 分類子
正解:A
解説:
Explanation
Regression is the supervised learning task for modeling and predicting continuous, numeric variables.
Examples include predicting real-estate prices, stock price movements, or student test scores.
Classification is the supervised learning task for modeling and predicting categorical variables. Examples include predicting employee churn, email spam, financial fraud, or student letter grades.
Clustering is an unsupervised learning task for finding natural groupings of observations (i.e. clusters) based on the inherent structure within your dataset. Examples include customer segmentation, grouping similar items in e-commerce, and social network analysis.
Reference: https://elitedatascience.com/machine-learning-algorithms
質問 # 19
会社用に新しいリアルタイムデータウェアハウスを構築しており、GoogleBigQueryストリーミングインサートを使用します。データが1回だけ送信されるという保証はありませんが、データの各行に一意のIDとイベントのタイムスタンプがあります。データをインタラクティブにクエリするときに、重複が含まれないようにする必要があります。どのクエリタイプを使用する必要がありますか?
- A. 行が1に等しいWHEREとともに、一意のIDによるPARTITIONでROW_NUMBERウィンドウ関数を使用します。
- B. 一意のID列とタイムスタンプ列にGROUP BYを使用し、値にSUMを使用します。
- C. タイムスタンプ列にORDER BY DESKを含め、1に制限します。
- D. LAGウィンドウ関数を一意のIDによるPARTITIONとともに、WHERE LAG IS NOTNULLとともに使用します。
正解:A
質問 # 20
テレビの生放送では、視聴者に携帯電話を使用して投票するように求めています。このイベントは、3分間に大量のデータを生成します。あなたは投票の再構築*を担当し、プラットフォームが負荷を処理できることを確認する必要があり、すべての投票が処理されます。部分的な結果を表示する必要があります書き込み投票は開いています。投票量を投票した後、白の最適化コストを1回だけ開票する必要があります。あなたは何をするべきか?
- A. データフローパイプラインを介してPub / Subトープに投票を書き込み、BigtableとBigQueryの両方に投票します。リアルタイムの結果を得るにはBigtableをクエリし、後で分析するためにBigQueryに投票します。投票が終了したらBigtableインスタンスをシャットダウンします。
- B. Pub Subトープに投票を書き込み、Cloud Functionsにサブスクライブさせ、BigQueryに投票を書き込みます
- C. 高可用性(HA)構成のMemorystoreインスタンスを作成します
正解:A
解説:
D Create a Cloud SQL for PostgreSQL database with high availability (HA) configuration and multiple read replicas
質問 # 21
人間の顔が含まれているかどうかについてそれぞれラベルが付けられた画像のデータセットがあるとします。このラベル付けされたデータセットを使用して画像内の人間の顔を認識するニューラルネットワークを作成するには、どのアプローチが最も効果的である可能性がありますか?
- A. ピクセルの入力層、非表示層、および2つのカテゴリの出力層でニューラルネットワークを構築します。
- B. 複数の隠れ層を持つニューラルネットワークを作成してディープラーニングを使用し、顔の特徴を自動的に検出します。
- C. K-meansクラスタリングを使用して、ピクセル内の顔を検出します。
- D. 特徴エンジニアリングを使用して、目、鼻、口の特徴を入力データに追加します。
正解:B
解説:
Traditional machine learning relies on shallow nets, composed of one input and one output layer, and at most one hidden layer in between. More than three layers (including input and output) qualifies as "deep" learning. So deep is a strictly defined, technical term that means more than one hidden layer.
In deep-learning networks, each layer of nodes trains on a distinct set of features based on the previous layer's output. The further you advance into the neural net, the more complex the features your nodes can recognize, since they aggregate and recombine features from the
previous layer.
A neural network with only one hidden layer would be unable to automatically recognize high-level features of faces, such as eyes, because it wouldn't be able to "build" these features using previous hidden layers that detect low-level features, such as lines.
Feature engineering is difficult to perform on raw image data.
K-means Clustering is an unsupervised learning method used to categorize unlabeled data.
質問 # 22
テーブルをBigQueryに移行し、データモデルを処理しています。テーブルには、複数の店舗で行われた購入に関連する情報が格納され、トランザクションの時間、購入したアイテム、店舗ID、店舗が所在する都市と州などの情報が含まれます。このテーブルを頻繁にクエリして、それぞれの数を確認します。過去30日間に販売された商品で、州の都市や個々の店舗ごとの購入傾向を確認します。このテーブルをモデル化して、クエリの時間とコストを最小限に抑えます。あなたは何をするべきか?
- A. 最初に店舗ID、次に都市、次に古いものによるトランザクショントームクラスターによるパーティション化
- B. 最初に店舗ID、次に都市、次に州の上位レベルのクラスター。
- C. トランザクション時間による分割。最初に州ごとにクラスター化し、次に都市、次にストアID
- D. 最初に古い、次に都市、次にストアによるトップレベルのクラスター
正解:D
質問 # 23
あなたは広告会社で働いており、広告ブロックでのクリック率を予測するためのSparkMLモデルを開発しました。オンプレミスのデータセンターですべてを開発してきましたが、今では会社がGoogleCloudに移行しています。データセンターは間もなく閉鎖されるため、迅速なリフトアンドシフト移行が必要です。ただし、使用していたデータはBigQueryに移行されます。 Spark MLモデルを定期的に再トレーニングするため、既存のトレーニングパイプラインをGoogleCloudに移行する必要があります。あなたは何をするべきか?
- A. 既存のSparkMLモデルのトレーニングにCloudDataprocを使用しますが、BigQueryから直接データの読み取りを開始します
- B. 既存のSparkMLモデルのトレーニングにCloudMLEngineを使用する
- C. Compute EngineでSparkクラスターを起動し、BigQueryからエクスポートされたデータでSparkMLモデルをトレーニングします
- D. TensorFlowでモデルを書き直し、Cloud MLEngineの使用を開始します
正解:B
質問 # 24
あなたは、アプリケーションログファイルを1日1回午前2時に1つのログファイルにまとめる製造工場で働いています。そのログファイルを処理するためのGoogleCloudDataflowジョブを作成しました。ログファイルが1日1回、できるだけ安価に処理されるようにする必要があります。あなたは何をするべきか?
- A. 毎朝、オフィスに入るときに手動でCloudDataflowジョブを開始します。
- B. Google App Engine Cron Serviceでcronジョブを作成して、CloudDataflowジョブを実行します。
- C. Cloud Dataflowジョブをストリーミングジョブとして構成して、ログデータをすぐに処理するようにします。
- D. 代わりにGoogle CloudDataprocを使用するように処理ジョブを変更します。
正解:B
質問 # 25
Webアプリケーションログを含むトピックを含むオンプレミスのApacheKafkaクラスターがあります。 BigQueryとCloudStorageで分析するには、データをGoogleCloudに複製する必要があります。推奨されるレプリケーション方法は、KafkaConnectプラグインの展開を回避するためのミラーリングです。
あなたは何をするべきか?
- A. PubSub KafkaコネクターをオンプレミスのKafkaクラスターにデプロイし、PubSubをソースコネクターとして構成します。 Dataflowジョブを使用して、PubSubから読み取り、GCSに書き込みます。
- B. PubSub KafkaコネクターをオンプレミスのKafkaクラスターにデプロイし、PubSubをシンクコネクターとして構成します。 Dataflowジョブを使用して、PubSubから読み取り、GCSに書き込みます。
- C. GCEVMインスタンスにKafkaクラスターをデプロイします。 GCEで実行されているクラスターにトピックをミラーリングするようにオンプレミスクラスターを構成します。 DataprocクラスターまたはDataflowジョブを使用して、Kafkaから読み取り、GCSに書き込みます。
- D. シンクコネクタとして構成されたPubSub Kafkaコネクタを使用して、GCEVMインスタンスにKafkaクラスタをデプロイします。 DataprocクラスターまたはDataflowジョブを使用して、Kafkaから読み取り、GCSに書き込みます。
正解:C
質問 # 26
Google CloudPlatformで実行されるPOSアプリケーションで支払いトランザクションを処理するとします。ユーザーベースは指数関数的に増加する可能性がありますが、インフラストラクチャのスケーリングを管理する必要はありません。
どのGoogleデータベースサービスを使用する必要がありますか?
- A. Cloud Bigtable
- B. BigQuery
- C. クラウドSQL
- D. クラウドデータストア
正解:C
質問 # 27
Cloud Machine Learning Engineを使用して自分のコンピューターでTensorFlowトレーニングジョブを実行するには、コマンドは何から始まりますか?
- A. gcloudml-engineローカルトレイン
- B. gcloudml-engineジョブがローカルでトレーニングを送信
- C. Cloud MLEngineを使用して自分のコンピューターでTensorFlowプログラムを実行することはできません。
- D. gcloudml-engineジョブがトレーニングを送信
正解:A
解説:
Explanation
gcloud ml-engine local train - run a Cloud ML Engine training job locally This command runs the specified module in an environment similar to that of a live Cloud ML Engine Training Job.
This is especially useful in the case of testing distributed models, as it allows you to validate that you are properly interacting with the Cloud ML Engine cluster configuration.
Reference: https://cloud.google.com/sdk/gcloud/reference/ml-engine/local/train
質問 # 28
Cloud Machine Learning Engineを使用して自分のコンピューターでTensorFlowトレーニングジョブを実行するには、コマンドは何から始まりますか?
- A. gcloudml-engineローカルトレイン
- B. gcloudml-engineジョブがローカルでトレーニングを送信
- C. Cloud MLEngineを使用して自分のコンピューターでTensorFlowプログラムを実行することはできません。
- D. gcloudml-engineジョブがトレーニングを送信
正解:A
解説:
gcloud ml-engine local train - run a Cloud ML Engine training job locally
This command runs the specified module in an environment similar to that of a live Cloud ML Engine Training Job.
This is especially useful in the case of testing distributed models, as it allows you to validate that you are properly interacting with the Cloud ML Engine cluster configuration.
質問 # 29
次の要件を持つ運用チームの視覚化を作成する必要があります。
*テレメトリには、直近の6週間の50,000のインストールすべてからのデータを含める必要があります(1分ごとにサンプリング)
*レポートはライブデータから3時間以上遅れてはなりません。
*実用的なレポートには、次善のリンクのみを表示する必要があります。
*ほとんどの次善のリンクは一番上にソートする必要があります。
*次善のリンクは、地域の地理によってグループ化およびフィルタリングできます。
*レポートをロードするためのユーザー応答時間は5秒未満である必要があります。
過去6週間のデータを保存するデータソースを作成し、視聴者が複数の日付範囲、異なる地理的地域、および固有のインストールタイプを表示できるようにする視覚化を作成します。ビジュアライゼーションを変更せずに、常に最新のデータを表示します。毎月新しいビジュアライゼーションを作成および更新することは避けたいと考えています。あなたは何をするべきか?
- A. 現在のデータを調べて、値の選択を可能にする基準フィルターにバインドされた一般化されたチャートとテーブルの小さなセットを作成します。
- B. 現在のデータを調べて、基準の可能な組み合わせごとに1つずつ、一連のグラフと表を作成します。
- C. データをスプレッドシートにエクスポートし、基準の可能な組み合わせごとに1つずつ、一連のグラフと表を作成し、それらを複数のタブに分散します。
- D. データをリレーショナルデータベーステーブルに読み込み、すべての行をクエリするGoogle App Engineアプリケーションを作成し、各基準でデータを要約してから、GoogleChartsと視覚化APIを使用して結果をレンダリングします。
正解:A
質問 # 30
あなたは自動車メーカーで働いており、Google Cloud Pub / Subを使用してデータパイプラインを設定して異常なセンサーイベントをキャプチャしました。 Cloud Pub / Subでプッシュサブスクリプションを使用しており、作成したカスタムHTTPSエンドポイントを呼び出して、これらの異常なイベントが発生したときにアクションを実行します。カスタムHTTPSエンドポイントは、膨大な量の重複メッセージを取得し続けます。これらの重複メッセージの最も可能性の高い原因は何ですか?
- A. カスタムエンドポイントが確認期限内にメッセージを確認していません。
- B. カスタムエンドポイントに古いSSL証明書があります。
- C. センサーイベントのメッセージ本文が大きすぎます。
- D. Cloud Pub / Subトピックには、公開されているメッセージが多すぎます。
正解:B
質問 # 31
分析チームは、いくつかの異なる指標に基づいて、どの顧客があなたの会社で再び働く可能性が最も高いかを判断するための単純な統計モデルを構築したいと考えています。彼らは、Google CloudStorageに格納されているデータを使用してApacheSparkでモデルを実行したいと考えており、このジョブを実行するにはGoogle CloudDataprocを使用することをお勧めします。テストでは、このワークロードは15ノードのクラスターで約30分で実行でき、結果をGoogleBigQueryに出力できることが示されています。このワークロードを毎週実行する予定です。コストに関してクラスターをどのように最適化する必要がありますか?
- A. ジョブの実行速度を上げるために、メモリの多いノードを使用します
- B. クラスターにプリエンプティブル仮想マシン(VM)を使用する
- C. ジョブをより高速に実行できるようにワーカーノードでSSDを使用する
- D. ワークロードをGoogle CloudDataflowに移行します
正解:D
質問 # 32
Cloud Machine Learning EngineのCUSTOM層では、どのタイプのクラスターノードの数を指定できますか?
- A. ワーカーとパラメーターサーバー
- B. パラメータサーバー
- C. マスター、ワーカー、およびパラメーターサーバー
- D. 労働者
正解:A
解説:
Explanation
The CUSTOM tier is not a set tier, but rather enables you to use your own cluster specification. When you use this tier, set values to configure your processing cluster according to these guidelines:
You must set TrainingInput.masterType to specify the type of machine to use for your master node.
You may set TrainingInput.workerCount to specify the number of workers to use.
You may set TrainingInput.parameterServerCount to specify the number of parameter servers to use.
You can specify the type of machine for the master node, but you can't specify more than one master node.
Reference: https://cloud.google.com/ml-engine/docs/training-overview#job_configuration_parameters
質問 # 33
Cloud Dataprepを使用して、BigQueryテーブルのデータのサンプルにレシピを作成しました。実行時間が可変のロードジョブが完了した後、同じスキーマを持つデータの毎日のアップロードでこのレシピを再利用する必要があります。あなたは何をするべきか?
- A. App Engine cronジョブを作成して、CloudDataprepジョブの実行をスケジュールします。
- B. レシピをCloud Dataprepテンプレートとしてエクスポートし、CloudSchedulerでジョブを作成します。
- C. CloudDataprepでcronスケジュールを作成します。
- D. CloudDataprepジョブをCloudDataflowテンプレートとしてエクスポートし、CloudComposerジョブに組み込みます。
正解:B
質問 # 34
既存の初期化アクションを使用して、起動時にすべてのCloudDataprocクラスターに追加の依存関係をデプロイする必要があります。会社のセキュリティポリシーでは、Cloud Dataprocノードがインターネットにアクセスできないため、パブリック初期化アクションでリソースをフェッチできません。あなたは何をするべきか?
- A. CloudDataprocマスターにCloudSQLプロキシをデプロイします
- B. SSHトンネルを使用して、CloudDataprocクラスターにインターネットへのアクセスを許可します
- C. すべての依存関係をVPCセキュリティ境界内のCloudStorageバケットにコピーします
- D. Resource Managerを使用して、CloudDataprocクラスターが使用するサービスアカウントをネットワークユーザーロールに追加します
正解:D
質問 # 35
CloudDataprocクラスター上でスケジュールに従って実行されるSparkジョブがいくつかあります。一部のジョブは順番に実行され、一部のジョブは同時に実行されます。このプロセスを自動化する必要があります。あなたは何をするべきか?
- A. CloudComposerで有向非巡回グラフを作成する
- B. Cloud SDKを使用してクラスターを作成し、ジョブを実行してから、クラスターを破棄するBashスクリプトを作成します
- C. CloudDataprocワークフローテンプレートを作成します
- D. ジョブを実行するための初期化アクションを作成します
正解:A
解説:
References:
質問 # 36
新しいデータパイプラインを構築して、2つの異なるタイプのアプリケーション(ジョブジェネレーターとジョブランナー)間でデータを共有します。ソリューションは、使用量の増加に対応するように拡張でき、既存のアプリケーションのパフォーマンスに悪影響を与えることなく、新しいアプリケーションの追加に対応する必要があります。あなたは何をするべきか?
- A. Cloud Spannerでテーブルを作成し、ジョブ情報を含む行を挿入および削除します
- B. Cloud SQLでテーブルを作成し、ジョブ情報を含む行を挿入および削除します
- C. Cloud Pub / Subトピックを使用してジョブをパブリッシュし、サブスクリプションを使用してジョブを実行します
- D. AppEngineを使用してAPIを作成し、アプリケーションとメッセージを送受信します
正解:D
質問 # 37
下の図に示すいくつかのデータがあります。 2つの次元はXとYであり、各ドットの陰影はそれがどのクラスであるかを表します。線形アルゴリズムを使用して、このデータを正確に分類する必要があります。
これを行うには、合成機能を追加する必要があります。その機能の価値はどうあるべきですか?
- A. cos(X)
- B. X ^ 2
- C. X ^ 2 + Y ^ 2
- D. Y ^ 2
正解:A
質問 # 38
金融市場データを消費者と共有するアプリケーションを構築しています。消費者はデータフィードを受け取ります。
データは市場からリアルタイムで収集されます。消費者は次の方法でデータを受け取ります。
*リアルタイムのイベントストリーム
*リアルタイムストリームおよび履歴データへのANSISQLアクセス
*バッチ履歴エクスポート
どのソリューションを使用する必要がありますか?
- A. Cloud Pub/Sub, Cloud Storage, BigQuery
- B. Cloud Dataproc, Cloud Dataflow, BigQuery
- C. Cloud Pub/Sub, Cloud Dataproc, Cloud SQL
- D. Cloud Dataflow, Cloud SQL, Cloud Spanner
正解:D
質問 # 39
......
究極のガイドはProfessional-Data-Engineer日本語最新時間限定!今すぐダウンロード!:https://www.goshiken.com/Google/Professional-Data-Engineer-JPN-mondaishu.html