正真正銘のProfessional-Data-Engineer日本語問題集には100%合格率練習テスト問題集
Google Professional-Data-Engineer日本語リアル試験問題保証付き 更新された問題集
質問 # 53
あなたは、それぞれ優先順位と予算が異なる複数のビジネスユニットを持つ大企業のBIの責任者です。プロジェクトごとに2Kの同時オンデマンドスロットのクォータでBigQueryのオンデマンド価格設定を使用します。組織のユーザーは、クエリを実行するためのスロットを取得できない場合があり、これを修正する必要があります。アカウントに新しいプロジェクトを導入することは避けたいと考えています。
あなたは何をするべきか?
- A. バッチBQクエリをインタラクティブBQクエリに変換します。
- B. クラウドコンソールの[クォータ]ページで、プロジェクトごとの同時スロットの量を増やします。
- C. プロジェクトごとの2Kオンデマンド割り当てを克服するために追加のプロジェクトを作成します。
- D. 定額料金に切り替えて、プロジェクトの階層的な優先度モデルを確立します。
正解:D
解説:
Explanation
Reference https://cloud.google.com/blog/products/gcp/busting-12-myths-about-bigquery
質問 # 54
新しいデータパイプラインを構築して、2つの異なるタイプのアプリケーション(ジョブジェネレーターとジョブランナー)間でデータを共有します。ソリューションは、使用量の増加に対応するように拡張でき、既存のアプリケーションのパフォーマンスに悪影響を与えることなく、新しいアプリケーションの追加に対応する必要があります。あなたは何をするべきか?
- A. Cloud SQLでテーブルを作成し、ジョブ情報を含む行を挿入および削除します
- B. Cloud Spannerでテーブルを作成し、ジョブ情報を含む行を挿入および削除します
- C. Cloud Pub / Subトピックを使用してジョブをパブリッシュし、サブスクリプションを使用してジョブを実行します
- D. AppEngineを使用してAPIを作成し、アプリケーションとメッセージを送受信します
正解:D
解説:
References:
質問 # 55
特定のテーブルの BigQuery データを 1 日に複数回確認する必要があります。クエリを実行している基になるテーブルのサイズは数ペタバイトですが、データをフィルタリングして、ダウンストリーム ユーザーに単純な集計を提供したいと考えています。クエリをより迅速に実行し、最新の分析情報をより迅速に取得したいと考えています。あなたは何をするべきか?
- A. 実行中のクエリに基づいてマテリアライズド ビューを作成します。
- B. スケジュールされたクエリを実行して、毎日特定の間隔で必要なデータを取得します。
- C. キャッシュされたクエリを使用して、結果が得られるまでの時間を短縮します。
- D. 最終結果で取得されるクエリ列を制限します。
正解:A
解説:
Materialized views are precomputed views that periodically cache the results of a query for increased performance and efficiency. BigQuery leverages precomputed results from materialized views and whenever possible reads only changes from the base tables to compute up-to-date results. Materialized views can significantly improve the performance of workloads that have the characteristic of common and repeated queries. Materialized views can also optimize queries with high computation cost and small dataset results, such as filtering and aggregating large tables. Materialized views are refreshed automatically when the base tables change, so they always return fresh data. Materialized views can also be used by the BigQuery optimizer to process queries to the base tables, if any part of the query can be resolved by querying the materialized view. References:
* Introduction to materialized views
* Create materialized views
* BigQuery Materialized View Simplified: Steps to Create and 3 Best Practices
* Materialized view in Bigquery
質問 # 56
外部の顧客は、データベースからのデータの毎日のダンプを提供します。データは、カンマ区切り値(CSV)ファイルとしてGoogle Cloud StorageGCSに流れ込みます。このデータをGoogleBigQueryで分析したいのですが、データの行が正しくフォーマットされていないか、破損している可能性があります。このパイプラインをどのように構築する必要がありますか?
- A. 連合データソースを使用し、SQLクエリのデータを確認します。
- B. Google Cloud Dataflowバッチパイプラインを実行してデータをBigQueryにインポートし、分析のためにエラーを別の配信不能テーブルにプッシュします。
- C. gcloud CLIを使用してデータをBigQueryにインポートし、max_bad_recordsを0に設定します。
- D. Google StackdriverでBigQueryモニタリングを有効にして、アラートを作成します。
正解:B
質問 # 57
Cloud Pub / Subからメッセージをプルし、データをBigQueryに送信するCloudFunctionsがNode.jsで記述されています。 Pub / Subトピックのメッセージ処理速度が予想よりも桁違いに高いことがわかりましたが、Stackdriver LogViewerにエラーが記録されていません。この問題の最も可能性の高い2つの原因は何ですか? 2つの答えを選択してください。
- A. サブスクライバーコードは、プルするメッセージを確認しません。
- B. 加入者コードがメッセージに追いついていない。
- C. パブリッシャーのスループットクォータが小さすぎます。
- D. サブスクライバーコードのエラー処理が実行時エラーを適切に処理していません。
- E. 未処理のメッセージの合計が最大10MBを超えています。
正解:B、D
質問 # 58
Cloud Dataprocクラスターのスケーリングには、通常、____が含まれます。
- A. 単一ノードでより多くのアプリケーションを実行するためにメモリを移動する
- B. マスターノードの数を増減する
- C. ワーカーノードの数を増減します
- D. 未使用のノードからアプリケーションを定期的に削除する
正解:C
解説:
After creating a Cloud Dataproc cluster, you can scale the cluster by increasing or decreasing the number of worker nodes in the cluster at any time, even when jobs are running on the cluster. Cloud Dataproc clusters are typically scaled to:
1) increase the number of workers to make a job run faster
2) decrease the number of workers to save money
3) increase the number of nodes to expand available Hadoop Distributed Filesystem (HDFS) storage
質問 # 59
データウェアハウスとしてGoogleBigQueryを使用しています。ユーザーは、クエリをいつ実行しても、次の単純なクエリの実行が非常に遅いと報告しています。
SELECT country、state、city FROM [myproject:mydataset.mytable] GROUP BY countryクエリのクエリプランを確認すると、ステージ1の[読み取り]セクションに次の出力が表示されます。
このクエリの遅延の最も可能性の高い原因は何ですか?
- A. [myproject:mydataset.mytable]テーブルのstateまたはcity列のNULL値が多すぎます
- B. [myproject:mydataset.mytable]テーブルのほとんどの行のcountry列の値が同じであるため、データの偏りが発生します
- C. ユーザーがシステムで実行している同時クエリが多すぎます
- D. [myproject:mydataset.mytable]テーブルのパーティションが多すぎます
正解:C
質問 # 60
あなたは、オンライン販売機能をGoogleHomeなどのさまざまな在宅アシスタントと統合したいと考えている小売業者です。顧客の音声コマンドを解釈し、バックエンドシステムに注文を出す必要があります。
どのソリューションを選択する必要がありますか?
- A. Cloud Natural Language API
- B. Cloud Speech-to-Text API
- C. Dialogflow Enterprise Edition
- D. クラウドAutoML自然言語
正解:D
質問 # 61
あなたは40万人以上の従業員を抱える大規模なファーストフードレストランチェーンで働いています。従業員情報は、FirstNameフィールドとLastNameフィールドで構成されるUsersテーブルのGoogleBigQueryに保存します。 ITのメンバーがアプリケーションを構築していて、BigQueryのスキーマとデータを変更して、アプリケーションがスペースと連結されたFirstNameフィールドの値とそれに続くそれぞれのLastNameフィールドの値で構成されるFullNameフィールドをクエリできるようにするように求めています。従業員。コストを最小限に抑えながら、どのようにしてそのデータを利用できるようにすることができますか?
- A. FullNameという新しい列をUsersテーブルに追加します。 FirstName値とLastName値を連結して、各ユーザーのFullName列を更新するUPDATEステートメントを実行します。
- B. ユーザーテーブル全体に対してBigQueryをクエリし、各ユーザーのFirstName値とLastName値を連結し、FirstName、LastName、FullNameの適切な値をBigQueryの新しいテーブルに読み込むGoogle CloudDataflowジョブを作成します。
- C. FirstNameフィールドとLastNameフィールドの値を連結してFullNameを生成するビューをBigQueryで作成します。
- D. BigQueryを使用して、テーブルのデータをCSVファイルにエクスポートします。 Google Cloud Dataprocジョブを作成してCSVファイルを処理し、FirstName、LastName、FullNameの適切な値を含む新しいCSVファイルを出力します。 BigQueryロードジョブを実行して、新しいCSVファイルをBigQueryにロードします。
正解:B
質問 # 62
あなたは大規模な不動産会社に勤めており、機械学習に使用するために 6 TB の住宅販売データを準備しています。SOL を使用してデータを変換し、BigQuery ML を使用して機械学習モデルを作成します。
変換されていない生のデータセットに対する予測にモデルを使用する予定です。予測時のスキューを防ぐためにワークフローをどのように設定すればよいでしょうか?
- A. モデルを作成するときは、BigQuery の TRANSFORM 句を使用して前処理の停止を定義します。予測時には、生の入力データに対する変換を指定せずに、BigQuery の ML.EVALUATE 句を使用します。
- B. Dataflow を使用してすべてのデータを前処理します。予測時には、入力データにそれ以上の変換を指定せずに、BigOuery の ML.EVALUATE 句を使用します。
- C. BigOuery を使用して前処理ロジックを定義します。モデルを作成するときは、ビューをモデル トレーニング データとして使用します。予測時には、生の入力データに対する変換を指定せずに、BigQuery の ML EVALUATE 句を使用します。
- D. モデルを作成するときは、BigQuery の TRANSFORM 句を使用して前処理ステップを定義します。予測をリクエストする前に、保存されたクエリを使用して生の入力データを変換し、その後 ML を使用します。
評価する
正解:A
解説:
https://cloud.google.com/bigquery-ml/docs/bigqueryml-transform Using the TRANSFORM clause, you can specify all preprocessing during model creation. The preprocessing is automatically applied during the prediction and evaluation phases of machine learning
質問 # 63
MJTelcoケーススタディ
会社概要
MJTelcoは、世界中の急速に成長し、サービスの行き届いていない市場でネットワークを構築することを計画している新興企業です。
同社は革新的な光通信ハードウェアの特許を取得しています。これらの特許に基づいて、安価なハードウェアで多くの信頼性の高い高速バックボーンリンクを作成できます。
会社背景
経験豊富な通信幹部によって設立されたMJTelcoは、宇宙での通信の課題を克服するために元々開発されたテクノロジーを使用しています。運用の基本として、リアルタイム分析を推進し、機械学習を組み込んでトポロジを継続的に最適化する分散データインフラストラクチャを作成する必要があります。彼らのハードウェアは安価であるため、ネットワークを過剰に展開して、動的な地域政治が場所の可用性とコストに与える影響を考慮できるようにすることを計画しています。
彼らの管理および運用チームは世界中に配置されており、データコンシューマー間で多対多の関係を構築し、システムで提供しています。慎重に検討した結果、彼らはパブリッククラウドが彼らのニーズをサポートするのに最適な環境であると判断しました。
ソリューションコンセプト
MJTelcoは、ラボで成功した概念実証(PoC)プロジェクトを実行しています。彼らには2つの主要なニーズがあります:
* PoCをスケーリングおよび強化して、50,000を超えるインストールに増加したときに生成される大幅に多くのデータフローをサポートします。
*機械学習サイクルを改善して、トポロジ定義の制御に使用する動的モデルを検証および改善します。
MJTelcoは、開発/テスト、ステージング、本番の3つの個別の動作環境も使用して、実験の実行、新機能の展開、本番の顧客へのサービス提供のニーズに対応します。
ビジネス要件
*最小限のコストで本番環境をスケールアップし、予測不可能な分散型通信ユーザーコミュニティで必要なときに必要な場所でリソースをインスタンス化します。
*独自のデータのセキュリティを確保して、最先端の機械学習と分析を保護します。
*分散した研究者からの分析のためのデータへの信頼できるタイムリーなアクセスを提供します
*顧客に影響を与えることなく、機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
テレメトリデータの安全で効率的な転送と保存を保証します
インスタンスを迅速にスケーリングして、それぞれ複数のフローを持つ10,000〜100,000のデータプロバイダーをサポートします。
約1億レコード/日を保存する最大2年間のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。テレメトリフローと本番学習サイクルの両方でのデータパイプラインの問題の認識に焦点を当てた監視インフラストラクチャの迅速な反復をサポートします。
CEOの声明
私たちのビジネスモデルは、特許、分析、動的な機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されているため、コスト面で有利です。信頼性と容量のコミットメントを満たすには、大規模な分散データパイプラインを迅速に安定させる必要があります。
CTOステートメント
当社のパブリッククラウドサービスは、宣伝どおりに動作する必要があります。データを拡張して安全に保つリソースが必要です。
また、データサイエンティストがモデルを注意深く研究し、迅速に適応できる環境も必要です。
データの処理は自動化に依存しているため、反復しながら機能する開発環境とテスト環境も必要です。
CFOステートメント
プロジェクトが大きすぎて、データと分析に必要なハードウェアとソフトウェアを維持できません。また、運用チームにこれほど多くのデータフィードを監視する余裕がないため、自動化とインフラストラクチャに依存します。 Google Cloudの機械学習により、定量的研究者は、データパイプラインの問題ではなく、価値の高い問題に取り組むことができます。
次の要件を持つ運用チームのビジュアライゼーションを作成する必要があります。
*レポートには、最も最近の6週間の50,000のインストールすべてからのテレメトリデータを含める必要があります(1分ごとにサンプリング)。
*レポートはライブデータから3時間以上遅れてはなりません。
*実用的なレポートには、次善のリンクのみを表示する必要があります。
*ほとんどの次善のリンクは一番上にソートする必要があります。
*次善のリンクは、地域の地理によってグループ化およびフィルタリングできます。
*レポートをロードするためのユーザー応答時間は5秒未満である必要があります。
どのアプローチが要件を満たしていますか?
- A. データをGoogleスプレッドシートに読み込み、数式を使用して指標を計算し、フィルタ/並べ替えを使用して、テーブルに最適ではないリンクのみを表示します。
- B. データをGoogle Cloud Datastoreテーブルに読み込み、すべての行をクエリするGoogle App Engineアプリケーションを作成し、関数を適用して指標を導出し、Googleグラフと視覚化APIを使用して結果をテーブルにレンダリングします。
- C. データをGoogle BigQueryテーブルに読み込み、データに接続するGoogle Data Studio 360レポートを作成し、指標を計算してから、フィルター式を使用してテーブル内の最適ではない行のみを表示します。
- D. データをGoogle BigQueryテーブルに読み込み、データをクエリして指標を計算し、Googleスプレッドシートのテーブルに最適ではない行のみを表示するGoogle AppsScriptを記述します。
正解:B
質問 # 64
あなたは、オンライン小売業者が顧客サービスを合理化できるようにチャットボットを導入しています。チャットボットはテキストと音声の両方の問い合わせに応答できる必要があります。ローコードまたはノーコードのオプションを探しており、キーワードに対する回答を提供するようにチャットボットを簡単にトレーニングできるようにしたいと考えています。あなたは何をするべきか?
- A. 単純なクエリには Dialogflow を使用し、複雑なクエリには Speech-to-Text API を使用します。
- B. Speech-to-Text API を使用して、Compute Engine インスタンスで Python アプリケーションを構築します。
- C. Dialogflow を使用してチャットボットを実装します。収集された最も一般的なクエリに基づいてインテントを定義します。
- D. Speech-to-Text API を使用して、App Engine で Python アプリケーションを構築します。
正解:C
解説:
Dialogflow is a conversational AI platform that allows for easy implementation of chatbots without needing to code. It has built-in integration for both text and voice input via APIs like Cloud Speech-to-Text. Defining intents and entity types allows you to map common queries and keywords to responses. This would provide a low/no-code way to quickly build and iteratively improve the chatbot capabilities.
https://cloud.google.com/dialogflow/docs Dialogflow is a natural language understanding platform that makes it easy to design and integrate a conversational user interface into your mobile app, web application, device, bot, interactive voice response system, and so on. Using Dialogflow, you can provide new and engaging ways for users to interact with your product. Dialogflow can analyze multiple types of input from your customers, including text or audio inputs (like from a phone or voice recording). It can also respond to your customers in a couple of ways, either through text or with synthetic speech.
質問 # 65
データウェアハウスをGoogleCloudに移行し、オンプレミスのデータセンターを廃止します。これは会社の優先事項であるため、クラウドへの最初のデータ読み込みに帯域幅が利用できるようになります。転送されるファイルの数は多くありませんが、各ファイルは90 GBです。さらに、トランザクションシステムでGoogle Cloudのウェアハウスをリアルタイムで継続的に更新する必要があります。データを移行し、書き込みを継続するためにどのツールを使用する必要がありますかあなたの倉庫に?
- A. 移行とリアルタイム更新の両方のgsutil
- B. 移行用のBigQueryデータ転送サービス、リアルタイム更新用のPub/SubおよびDataproc
- C. 移行用のストレージ転送サービス、リアルタイム更新用のPub/SubおよびCloudDataFusion
- D. 移行用のgsutil; リアルタイム更新のためのPub/SubおよびDataflow
正解:C
質問 # 66
projects.regions.clusters.create操作を使用して新しいCloudDataprocクラスターを作成する場合、プロジェクト、リージョン、名前、および____の4つの値が必要です。
- A. ノード
- B. タイプ
- C. ゾーン
- D. ラベル
正解:C
解説:
At a minimum, you must specify four values when creating a new cluster with the projects.regions.clusters.create operation:
The project in which the cluster will be created
The region to use
The name of the cluster
The zone in which the cluster will be created
You can specify many more details beyond these minimum requirements. For example, you can
also specify the number of workers, whether preemptible compute should be used, and the network settings.
質問 # 67
組織のマーケティングチームは、顧客データセットのセグメントの定期的な更新を提供します。マーケティングチームから、BigQueryで更新する必要のある100万件のレコードを含むCSVが提供されました。 BigQueryでUPDATEステートメントを使用すると、quotaExceededエラーが発生します。あなたは何をするべきか?
- A. BigQuery UPDATE DMLステートメントの制限内に収まるように、毎日更新されるレコードの数を減らします。
- B. Google Cloud PlatformConsoleの[Quotamanagement]セクションでBigQueryUPDATEDMLステートメントの制限を増やします。
- C. ソースCSVファイルをCloud Storage内の小さなCSVファイルに分割して、BigQueryジョブごとのBigQuery UPDATEDMLステートメントの数を減らします。
- D. CSVファイルから新しいBigQueryテーブルに新しいレコードをインポートします。新しいレコードを既存のレコードとマージし、結果を新しいBigQueryテーブルに書き込むBigQueryジョブを作成します。
正解:A
質問 # 68
次のうち、特徴エンジニアリング手法はどれですか? (2つの答えを選択してください)
- A. 非表示のフィーチャレイヤー
- B. 連続特徴のバケット化
- C. 交差した特徴列
- D. 機能の優先順位付け
正解:B、C
解説:
Selecting and crafting the right set of feature columns is key to learning an effective model.
Bucketization is a process of dividing the entire range of a continuous feature into a set of consecutive bins/buckets, and then converting the original numerical feature into a bucket ID (as a categorical feature) depending on which bucket that value falls into.
Using each base feature column separately may not be enough to explain the data. To learn the differences between different feature combinations, we can add crossed feature columns to the model.
Reference:
https://www.tensorflow.org/tutorials/wide#selecting_and_engineering_features_for_the_model
質問 # 69
あなたの会社は、WILDCARDテーブルを使用して、類似した名前を持つ複数のテーブル間でデータをクエリしています。 SQLステートメントは現在、次のエラーで失敗しています。
# Syntax error : Expected end of statement but got "-" at [4:11]
SELECT age
FROM
bigquery-public-data.noaa_gsod.gsod
WHERE
age != 99
AND_TABLE_SUFFIX = '1929'
ORDER BY
age DESC
どのテーブル名がSQLステートメントを正しく機能させますか?
- A. 'bigquery-public-data.noaa_gsod.gsod * `
- B. 'bigquery-public-data.noaa_gsod.gsod' *
- C. bigquery-public-data.noaa_gsod.gsod *
- D. 'bigquery-public-data.noaa_gsod.gsod'
正解:A
質問 # 70
ストリーミングクラウドデータフローパイプラインを運用しています。エンジニアは、異なるウィンドウアルゴリズムとトリガー戦略を備えた新しいバージョンのパイプラインを使用しています。実行中のパイプラインを新しいバージョンで更新したいとします。更新中にデータが失われないようにする必要があります。あなたは何をするべきか?
- A. -jobNameを既存のジョブ名に設定して--updateオプションを渡すことにより、実行中のCloudDataflowパイプラインを更新します
- B. [ドレイン]オプションを使用してCloudDataflowパイプラインを停止します。更新されたコードを使用して新しいCloudDataflowジョブを作成します
- C. -jobNameを新しい一意のジョブ名に設定して--updateオプションを渡すことにより、実行中のCloudDataflowパイプラインを更新します
- D. [キャンセル]オプションを使用してCloudDataflowパイプラインを停止します。更新されたコードを使用して新しいCloudDataflowジョブを作成します
正解:A
解説:
References:
質問 # 71
Google Cloud Bigtableスキーマを設計するときは、_________することをお勧めします。
- A. 行全体でアトミック性を必要とするスキーマ設計を作成する
- B. リレーショナルデータベース設計に基づくスキーマ設計を作成する
- C. NoSQLの概念に基づくスキーマ設計は避けてください
- D. 行全体でアトミック性を必要とするスキーマ設計は避けてください
正解:D
解説:
All operations are atomic at the row level. For example, if you update two rows in a table, it's possible that one row will be updated successfully and the other update will fail. Avoid schema designs that require atomicity across rows.
質問 # 72
インフラストラクチャには、一連のYouTubeチャンネルが含まれています。あなたは、分析のためにYouTubeチャンネルデータをGoogleCloudに送信するプロセスを作成する任務を負っています。世界中のマーケティングチームが最新のYouTubeチャンネルのログデータでANSISQLやその他のタイプの分析を実行できるようにするソリューションを設計したいと考えています。
a。Google Cloudへのログデータ転送をどのように設定する必要がありますか?
- A. BigQuery Data Transfer Serviceを使用して、オフサイトのバックアップファイルを最終的な宛先としてCloudStorageMulti-Regionalストレージバケットに転送します。
- B. ストレージ転送サービスを使用して、オフサイトのバックアップファイルを最終的な宛先としてクラウドストレージリージョナルバケットに転送します。
- C. BigQuery Data Transfer Serviceを使用して、オフサイトのバックアップファイルをCloudStorageRegionalに転送します
- D. ストレージ転送サービスを使用して、オフサイトのバックアップファイルを最終的な宛先としてCloudStorageMulti-Regionalストレージバケットに転送します。
正解:B
解説:
storage bucket as a final destination.
質問 # 73
Dataflowプログラムをローカルで実行するために使用できるJavaSDKクラスはどれですか?
- A. DirectPipelineRunner
- B. LocalRunner
- C. MachineRunner
- D. LocalPipelineRunner
正解:A
解説:
Explanation
DirectPipelineRunner allows you to execute operations in the pipeline directly, without any optimization.
Useful for small local execution and tests
Reference:
https://cloud.google.com/dataflow/java-sdk/JavaDoc/com/google/cloud/dataflow/sdk/runners/DirectPipelineRun
質問 # 74
......
検証済み!合格できるProfessional-Data-Engineer日本語試験一発合格保証付き:https://www.goshiken.com/Google/Professional-Data-Engineer-JPN-mondaishu.html