
[2022年更新]Professional-Data-Engineer日本語はGoogle Cloud Certifiedリアルな無料試験練習テスト
無料Google Cloud Certified Professional-Data-Engineer日本語試験問題を提供します
質問 149
MJTelcoケーススタディ
会社概要
MJTelcoは、世界中の急速に成長し、サービスの行き届いていない市場でネットワークを構築することを計画している新興企業です。
同社は革新的な光通信ハードウェアの特許を取得しています。これらの特許に基づいて、安価なハードウェアで多くの信頼性の高い高速バックボーンリンクを作成できます。
会社背景
経験豊富な通信幹部によって設立されたMJTelcoは、宇宙での通信の課題を克服するために元々開発されたテクノロジーを使用しています。運用の基本として、リアルタイム分析を推進し、機械学習を組み込んでトポロジを継続的に最適化する分散データインフラストラクチャを作成する必要があります。彼らのハードウェアは安価であるため、ネットワークを過剰に展開して、動的な地域政治が場所の可用性とコストに与える影響を考慮できるようにすることを計画しています。
彼らの管理および運用チームは世界中に配置されており、データコンシューマー間で多対多の関係を構築し、システムで提供しています。慎重に検討した結果、彼らはパブリッククラウドが彼らのニーズをサポートするのに最適な環境であると判断しました。
ソリューションコンセプト
MJTelcoは、ラボで成功した概念実証(PoC)プロジェクトを実行しています。彼らには2つの主要なニーズがあります:
* PoCをスケーリングおよび強化して、50,000を超えるインストールに増加したときに生成される大幅に多くのデータフローをサポートします。
*機械学習サイクルを改善して、トポロジ定義の制御に使用する動的モデルを検証および改善します。
MJTelcoは、開発/テスト、ステージング、本番の3つの個別の動作環境も使用して、実験の実行、新機能の展開、本番の顧客へのサービス提供のニーズに対応します。
ビジネス要件
*最小限のコストで本番環境をスケールアップし、予測不可能な分散型通信ユーザーコミュニティで必要なときに必要な場所でリソースをインスタンス化します。
*独自のデータのセキュリティを確保して、最先端の機械学習と分析を保護します。
*分散した研究者からの分析のためのデータへの信頼できるタイムリーなアクセスを提供します
*顧客に影響を与えることなく、機械学習モデルの迅速な反復をサポートする分離された環境を維持します。
技術要件
テレメトリデータの安全で効率的な転送と保存を保証します
インスタンスを迅速にスケーリングして、それぞれ複数のフローを持つ10,000〜100,000のデータプロバイダーをサポートします。
約1億レコード/日を保存する最大2年間のデータを追跡するデータテーブルに対する分析とプレゼンテーションを可能にします。テレメトリフローと本番学習サイクルの両方でのデータパイプラインの問題の認識に焦点を当てた監視インフラストラクチャの迅速な反復をサポートします。
CEOの声明
私たちのビジネスモデルは、特許、分析、動的な機械学習に依存しています。当社の安価なハードウェアは信頼性が高くなるように構成されているため、コスト面で有利です。信頼性と容量のコミットメントを満たすには、大規模な分散データパイプラインを迅速に安定させる必要があります。
CTOステートメント
当社のパブリッククラウドサービスは、宣伝どおりに動作する必要があります。データを拡張して安全に保つリソースが必要です。
また、データサイエンティストがモデルを注意深く研究し、迅速に適応できる環境も必要です。
データの処理は自動化に依存しているため、反復しながら機能する開発環境とテスト環境も必要です。
CFOステートメント
プロジェクトが大きすぎて、データと分析に必要なハードウェアとソフトウェアを維持できません。また、運用チームにこれほど多くのデータフィードを監視する余裕がないため、自動化とインフラストラクチャに依存します。 Google Cloudの機械学習により、定量的研究者は、データパイプラインの問題ではなく、価値の高い問題に取り組むことができます。
MJTelcoが1日あたりの取り込みに関心を持っているレコードストリームを考えると、GoogleBigQueryのコストが増加することを懸念しています。 MJTelcoは、設計ソリューションを提供するように依頼します。それらには、tracking_tableと呼ばれる単一の大きなデータテーブルが必要です。さらに、毎日のイベントの詳細な分析を実行しながら、毎日のクエリのコストを最小限に抑えたいと考えています。また、ストリーミング取り込みを使用したいと考えています。あなたは何をするべきか?
- A. 日を表すTIMESTAMP列を持つtracking_tableというテーブルを作成します。
- B. tracking_tableというパーティションテーブルを作成し、TIMESTAMP列を含めます。
- C. tracking_tableというテーブルを作成し、DATE列を含めます。
- D. パターンtracking_table_YYYYMMDDに従って、毎日シャードテーブルを作成します。
正解: B
質問 150
コンピューターのWebブラウザーからCloudDataprocクラスターにWebトラフィックデータを安全に転送するには、a(n)_____を使用する必要があります。
- A. VPN接続
- B. SSHトンネル
- C. FTP接続
- D. 専用ブラウザ
正解: B
解説:
Explanation
To connect to the web interfaces, it is recommended to use an SSH tunnel to create a secure connection to the master node.
Reference:
https://cloud.google.com/dataproc/docs/concepts/cluster-web-interfaces#connecting_to_the_web_interfaces
質問 151
天気アプリは15分ごとにデータベースにクエリを実行して、現在の気温を取得します。フロントエンドは、Google AppEngineとサーバーの数百万のユーザーによって強化されています。データベース障害に対応するためにフロントエンドをどのように設計する必要がありますか?
- A. コマンドを発行してデータベースサーバーを再起動します。
- B. 最大15分の上限で、指数バックオフを使用してクエリを再試行します。
- C. データベースがオンラインに戻るまで、クエリの頻度を1時間に1回に減らします。
- D. データの古さを最小限に抑えるために、オンラインに戻るまでクエリを1秒ごとに再試行します。
正解: B
解説:
Explanation
https://cloud.google.com/sql/docs/mysql/manage-connections#backoff
質問 152
Dialogflowを使用して会社のモバイルアプリ用のチャットボットを作成することを計画している大規模な金融機関で働いています。古いチャットログを確認し、顧客サービスに連絡するという各顧客の表明した意図に基づいて、各会話の意図を遅らせました。顧客の要求の約70% 10インテント内で解決される単純なリクエストです。残りの30%の問い合わせには、はるかに長く複雑なリクエストが必要です。最初にどのインテントを自動化する必要がありますか?
- A. リクエストの70%をカバーする10個のインテントを自動化して、ライブエージェントがより複雑なリクエストを処理できるようにします
- B. エージェントの時間がより多く必要になるため、より複雑なリクエストを最初に自動化します
- C. 最短と最長のインテントのブレンドを自動化して、すべてのインテントを代表するようにします
- D. 「支払い」などの一般的な単語が1回だけ表示される場所でインテントを自動化して、ソフトウェアが混乱しないようにします
正解: A
質問 153
組織は、ユーザーレベルのデータを含むテーブルを含むGoogleBigQueryデータセットを維持しています。ユーザーレベルのデータへのアクセスを制御しながら、このデータの集計を他のGoogleCloudプロジェクトに公開したいと考えています。さらに、全体的なストレージコストを最小限に抑え、他のプロジェクトの分析コストがそれらのプロジェクトに割り当てられるようにする必要があります。彼らは何をすべきですか?
- A. 集計結果を提供する承認済みビューを作成して共有します。
- B. データセットにdataViewer Identity and Access Management(IAM)ロールを作成して、共有を有効にします。
- C. 集計結果を提供する新しいデータセットとビューを作成して共有します。
- D. 集計結果を含む新しいデータセットとテーブルを作成して共有します。
正解: B
質問 154
あなたはプライベートユーザーデータを含む機密プロジェクトに取り組んでいます。 Google Cloud Platformにプロジェクトを設定して、作業を社内に格納しました。外部コンサルタントが、プロジェクトのGoogle CloudDataflowパイプラインでの複雑な変換のコーディングを支援します。ユーザーのプライバシーをどのように維持する必要がありますか?
- A. コンサルタントが別のプロジェクトで作業できるように、データの匿名化されたサンプルを作成します。
- B. サービスアカウントを作成し、コンサルタントがそれを使用してログオンできるようにします。
- C. コンサルタントにプロジェクトでのCloud DataflowDeveloperの役割を付与します。
- D. コンサルタントにプロジェクトの閲覧者の役割を付与します。
正解: B
質問 155
データ処理パイプラインを設計しています。パイプラインは、負荷の増加に応じて自動的にスケーリングできる必要があります。メッセージは少なくとも1回処理する必要があり、1時間以内に注文する必要があります。ソリューションをどのように設計する必要がありますか?
- A. メッセージの取り込みにはCloud Pub / Subを使用し、ストリーミング分析にはCloudDataflowを使用します。
- B. メッセージの取り込みにはCloud Pub / Subを使用し、ストリーミング分析にはCloudDataprocを使用します。
- C. メッセージの取り込みにはApache Kafkaを使用し、ストリーミング分析にはCloudDataprocを使用します。
- D. メッセージの取り込みにはApache Kafkaを使用し、ストリーミング分析にはCloudDataflowを使用します。
正解: B
質問 156
あなたは、それぞれ異なるサプライヤから最大750の異なるコンポーネントを調達する製造会社で働いています。一意のコンポーネントごとに平均1000個の例があるラベル付きデータセットを収集しました。
あなたのチームは、倉庫作業員がコンポーネントの写真に基づいて入ってくるコンポーネントを認識するのに役立つアプリを実装したいと考えています。このアプリの最初の動作バージョン(概念実証として)を数営業日以内に実装したいと考えています。あなたは何をするべきか?
- A. 既存のデータセットでCloud VisionAutoMLを使用します。
- B. 転移学習技術を活用して独自の画像認識モデルをトレーニングします。
- C. Cloud Vision AutoMLを使用しますが、データセットを2回削減します。
- D. 認識のヒントとしてカスタムラベルを提供することにより、Cloud VisionAPIを使用します。
正解: A
質問 157
履歴データをクラウドストレージに保存します。履歴データに対して分析を実行する必要があります。ソリューションを使用して、無効なデータエントリを検出し、プログラミングやSQLの知識を必要としないデータ変換を実行する必要があります。
あなたは何をするべきか?
- A. HadoopジョブでCloud Dataprocを使用して、エラーを検出し、変換を実行します。
- B. Cloud Dataprepをレシピとともに使用して、エラーを検出し、変換を実行します。
- C. BigQueryのフェデレーションテーブルをクエリとともに使用して、エラーを検出し、変換を実行します。
- D. Cloud Dataflow with Beamを使用して、エラーを検出し、変換を実行します。
正解: D
質問 158
内部ITアプリケーションの1つとGoogleBigQueryを統合しているため、ユーザーはアプリケーションのインターフェースからBigQueryにクエリを実行できます。個々のユーザーにBigQueryへの認証を許可したり、データセットへのアクセスを許可したりする必要はありません。 ITアプリケーションからBigQueryに安全にアクセスする必要があります。あなたは何をするべきか?
- A. ユーザーのグループを作成し、それらのグループにデータセットへのアクセスを許可します
- B. シングルサインオン(SSO)プラットフォームと統合し、クエリ要求とともに各ユーザーの資格情報を渡します
- C. ダミーユーザーを作成し、そのユーザーにデータセットアクセスを許可します。そのユーザーのユーザー名とパスワードをファイルシステム上のファイルに保存し、それらの認証情報を使用してBigQueryデータセットにアクセスします
- D. サービスアカウントを作成し、そのアカウントへのデータセットアクセスを許可します。サービスアカウントの秘密鍵を使用してデータセットにアクセスします
正解: D
質問 159
あなたの会社は最初の動的キャンペーンを実行しており、ホリデーシーズン中にリアルタイムデータを分析することでさまざまなオファーを提供しています。データサイエンティストは、30日間のキャンペーン中に1時間ごとに急速に増加するテラバイトのデータを収集しています。彼らはGoogleCloud Dataflowを使用してデータを前処理し、Google Cloud Bigtableの機械学習モデルに必要な機能(シグナル)データを収集しています。チームは、10TBのデータの初期ロードの読み取りと書き込みで次善のパフォーマンスを観察しています。彼らは、コストを最小限に抑えながら、このパフォーマンスを向上させたいと考えています。彼らは何をすべきですか?
- A. テーブルの行スペース全体に読み取りと書き込みを均等に分散することにより、スキーマを再定義します。
- B. BigDateクラスターのサイトが増えるにつれて、パフォーマンスの問題は時間の経過とともに解決されるはずです。
- C. オファーを表示するユーザーごとに順次増加する数値IDに基づく行キーを使用するようにスキーマを再設計します。
- D. 単一の行キーを使用して、クラスター内で頻繁に更新する必要がある値を識別するようにスキーマを再設計します。
正解: A
質問 160
Cloud Machine Learning EngineのCUSTOM層では、どのタイプのクラスターノードの数を指定できますか?
- A. 労働者
- B. パラメータサーバー
- C. マスター、ワーカー、およびパラメーターサーバー
- D. ワーカーとパラメーターサーバー
正解: D
解説:
Explanation
The CUSTOM tier is not a set tier, but rather enables you to use your own cluster specification. When you use this tier, set values to configure your processing cluster according to these guidelines:
You must set TrainingInput.masterType to specify the type of machine to use for your master node.
You may set TrainingInput.workerCount to specify the number of workers to use.
You may set TrainingInput.parameterServerCount to specify the number of parameter servers to use.
You can specify the type of machine for the master node, but you can't specify more than one master node.
Reference: https://cloud.google.com/ml-engine/docs/training-overview#job_configuration_parameters
質問 161
Google Cloudにデータパイプラインをデプロイする一環として、20TBのテキストファイル用のストレージを設計しています。入力データはCSV形式です。複数のエンジンを使用してCloudStorageのデータをクエリする複数のユーザーの集計値をクエリするコストを最小限に抑える必要があります。どのストレージサービスとスキーマ設計を使用する必要がありますか?
- A. ストレージにCloudBigtableを使用します。クエリ用のBigQueryの永続テーブルとしてリンクします。
- B. ストレージにCloudBigtableを使用します。 HBaseシェルをComputeEngineインスタンスにインストールして、CloudBigtableデータをクエリします。
- C. ストレージにクラウドストレージを使用します。クエリ用のBigQueryの一時テーブルとしてリンクします。
- D. ストレージにクラウドストレージを使用します。クエリ用のBigQueryの永続テーブルとしてリンクします。
正解: B
質問 162
フローロジスティックケーススタディ
会社概要
Flowlogisticは、主要なロジスティクスおよびサプライチェーンプロバイダーです。これらは、世界中の企業がリソースを管理し、最終目的地に輸送するのに役立ちます。同社は急速に成長し、鉄道、トラック、航空機、海上輸送などの製品を拡大しています。
会社背景
同社は地域のトラック運送会社としてスタートし、その後他のロジスティクス市場に拡大しました。彼らはインフラストラクチャを更新していないため、注文と出荷の管理と追跡がボトルネックになっています。 Flowlogisticは、運用を改善するために、小包レベルでリアルタイムに出荷を追跡する独自のテクノロジーを開発しました。ただし、Apache Kafkaに基づくテクノロジースタックが処理ボリュームをサポートできないため、デプロイできません。さらに、Flowlogisticは、注文と出荷をさらに分析して、リソースを最適に展開する方法を決定したいと考えています。
ソリューションコンセプト
Flowlogisticは、クラウドを使用して2つの概念を実装したいと考えています。
*荷物の場所を示すリアルタイムの在庫追跡システムで独自のテクノロジーを使用する
*構造化データと非構造化データの両方を含むすべての注文と出荷ログに対して分析を実行し、リソースを展開する最善の方法、情報を拡張する市場を決定します。また、予測分析を使用して、出荷が遅れる時期を早期に把握したいと考えています。
既存の技術環境
フローロジスティックアーキテクチャは、単一のデータセンターに存在します。
*データベース
* 2つのクラスターに8つの物理サーバー
* SQL Server-ユーザーデータ、インベントリ、静的データ
* 3台の物理サーバー
* Cassandra-メタデータ、追跡メッセージ
10台のKafkaサーバー-メッセージ集約とバッチ挿入の追跡
*アプリケーションサーバー-顧客フロントエンド、注文/税関用ミドルウェア
* 20台の物理サーバーにまたがる60台の仮想マシン
* Tomcat-Javaサービス
* Nginx-静的コンテンツ
*バッチサーバー
ストレージアプライアンス
*仮想マシン(VM)ホスト用のiSCSI
*ファイバーチャネルストレージエリアネットワーク(FC SAN)-SQLサーバーストレージ
*ネットワーク接続ストレージ(NAS)イメージストレージ、ログ、バックアップ
* 10個のApacheHadoop / Sparkサーバー
*コアデータレイク
*データ分析ワークロード
* 20のその他のサーバー
* Jenkins、監視、要塞ホスト、
ビジネス要件
*生産のスケーリングされたパンティーを使用して、信頼性と再現性のある環境を構築します。
*分析のために一元化されたデータレイクにデータを集約する
*履歴データを使用して、将来の出荷の予測分析を実行します
*独自の技術を使用して、世界中のすべての出荷を正確に追跡します
*新しいリソースの迅速なプロビジョニングを通じて、ビジネスの俊敏性とイノベーションの速度を向上させます
*クラウドでのパフォーマンスのためにアーキテクチャを分析および最適化する
*他のすべての要件が満たされている場合は、クラウドに完全に移行します
技術要件
*ストリーミングデータとバッチデータの両方を処理します
*既存のHadoopワークロードを移行する
*アーキテクチャがスケーラブルで弾力性があり、企業の変化する要求に対応できるようにします。
*可能な限りマネージドサービスを使用する
*データの飛行と静止を暗号化する
*本番データセンターとクラウド環境の間にVPNを接続するSEOステートメント私たちは急速に成長したため、インフラストラクチャをアップグレードできないことが、さらなる成長と効率を実際に妨げています。私たちは世界中の貨物を移動するのは効率的ですが、データを移動するのは非効率的です。
顧客がどこにいて、何を出荷しているのかをより簡単に理解できるように、情報を整理する必要があります。
CTOステートメント
ITは私たちにとって優先事項ではありませんでした。そのため、データが増大するにつれて、テクノロジーに十分な投資をしていません。私にはITを管理する優れたスタッフがいますが、彼らはインフラストラクチャの管理に忙しく、データの整理、分析の構築、CFOの実装方法の理解などの本当に重要なことを彼らに行わせることができません。追跡技術。
CFOステートメント
私たちの競争上の優位性の一部は、出荷と配達が遅れた場合にペナルティを課すことです。出荷が常にどこにあるかを知ることは、当社の純利益と収益性に直接的な相関関係があります。さらに、サーバー環境の構築に資本を投入したくありません。
FlowlogisticのCEOは、顧客ベースについて迅速な洞察を得て、営業チームが現場でより多くの情報を得られるようにしたいと考えています。このチームはあまり技術的ではないため、BigQueryレポートの作成を簡素化するための視覚化ツールを購入しました。ただし、テーブル内のすべてのデータに圧倒されており、必要なデータを見つけようとするクエリに多額の費用を費やしています。あなたは最も費用効果の高い方法で彼らの問題を解決したいと思っています。あなたは何をするべきか?
- A. 仮想化のためにデータをGoogleスプレッドシートにエクスポートします。
- B. 必要な列のみを含む追加のテーブルを作成します。
- C. 仮想化ツールに提示するビューをテーブルに作成します。
- D. 適切な列にIDおよびアクセス管理(IAM)の役割を作成して、クエリに表示されるようにします。
正解: C
質問 163
ニューラルネットワークモデルのトレーニングには数日かかります。トレーニング速度を上げたい。あなたは何ができますか?
- A. テストデータセットをサブサンプリングします。
- B. モデルへの入力フィーチャの数を増やします。
- C. トレーニングデータセットをサブサンプリングします。
- D. ニューラルネットワークのレイヤー数を増やします。
正解: D
解説:
Reference: https://towardsdatascience.com/how-to-increase-the-accuracy-of-a-neural-network-9f5d1c6f407d
質問 164
ETLジョブを移行してBigQueryで実行した後、移行されたジョブの出力が元のジョブの出力と同じであることを確認する必要があります。元のジョブの出力を含むテーブルをロードし、その内容を移行されたジョブからの出力と比較して、それらが同一であることを示したいと考えています。テーブルには、比較のためにテーブルを結合できるようにする主キー列が含まれていません。
あなたは何をするべきか?
- A. RAND()関数を使用してテーブルからランダムサンプルを選択し、サンプルを比較します。
- B. HASH()関数を使用してテーブルからランダムサンプルを選択し、サンプルを比較します。
- C. DataprocクラスターとBigQuery Hadoopコネクターを使用して、各テーブルからデータを読み取り、並べ替え後にテーブルの非タイムスタンプ列からハッシュを計算します。各テーブルのハッシュを比較します。
- D. OVER()関数を使用して層化ランダムサンプルを作成し、各テーブルの同等のサンプルを比較します。
正解: B
質問 165
GoogleCloudでデータパイプラインを構築しています。機械学習プロセスでは、カジュアルな方法を使用してデータを準備する必要があります。ロジスティック回帰モデルをサポートする必要があります。また、ヌル値を監視および調整する必要があります。ヌル値は実数値のままである必要があり、削除することはできません。あなたは何をするべきか?
- A. Cloud Dataprepを使用して、サンプルソースデータのnull値を見つけます。 Cloud Dataprocジョブを使用して、すべてのnullを「none」に変換します。
- B. Cloud Dataflowを使用して、サンプルソースデータ内のnull値を検索します。 Cloud Dataprepジョブを使用して、すべてのnullを「none」に変換します。
- C. Cloud Dataflowを使用して、サンプルソースデータのnull値を見つけます。すべてのnullをカスタムスクリプトを使用するように変換します。
- D. Cloud Dataprepを使用して、サンプルソースデータ内のnull値を検索します。 Cloud Dataprepジョブを使用して、すべてのnullを0に変換します。
正解: B
質問 166
Flowlogisticは、主要な分析システムとしてGoogle BigQueryを使用したいと考えていますが、BigQueryに移行できないApacheHadoopおよびSparkワークロードがまだあります。 Flowlogisticは、両方のワークロードに共通のデータを保存する方法を知りません。彼らは何をすべきですか?
- A. 共通データをパーティションテーブルとしてBigQueryに保存します。
- B. 共通データをBigQueryに保存し、承認されたビューを公開します。
- C. Google CloudDataprocクラスターのHDFSストレージに共通データを保存します。
- D. Avroとしてエンコードされた一般的なデータをGoogle CloudStorageに保存します。
正解: B
質問 167
あなたの会社は、過去のデータをクラウドストレージにアップロードする必要があります。セキュリティルールでは、外部IPからオンプレミスリソースへのアクセスは許可されていません。最初のアップロード後、既存のオンプレミスアプリケーションから毎日新しいデータを追加します。彼らは何をすべきですか?
- A. オンプレミスサーバーからgsutilrsyncを実行します。
- B. Cloud Dataprocでジョブテンプレートを記述して、データ転送を実行します。
- C. FTPサーバーをCompute Engine VMにインストールしてファイルを受信し、クラウドストレージに移動します。
- D. Cloud Dataflowを使用して、データをCloudStorageに書き込みます。
正解: D
質問 168
MySQLを使用してCloudSQLをデプロイすることを計画しています。ゾーンに障害が発生した場合に高可用性を確保する必要があります。あなたは何をするべきか?
- A. リージョンにCloud SQLインスタンスを作成し、同じリージョンのCloudStorageバケットへの自動バックアップを構成します。
- B. 1つのゾーンにCloud SQLインスタンスを作成し、同じリージョン内の別のゾーンにフェールオーバーレプリカを作成します。
- C. 1つのゾーンにCloud SQLインスタンスを作成し、同じリージョン内の別のゾーンにリードレプリカを作成します。
- D. 1つのゾーンでCloud SQLインスタンスを作成し、別のリージョンのゾーンで外部リードレプリカを構成します。
正解: D
質問 169
あなたの会社は、カンマ区切り値(CSV)ファイルをGoogleBigQueryに読み込んでいます。データは完全に正常にインポートされます。ただし、インポートされたデータは、バイトごとにソースファイルと一致していません。この問題の最も可能性の高い原因は何ですか?
- A. CSVデータに、インポート時にスキップされた無効な行があります。
- B. BigQueryに読み込まれたCSVデータは、BigQueryのデフォルトのエンコーディングを使用していません。
- C. BigQueryに読み込まれたCSVデータにはCSVのフラグが付けられていません。
- D. CSVデータはBigQueryに読み込まれる前にETLフェーズを通過していません。
正解: A
質問 170
次のうち、データフローパイプラインについて正しくないものはどれですか?
- A. データフローパイプラインはJavaでプログラムできます
- B. DataflowパイプラインはDataflowに関連付けられており、他のランナーで実行することはできません
- C. データフローパイプラインは統合プログラミングモデルを使用しているため、ストリーミングデータソースとバッチデータソースの両方で機能します
- D. データフローパイプラインは他のGoogleCloudサービスからのデータを消費する可能性があります
正解: B
解説:
Explanation
Dataflow pipelines can also run on alternate runtimes like Spark and Flink, as they are built using the Apache Beam SDKs Reference: https://cloud.google.com/dataflow/
質問 171
スパム分類器をトレーニングしています。トレーニングデータを過剰適合させていることに気づきました。この問題を解決するために実行できる3つのアクションはどれですか。 (3つ選択してください。)
- A. トレーニング例の数を減らす
- B. 正則化パラメーターを減らします
- C. より少ない機能セットを使用する
- D. 正則化パラメーターを増やします
- E. より多くの機能セットを使用する
- F. トレーニングの例をもっと見る
正解: B,E,F
質問 172
Cloud Machine Learning Engineを使用して自分のコンピューターでTensorFlowトレーニングジョブを実行するには、コマンドは何から始まりますか?
- A. gcloudml-engineジョブがトレーニングを送信
- B. gcloudml-engineジョブがローカルでトレーニングを送信
- C. gcloudml-engineローカルトレイン
- D. Cloud MLEngineを使用して自分のコンピューターでTensorFlowプログラムを実行することはできません。
正解: C
解説:
Explanation
gcloud ml-engine local train - run a Cloud ML Engine training job locally This command runs the specified module in an environment similar to that of a live Cloud ML Engine Training Job.
This is especially useful in the case of testing distributed models, as it allows you to validate that you are properly interacting with the Cloud ML Engine cluster configuration.
Reference: https://cloud.google.com/sdk/gcloud/reference/ml-engine/local/train
質問 173
......
Google Professional-Data-Engineer日本語リアルな問題と知能問題集:https://www.goshiken.com/Google/Professional-Data-Engineer-JPN-mondaishu.html