Professional-Data-Engineer日本語試験無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版) 認定」

市内の建設現場付近に設置された数百個のセンサーから騒音レベルデータを取り込むストリーミング Dataflow パイプラインを構築しています。センサーは10秒ごとに騒音レベルを測定し、レベルが70 dBAを超えるとデータをパイプラインに送信します。センサーから30分以上データが受信されたときに平均騒音レベルを検出する必要がありますが、15分間データが受信されなかった時点でウィンドウが終了します。どうすればよいでしょうか?

解説: (GoShiken メンバーにのみ表示されます)
Cloud Dataproc クラスタを管理しています。クラスタで進行中の作業を失うことなく、コストを最小限に抑えながらジョブの実行を高速化する必要があります。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
通信サービス プロバイダーの販売データを分析するために、BigQuery でデータ ウェアハウスを設計しています。顧客、製品、サブスクリプションのデータ モデルを作成する必要があります。すべての顧客、製品、サブスクリプションは毎月更新できますが、すべてのデータの履歴レコードを維持する必要があります。現在および過去のレポートには視覚化レイヤーを使用する予定です。データ モデルがシンプルで使いやすく、コスト効率に優れていることを確認する必要があります。何をすべきでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
オンプレミスのデータ ウェアハウスを BigQuery に移行しています。移行の一環として、チーム間のコラボレーションを促進して、組織のデータから最大限の価値を引き出したいと考えています。組織内のチームが読み取り専用データをセルフサービス方式で安全に公開、検出、サブスクライブできるアーキテクチャを設計する必要があります。コストを最小限に抑えながら、データの鮮度を最大限に高める必要があります。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
Cloud Bigtable は、非常に大量の ____________________________ を保存する場合に推奨されるオプションですか?

解説: (GoShiken メンバーにのみ表示されます)
5 年間のログ データを Cloud Storage にアップロードしました。ユーザーから、ログ データの一部のデータ ポイントが想定範囲外にあり、エラーが発生しているとの報告がありました。コンプライアンス上の理由から、この問題に対処し、元のデータを保持しながら将来的にプロセスを再度実行できるようにする必要があります。どうすればよいですか?

ユーザーのブログ投稿の件名ラベルを自動的に生成するアプリケーションを Google Cloud で開発しています。この機能を迅速に追加しなければならないという競争上のプレッシャーがあり、追加の開発者リソースがありません。チーム内に機械学習の経験者はいません。どうすればよいでしょうか。

ある運送会社では、リアルタイムで Apache Kafka ストリームに送信されるライブの荷物追跡データがあり、その後 BigQuery に読み込まれます。会社のアナリストは、荷物のライフサイクルにおける地理空間の傾向を分析するために、BigQuery で追跡データをクエリしたいと考えています。テーブルは、もともと取り込み日付によるパーティション分割を使用して作成されました。時間が経つにつれて、クエリの処理時間が増加しました。BigQuery でのクエリ パフォーマンスを向上させる変更を実装する必要があります。どうすればよいでしょうか。

データ パイプラインにセキュリティのベスト プラクティスを実装しています。現在、プロジェクト オーナーとして手動でジョブを実行しています。これらのジョブを自動化するには、Google Cloud Storage から非公開情報を含む夜間バッチ ファイルを取得し、Google Cloud Dataproc クラスタで Spark Scala ジョブを使用して処理し、結果を Google BigQuery に格納します。
このワークロードを安全に実行するにはどうすればよいでしょうか?

あなたの会社は最近急速に成長し、以前よりも大幅に高い速度でデータを取り込んでいます。あなたは Apache Hadoop で毎日のバッチ MapReduce 分析ジョブを管理しています。しかし、最近のデータの増加により、バッチ ジョブが遅れています。開発チームがコストを増やさずに分析の応答性を向上させる方法を提案するように求められました。あなたは開発チームに何を提案すべきでしょうか?

外部の顧客が、データベースから毎日データをダンプして提供します。データは、カンマ区切り値 (CSV) ファイルとして Google Cloud Storage GCS に流れ込みます。このデータを Google BigQuery で分析したいのですが、データに形式が誤っている行や破損している行が含まれている可能性があります。このパイプラインをどのように構築すればよいでしょうか。

Dataflow SDK は最近どの Apache サービスに移行されましたか?

解説: (GoShiken メンバーにのみ表示されます)
あなたは中規模企業で働いており、運用システムのトランザクション データをオンプレミス データベースから GCP に移行する必要があります。データベースのサイズは約 20 TB です。どのデータベースを選択すればよいでしょうか。

あなたは広告会社に勤めており、広告ブロックのクリックスルー率を予測する Spark ML モデルを開発しました。これまではすべてオンプレミスのデータセンターで開発してきましたが、現在、会社は Google Cloud に移行しています。データセンターは BigQuery に移行されます。Spark ML モデルを定期的に再トレーニングするため、既存のトレーニング パイプラインを Google Cloud に移行する必要があります。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
Pub/Sub を使用して、プッシュ サブスクリプションに依存するイベント駆動型コンシューマー アプリでクリックストリーム データを処理するメッセージング システムを設計しています。コンシューマー アプリの一時的なダウンタイムを処理できるほど信頼性の高いメッセージング システムを構成する必要があります。また、サブスクライバーが消費できない入力メッセージを保存するメッセージング システムも必要です。システムは、コンシューマー アプリの過負荷を回避しながら、失敗したメッセージを徐々に再試行し、最大 10 回の再試行後に失敗したメッセージをトピックに保存する必要があります。Pub/Sub サブスクリプションはどのように構成すればよいですか。