Professional-Data-Engineer日本語試験無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版) 認定」

どの Google Cloud Platform サービスが Hadoop with Hive の代替になりますか?

解説: (GoShiken メンバーにのみ表示されます)
Google の Dataflow SDK を使用して、以下に示すような顧客データを分析する予定です。プロジェクトの要件は、データ ソースから顧客名のみを抽出し、出力 PCollection に書き込むことです。
トム、555 X 通り
ティム、553 Yストリート
サム、111 Z ストリート
上記のデータ処理要件に最適な操作はどれですか?

解説: (GoShiken メンバーにのみ表示されます)
メディアストリーミングサービスであるモバイルアプリケーション用の新しいストレージシステムをデプロイしています。最適なのはGoogle Cloud Datastoreだと判断しました。複数のプロパティを持つエンティティがあり、その中には複数の値を取ることができるものもあります。例えば、エンティティ「Movie」では、プロパティ「actors」とプロパティ「tags」は複数の値を取ることができますが、プロパティ「date published」は複数の値を取ることができません。一般的なクエリでは、actor=<actorname>を持つすべての映画をdate_released順に並べたり、tag=Comedyを持つすべての映画をdate_released順に並べたりします。インデックス数の組み合わせ爆発をどのように回避すればよいでしょうか?

インフラストラクチャには複数のYouTubeチャンネルが含まれています。YouTubeチャンネルのデータをGoogle Cloudに送信して分析するためのプロセスを構築するという課題があります。世界中のマーケティングチームが最新のYouTubeチャンネルのログデータに対してANSI SQLなどの分析を実行できるソリューションを設計したいと考えています。Google Cloudへのログデータ転送はどのように設定すればよいでしょうか?

特定の日に雨が降るかどうかを予測するモデルを構築しています。入力特徴は数千個あり、一部の特徴を削除することで、モデルの精度への影響を最小限に抑えながらトレーニング速度を向上できるかどうかを確認したいと考えています。何ができるでしょうか?

ETL パイプラインを管理しています。Dataflow で実行されているストリーミング パイプラインが受信データの処理に時間がかかり、出力の遅延を引き起こしていることに気づきました。また、パイプライン グラフが Dataflow によって自動的に最適化され、1 つのステップに統合されていることにも気付きました。潜在的なボトルネックが発生している場所を特定したいと考えています。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
ニューラル ネットワークにカテゴリ特徴のカテゴリ間の関係を学習させるにはどうすればよいでしょうか?

解説: (GoShiken メンバーにのみ表示されます)
通信サービス プロバイダーの販売データを分析するために、BigQuery でデータ ウェアハウスを設計しています。顧客、製品、サブスクリプションのデータ モデルを作成する必要があります。すべての顧客、製品、サブスクリプションは毎月更新できますが、すべてのデータの履歴レコードを維持する必要があります。現在および過去のレポートには視覚化レイヤーを使用する予定です。データ モデルがシンプルで使いやすく、コスト効率に優れていることを確認する必要があります。何をすべきでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
あなたの会社では、多数のニューロンとレイヤーを持つ TensorFlow ニューラル ネットワーク モデルを構築しました。このモデルはトレーニング データ a には適しています。ただし、新しいデータに対してテストすると、パフォーマンスが低下します。この問題を解決するには、どのような方法を採用すればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
BigQuery、Cloud Dataflow、Cloud Dataproc でデータ パイプラインを実行しています。ヘルス チェックを実行してその動作を監視し、パイプラインが失敗した場合はパイプラインを管理しているチームに通知する必要があります。また、複数のプロジェクトにまたがって作業できる必要があります。プラットフォームの機能のマネージド プロダクトを使用することを希望しています。どうすればよいでしょうか。

会社のデータ アナリスト チームは、2,000 スロットのスロット予約を持つ Google Cloud プロジェクトで、アドホック クエリとスケジュールされた SQL パイプラインに BigQuery を使用しています。しかし、最近、数百の新しい時間に依存しない SQL パイプラインが導入されたため、チームは頻繁に割り当てエラーに遭遇しています。ログを調べると、ピーク時に約 1,500 のクエリが同時にトリガーされていることに気付きました。同時実行の問題を解決する必要があります。どうすればよいでしょうか。

解説: (GoShiken メンバーにのみ表示されます)
BigQuery のデータ変換ソリューションを設計しています。開発者は SOL に精通しており、ELT 開発手法を使用したいと考えています。さらに、開発者は直感的なコーディング環境と、SQL をコードとして管理する能力を必要としています。開発者がこれらのパイプラインを構築するためのソリューションを特定する必要があります。何をすべきでしょうか?

解説: (GoShiken メンバーにのみ表示されます)