AWS Certified Data Engineer – Associate は、コアデータ関連の AWS サービスに関するスキルと知識や、データの取り込みと変換、プログラミングの概念を適用しながらのデータパイプラインのオーケストレート、データモデルの設計、データライフサイクルの管理、データ品質の確保といった能力を検証します。

 

■AWS DEA-C01(JP) 全問

/204

AWS DEA-C01(JP) All

AWS Certified Data Engineer - Associate は、コアデータ関連の AWS サービスに関するスキルと知識や、データの取り込みと変換、プログラミングの概念を適用しながらのデータパイプラインのオーケストレート、データモデルの設計、データライフサイクルの管理、データ品質の確保といった能力を検証します。

1 / 204

1.

No.1
データエンジニアは、Amazon S3 バケットからデータを読み取るための AWS Glue ジョブを設定しています。データエンジニアは、必要な AWS Glue 接続の詳細と関連する IAM ロールを設定しました。ただし、データエンジニアが AWS Glue ジョブを実行しようとすると、Amazon S3 VPC ゲートウェイエンドポイントに問題があることを示すエラーメッセージが表示されます。
データエンジニアはエラーを解決し、AWS Glue ジョブを S3 バケットに接続する必要があります。
この要件を満たすソリューションはどれですか?

2 / 204

2.

No.2
ある小売会社では、Amazon S3 バケットに顧客データハブがあります。多くの国の従業員がデータハブを使用して、会社全体の分析をサポートしています。ガバナンス チームは、会社のデータ アナリストがアナリストと同じ国内にいる顧客のデータにのみアクセスできるようにする必要があります。
どのソリューションが、最小限の運用労力でこれらの要件を満たしますか?

3 / 204

3.

No.3
メディア企業は、ユーザーの行動と好みに基づいて顧客にメディアコンテンツを推奨するシステムを改善したいと考えています。推奨システムを改善するには、サードパーティのデータセットからの洞察を会社の既存の分析プラットフォームに組み込む必要があります。
会社は、サードパーティのデータセットを組み込むために必要な労力と時間を最小限に抑えたいと考えています。
最も少ない運用オーバーヘッドでこれらの要件を満たすソリューションはどれですか?

4 / 204

4.

No.4
金融会社がデータメッシュを実装したいと考えています。データメッシュは、集中型データガバナンス、データ分析、およびデータアクセス制御をサポートする必要があります。同社は、データカタログと抽出、変換、ロード (ETL) 操作に AWS Glue を使用することを決定しました。
データメッシュを実装する AWS サービスの組み合わせはどれですか? (2 つ選択してください)

5 / 204

5.

No.5
データエンジニアは、多くの AWS Lambda 関数が使用するデータフォーマット処理を実行するカスタム Python スクリプトを管理しています。データエンジニアが Python スクリプトを変更する必要がある場合、データエンジニアはすべての Lambda 関数を手動で更新する必要があります。
データエンジニアは、Lambda 関数を更新するためのより手動の手間の少ない方法を必要としています。
この要件を満たすソリューションはどれですか?

6 / 204

6.

No.6
ある会社が AWS Glue で抽出、変換、ロード (ETL) データ パイプラインを作成しました。データ エンジニアは、Microsoft SQL Server にあるテーブルをクロールする必要があります。データ エンジニアは、クロールの出力を抽出、変換し、Amazon S3 バケットにロードする必要があります。また、データ エンジニアはデータ パイプラインをオーケストレーションする必要もあります。
これらの要件を最もコスト効率よく満たす AWS サービスまたは機能はどれですか?

7 / 204

7.

No.7
金融サービス会社が Amazon Redshift に金融データを保存しています。データエンジニアは、Web ベースの取引アプリケーションをサポートするために、金融データに対してリアルタイムクエリを実行したいと考えています。データエンジニアは、取引アプリケーション内からクエリを実行したいと考えています。
運用オーバーヘッドが最も少ないソリューションはどれですか?

8 / 204

8.

No.8
ある会社では、Amazon S3 にあるデータに対する 1 回限りのクエリに Amazon Athena を使用しています。この会社には複数のユースケースがあります。この会社は、同じ AWS アカウント内のユーザー、チーム、アプリケーション間でクエリプロセスとクエリ履歴へのアクセスを分離するためのアクセス許可制御を実装する必要があります。
これらの要件を満たすソリューションはどれですか?

9 / 204

9.

No.9
データエンジニアは、AWS Glue ジョブのセットを毎日実行するワークフローをスケジュールする必要があります。データエンジニアは、Glue ジョブが特定の時間に実行または終了することを必要としません。
どのソリューションが最もコスト効率の高い方法で Glue ジョブを実行しますか?

10 / 204

10.

No.10
データ エンジニアは、データの形式を .csv から Apache Parquet に変換する AWS Lambda 関数を作成する必要があります。Lambda 関数は、ユーザーが .csv ファイルを Amazon S3 バケットにアップロードした場合にのみ実行する必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えてこれらの要件を満たしますか?

11 / 204

11.

No.11
データ エンジニアは、Amazon Athena クエリをより速く完了する必要があります。データ エンジニアは、Athena クエリが使用するすべてのファイルが現在、圧縮されていない .csv 形式で保存されていることに気付きました。また、データ エンジニアは、ユーザーが特定の列を選択してほとんどのクエリを実行していることに気付きました。
Athena クエリのパフォーマンスを最も高速化するソリューションはどれですか?

12 / 204

No.12
製造会社では、工場の現場からセンサーデータを収集して、運用効率を監視および強化しています。同社は Amazon Kinesis Data Streams を使用して、センサーが収集したデータをデータストリームに公開します。次に、Amazon Kinesis Data Firehose がデータを Amazon S3 バケットに書き込みます。
同社は、製造施設の大型スクリーンに運用効率のリアルタイム ビューを表示する必要があります。

12. どのソリューションが、最も低いレイテンシーでこれらの要件を満たしますか?

13 / 204

13.

No.13
ある会社では、投資ポートフォリオの財務実績の毎日の記録を .csv 形式で Amazon S3 バケットに保存しています。データエンジニアは、AWS Glue クローラーを使用して S3 データをクロールします。
データエンジニアは、AWS Glue データカタログで S3 データを毎日アクセスできるようにする必要があります。
これらの要件を満たすソリューションはどれですか?

14 / 204

14.

No.14
ある会社では、毎日の終わりに、毎日のトランザクションデータを Amazon Redshift テーブルにロードします。会社は、どのテーブルがロードされたか、どのテーブルがまだロードする必要があるかを追跡できるようにしたいと考えています。
データエンジニアは、Redshift テーブルのロードステータスを Amazon DynamoDB テーブルに保存したいと考えています。データエンジニアは、ロードステータスの詳細を DynamoDB に公開する AWS Lambda 関数を作成します。
データエンジニアは、ロードステータスを DynamoDB テーブルに書き込むために、どのように Lambda 関数を呼び出す必要がありますか?

15 / 204

15.

No.15
データ エンジニアは、オンプレミスのデータ センターから Amazon S3 バケットに 5 TB のデータを安全に転送する必要があります。データの約 5% が毎日変更されます。データの更新は、S3 バケットに定期的に拡散する必要があります。データには、複数の形式のファイルが含まれます。データ エンジニアは転送プロセスを自動化する必要があり、プロセスが定期的に実行されるようにスケジュールする必要があります。
データ エンジニアは、最も運用効率の高い方法でデータを転送するためにどの AWS サービスを使用する必要がありますか?

16 / 204

16.

No.16
ある会社では、オンプレミスの Microsoft SQL Server データベースを使用して金融取引データを保存しています。この会社は、毎月末に取引データをオンプレミスのデータベースから AWS に移行しています。この会社は、オンプレミスのデータベースから Amazon RDS for SQL Server データベースにデータを移行するコストが最近増加していることに気付きました。
この会社は、データを AWS に移行するためのコスト効率の高いソリューションを必要としています。このソリューションは、データベースにアクセスするアプリケーションのダウンタイムを最小限に抑える必要があります。
これらの要件を満たすために、この会社はどの AWS サービスを使用すべきですか?

17 / 204

17.

No.17
データ エンジニアは、AWS Glue の抽出、変換、ロード (ETL) ジョブを使用して AWS 上にデータ パイプラインを構築しています。データ エンジニアは、Amazon RDS と MongoDB からのデータを処理し、変換を実行し、変換されたデータを分析用に Amazon Redshift にロードする必要があります。データの更新は 1 時間ごとに実行する必要があります。
どのタスクの組み合わせが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか? (2 つ選択してください)。

18 / 204

18.

No.18
ある会社では、RA3 ノードで実行される Amazon Redshift クラスターを使用しています。この会社は、需要に合わせて読み取りおよび書き込み容量を拡張したいと考えています。データエンジニアは、同時実行スケーリングを有効にするソリューションを特定する必要があります。
この要件を満たすソリューションはどれですか?

19 / 204

19.

No.19
データエンジニアは、毎日実行される一連の Amazon Athena クエリをオーケストレーションする必要があります。各クエリは 15 分以上実行されることがあります。
これらの要件を最もコスト効率よく満たす手順の組み合わせはどれですか? (2 つ選択してください)

20 / 204

20.

No.20
ある企業がオンプレミスのワークロードを AWS に移行しています。この企業は、全体的な運用オーバーヘッドを削減したいと考えています。また、サーバーレス オプションも検討したいと考えています。
この企業の現在のワークロードでは、Apache Pig、Apache Oozie、Apache Spark、Apache Hbase、および Apache Flink を使用しています。オンプレミスのワークロードは、ペタバイト単位のデータを数秒で処理します。この企業は、AWS への移行後も同等以上のパフォーマンスを維持する必要があります。
これらの要件を満たす抽出、変換、ロード (ETL) サービスはどれですか?

21 / 204

21.

No.21
データ エンジニアは、AWS サービスを使用して、データセットを Amazon S3 データ レイクに取り込む必要があります。データ エンジニアはデータセットをプロファイルし、データセットに個人を特定できる情報 (PII) が含まれていることを発見します。データ エンジニアは、データセットをプロファイルして PII を難読化するソリューションを実装する必要があります。
どのソリューションが、最も少ない運用労力でこの要件を満たしますか?

22 / 204

22.

No.22
ある会社では、会社の運用データベースから Amazon S3 ベースのデータレイクにデータを取り込む複数の抽出、変換、ロード (ETL) ワークフローを維持しています。ETL ワークフローは、AWS Glue と Amazon EMR を使用してデータを処理します。
この会社は、既存のアーキテクチャを改善して、自動化されたオーケストレーションを提供し、手作業を最小限に抑えたいと考えています。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

23 / 204

23.

No.23
現在、ある会社では、S3 標準ストレージ クラスを使用して、すべてのデータを Amazon S3 に保存しています。
データ エンジニアは、傾向を特定するためにデータ アクセス パターンを調べました。最初の 6 か月間は、ほとんどのデータ ファイルが 1 日に数回アクセスされます。6 か月から 2 年の間は、ほとんどのデータ ファイルが月に 1 回か 2 回アクセスされます。2 年後、データ ファイルへのアクセスは年に 1 回か 2 回のみになります。
データ エンジニアは、S3 ライフサイクル ポリシーを使用して、新しいデータ ストレージ ルールを開発する必要があります。新しいストレージ ソリューションは、引き続き高可用性を提供する必要があります。
これらの要件を最もコスト効率の高い方法で満たすソリューションはどれですか?

24 / 204

24.

No.24
ある会社では、重要な分析タスクをサポートするために、抽出、変換、ロード (ETL) 操作に使用する Amazon Redshift プロビジョニング済みクラスターを維持しています。会社内の営業チームは、営業チームがビジネス インテリジェンス (BI) タスクに使用する Redshift クラスターを維持しています。
営業チームは最近、チームが毎週の要約分析タスクを実行できるように、ETL Redshift クラスターにあるデータへのアクセスを要求しました。営業チームは、ETL クラスターのデータと営業チームの BI クラスターにあるデータを結合する必要があります。
会社には、重要な分析タスクを中断することなく ETL クラスター データを営業チームと共有するソリューションが必要です。ソリューションは、ETL クラスターのコンピューティング リソースの使用を最小限に抑える必要があります。
これらの要件を満たすソリューションはどれですか?

25 / 204

25.

No.25
データエンジニアは、1 回限りの分析ジョブを実行するために、複数のソースからのデータを結合する必要があります。データは、Amazon DynamoDB、Amazon RDS、Amazon Redshift、および Amazon S3 に保存されています。
この要件を最もコスト効率よく満たすソリューションはどれですか?

26 / 204

26.

No.26
ある企業は、Apache Spark ジョブを実行するプロビジョニング済みの Amazon EMR クラスターを使用してビッグ データ分析を実行することを計画しています。この企業では高い信頼性が求められています。ビッグ データ チームは、Amazon EMR でコストが最適化された長時間実行ワークロードを実行するためのベスト プラクティスに従う必要があります。チームは、企業の現在のパフォーマンス レベルを維持するソリューションを見つける必要があります。
どのリソースの組み合わせが、これらの要件を最もコスト効率よく満たしますか? (2 つ選択してください)。

27 / 204

No.27
ある企業がリアルタイム分析機能を実装したいと考えています。同社は、Amazon Kinesis Data Streams と Amazon Redshift を使用して、ストリーミング データを数ギガバイト/秒の速度で取り込み、処理したいと考えています。同社は、既存のビジネス インテリジェンス (BI) および分析ツールを使用して、ほぼリアルタイムの洞察を導き出したいと考えています。

27. どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

28 / 204

28.

No.28
ある会社では、Amazon QuickSight ダッシュボードを使用して、会社のアプリケーションの 1 つの使用状況を監視しています。この会社は、ダッシュボードのデータ処理に AWS Glue ジョブを使用しています。この会社は、データを 1 つの Amazon S3 バケットに保存しています。この会社は、毎日新しいデータを追加しています。
データエンジニアは、ダッシュボードのクエリが時間の経過とともに遅くなっていることを発見しました。データエンジニアは、クエリの速度低下の根本原因は、長時間実行される AWS Glue ジョブであると判断しました。
データエンジニアは、AWS Glue ジョブのパフォーマンスを向上させるために、どのアクションを実行する必要がありますか? (2 つ選択してください)。

29 / 204

29.

No.29
データ エンジニアは、AWS Step Functions を使用してオーケストレーション ワークフローを設計する必要があります。ワークフローでは、大量のデータ ファイルのコレクションを並列処理し、各ファイルに特定の変換を適用する必要があります。
これらの要件を満たすために、データエンジニアはどの Step Functions 状態を使用する必要がありますか?

30 / 204

30.

No.30
ある会社が、レガシーアプリケーションを Amazon S3 ベースのデータレイクに移行しています。データエンジニアは、レガシーアプリケーションに関連付けられているデータをレビューしました。データエンジニアは、レガシーデータに重複した情報が含まれていることを発見しました。
データエンジニアは、レガシーアプリケーションデータから重複した情報を特定して削除する必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えてこれらの要件を満たしますか?

31 / 204

31.

No.31
ある会社が分析ソリューションを構築しています。このソリューションでは、データレイクストレージに Amazon S3 を使用し、データウェアハウスに Amazon Redshift を使用しています。この会社は、Amazon S3 にあるデータをクエリするために Amazon Redshift Spectrum を使用したいと考えています。
どのアクションが最も高速なクエリを提供しますか? (2 つ選択してください)

32 / 204

32.

No.32
ある会社では、Amazon RDS を使用してトランザクション データを保存しています。この会社は、プライベート サブネットで RDS DB インスタンスを実行しています。開発者は、DB インスタンスにデータを挿入、更新、または削除するためのデフォルト設定の AWS Lambda 関数を作成しました。
開発者は、Lambda 関数に、パブリック インターネットを使用せずに DB インスタンスにプライベートに接続する機能を与える必要があります。
どの手順の組み合わせが、運用オーバーヘッドを最小限に抑えながらこの要件を満たしますか? (2 つ選択してください)。

33 / 204

No.33
ある会社には、Amazon API Gateway を使用して REST API を呼び出すフロントエンド ReactJS ウェブサイトがあります。API はウェブサイトの機能を実行します。データ エンジニアは、API Gateway を介して時々呼び出すことができる Python スクリプトを作成する必要があります。コードは API Gateway に結果を返す必要があります。

33. どのソリューションが、運用オーバーヘッドが最も少なく、これらの要件を満たしますか?

34 / 204

34.

No.34
ある会社には、会社のワークロードを実行する本番環境の AWS アカウントがあります。会社のセキュリティ チームは、本番環境の AWS アカウントからのセキュリティ ログを保存および分析するためのセキュリティ AWS アカウントを作成しました。本番環境の AWS アカウントのセキュリティ ログは、Amazon CloudWatch Logs に保存されます。
会社は、セキュリティ ログをセキュリティ AWS アカウントに配信するために、Amazon Kinesis Data Streams を使用する必要があります。
これらの要件を満たすソリューションはどれですか?

35 / 204

35.

No.35
ある会社では、Amazon S3 を使用して半構造化データをトランザクション データ レイクに保存しています。一部のデータ ファイルは小さいですが、他のデータ ファイルは数十テラバイトです。
データ エンジニアは、データ ソースから変更されたデータを識別するために、変更データ キャプチャ (CDC) 操作を実行する必要があります。データソースは、毎日完全なスナップショットを JSON ファイルとして送信し、変更されたデータをデータレイクに取り込みます。
変更されたデータを最もコスト効率よくキャプチャするソリューションはどれですか?

36 / 204

36.

No.36
データエンジニアは、Amazon S3 バケットにあるデータに対して Amazon Athena クエリを実行します。Athena クエリは、メタデータテーブルとして AWS Glue Data Catalog を使用します。
データエンジニアは、Athena クエリプランでパフォーマンスのボトルネックが発生していることに気付きました。データエンジニアは、パフォーマンスのボトルネックの原因は S3 バケットにあるパーティションの数が多いことであると判断しました。データエンジニアは、パフォーマンスのボトルネックを解決し、Athena クエリの計画時間を短縮する必要があります。
これらの要件を満たすソリューションはどれですか? (2 つ選択してください)

37 / 204

37.

No.37
データエンジニアは、リアルタイムストリーミングデータの AWS への取り込みを管理する必要があります。データエンジニアは、最大 30 分のウィンドウで時間ベースの集計を使用して、受信ストリーミングデータのリアルタイム分析を実行したいと考えています。データエンジニアには、耐障害性が非常に高いソリューションが必要です。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

38 / 204

38.

No.38
ある企業が、Amazon Elastic Block Store (Amazon EBS) 汎用 SSD ストレージを gp2 から gp3 にアップグレードすることを計画しています。同社は、アップグレードされたストレージへの移行中に Amazon EC2 インスタンスでデータ損失を引き起こす中断を回避したいと考えています。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

39 / 204

39.

★No.39
ある会社が、Microsoft SQL Server を実行する Amazon EC2 インスタンスから Amazon RDS for Microsoft SQL Server DB インスタンスにデータベース サーバーを移行しています。会社の分析チームは、移行が完了するまで毎日大量のデータ要素をエクスポートする必要があります。データ要素は、複数のテーブルにわたる SQL 結合の結果です。データは Apache Parquet 形式である必要があります。分析チームデータを Amazon S3 に保存する必要があります。
これらの要件を最も効率的に運用できるソリューションはどれですか?

40 / 204

40.

No.40
データエンジニアリングチームは、運用レポートに Amazon Redshift データウェアハウスを使用しています。チームは、長時間実行されるクエリによって発生する可能性のあるパフォーマンスの問題を防止したいと考えています。データエンジニアは、クエリオプティマイザーがパフォーマンスの問題を示す可能性のある条件を識別したときに、Amazon Redshift のシステムテーブルを選択して異常を記録する必要があります。
この要件を満たすために、データエンジニアはどのテーブルビューを使用する必要がありますか?

41 / 204

41.

No.41
データエンジニアは、.csv 形式の構造化データのソースを Amazon S3 データレイクに取り込む必要があります。.csv ファイルには 15 列が含まれています。データアナリストは、データセットの 1 つまたは 2 つの列に対して Amazon Athena クエリを実行する必要があります。データアナリストがファイル全体をクエリすることはほとんどありません。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

42 / 204

42.

No.42
ある会社には、異なる AWS リージョンに 5 つのオフィスがあります。各オフィスには独自の人事 (HR) 部門があり、独自の IAM ロールを使用しています。この会社では、従業員の記録を Amazon S3 ストレージに基づくデータレイクに保存しています。
データエンジニアリングチームは、記録へのアクセスを制限する必要があります。各 HR 部門は、HR 部門のリージョン内にいる従業員の記録にのみアクセスできる必要があります。
データエンジニアリングチームは、運用上のオーバーヘッドを最小限に抑えながらこの要件を満たすために、どの手順の組み合わせを実行する必要がありますか? (2 つ選択してください)。

43 / 204

43.

No.43
ある会社では、AWS Step Functions を使用してデータパイプラインをオーケストレーションしています。パイプラインは、データソースからデータを取り込み、そのデータを Amazon S3 バケットに保存する Amazon EMR ジョブで構成されています。パイプラインには、データを Amazon Redshift にロードする EMR ジョブも含まれています。
会社のクラウドインフラストラクチャチームは、Step Functions ステートマシンを手動で構築しました。クラウドインフラストラクチャチームは、EMR ジョブをサポートするために VPC に EMR クラスターを起動しました。ただし、デプロイされた Step Functions ステートマシンは EMR ジョブを実行できません。
Step Functions ステートマシンが EMR ジョブを実行できない理由を特定するために、会社が実行する必要がある手順の組み合わせはどれですか? (2 つ選択してください)。

44 / 204

44.

No.44
ある会社が Amazon EC2 インスタンスで実行されるアプリケーションを開発しています。現在、アプリケーションが生成するデータは一時的なものです。ただし、会社は EC2 インスタンスが終了した場合でもデータを永続化する必要があります。
データエンジニアは、Amazon マシンイメージ (AMI) から新しい EC2 インスタンスを起動し、データを保存するようにインスタンスを設定する必要があります。
この要件を満たすソリューションはどれですか?

45 / 204

45.

No.45
ある企業は Amazon Athena を使用して、Create Table As Select (CTAS) を使用した抽出、変換、ロード (ETL) タスクの SQL クエリを実行します。分析を生成するには、SQL ではなく Apache Spark を使用する必要があります。
どのソリューションを使用すれば、Spark を使用して Athena にアクセスできるようになりますか?

46 / 204

46.

No.46
ある企業は、データレイクに使用する Amazon S3 ストレージをパーティション分割する必要があります。パーティション分割では、次の形式の S3 オブジェクトキーのパスを使用します: s3://bucket/prefix/year=2023/month=01/day=01。
データエンジニアは、企業がバケットに新しいパーティションを追加したときに、AWS Glue データカタログが S3 ストレージと同期していることを確認する必要があります。
どのソリューションが、これらの要件を最小のレイテンシーで満たしますか?

47 / 204

No.47
メディア企業は、サードパーティのツールを使用してデータを収集するために、サービスとしてのソフトウェア (SaaS) アプリケーションを使用しています。この企業は、Amazon S3 バケットにデータを保存する必要があります。この企業は、Amazon Redshift を使用して、データに基づく分析を実行します。

47. 運用オーバーヘッドが最も少ない AWS サービスまたは機能はどれですか?

48 / 204

No.48
データエンジニアは Amazon Athena を使用して、Amazon S3 にある売上データを分析しています。データエンジニアは、sales_data というテーブルから複数の製品の 2023 年の売上額を取得するクエリを作成します。ただし、クエリは sales_data テーブルにあるすべての製品の結果を返すわけではありません。データエンジニアは、この問題を解決するためにクエリのトラブルシューティングを行う必要があります。
データエンジニアの元のクエリは次のとおりです。
SELECT product_name, sum(sales_amount)

48. FROM sales_data -

WHERE year = 2023 -

GROUP BY product_name -

データエンジニアは、これらの要件を満たすために Athena クエリをどのように変更する必要がありますか?

49 / 204

49.

No.49
データ エンジニアには、Amazon S3 バケット内の Apache Parquet 形式のオブジェクトからデータを読み取るという 1 回限りのタスクがあります。データエンジニアは、データの 1 つの列のみをクエリする必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

50 / 204

50.

No.50
ある会社では、データ ウェアハウスに Amazon Redshift を使用しています。この会社は、Amazon Redshift マテリアライズド ビューの更新スケジュールを自動化する必要があります。
どのソリューションが、最小限の労力でこの要件を満たしますか?

51 / 204

51.

No.51
データエンジニアは、1 つの AWS Lambda 関数と 1 つの AWS Glue ジョブで構成されるデータパイプラインをオーケストレーションする必要があります。ソリューションは AWS サービスと統合する必要があります。
管理オーバーヘッドが最も少なく、これらの要件を満たすソリューションはどれですか?

52 / 204

52.

No.52
ある企業は、AWS クラウドで実行されるデータソースのデータカタログとメタデータ管理を設定する必要があります。企業は、データカタログを使用して、一連のデータストアにあるすべてのオブジェクトのメタデータを維持します。データストアには、Amazon RDS や Amazon Redshift などの構造化ソースが含まれます。データストアには、Amazon S3 に保存されている JSON ファイルや .xml ファイルなどの半構造化ソースも含まれます。
企業は、データカタログを定期的に更新するソリューションを必要としています。ソリューションは、ソースメタデータの変更も検出する必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

53 / 204

53.

No.53
ある企業は、プロビジョニングされた容量モードで動作する Amazon DynamoDB テーブルにアプリケーションからのデータを保存しています。アプリケーションのワークロードには、定期的なスケジュールで予測可能なスループット負荷があります。毎週月曜日、早朝にアクティビティがすぐに増加します。週末のアプリケーションの使用率は非常に低くなります。
企業は、使用率がピークの時間帯にアプリケーションが一貫して動作するようにする必要があります。
どのソリューションが最もコスト効率の高い方法でこれらの要件を満たしますか?

54 / 204

54.

No.54
ある会社がオンプレミスの Apache Hadoop クラスターを Amazon EMR に移行することを計画しています。また、データカタログを永続的なストレージソリューションに移行する必要もあります。
現在、この会社では、Hadoop クラスター上のオンプレミスの Apache Hive メタストアにデータカタログを保存しています。この会社では、データカタログを移行するためにサーバーレスソリューションを必要としています。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

55 / 204

55.

No.55
ある会社では、Amazon Redshift プロビジョニング済みクラスターをデータベースとして使用しています。Redshift クラスターには 5 つの予約済み ra3.4xlarge ノードがあり、キー分散を使用しています。
データエンジニアは、ノードの 1 つで CPU 負荷が頻繁に 90% を超えていることに気付きました。ノードで実行される SQL クエリはキューに入れられます。他の 4 つのノードの CPU 負荷は通常、日常の運用中に 15% 未満です。
データエンジニアは、現在のコンピューティングノードの数を維持したいと考えています。また、データエンジニアは、5 つのコンピューティングノード全体で負荷をより均等に分散したいと考えています。
これらの要件を満たすソリューションはどれですか?

56 / 204

56.

No.56
セキュリティ会社が JSON 形式の IoT データを Amazon S3 バケットに保存しています。会社が IoT デバイスをアップグレードすると、データ構造が変わることがあります。会社は IoT データを含むデータカタログを作成したいと考えています。会社の分析部門は、データカタログを使用してデータのインデックスを作成します。
どのソリューションがこれらの要件を最もコスト効率よく満たしますか?

57 / 204

57.

No.57
ある会社が Amazon S3 バケットにトランザクションの詳細を保存します。この会社は、S3 バケットへのすべての書き込みを、同じ AWS リージョンにある別の S3 バケットに記録したいと考えています。
どのソリューションが、最も少ない運用労力でこの要件を満たしますか?

58 / 204

58.

No.58
データエンジニアは、ユーザーが Amazon EMR および Amazon Athena クエリを通じてアクセスする中央メタデータリポジトリを維持する必要があります。リポジトリは、多くのテーブルのスキーマとプロパティを提供する必要があります。メタデータの一部は Apache Hive に保存されます。データエンジニアは、Hive から中央メタデータリポジトリにメタデータをインポートする必要があります。
開発労力を最小限に抑えてこれらの要件を満たすソリューションはどれですか?

59 / 204

59.

No.59
ある企業は AWS にデータレイクを構築する必要があります。企業は特定のチームに行レベルのデータアクセスと列レベルのデータアクセスを提供する必要があります。チームは Amazon EMR の Amazon Athena、Amazon Redshift Spectrum、Apache Hive を使用してデータにアクセスします。
どのソリューションが、運用オーバーヘッドが最も少なく、これらの要件を満たしますか?

60 / 204

60.

No.60
航空会社は、分析のためにフライト アクティビティに関するメトリクスを収集しています。同社は、概念実証 (POC) テストを実施して、分析によって、会社が定時出発を増やすために使用できる洞察をどのように提供できるかを示しています。
POC テストでは、メトリクスが .csv 形式で含まれる Amazon S3 内のオブジェクトを使用します。POC テストでは、Amazon Athena を使用してデータをクエリします。データは日付別に S3 バケットに分割されています。
データ量が増えるにつれて、クエリのパフォーマンスを向上させるためにストレージ ソリューションを最適化したいと考えています。
これらの要件を満たすソリューションの組み合わせはどれですか? (2 つ選択してください)。

61 / 204

61.

No.61
ある会社では、重要なアプリケーションのデータベースとして Amazon RDS for MySQL を使用しています。データベースのワークロードは、ほとんどが書き込みで、読み取りは少数です。
データ エンジニアは、DB インスタンスの CPU 使用率が非常に高いことに気付きました。CPU 使用率が高いため、アプリケーションの速度が低下しています。データ エンジニアは、DB インスタンスの CPU 使用率を下げる必要があります。
この要件を満たすために、データ エンジニアはどのようなアクションを取る必要がありますか? (2 つ選択してください)

62 / 204

62.

No.62
ある会社では、Orders という名前の Amazon Redshift テーブルを 6 か月間使用しています。この会社は、テーブルの更新と削除を毎週実行しています。このテーブルには、AWS リージョンを含む列にインターリーブされたソートキーがあります。
この会社は、ストレージ容量が不足しないようにディスク容量を再利用したいと考えています。また、ソートキー列を分析したいと考えています。
これらの要件を満たす Amazon Redshift コマンドはどれですか?

63 / 204

63.

No.63
製造会社がセンサーからデータを収集したいと考えています。データ エンジニアは、センサー データをほぼリアルタイムで取り込むソリューションを実装する必要があります。
ソリューションでは、データを永続的なデータ ストアに保存する必要があります。ソリューションでは、データをネストされた JSON 形式で保存する必要があります。企業は、10 ミリ秒未満のレイテンシーでデータ ストアからクエリを実行できる必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

64 / 204

64.

No.64
ある会社が Amazon S3 にあるデータレイクにデータを保存しています。会社がデータレイクに保存するデータには、個人を特定できる情報 (PII) が含まれています。複数のユーザーグループが生データにアクセスする必要があります。会社は、ユーザーグループが必要な PII のみにアクセスできるようにする必要があります。
どのソリューションが、最小限の労力でこれらの要件を満たしますか?

65 / 204

65.

No.65
データ エンジニアは、10 個のソース システムから Amazon Redshift データベースにある 10 個のテーブルにデータを処理してロードするための抽出、変換、ロード (ETL) パイプラインを構築する必要があります。すべてのソース システムは、15 分ごとに .csv、JSON、または Apache Parquet ファイルを生成します。ソースシステムはすべて、ファイルを 1 つの Amazon S3 バケットに配信します。ファイル サイズは 10 MB から 20 GB の範囲です。データ スキーマが変更されても、ETL パイプラインは正しく機能する必要があります。
これらの要件を満たすデータ パイプライン ソリューションはどれですか? (2 つ選択してください)。

66 / 204

66.

No.66
金融会社は、ビジネスインテリジェンス (BI) アプリケーションをサポートするために、ペタバイト規模のデータセットでオンデマンド SQL クエリを実行するために Amazon Athena を使用したいと考えています。営業時間外に実行される AWS Glue ジョブは、データセットを 1 日に 1 回更新します。BI アプリケーションは、会社のポリシーに準拠するために、標準のデータ更新頻度が 1 時間です。
データエンジニアは、追加のインフラストラクチャコストを追加することなく、会社の Amazon Athena の使用コストを最適化したいと考えています。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

67 / 204

67.

No.67
ある会社のデータエンジニアは、テーブル SQL クエリのパフォーマンスを最適化する必要があります。会社は Amazon Redshift クラスターにデータを保存しています。データエンジニアは予算の制約により、クラスターのサイズを増やすことができません。
会社は複数のテーブルにデータを保存し、EVEN 分散スタイルを使用してデータをロードします。テーブルによっては、サイズが数百ギガバイトのものもあります。その他のテーブルのサイズは 10 MB 未満です。
これらの要件を満たすソリューションはどれですか?

68 / 204

No.68
ある会社が、物理アドレス データを含む .csv ファイルを受け取ります。データは、Door_No、Street_Name、City、および Zip_Code という名前を持つ列にあります。同社は、これらの値を次の形式で保存する単一の列を作成したいと考えています:

{
"Door_No": "24",

68. "Street_Name": "AAA street",

"City": "BBB",

"Zip_Code": "111111"
}

最も少ないコーディング作業でこの要件を満たすソリューションはどれですか?

69 / 204

69.

No.69
ある会社が、顧客の機密情報を含む Amazon S3 オブジェクトとして通話ログを受け取ります。会社は、暗号化を使用して S3 オブジェクトを保護する必要があります。また、特定の従業員だけがアクセスできる暗号化キーを使用する必要があります。
どのソリューションが、最小限の労力でこれらの要件を満たしますか?

70 / 204

70.

No.70
ある企業は、S3 標準ストレージ クラスの何千もの Amazon S3 バケットにペタバイト単位のデータを保存しています。このデータは、予測不可能で変動するデータ アクセス パターンを持つ分析ワークロードをサポートしています。
この企業は、何ヶ月も一部のデータにアクセスしません。ただし、この企業はすべてのデータを数ミリ秒以内に取得できる必要があります。この企業は S3 ストレージ コストを最適化する必要があります。
運用オーバーヘッドを最小限に抑えながら、これらの要件を満たすソリューションはどれですか?

71 / 204

71.

No.71
セキュリティレビュー中に、ある会社が AWS Glue ジョブの脆弱性を特定しました。会社は、Amazon Redshift クラスターにアクセスするための認証情報がジョブスクリプトにハードコードされていることを発見しました。
データエンジニアは、AWS Glue ジョブのセキュリティ脆弱性を修正する必要があります。ソリューションでは、認証情報を安全に保存する必要があります。
これらの要件を満たすために、データエンジニアが実行する必要がある手順の組み合わせはどれですか? (2 つ選択してください)。

72 / 204

72.

No.72
データエンジニアは、Amazon Redshift を使用して、リソースを大量に消費する分析プロセスを毎月 1 回実行しています。データエンジニアは毎月、新しい Redshift プロビジョニング済みクラスターを作成します。データエンジニアは、毎月の分析プロセスが完了したら、Redshift プロビジョニング済みクラスターを削除します。データエンジニアは、毎月クラスターを削除する前に、クラスターから Amazon S3 バケットにバックアップデータをアンロードします。
データエンジニアは、データエンジニアがインフラストラクチャを手動で管理する必要のない、毎月の分析プロセスを実行するソリューションを必要としています。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

73 / 204

73.

No.73
ある会社が、顧客データを .xls 形式で含む毎日のファイルを受け取ります。会社はそのファイルを Amazon S3 に保存します。毎日のファイルのサイズは約 2 GB です。
データエンジニアは、ファイル内の顧客のファーストネームを含む列と顧客のラストネームを含む列を連結します。データエンジニアは、ファイル内の個別の顧客の数を特定する必要があります。
最も少ない運用労力でこの要件を満たすソリューションはどれですか?

74 / 204

74.

No.74
ヘルスケア企業は、Amazon Kinesis Data Streams を使用して、ウェアラブルデバイス、病院の機器、患者の記録からリアルタイムの健康データをストリーミングしています。
データエンジニアは、ストリーミングデータを処理するソリューションを見つける必要があります。データエンジニアは、Amazon Redshift Serverless ウェアハウスにデータを保存する必要があります。ソリューションは、ストリーミングデータと前日のデータのほぼリアルタイムの分析をサポートする必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

75 / 204

75.

No.75
データエンジニアは、Amazon S3 バケットに保存されているデータに対する Amazon Athena クエリに基づく Amazon QuickSight ダッシュボードを使用する必要があります。データエンジニアが QuickSight ダッシュボードに接続すると、権限が不十分であることを示すエラーメッセージが表示されます。
権限関連のエラーの原因となる要因はどれですか? (2 つ選択してください)。

76 / 204

76.

No.76
ある会社では、データセットを JSON 形式と .csv 形式で Amazon S3 バケットに保存しています。この会社には、Microsoft SQL Server データベース用の Amazon RDS、プロビジョニングされたキャパシティーモードの Amazon DynamoDB テーブル、および Amazon Redshift クラスターがあります。データエンジニアリングチームは、データサイエンティストが SQL に似た構文を使用してすべてのデータソースをクエリできるようにするソリューションを開発する必要があります。
どのソリューションが、運用オーバーヘッドが最も少なく、これらの要件を満たしますか?

77 / 204

77.

No.77
データエンジニアは、Amazon SageMaker Studio を設定して、AWS Glue インタラクティブセッションを使用して機械学習 (ML) モデル用のデータを準備しています。
データエンジニアが SageMaker Studio を使用してデータを準備しようとすると、アクセス拒否エラーが発生します。
エンジニアは、SageMaker Studio にアクセスするためにどの変更を行う必要がありますか?

78 / 204

78.

No.78
ある企業は、SAP HANA、Microsoft SQL Server、MongoDB、Apache Kafka、Amazon DynamoDB などのデータソースから毎日約 1 TB のデータを抽出しています。一部のデータソースには、未定義のデータスキーマや変更されるデータスキーマがあります。
データエンジニアは、これらのデータソースのスキーマを検出できるソリューションを実装する必要があります。ソリューションは、データを抽出、変換し、Amazon S3 バケットにロードする必要があります。この企業は、データ作成後 15 分以内にデータを S3 バケットにロードするというサービスレベル契約 (SLA) を結んでいます。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

79 / 204

79.

No.79
ある会社には、Amazon S3 バケットに保存されているデータセットを使用する複数のアプリケーションがあります。この会社には、個人を特定できる情報 (PII) を含むデータセットを生成する e コマース アプリケーションがあります。この会社には、PII へのアクセスを必要としない社内分析アプリケーションがあります。
規制に準拠するために、会社は PII を不必要に共有してはなりません。データ エンジニアは、データセットにアクセスする各アプリケーションのニーズに基づいて、PII を動的に編集するソリューションを実装する必要があります。
どのソリューションが、運用オーバーヘッドが最も少なく、要件を満たすでしょうか。

80 / 204

80.

★No.80
データ エンジニアは、抽出、変換、ロード (ETL) ジョブを構築する必要があります。 ETL ジョブは、ユーザーが Amazon S3 バケットにアップロードする毎日の受信 .csv ファイルを処理します。各 S3 オブジェクトのサイズは 100 MB 未満です。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

81 / 204

81.

No.81
データエンジニアは、Orders という名前の AWS Glue クローラーを使用して、AWS Glue データカタログテーブルを作成します。データエンジニアは、次の新しいパーティションを追加したいと考えています。

s3://transactions/orders/order_date=2023-01-01
s3://transactions/orders/order_date=2023-01-02

データエンジニアは、テーブルの場所にあるすべてのフォルダとファイルをスキャンせずに、メタデータを編集してテーブルに新しいパーティションを含める必要があります。
データエンジニアは、Amazon Athena でどのデータ定義言語 (DDL) ステートメントを使用する必要がありますか?

82 / 204

82.

No.82
ある会社では、10 ~ 15 TB の非圧縮 .csv ファイルを Amazon S3 に保存しています。この会社は、Amazon Athena をワンタイム クエリ エンジンとして評価しています。
この会社は、クエリの実行時間とストレージ コストを最適化するためにデータを変換したいと考えています。
Athena クエリのこれらの要件を満たすファイル形式と圧縮ソリューションはどれですか?

83 / 204

83.

No.83
ある会社では、Apache Airflow を使用して、会社の現在のオンプレミス データ パイプラインをオーケストレーションしています。この会社は、パイプラインの一部として SQL データ品質チェック タスクを実行しています。この会社は、パイプラインを AWS に移行し、AWS マネージド サービスを使用したいと考えています。
リファクタリングを最小限に抑えてこれらの要件を満たすソリューションはどれですか?

84 / 204

84.

No.84
ある会社では、複数のソースから取得したデータを変換するために、抽出、変換、ロード (ETL) パイプラインとして Amazon EMR を使用しています。データエンジニアは、パフォーマンスを最大化するためにパイプラインを調整する必要があります。
どの AWS サービスがこの要件を最もコスト効率よく満たしますか?

85 / 204

85.

No.85
オンライン小売会社が、Application Load Balancer (ALB) アクセスログを Amazon S3 バケットに保存しています。この会社は、Amazon Athena を使用してログをクエリし、トラフィックパターンを分析したいと考えています。
データエンジニアが Athena にパーティション化されていないテーブルを作成します。データの量が徐々に増加すると、クエリの応答時間も長くなります。データエンジニアは、Athena でのクエリパフォーマンスを改善したいと考えています。
どのソリューションが、最小限の運用労力でこれらの要件を満たしますか?

86 / 204

86.

No.86
ある会社が AWS 上にビジネス インテリジェンス プラットフォームを持っています。この会社は、AWS Storage Gateway Amazon S3 ファイル ゲートウェイを使用して、会社のオンプレミス環境から Amazon S3 バケットにファイルを転送します。
データ エンジニアは、各ファイル転送が正常に終了したときに一連の AWS Glue ジョブを実行する AWS Glue ワークフローを自動的に起動するプロセスをセットアップする必要があります。
これらの要件を満たす、運用オーバーヘッドが最も少ないソリューションはどれですか?

87 / 204

87.

No.87
小売会社では、Amazon Aurora PostgreSQL を使用してライブトランザクションデータを処理および保存しています。同社はデータウェアハウスに Amazon Redshift クラスターを使用しています。
抽出、変換、ロード (ETL) ジョブが毎朝実行され、PostgreSQL データベースからの新しいデータで Redshift クラスターを更新します。会社は急速に成長しており、Redshift クラスターのコストを最適化する必要があります。
データ エンジニアは、履歴データをアーカイブするソリューションを作成する必要があります。データ エンジニアは、PostgreSQL のライブ トランザクション データ、Redshift の現在のデータ、アーカイブされた履歴データのデータを効果的に組み合わせる分析クエリを実行できる必要があります。コストを削減するには、ソリューションで Amazon Redshift に最新の 15 か月分のデータのみを保持する必要があります。
これらの要件を満たす手順の組み合わせはどれですか (2 つ選択してください)。

88 / 204

88.

No.88
ある製造会社では、世界中の施設に多数の IoT デバイスがあります。この会社は Amazon Kinesis Data Streams を使用してデバイスからデータを収集します。データには、デバイス ID、キャプチャ日、測定タイプ、測定値、施設 ID が含まれます。この会社は、施設 ID をパーティション キーとして使用します。
同社の運用チームは最近、WriteThroughputExceeded 例外を多数確認しました。運用チームは、一部のシャードは頻繁に使用されているものの、他のシャードは概してアイドル状態であることを発見しました。
運用チームが確認した問題を同社はどのように解決すべきでしょうか?

89 / 204

89.

No.89
データ エンジニアは、Amazon Athena で販売データ テーブルに対して実行される SQL クエリのパフォーマンスを改善したいと考えています。
データ エンジニアは、特定の SQL ステートメントの実行プランを理解したいと考えています。また、データ エンジニアは、SQL クエリ内の各操作の計算コストを確認したいと考えています。
これらの要件を満たすために、データ エンジニアが実行する必要があるステートメントはどれですか?

90 / 204

90.

No.90
ある会社が VPC 内でログ配信ストリームをプロビジョニングすることを計画しています。この会社は、Amazon CloudWatch Logs に公開するように VPC フローログを設定しました。この会社は、さらなる分析のためにフローログをほぼリアルタイムで Splunk に送信する必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

91 / 204

91.

No.91
ある会社には AWS 上にデータ レイクがあります。データ レイクは、ビジネス ユニットからのデータ ソースを取り込み、クエリに Amazon Athena を使用します。ストレージ レイヤーは、メタデータ リポジトリとして AWS Glue Data Catalog を備えた Amazon S3 です。
会社は、データをデータ サイエンティストやビジネス アナリストが利用できるようにしたいと考えています。ただし、まず、ユーザーの役割と責任に基づいて、Athena のきめ細かい列レベルのデータ アクセスを管理する必要があります。
これらの要件を満たすソリューションはどれですか?

92 / 204

92.

No.92
ある会社では、Amazon S3 からのデータを検証および変換するために、AWS Glue の抽出、変換、ロード (ETL) ジョブをいくつか開発しました。ETL ジョブは、データを 1 日に 1 回バッチで Amazon RDS for MySQL にロードします。ETL ジョブは、DynamicFrame を使用して S3 データを読み取ります。
ETL ジョブは現在、S3 バケット内のすべてのデータを処理しています。ただし、会社はジョブで毎日の増分データのみを処理することを望んでいます。
最も少ないコーディング作業でこの要件を満たすソリューションはどれですか?

93 / 204

93.

No.93
オンライン小売会社には、VPC 内の Amazon EC2 インスタンスで実行されるアプリケーションがあります。この会社は、VPC のフローログを収集し、ネットワーク トラフィックを分析したいと考えています。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

94 / 204

94.

No.94
小売会社は、トランザクション、店舗の場所、および顧客情報のテーブルを、予約済みの ra3.4xlarge Amazon Redshift クラスターノード 4 つに保存しています。3 つのテーブルはすべて、均等なテーブル分散を使用しています。
この会社は、店舗の場所テーブルを数年に 1 回か 2 回しか更新していません。
データエンジニアは、ほとんどのクエリで店舗の場所テーブル全体が 4 つのコンピューティングノードすべてに常にブロードキャストされているため、Redshift キューの速度が低下していることに気付きました。データエンジニアは、店舗の場所テーブルのブロードキャストを最小限に抑えて、クエリのパフォーマンスを高速化したいと考えています。
これらの要件を最もコスト効率の高い方法で満たすソリューションはどれですか?

95 / 204

95.

No.95
ある会社には、Sales というテーブルを含むデータ ウェアハウスがあります。会社は、そのテーブルを Amazon Redshift に保存します。そのテーブルには、city_name という列が含まれています。会社は、テーブルをクエリして、city_name が "San" または "El" で始まるすべての行を検索したいと考えています。
この要件を満たす SQL クエリはどれですか。

96 / 204

96.

No.96
ある企業は、オンプレミスの PostgreSQL データベースから AWS に顧客通話データを送信して、ほぼリアルタイムの洞察を生成する必要があります。ソリューションでは、PostgreSQL データベースで実行される運用データストアから更新をキャプチャしてロードする必要があります。データは継続的に変更されます。
データエンジニアは、AWS Database Migration Service (AWS DMS) の継続的なレプリケーションタスクを構成します。タスクは、各テーブルの PostgreSQL ソースデータベーストランザクションログからほぼリアルタイムで変更を読み取ります。次に、タスクはデータを Amazon Redshift クラスターに送信して処理します。
データエンジニアは、タスクの変更データキャプチャ (CDC) 中にレイテンシーの問題を発見しました。データエンジニアは、PostgreSQL ソースデータベースが高レイテンシーの原因であると考えています。
どのソリューションで、PostgreSQL データベースが高レイテンシーの原因であることがわかりますか?

97 / 204

97.

No.97
ラボでは、IoT センサーを使用してプロジェクトの湿度、温度、圧力を監視しています。センサーは 10 秒ごとに 100 KB のデータを送信します。ダウンストリームプロセスは、30 秒ごとに Amazon S3 バケットからデータを読み取ります。
最もレイテンシーの低い S3 バケットにデータを配信するソリューションはどれですか?

98 / 204

98.

No.98
ある企業は、Amazon S3 データレイクにあるデータの分析に機械学習 (ML) を使用したいと考えています。この企業には、社内の消費者がレポートを作成できるようにする 2 つのデータ変換要件があります。
この企業は、スケジュールされた時間に Amazon S3 に到着する必要があるさまざまな形式の 300 GB のデータに対して毎日変換を実行する必要があります。この企業は、S3 データレイクにある数テラバイトのアーカイブされたデータに対して 1 回限りの変換を実行する必要があります。この企業は、処理を調整するために Amazon Managed Workflows for Apache Airflow (Amazon MWAA) の有向非巡回グラフ (DAG) を使用しています。
これらの要件を最もコスト効率よく満たすために、この企業は Amazon MWAA DA​​G でどのタスクの組み合わせをスケジュールする必要がありますか? (2 つ選択してください)。

99 / 204

99.

No.99
小売会社が、顧客の注文に関する情報を含むデータセットの抽出、変換、ロード (ETL) 操作に AWS Glue を使用しています。この会社は、データの正確性と一貫性を確保するために、特定の検証ルールを実装したいと考えています。
これらの要件を満たすソリューションはどれですか?

100 / 204

100.

★No.100
保険会社は、gzip で圧縮した取引データを保管しています。
会社は、定期的な監査のために取引データを照会する必要があります。
どのソリューションが最もコスト効率の高い方法でこの要件を満たしますか?

回答: C

説明:
これは、クエリエディタ v2 (https://docs.aws.amazon.com/redshift/latest/mgmt/query-editor-v2-schedule-query.html) で実現できます。

101 / 204

101.

No.101
データエンジニアは、ミッションクリティカルではないテーブルにデータを処理して挿入する Amazon Redshift ストアドプロシージャのテストを終了しました。エンジニアは、ストアドプロシージャを毎日自動的に実行したいと考えています。
どのソリューションが最もコスト効率の高い方法でこの要件を満たしますか?

102 / 204

102.

No.102
マーケティング会社がクリックストリームデータを収集します。同社はクリックストリームデータを Amazon Kinesis Data Firehose に送信し、Amazon S3 に保存します。同社は、複数の部門の何百人ものユーザーが使用する一連のダッシュボードを構築したいと考えています。
同社は Amazon QuickSight を使用してダッシュボードを開発します。同社は、クリックストリームアクティビティに関する毎日の更新を拡張して提供できるソリューションを求めています。
どの手順の組み合わせが、これらの要件を最もコスト効率よく満たしますか? (2 つ選択してください)。

103 / 204

103.

No.103
データ エンジニアがデータ オーケストレーション ワークフローを構築しています。データ エンジニアは、オンプレミスのリソースとクラウド内のリソースを含むハイブリッド モデルを使用する予定です。データ エンジニアは、移植性とオープン ソース リソースを優先したいと考えています。
データ エンジニアは、オンプレミス環境とクラウドベースの環境の両方でどのサービスを使用する必要がありますか?

104 / 204

No.104
ゲーム会社では、顧客情報を保存するために NoSQL データベースを使用しています。同社は AWS への移行を計画しています。
同社には、高負荷のオンライントランザクション処理 (OLTP) ワークロードを処理し、1 桁ミリ秒のパフォーマンスを提供し、世界中で高可用性を提供する、完全に管理された AWS ソリューションが必要です。

104. 運用オーバーヘッドが最も少ないソリューションはどれですか?

105 / 204

105.

No.105
データエンジニアは、Amazon EventBridge イベントが呼び出す AWS Lambda 関数を作成します。データエンジニアが EventBridge イベントを使用して Lambda 関数を呼び出そうとすると、AccessDeniedException メッセージが表示されます。
データエンジニアは例外をどのように解決する必要がありますか?

106 / 204

106.

No.106
ある会社では、Amazon S3 バケットに基づくデータレイクを使用しています。規制に準拠するには、S3 バケットにアップロードされるファイルに 2 層のサーバー側暗号化を適用する必要があります。会社は、AWS Lambda 関数を使用して必要な暗号化を適用したいと考えています。
これらの要件を満たすソリューションはどれですか?

107 / 204

107.

No.107
データエンジニアは、Amazon Athena クエリが実行前にキューに保持されていることに気付きました。
データエンジニアは、クエリがキューに入れられないようにするにはどうすればよいでしょうか?

108 / 204

108.

No.108
データエンジニアは、Amazon S3 から読み取り、Amazon Redshift に書き込む AWS Glue ジョブをデバッグする必要があります。データエンジニアは、AWS Glue ジョブのブックマーク機能を有効にしました。
データエンジニアは、AWS Glue ジョブの最大同時実行数を 1 に設定しました。
AWS Glue ジョブは、出力を Amazon Redshift に正常に書き込んでいます。ただし、AWS Glue ジョブの以前の実行中にロードされた Amazon S3 ファイルは、後続の実行によって再処理されています。
AWS Glue ジョブがファイルを再処理している理由として考えられるのは何ですか?

109 / 204

109.

No.109
e コマース会社が、AWS を使用してオンプレミス環境から AWS クラウドにデータ パイプラインを移行したいと考えています。現在、この会社はオンプレミス環境でサードパーティ ツールを使用して、データ取り込みプロセスを調整しています。
この会社は、会社がサーバーを管理する必要がない移行ソリューションを望んでいます。このソリューションは、Python および Bash スクリプトを調整できる必要があります。このソリューションでは、会社がコードをリファクタリングする必要はありません。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

110 / 204

110.

No.110
小売会社では、製品ライフサイクル管理 (PLM) アプリケーションからのデータをオンプレミスの MySQL データベースに保存しています。PLM アプリケーションは、トランザクションが発生するとデータベースを頻繁に更新します。
同社は、PLM アプリケーションからほぼリアルタイムで洞察を収集したいと考えています。同社は、洞察を他のビジネスデータセットと統合し、Amazon Redshift データウェアハウスを使用して結合されたデータセットを分析したいと考えています。
同社は、オンプレミスのインフラストラクチャと AWS の間に AWS Direct Connect 接続をすでに確立しています。
どのソリューションが、最小限の開発労力でこれらの要件を満たしますか?

111 / 204

111.

No.111
マーケティング会社では、Amazon S3 を使用してクリックストリーム データを保存しています。同社は、別々のバケットに保存されている S3 オブジェクトに対して SQL JOIN 句を使用して、毎日の終わりにデータをクエリします。
同社は、オブジェクトに基づいて主要業績評価指標 (KPI) を作成します。同社には、データをパーティション化してユーザーがデータをクエリできるようにするサーバーレス ソリューションが必要です。ソリューションは、データの原子性、一貫性、独立性、および耐久性 (ACID) 特性を維持する必要があります。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

112 / 204

112.

No.112
ある企業が、Account_A という AWS アカウントの eu-east-1 リージョンにある Amazon RDS for PostgreSQL DB インスタンスからデータを移行したいと考えています。この企業は、Account_B という AWS アカウントの eu-west-1 リージョンにある Amazon Redshift クラスターにデータを移行します。
AWS Database Migration Service (AWS DMS) に 2 つのデータストア間でデータをレプリケートする機能を提供するソリューションはどれですか?

113 / 204

113.

No.113
ある会社では、Amazon S3 をデータレイクとして使用しています。この会社は、マルチノードの Amazon Redshift クラスターを使用してデータウェアハウスをセットアップしています。この会社は、各データファイルのデータソースに基づいて、データレイク内のデータファイルを整理しています。
この会社は、データファイルの場所ごとに個別の COPY コマンドを使用して、すべてのデータファイルを Redshift クラスター内の 1 つのテーブルにロードします。この方法では、すべてのデータファイルをテーブルにロードするのに長い時間がかかります。この会社は、データ取り込みの速度を上げる必要があります。この会社は、プロセスのコストを増やしたくありません。
これらの要件を満たすソリューションはどれですか?

114 / 204

114.

★No.114
ある会社が Amazon Kinesis Data Firehose を使用して Amazon S3 にデータを保存する予定です。ソースデータは 2 MB の .csv ファイルで構成されています。会社は .csv ファイルを JSON 形式に変換する必要があります。会社は Apache Parquet 形式でファイルを保存する必要があります。
どのソリューションが、開発の労力を最小限に抑えてこれらの要件を満たしますか?

115 / 204

115.

No.115
ある会社が、オンプレミス環境から AWS にデータを移行するために AWS Transfer Family サーバーを使用しています。会社のポリシーでは、転送中のデータを暗号化するために TLS 1.2 以上の使用が義務付けられています。
これらの要件を満たすソリューションはどれですか?

116 / 204

116.

No.116
ある企業が、アプリケーションとオンプレミスの Apache Kafka サーバーを AWS に移行したいと考えています。アプリケーションは、オンプレミスの Oracle データベースが Kafka サーバーに送信する増分更新を処理します。企業は、リファクタリング戦略ではなく、再プラットフォーム移行戦略を使用したいと考えています。
管理オーバーヘッドが最も少ない状態でこれらの要件を満たすソリューションはどれですか?

117 / 204

117.

No.117
データエンジニアは、AWS Glue を使用して、自動抽出、変換、ロード (ETL) 取り込みパイプラインを構築しています。パイプラインは、Amazon S3 バケットにある圧縮ファイルを取り込みます。取り込みパイプラインは、増分データ処理をサポートする必要があります。
データエンジニアはこの要件を満たすためにどの AWS Glue 機能を使用すべきですか?

118 / 204

118.

No.118
銀行会社がアプリケーションを使用して大量のトランザクションデータを収集しています。この会社はリアルタイム分析に Amazon Kinesis Data Streams を使用しています。この会社のアプリケーションは、PutRecord アクションを使用してデータを Kinesis Data Streams に送信します。
データエンジニアは、1 日の特定の時間帯にネットワークが停止するのを観察しました。データエンジニアは、処理パイプライン全体に対して 1 回限りの配信を設定したいと考えています。
この要件を満たすソリューションはどれですか?

119 / 204

119.

No.119
ある会社が Amazon S3 バケットにログを保存しています。データエンジニアが複数のログファイルにアクセスしようとすると、一部のファイルが意図せず削除されていることに気付きます。
データエンジニアは、将来的に意図しないファイルの削除を防ぐソリューションを必要としています。
どのソリューションが、運用上のオーバーヘッドを最小限に抑えながらこの要件を満たしますか?

120 / 204

120.

No.120
ある通信会社は、毎日、1 秒あたり数千のデータ ポイントの割合でネットワーク使用状況データを収集しています。同社は、使用状況データをリアルタイムで処理するアプリケーションを実行しています。同社は、データを集約して Amazon Aurora DB インスタンスに保存しています。
ネットワーク使用状況の突然の低下は、通常、ネットワークの停止を示しています。同社は、ネットワーク使用状況の突然の低下を識別して、すぐに是正措置を講じることができる必要があります。
どのソリューションが、この要件を最もレイテンシーの少ない方法で満たしますか?

121 / 204

121.

No.121
データ エンジニアが、Amazon S3 にある数テラバイトの生データを処理および分析しています。データ エンジニアは、データをクリーンアップして準備する必要があります。次に、データ エンジニアは分析のためにデータを Amazon Redshift にロードする必要があります。
データ エンジニアには、データ アナリストが複雑なクエリを実行できるソリューションが必要です。ソリューションでは、複雑な抽出、変換、ロード (ETL) プロセスを実行したり、インフラストラクチャを管理したりする必要がなくなる必要があります。
これらの要件を満たす、運用オーバーヘッドが最も少ないソリューションはどれですか?

122 / 204

122.

No.122
ある会社では、AWS Lambda 関数を使用して、従来の SFTP 環境から Amazon S3 バケットにファイルを転送しています。Lambda 関数は VPC 対応で、Lambda 関数と同じ VPC 環境にある他の A​​VS サービスとの間のすべての通信が安全なネットワーク経由で行われるようにします。
Lambda 関数は SFTP 環境に正常に接続できます。ただし、Lambda 関数が S3 バケットにファイルをアップロードしようとすると、Lambda 関数はタイムアウト エラーを返します。データ エンジニアは、タイムアウトの問題を安全な方法で解決する必要があります。
どのソリューションが最もコスト効率の高い方法でこれらの要件を満たしますか?

123 / 204

123.

No.123
ある会社が、Amazon RDS で実行される顧客データベースからデータを読み取ります。データベースには、多くの不整合なフィールドが含まれています。たとえば、あるデータベースで place_id という名前が付けられた顧客レコード フィールドは、別のデータベースでは location_id という名前になっています。会社は、顧客レコード フィールドが一致しない場合でも、異なるデータベース間で顧客レコードをリンクする必要があります。
どのソリューションが、運用オーバーヘッドが最も少なく、これらの要件を満たしますか?

124 / 204

124.

No.124
金融会社がサードパーティのデータプロバイダーからデータを受け取り、そのデータを Amazon S3 バケットにオブジェクトとして保存します。
同社は、オブジェクトに対して AWS Glue クローラーを実行してデータカタログを作成しました。AWS Glue クローラーは複数のテーブルを作成しました。しかし、同社はクローラーが 1 つのテーブルのみを作成すると予想していました。
同社には、AVS Glue クローラーが 1 つのテーブルのみを作成することを保証するソリューションが必要です。
この要件を満たすソリューションの組み合わせはどれですか? (2 つ選択してください)

125 / 204

125.

★No.125
アプリケーションは、Amazon Simple Queue Service (Amazon SQS) キューからのメッセージを消費します。アプリケーションは時々ダウンタイムを経験します。ダウンタイムの結果、キュー内のメッセージは期限切れになり、1 日後に削除されます。メッセージの削除により、アプリケーションのデータ損失が発生します。
アプリケーションのデータ損失を最小限に抑えるソリューションはどれですか? (2 つ選択してください)。

126 / 204

126.

No.126
ある会社が、時系列データを視覚化するためにほぼリアルタイムのダッシュボードを作成しています。会社は、データを Amazon Managed Streaming for Apache Kafka (Amazon MSK) に取り込みます。カスタマイズされたデータパイプラインがデータを消費します。次に、パイプラインは Amazon Keyspaces (Apache Cassandra 用)、Amazon OpenSearch Service、および Amazon S3 の Apache Avro オブジェクトにデータを書き込みます。
どのソリューションが、最もレイテンシーの低いデータ視覚化にデータを利用できるようにしますか?

127 / 204

127.

★No.127
データ エンジニアは、Amazon Redshift データベースに基づくマテリアライズド ビューを管理しています。ビューには、各行がロードされた日付を格納する load_date という列があります。
データ エンジニアは、マテリアライズド ビューからすべての行を削除して、データベース ストレージ領域を再利用する必要があります。
どのコマンドがデータベース ストレージ領域を最も再利用しますか?

128 / 204

128.

No.128
あるメディア企業は、Amazon OpenSearch Service を使用して、人気のミュージシャンや曲に関するリアルタイム データを分析したいと考えています。同社は、毎日何百万もの新しいデータ イベントを取り込む予定です。新しいデータ イベントは、Amazon Kinesis データ ストリームを通じて到着します。同社はデータを変換してから、OpenSearch Service ドメインに取り込む必要があります。
運用オーバーヘッドを最小限に抑えてデータを取り込むには、どの方法を使用すればよいですか。

129 / 204

129.

No.129
ある会社が、顧客住所を含む顧客データテーブルを AWS Lake Formation データレイクに保存しています。新しい規制に準拠するために、会社はユーザーがカナダの顧客のデータにアクセスできないようにする必要があります。
会社には、カナダの顧客の行へのユーザーアクセスを防ぐソリューションが必要です。
どのソリューションが、運用上の労力を最小限に抑えてこの要件を満たしますか?

130 / 204

130.

★No.130
ある会社が Amazon Redshift にレイクハウスアーキテクチャを実装しました。この会社は、サードパーティの ID プロバイダー (IdP) を使用して、ユーザーが Redshift クエリエディターに認証できるようにする必要があります。
データエンジニアは認証メカニズムを設定する必要があります。
この要件を満たすためにデータエンジニアが実行する必要がある最初の手順は何ですか?

131 / 204

131.

No.131
現在、ある会社では、汎用 Amazon EC2 インスタンスを含むプロビジョニングされた Amazon EMR クラスターを使用しています。EMR クラスターでは、会社の長期実行 Apache Spark 抽出、変換、ロード (ETL) ジョブに 1 ~ 5 個のタスクノード間の EMR マネージドスケーリングを使用しています。会社は毎日 ETL ジョブを実行しています。
会社が ETL ジョブを実行すると、EMR クラスターはすぐに 5 ノードまでスケールアップします。EMR クラスターは CPU 使用率が最大に達することがよくありますが、メモリ使用量は 30% 未満のままです。
会社は、毎日の ETL ジョブを実行するための EMR コストを削減するために、EMR クラスター設定を変更したいと考えています。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

132 / 204

132.

No.132
ある会社が .csv ファイルを Amazon S3 バケットにアップロードします。会社のデータ プラットフォーム チームは、データ検出を実行し、テーブルとスキーマを作成するために AWS Glue クローラーを設定しました。
AWS Glue ジョブは、テーブルから処理されたデータを Amazon Redshift データベースに書き込みます。AWS Glue ジョブは列マッピングを処理し、Redshift データベースに Amazon Redshift テーブルを適切に作成します。
会社が何らかの理由で AWS Glue ジョブを再実行すると、重複レコードが Amazon Redshift テーブルに導入されます。会社には、重複なしで Redshift テーブルを更新するソリューションが必要です。
これらの要件を満たすソリューションはどれですか?

133 / 204

133.

No.133
ある会社が Amazon Redshift を使用してデータ ウェアハウス ソリューションを構築しています。この会社は、Redshift クラスター内のファクト テーブルに数百のファイルをロードしています。
この会社は、データ ウェアハウス ソリューションで可能な限り最大のスループットを実現したいと考えています。このソリューションでは、ファクト テーブルにデータをロードするときにクラスター リソースを最適に使用する必要があります。
これらの要件を満たすソリューションはどれですか?

134 / 204

134.

No.134
ある企業が複数のデータソースからデータを取り込み、Amazon S3 バケットにデータを保存します。AWS Glue の抽出、変換、ロード (ETL) ジョブでデータを変換し、変換されたデータを Amazon S3 ベースのデータレイクに書き込みます。この企業は、Amazon Athena を使用して、データレイクにあるデータをクエリします。
レコードに共通の一意の識別子がない場合でも、一致するレコードを識別する必要があります。
この要件を満たすソリューションはどれですか?

135 / 204

135.

No.135
データエンジニアは、AWS Glue クローラーを使用して、Amazon S3 バケット内のデータをカタログ化しています。S3 バケットには、.csv ファイルと json ファイルの両方が含まれています。データエンジニアは、カタログから .json ファイルを除外するようにクローラーを構成しました。
データエンジニアが Amazon Athena でクエリを実行すると、除外された .json ファイルもクエリで処理されます。データエンジニアはこの問題を解決したいと考えています。データエンジニアは、ソース S3 バケット内の .csv ファイルへのアクセス要件に影響を与えないソリューションを必要としています。
どのソリューションが、この要件を最短のクエリ時間で満たしますか?

136 / 204

136.

No.136
データ エンジニアは、Amazon S3 バケットに保存されているオブジェクトを読み取る AWS Lambda 関数を設定しました。オブジェクトは AWS KMS キーによって暗号化されています。
データ エンジニアは、S3 バケットにアクセスするように Lambda 関数の実行ロールを設定しました。しかし、Lambda 関数でエラーが発生し、オブジェクトのコンテンツを取得できませんでした。
エラーの原因として考えられるものは何ですか?

137 / 204

137.

No.137
データ エンジニアが 1,000 個の AWS Glue Data Catalog テーブルにデータ品質ルールを実装しました。最近ビジネス要件が変更されたため、データ エンジニアはデータ品質ルールを編集する必要があります。
データ エンジニアは、運用オーバーヘッドを最小限に抑えながらこの要件を満たすにはどうすればよいですか?

138 / 204

138.

No.138
2 人の開発者が別々のアプリケーション リリースに取り組んでいます。開発者は、GitHub リポジトリのマスター ブランチをソースとして使用して、ブランチ A とブランチ B という名前の機能ブランチを作成しました。
ブランチ A の開発者は、コードを本番システムにデプロイしました。ブランチ B のコードは、翌週に予定されているアプリケーション リリースでマスター ブランチにマージされます。
ブランチ B の開発者がマスター ブランチにプル リクエストを発行する前に実行する必要があるコマンドはどれですか。

139 / 204

139.

★No.139
ある会社が従業員データを Amazon Resdshift に保存しています。Employee という名前のテーブルでは、Region ID、Department ID、および Role ID という名前の列が複合ソート キーとして使用されています。
テーブルの複合ソート キーを使用することで、クエリの速度が最も向上するクエリはどれですか (2 つ選択してください)。

140 / 204

140.

No.140
ある会社が、世界各地にあるテスト施設からテスト結果を受け取ります。会社は、テスト結果を数百万の 1 KB JSON ファイルで Amazon S3 バケットに保存します。データエンジニアは、ファイルを処理し、Apache Parquet 形式に変換して、Amazon Redshift テーブルにロードする必要があります。データエンジニアは、AWS Glue を使用してファイルを処理し、AWS Step Functions を使用してプロセスを調整し、Amazon EventBridge を使用してジョブをスケジュールします。
会社は最近、テスト施設を追加しました。ファイルの処理に必要な時間が増加しています。データエンジニアは、データ処理時間を短縮する必要があります。
データ処理時間を最も短縮できるソリューションはどれですか?

141 / 204

141.

No.141
データエンジニアは、Amazon Managed Workflows for Apache Airflow (Amazon MWAA) を使用して、AWS アカウントでデータパイプラインを実行します。
最近、ワークフローの実行に失敗しました。データエンジニアは、Apache Airflow ログを使用してワークフローの失敗を診断する必要があります。
データエンジニアは、失敗の原因を診断するためにどのログタイプを使用する必要がありますか?

142 / 204

142.

No.142
金融会社では、Amazon Redshift をデータ ウェアハウスとして使用しています。会社は、共有 Amazon S3 バケットにデータを保存しています。同社は、Amazon Redshift Spectrum を使用して、S3 バケットに保存されているデータにアクセスします。データは、認定されたサードパーティのデータプロバイダーから提供されます。各サードパーティのデータプロバイダーには、固有の接続詳細があります。
規制に準拠するには、会社の AWS 環境の外部からデータにアクセスできないようにする必要があります。
これらの要件を満たすために、会社が実行する必要がある手順の組み合わせはどれですか? (2 つ選択してください)。

143 / 204

143.

No.143
複数のデータ ソースからのファイルが定期的に Amazon S3 バケットに到着します。データ エンジニアは、新しいファイルが S3 バケットに到着すると、ほぼリアルタイムで新しいファイルを Amazon Redshift に取り込むことを望んでいます。
これらの要件を満たすソリューションはどれですか?

144 / 204

144.

No.144
現在、あるテクノロジー企業では、Amazon Kinesis Data Streams を使用して、ログデータをリアルタイムで収集しています。同社は、ダウンストリームのリアルタイムクエリに Amazon Redshift を使用し、ログデータを拡充したいと考えています。
どのソリューションが、運用オーバーヘッドが最も少ない状態で Amazon Redshift にデータを取り込むことができますか?

145 / 204

145.

No.145
ある会社では、オンプレミスの Oracle データベースでデータウェアハウスを維持しています。この会社は、AWS 上にデータレイクを構築したいと考えています。この会社は、データウェアハウス テーブルを Amazon S3 にロードし、データウェアハウスから毎日到着する増分データとテーブルを同期したいと考えています。
各テーブルには、単調に増加する値を含む列があります。各テーブルのサイズは 50 GB 未満です。データウェアハウス テーブルは、毎晩午前 1 時から午前 2 時の間に更新されます。ビジネス インテリジェンス チームは、毎日午前 10 時から午後 8 時の間にテーブルをクエリします。
これらの要件を最も効率的に運用できるソリューションはどれですか?

146 / 204

146.

No.146
ある会社が新しい分析チーム用のデータレイクを構築しています。この会社は、ストレージに Amazon S3 を使用し、クエリ分析に Amazon Athena を使用しています。Amazon S3 にあるすべてのデータは、Apache Parquet 形式です。
この会社は、会社のデータセンターでソースシステムとして新しい Oracle データベースを実行しています。この会社の Oracle データベースには 70 個のテーブルがあります。すべてのテーブルには主キーがあります。ソースシステムでデータが時々変更されることがあります。この会社は、テーブルを毎日データレイクに取り込むことを望んでいます。
この要件を最も少ない労力で満たすソリューションはどれですか?

147 / 204

147.

No.147
運送会社は、地理位置情報レコードを取得して車両の動きを追跡したいと考えています。レコードのサイズは 10 バイトです。会社は 1 秒あたり最大 10,000 件のレコードを受信します。ネットワークの状態が不安定なため、数分のデータ転送遅延は許容されます。
運送会社は、Amazon Kinesis Data Streams を使用して地理位置情報データを取り込むことを希望しています。会社は、Kinesis Data Streams にデータを送信するための信頼性の高いメカニズムを必要としています。会社は、Kinesis シャードのスループット効率を最大化する必要があります。
どのソリューションが最も運用効率の高い方法でこれらの要件を満たしますか?

148 / 204

148.

No.148
投資会社は、継続的に増加する半構造化データの量を管理し、そこから洞察を引き出す必要があります。
データエンジニアは、半構造化データの重複を排除し、重複しているレコードを削除し、重複しているレコードの一般的なスペルミスを削除する必要があります。
どのソリューションが、運用上のオーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

149 / 204

149.

No.149
ある会社が、製品を自動的に再注文するための在庫管理システムと在庫再注文システムを構築しています。どちらのシステムも Amazon Kinesis Data Streams を使用しています。在庫管理システムは、Amazon Kinesis Producer Library (KPL) を使用してデータをストリームに公開します。在庫再発注システムは、Amazon Kinesis Client Library (KCL) を使用してストリームからデータを消費します。会社は、必要に応じてストリームをスケールアップおよびスケールダウンするように構成します。
会社がシステムを本番環境にデプロイする前に、在庫再発注システムが重複データを受信したことを発見しました。
再発注システムが重複データを受信した原因として考えられる要因は何ですか? (2 つ選択してください)。

150 / 204

150.

No.150
e コマース会社では、AWS でホストされている複数の運用システムにまたがる複雑な注文処理プロセスを運用しています。各運用システムには、最新の処理状態がキャプチャされる Java データベース接続 (JDBC) 準拠のリレーショナル データベースがあります。
この会社は、運用チームがフルフィルメント プロセス全体にわたって 1 時間ごとに注文を追跡できるようにする必要があります。
開発オーバーヘッドが最も少ないソリューションはどれですか?

151 / 204

151.

No.151
データエンジニアは、Amazon Neptune を使用してグラフアプリケーションを開発する必要があります。
エンジニアはグラフアプリケーションを開発するためにどのプログラミング言語を使用する必要がありますか? (2 つ選択してください)

152 / 204

152.

No.152
モバイル ゲーム会社がゲーム アプリからデータを取得したいと考えています。会社は、そのデータを 3 人の社内データ コンシューマーに提供したいと考えています。データ レコードのサイズは約 20 KB です。
会社は、ゲーム アプリを実行する各デバイスから最適なスループットを実現したいと考えています。さらに、会社はデータ ストリームを処理するアプリケーションを開発したいと考えています。ストリーム処理アプリケーションには、社内コンシューマーごとに専用のスループットが必要です。
これらの要件を満たすソリューションはどれですか?

153 / 204

153.

No.153
小売会社では、Amazon Redshift データウェアハウスと Amazon S3 バケットを使用しています。同社は、小売注文データを毎日 S3 バケットに取り込みます。
同社は、すべての注文データを S3 バケット内の単一のパスに保存します。データには 100 を超える列があります。同社は、毎日 30 を超える CSV 形式のファイルを生成するサードパーティ アプリケーションから注文データを取り込みます。各 CSV ファイルのサイズは 50 ~ 70 MB です。
同社は、Amazon Redshift Spectrum を使用して、列のセットを選択するクエリを実行します。ユーザーは、毎日の注文に基づいてメトリクスを集計します。最近、ユーザーから、クエリのパフォーマンスが低下したという報告がありました。データ エンジニアは、クエリのパフォーマンスの問題を解決する必要があります。
どの手順の組み合わせが、開発の労力を最小限に抑えてこの要件を満たしますか? (2 つ選択してください)。

154 / 204

154.

No.154
ある会社が顧客レコードを Amazon S3 に保存しています。会社は、各レコードが作成されてから 7 年間、顧客レコード データを削除または変更してはなりません。ルート ユーザーにも、データを削除または変更する権限が付与されてはなりません。
データ エンジニアは、S3 オブジェクト ロックを使用してデータを保護したいと考えています。
これらの要件を満たすソリューションはどれですか?

155 / 204

155.

No.155
データ エンジニアは、既存のテーブル old_table と同じスキーマを持つ新しい空のテーブルを Amazon Athena に作成する必要があります。
この要件を満たすためにデータ エンジニアが使用すべき SQL ステートメントはどれですか。

156 / 204

156.

No.156
データエンジニアは、既存の Athena テーブル cities_world のデータのサブセットに基づいて Amazon Athena テーブルを作成する必要があります。cities_world テーブルには、世界中の都市が含まれています。データエンジニアは、cities_world の米国にある都市のみを含む、cities_us という新しいテーブルを作成する必要があります。
この要件を満たすために、データエンジニアはどの SQL ステートメントを使用する必要がありますか?

157 / 204

157.

★No.157
ある会社が、中央ガバナンス アカウントを持つデータ メッシュを実装しています。会社は、ガバナンス アカウント内のすべてのデータをカタログ化する必要があります。ガバナンス アカウントは、AWS Lake Formation を使用して、データを一元的に共有し、アクセス権限を付与します。
会社は、Amazon Redshift Serverless テーブルのグループを含む新しいデータ製品を作成しました。データ エンジニアは、データ製品をマーケティング チームと共有する必要があります。マーケティング チームは、列のサブセットのみにアクセスできる必要があります。データ エンジニアは、同じデータ製品をコンプライアンス チームと共有する必要があります。コンプライアンス チームは、マーケティング チームがアクセスする必要がある列とは異なるサブセットにアクセスできる必要があります。
これらの要件を満たすために、データ エンジニアが実行する必要がある手順の組み合わせはどれですか? (2 つ選択してください)。

158 / 204

158.

No.158
ある会社には Amazon S3 にデータレイクがあります。会社は AWS Glue を使用してデータをカタログ化し、AWS Glue Studio を使用してデータの抽出、変換、ロード (ETL) パイプラインを実装しています。
会社は、パイプラインが実行されるたびにデータ品質の問題がチェックされるようにする必要があります。データエンジニアは、既存のパイプラインを強化して、定義済みのしきい値に基づいてデータ品質ルールを評価する必要があります。
どのソリューションが、最小限の実装労力でこれらの要件を満たしますか?

159 / 204

159.

No.159
ある会社には、マイクロサービス アーキテクチャを使用するアプリケーションがあります。この会社は、Amazon Elastic Kubernetes Services (Amazon EKS) クラスターでアプリケーションをホストしています。
この会社は、アプリケーション用の堅牢なモニタリング システムを設定したいと考えています。この会社は、EKS クラスターとアプリケーションからのログを分析する必要があります。この会社は、クラスターのログをアプリケーションのトレースと相関させて、アプリケーション リクエスト フロー全体の障害点を特定する必要があります。
どのステップの組み合わせが、開発の労力を最小限に抑えながらこれらの要件を満たすでしょうか (2 つ選択してください)。

160 / 204

160.

No.160
ある会社には、Amazon DynamoDB テーブルにデータを保存するゲーム アプリケーションがあります。データ エンジニアは、ゲーム データを Amazon OpenSearch Service クラスターに取り込む必要があります。データの更新はほぼリアルタイムで実行する必要があります。
これらの要件を満たすソリューションはどれですか?

161 / 204

161.

No.161
ある会社では、データ ウェアハウス サービスとして Amazon Redshift を使用しています。データ エンジニアは物理データ モデルを設計する必要があります。
データ エンジニアは、サイズが拡大している非正規化テーブルに遭遇しました。テーブルには、分散キーとして使用するのに適した列がありません。
データ エンジニアは、メンテナンスのオーバーヘッドを最小限に抑えながらこれらの要件を満たすために、どの分散スタイルを使用すればよいですか?

162 / 204

162.

No.162
小売企業がグローバルに事業を拡大しています。この企業は、財務レポートの為替レートを正確に計算するために Amazon QuickSight を使用する必要があります。この企業には、グローバル通貨の値と為替レートを含むデータセットの分析に基づくビジュアルを含む既存のダッシュボードがあります。
データエンジニアは、為替レートが小数点以下 4 桁の精度で計算されるようにする必要があります。計算は事前に計算されている必要があります。データエンジニアは、結果を QuickSight の超高速並列インメモリ計算エンジン (SPICE) で実現する必要があります。
これらの要件を満たすソリューションはどれですか?

163 / 204

163.

★No.163
ある会社には 3 つの子会社があります。各子会社は異なるデータ ウェアハウス ソリューションを使用しています。最初の子会社は Amazon Redshift でデータ ウェアハウスをホストしています。2 番目の子会社は AWS で Teradata Vantage を使用しています。3 番目の子会社は Google BigQuery を使用しています。
会社はすべてのデータを中央の Amazon S3 データ レイクに集約したいと考えています。会社はテーブル形式として Apache Iceberg を使用したいと考えています。
データ エンジニアは、すべてのデータ ソースに接続し、各ソース エンジンを使用して変換を実行し、データを結合して Iceberg にデータを書き込むための新しいパイプラインを構築する必要があります。
どのソリューションが、最小限の運用労力でこれらの要件を満たしますか?

164 / 204

164.

No.164
ある会社がデータストリーム処理アプリケーションを構築しています。アプリケーションは Amazon Elastic Kubernetes Service (Amazon EKS) クラスターで実行されます。アプリケーションは処理されたデータを Amazon DynamoDB テーブルに保存します。
会社では、EKS クラスター内のアプリケーション コンテナが DynamoDB テーブルに安全にアクセスできるようにする必要があります。会社は、コンテナに AWS 認証情報を埋め込むことを望んでいません。
これらの要件を満たすソリューションはどれですか?

165 / 204

165.

No.165
データエンジニアは、新しいデータプロデューサーを AWS にオンボードする必要があります。データプロデューサーは、データ製品を AWS に移行する必要があります。
データプロデューサーは、ビジネスアプリケーションをサポートする多くのデータパイプラインを維持しています。各パイプラインには、サービスアカウントとそれに対応する認証情報が必要です。データエンジニアは、データプロデューサーのオンプレミスデータセンターから AWS への安全な接続を確立する必要があります。データエンジニアは、オンプレミスデータセンターから AWS にデータを転送するためにパブリックインターネットを使用してはなりません。
これらの要件を満たすソリューションはどれですか?

166 / 204

166.

★No.166
データ エンジニアは、Amazon S3 バケットに保存されているデータ用に AWS Glue データ カタログを構成しました。データ エンジニアは、増分更新を受信するようにデータ カタログを構成する必要があります。
データ エンジニアは、S3 バケットのイベント通知を設定し、S3 イベントを受信するための Amazon Simple Queue Service (Amazon SQS) キューを作成します。
データ エンジニアは、これらの要件を最小の運用オーバーヘッドで満たすために、どの手順の組み合わせを実行する必要がありますか? (2 つ選択してください。)

167 / 204

167.

No.167
ある会社では、AWS Glue データカタログを使用して、Amazon S3 バケットに毎日アップロードされるデータをインデックス化しています。この会社は、抽出、変換、ロード (ETL) パイプラインで毎日のバッチプロセスを使用して、外部ソースから S3 バケットにデータをアップロードしています。
この会社は、S3 データに関する日次レポートを実行します。日によっては、毎日のデータがすべて S3 バケットにアップロードされる前にレポートを実行します。データエンジニアは、既存の Amazon Simple Notification Service (Amazon SNS) トピックに、不完全なデータを識別するメッセージを送信できる必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこの要件を満たしますか?

168 / 204

168.

No.168
ある会社が、個人を特定できる情報 (PII) を含む顧客データを Amazon Redshift クラスターに保存しています。会社のマーケティング、請求、分析の各チームは、顧客データにアクセスできる必要があります。
マーケティング チームは難読化された請求情報にアクセスできる必要がありますが、顧客の連絡先情報には完全にアクセスできる必要があります。請求チームは、チームが処理する各請求の顧客情報にアクセスできる必要があります。分析チームは、難読化された PII データにのみアクセスできる必要があります。
どのソリューションが、管理オーバーヘッドを最小限に抑えながら、これらのデータ アクセス要件を適用しますか?

169 / 204

169.

No.169
金融会社が最近、モバイルアプリに機能を追加しました。新機能のために、既存の Amazon Managed Streaming for Apache Kafka (Amazon MSK) クラスターに新しいトピックを作成する必要がありました。
会社が新しいトピックを追加してから数日後、Amazon CloudWatch が MSK クラスターの RootDiskUsed メトリクスでアラームを発しました。
会社は CloudWatch アラームにどのように対処する必要がありますか?

170 / 204

170.

No.170
データ エンジニアは、会社の Amazon S3 バケットと Amazon RDS データベースに基づいてエンタープライズ データ カタログを構築する必要があります。データ カタログには、カタログ内のデータのストレージ形式のメタデータが含まれている必要があります。
これらの要件を最も少ない労力で満たすソリューションはどれですか?

171 / 204

171.

No.171
ある会社では、四半期ごとにデータレイクのデータを分析して在庫評価を行っています。データエンジニアは、AWS Glue DataBrew を使用して、データ内の顧客に関する個人識別情報 (PII) を検出します。会社のプライバシーポリシーでは、一部のカスタム情報カテゴリを PII と見なしています。ただし、これらのカテゴリは標準の DataBrew データ品質ルールには含まれていません。
データエンジニアは、データレイク内の複数のデータセットにわたってカスタム PII カテゴリをスキャンするために、現在のプロセスを変更する必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

172 / 204

172.

No.172
ある会社は、パートナーから毎日 Amazon S3 バケットにデータファイルを受け取ります。会社は、毎日の AWS Glue 抽出、変換、ロード (ETL) パイプラインを使用して、各データファイルをクリーンアップおよび変換します。ETL パイプラインの出力は、2 番目の S3 バケットの Daily.csv という CSV ファイルに書き込まれます。
場合によっては、毎日のデータファイルが空であったり、必須フィールドの値が欠落していたり​​することがあります。ファイルにデータが欠落している場合、会社は前日の CSV ファイルを使用できます。
データエンジニアは、新しい毎日のファイルが完全で有効な場合にのみ、前日のデータファイルが上書きされるようにする必要があります。
最も少ない労力でこれらの要件を満たすソリューションはどれですか?

173 / 204

173.

No.173
マーケティング会社では、Amazon S3 を使用してマーケティングデータを保存しています。この会社は、一部のバケットでバージョン管理を使用しています。この会社は、バケットにデータを読み取ってロードするために、いくつかのジョブを実行します。
ストレージのコストを最適化するために、同社は S3 バケットに存在する不完全なマルチパートアップロードと古いバージョンに関する情報を収集したいと考えています。
これらの要件を、最も少ない運用労力で満たすソリューションはどれですか?

174 / 204

174.

No.174
あるゲーム会社では、Amazon Kinesis Data Streams を使用してクリックストリームデータを収集しています。同社は Amazon Data Firehose 配信ストリームを使用して、データを JSON 形式で Amazon S3 に保存しています。同社のデータ サイエンティストは、Amazon Athena を使用して最新のデータをクエリし、ビジネス インサイトを取得しています。
同社は Athena のコストを削減したいと考えていますが、データ パイプラインを再作成することは望んでいません。
どのソリューションが、管理の手間を最小限に抑えてこれらの要件を満たしますか?

175 / 204

175.

No.175
ある会社では、既存の Amazon DynamoDB テーブルのコストを管理するためのソリューションが必要です。また、テーブルのサイズを制御する必要もあります。ソリューションは、進行中の読み取りまたは書き込み操作を中断してはなりません。会社は、1 か月後にテーブルからデータを自動的に削除するソリューションを使用したいと考えています。
どのソリューションが、継続的なメンテナンスを最小限に抑えながらこれらの要件を満たしますか?

176 / 204

176.

★No.176
ある会社では、Amazon S3 を使用してデータを保存し、Amazon QuickSight を使用して視覚化を作成しています。
この会社には、Hub-Account という AWS アカウントに S3 バケットがあります。S3 バケットは、AWS Key Management Service (AWS KMS) キーによって暗号化されています。この会社の QuickSight インスタンスは、BI-Account という別のアカウントにあります。
この会社は、S3 バケットポリシーを更新して、QuickSight サービスロールにアクセス権を付与します。この会社は、クロスアカウントアクセスを有効にして、QuickSight が S3 バケットとやり取りできるようにしたいと考えています。
この要件を満たす手順の組み合わせはどれですか (2 つ選択してください)。

177 / 204

177.

No.177
ある自動車販売会社では、ある地域で販売されている自動車に関するデータを管理しています。この会社は、毎日データを圧縮ファイルとして Amazon S3 にアップロードするベンダーから新車リストに関するデータを受け取ります。圧縮ファイルのサイズは最大 5 KB です。この会社は、データが Amazon S3 にアップロードされるとすぐに最新のリストを確認したいと考えています。
データエンジニアは、ダッシュボードにフィードするために、リストのデータ処理ワークフローを自動化および調整する必要があります。また、データエンジニアは、1 回限りのクエリと分析レポートを実行する機能も提供する必要があります。クエリソリューションはスケーラブルである必要があります。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

178 / 204

178.

No.178
ある会社では、複数の AWS リージョンに AWS リソースがあります。会社が運営する各リージョンには、Amazon EFS ファイルシステムがあります。会社のデータサイエンスチームは、単一のリージョン内でのみ運営しています。データサイエンスチームが扱うデータは、チームのリージョン内にとどまっている必要があります。
データエンジニアは、会社の各リージョン EFS ファイルシステムにあるファイルを処理して、単一のデータセットを作成する必要があります。データエンジニアは、AWS Step Functions ステートマシンを使用して、AWS Lambda 関数をオーケストレーションし、データを処理したいと考えています。
どのソリューションが、最小限の労力でこれらの要件を満たしますか?

179 / 204

179.

No.179
ある企業が Amazon EC2 インスタンスでアプリケーションをホストしています。企業は、顧客が管理する AWS インフラストラクチャと安全に通信するために、転送中のデータを暗号化する SSL/TLS 接続を使用する必要があります。
データ エンジニアは、デジタル証明書の生成、配布、ローテーションを簡素化するソリューションを実装する必要があります。ソリューションは、SSL/TLS 証明書を自動的に更新してデプロイする必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

180 / 204

180.

No.180
企業は、顧客データを Amazon S3 バケットに保存します。同社は、AWS KMS キー (SSE-KMS) を使用したサーバー側暗号化を使用してバケットを暗号化しています。データセットには、社会保障番号やアカウントの詳細などの個人識別情報 (PII) が含まれています。
PII としてタグ付けされたデータは、同社が顧客データを分析に使用する前にマスクする必要があります。一部のユーザーは、前処理フェーズ中に PII データに安全にアクセスする必要があります。同社には、エンジニアリング パイプライン全体を通じて PII データをマスクして保護するための、メンテナンスの手間がかからないソリューションが必要です。
これらの要件を満たすソリューションの組み合わせはどれですか (2 つ選択してください)。

181 / 204

181.

No.181
データエンジニアが Amazon EMR クラスターを起動しています。データエンジニアが新しいクラスターにロードする必要があるデータは現在、Amazon S3 バケットにあります。データエンジニアは、保存時と転送時の両方でデータが暗号化されていることを確認する必要があります。
S3 バケット内のデータは、AWS Key Management Service (AWS KMS) キーによって暗号化されています。データエンジニアには、Privacy Enhanced Mail (PEM) ファイルがある Amazon S3 パスがあります。
これらの要件を満たすソリューションはどれですか?

182 / 204

182.

No.182
小売会社が Amazon Redshift クラスターを使用してリアルタイムの在庫管理をサポートしています。同社は Amazon SageMaker のリアルタイムエンドポイントに ML モデルをデプロイしました。
同社はリアルタイムの在庫推奨を作成したいと考えています。同社はまた、将来の在庫ニーズについても予測したいと考えています。
これらの要件を満たすソリューションはどれですか? (2 つ選択してください)

183 / 204

183.

No.183
ある会社が CSV ファイルを Amazon S3 バケットに保存しています。データ エンジニアは CSV ファイルのデータを処理し、処理したデータを新しい S3 バケットに保存する必要があります。
このプロセスでは、列の名前を変更し、特定の列を削除し、各ファイルの 2 行目を無視し、データの最初の行の値に基づいて新しい列を作成し、列の数値で結果をフィルターする必要があります。
どのソリューションが、開発の労力を最小限に抑えてこれらの要件を満たしますか?

184 / 204

184.

No.184
ある会社が Amazon Redshift をデータウェアハウスとして使用しています。データ エンコーディングは、データウェアハウスの既存のテーブルに適用されます。データ エンジニアは、一部のテーブルに適用されている圧縮エンコーディングがデータに最適ではないことを発見しました。
データ エンジニアは、エンコーディングが最適でないテーブルのデータ エンコーディングを改善する必要があります。
この要件を満たすソリューションはどれですか?

185 / 204

185.

No.185
この会社は大量の顧客レコードを Amazon S3 に保存しています。規制に準拠するために、レコードが作成されてから最初の 30 日間は、新しい顧客レコードにすぐにアクセスできる必要があります。会社は、30 日以上前のレコードにはあまりアクセスしません。
この会社は、Amazon S3 ストレージのコストを最適化する必要があります。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

186 / 204

186.

No.186
データエンジニアは、Amazon QuickSight を使用して、複数の AWS リージョンでの会社の収益を報告するダッシュボードを構築しています。データエンジニアは、ビジュアルに表示されるドリルダウンレベルに関係なく、ダッシュボードにリージョンの合計収益を表示したいと考えています。
これらの要件を満たすソリューションはどれですか?

187 / 204

187.

No.187
小売会社が顧客データを Amazon S3 バケットに保存しています。顧客データの一部には、顧客に関する個人識別情報 (PII) が含まれています。会社は PII データをビジネスパートナーと共有してはなりません。
データエンジニアは、データセット内のオブジェクトをビジネスパートナーが利用できるようにする前に、データセットに PII が含まれているかどうかを判断する必要があります。
最も手動介入が少なくてこの要件を満たすソリューションはどれですか?

188 / 204

188.

No.188
データ エンジニアは、データ処理タスクを実行するために、Amazon Athena の既存のテーブルの空のコピーを作成する必要があります。Athena の既存のテーブルには 1,000 行が含まれています。
この要件を満たすクエリはどれですか?

189 / 204

189.

No.189
ある会社には Amazon S3 にデータレイクがあります。この会社は複数のアプリケーションの AWS CloudTrail ログを収集しています。この会社はデータレイクにログを保存し、AWS Glue でログをカタログ化し、年に基づいてログをパーティション分割します。この会社は Amazon Athena を使用してログを分析します。
最近、顧客から、At​​hena テーブルの 1 つに対するクエリでデータが返されなかったという報告がありました。データエンジニアがこの問題を解決する必要があります。
データエンジニアが実行すべきトラブルシューティング手順の組み合わせはどれですか? (2 つ選択してください)

190 / 204

190.

No.190
データ エンジニアは、AWS で実行される一連の抽出、変換、ロード (ETL) ジョブをオーケストレーションしたいと考えています。ETL ジョブには、Amazon EMR で Apache Spark ジョブを実行し、Salesforce への API 呼び出しを行い、Amazon Redshift にデータをロードする必要があるタスクが含まれています。
ETL ジョブは、失敗と再試行を自動的に処理する必要があります。データ エンジニアは、Python を使用してジョブをオーケストレーションする必要があります。
これらの要件を満たすサービスはどれですか?

191 / 204

191.

No.191
データ エンジニアは、多くの AWS Lambda 関数が使用するデータ フォーマット プロセスを実行するカスタム Python スクリプトを管理しています。データ エンジニアが Python スクリプトを変更する必要がある場合、データ エンジニアはすべての Lambda 関数を手動で更新する必要があります。
データ エンジニアは、Lambda 関数を更新するためのより手動の手間の少ない方法を必要としています。
この要件を満たすソリューションはどれですか?

192 / 204

192.

No.192
ある会社が顧客データを Amazon S3 バケットに保存しています。会社内の複数のチームが顧客データをダウンストリーム分析に使用したいと考えています。会社は、チームが顧客に関する個人識別情報 (PII) にアクセスできないようにする必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこの要件を満たしますか?

193 / 204

193.

No.193
ある会社が処理済みのデータを S3 バケットに保存しています。この会社には厳格なデータ アクセス ポリシーがあります。この会社は IAM ロールを使用して、社内のチームに S3 バケットへのさまざまなレベルのアクセスを許可しています。
この会社は、ユーザーがデータ アクセス ポリシーに違反したときに通知を受け取りたいと考えています。各通知には、ポリシーに違反したユーザーのユーザー名が含まれている必要があります。
これらの要件を満たすソリューションはどれですか?

194 / 204

194.

No.194
ある会社では、サードパーティから取得した顧客データを Amazon Redshift データ ウェアハウスにロードする必要があります。この会社は、注文データと製品データを同じデータ ウェアハウスに保存しています。この会社は、結合されたデータセットを使用して、潜在的な新規顧客を特定したいと考えています。
データ エンジニアは、ソース データのフィールドの 1 つに JSON 形式の値が含まれていることに気付きました。
データ エンジニアは、最小限の労力で JSON データをデータ ウェアハウスにロードするにはどうすればよいでしょうか。

195 / 204

195.

No.195
ある会社が、MySQL データベースに保存している販売記録を分析したいと考えています。会社は、その記録を Salesforce が特定した販売機会と相関させたいと考えています。
会社は毎日 2 GB の販売記録を受け取ります。会社には 100 GB の特定された販売機会があります。データエンジニアは、販売記録と販売機会を分析して相関させるプロセスを開発する必要があります。このプロセスは毎晩 1 回実行する必要があります。
どのソリューションが、運用オーバーヘッドが最も少なく、これらの要件を満たしますか?

196 / 204

196.

No.196
ある会社がサーバーログを Amazon S3 バケットに保存しています。会社はログを 1 年間保持する必要があります。1 年後にはログは必要ありません。
データエンジニアは、1 年以上経過したログを自動的に削除するソリューションを必要としています。
最も少ない運用オーバーヘッドでこれらの要件を満たすソリューションはどれですか?

197 / 204

197.

No.197
ある会社が、複数のステップを含む AWS Step Functions のサーバーレスデータ処理ワークフローを設計しています。処理ワークフローは外部 API からデータを取り込み、複数の AWS Lambda 関数を使用してデータを変換し、変換されたデータを Amazon DynamoDB にロードします。
会社では、受信データの内容に基づいて特定の手順を実行するワークフローが必要です。
この要件を満たすには、どの Step Functions 状態タイプを使用する必要がありますか?

198 / 204

198.

No.198
データエンジニアが Amazon Athena に cloudtrail_logs というテーブルを作成し、AWS CloudTrail ログをクエリして監査用のデータを準備しました。データエンジニアは、2024 年の初めから発生したエラーをエラーコードとともに表示するクエリを作成する必要があります。クエリは最新の 10 件のエラーを返す必要があります。
これらの要件を満たすクエリはどれですか?

199 / 204

199.

No.199
オンライン小売業者は、複数の配送パートナーを使用して顧客に商品を配送しています。配送パートナーは注文の概要を小売業者に送信します。小売業者は注文の概要を Amazon S3 に保存します。
注文の概要の一部には、顧客に関する個人識別情報 (PII) が含まれています。データエンジニアは注文の概要で PII を検出して、会社が PII を編集できるようにする必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えてこれらの要件を満たしますか?

200 / 204

200.

No.200
ある会社には、ユーザーがさまざまな IAM ロールを使用してアクセスする Amazon Redshift データ ウェアハウスがあります。毎日 100 人以上のユーザーがデータ ウェアハウスにアクセスしています。
会社は、各ユーザーの職務、権限、およびデータの機密性に基づいて、オブジェクトへのユーザー アクセスを制御したいと考えています。
これらの要件を満たすソリューションはどれですか?

201 / 204

201.

No.201
ある会社では、データ ガバナンスおよびビジネス カタログ ソリューションとして Amazon DataZone を使用しています。会社はデータを Amazon S3 データレイクに保存しています。会社は AWS Glue を AWS Glue データカタログとともに使用しています。
データエンジニアは、AWS Glue データ品質スコアを Amazon DataZone ポータルに公開する必要があります。
この要件を満たすソリューションはどれですか?

202 / 204

202.

No.202
ある会社には Amazon Redshift にデータウェアハウスがあります。セキュリティ規制に準拠するために、会社はデータウェアハウスのすべてのユーザーアクティビティと接続アクティビティをログに記録して保存する必要があります。
これらの要件を満たすソリューションはどれですか?

203 / 204

203.

No.203
ある企業が、データウェアハウスを Teradata から Amazon Redshift に移行したいと考えています。
どのソリューションが、運用上の労力を最小限に抑えてこの要件を満たしますか?

204 / 204

204.

No.204
ある会社では、さまざまな AWS およびサードパーティのデータストアを使用しています。この会社は、すべてのデータを中央データウェアハウスに統合して分析を実行したいと考えています。ユーザーは、分析クエリの応答時間を短縮する必要があります。
この会社は、Amazon QuickSight をダイレクトクエリモードで使用してデータを視覚化します。ユーザーは通常、予測できないスパイクが発生するクエリを毎日数時間実行します。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

Your score is

0%

 

■AWS DEA-C01(JP) Q.1-100

/100

AWS DEA-C01(JP) Q.1-100

[Q. 1-100] AWS Certified Data Engineer - Associate は、コアデータ関連の AWS サービスに関するスキルと知識や、データの取り込みと変換、プログラミングの概念を適用しながらのデータパイプラインのオーケストレート、データモデルの設計、データライフサイクルの管理、データ品質の確保といった能力を検証します。

1 / 100

1.

No.1
データエンジニアは、Amazon S3 バケットからデータを読み取るための AWS Glue ジョブを設定しています。データエンジニアは、必要な AWS Glue 接続の詳細と関連する IAM ロールを設定しました。ただし、データエンジニアが AWS Glue ジョブを実行しようとすると、Amazon S3 VPC ゲートウェイエンドポイントに問題があることを示すエラーメッセージが表示されます。
データエンジニアはエラーを解決し、AWS Glue ジョブを S3 バケットに接続する必要があります。
この要件を満たすソリューションはどれですか?

2 / 100

2.

No.2
ある小売会社では、Amazon S3 バケットに顧客データハブがあります。多くの国の従業員がデータハブを使用して、会社全体の分析をサポートしています。ガバナンス チームは、会社のデータ アナリストがアナリストと同じ国内にいる顧客のデータにのみアクセスできるようにする必要があります。
どのソリューションが、最小限の運用労力でこれらの要件を満たしますか?

3 / 100

3.

No.3
メディア企業は、ユーザーの行動と好みに基づいて顧客にメディアコンテンツを推奨するシステムを改善したいと考えています。推奨システムを改善するには、サードパーティのデータセットからの洞察を会社の既存の分析プラットフォームに組み込む必要があります。
会社は、サードパーティのデータセットを組み込むために必要な労力と時間を最小限に抑えたいと考えています。
最も少ない運用オーバーヘッドでこれらの要件を満たすソリューションはどれですか?

4 / 100

4.

No.4
金融会社がデータメッシュを実装したいと考えています。データメッシュは、集中型データガバナンス、データ分析、およびデータアクセス制御をサポートする必要があります。同社は、データカタログと抽出、変換、ロード (ETL) 操作に AWS Glue を使用することを決定しました。
データメッシュを実装する AWS サービスの組み合わせはどれですか? (2 つ選択してください)

5 / 100

5.

No.5
データエンジニアは、多くの AWS Lambda 関数が使用するデータフォーマット処理を実行するカスタム Python スクリプトを管理しています。データエンジニアが Python スクリプトを変更する必要がある場合、データエンジニアはすべての Lambda 関数を手動で更新する必要があります。
データエンジニアは、Lambda 関数を更新するためのより手動の手間の少ない方法を必要としています。
この要件を満たすソリューションはどれですか?

6 / 100

6.

No.6
ある会社が AWS Glue で抽出、変換、ロード (ETL) データ パイプラインを作成しました。データ エンジニアは、Microsoft SQL Server にあるテーブルをクロールする必要があります。データ エンジニアは、クロールの出力を抽出、変換し、Amazon S3 バケットにロードする必要があります。また、データ エンジニアはデータ パイプラインをオーケストレーションする必要もあります。
これらの要件を最もコスト効率よく満たす AWS サービスまたは機能はどれですか?

7 / 100

7.

No.7
金融サービス会社が Amazon Redshift に金融データを保存しています。データエンジニアは、Web ベースの取引アプリケーションをサポートするために、金融データに対してリアルタイムクエリを実行したいと考えています。データエンジニアは、取引アプリケーション内からクエリを実行したいと考えています。
運用オーバーヘッドが最も少ないソリューションはどれですか?

8 / 100

8.

No.8
ある会社では、Amazon S3 にあるデータに対する 1 回限りのクエリに Amazon Athena を使用しています。この会社には複数のユースケースがあります。この会社は、同じ AWS アカウント内のユーザー、チーム、アプリケーション間でクエリプロセスとクエリ履歴へのアクセスを分離するためのアクセス許可制御を実装する必要があります。
これらの要件を満たすソリューションはどれですか?

9 / 100

9.

No.9
データエンジニアは、AWS Glue ジョブのセットを毎日実行するワークフローをスケジュールする必要があります。データエンジニアは、Glue ジョブが特定の時間に実行または終了することを必要としません。
どのソリューションが最もコスト効率の高い方法で Glue ジョブを実行しますか?

10 / 100

10.

No.10
データ エンジニアは、データの形式を .csv から Apache Parquet に変換する AWS Lambda 関数を作成する必要があります。Lambda 関数は、ユーザーが .csv ファイルを Amazon S3 バケットにアップロードした場合にのみ実行する必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えてこれらの要件を満たしますか?

11 / 100

11.

No.11
データ エンジニアは、Amazon Athena クエリをより速く完了する必要があります。データ エンジニアは、Athena クエリが使用するすべてのファイルが現在、圧縮されていない .csv 形式で保存されていることに気付きました。また、データ エンジニアは、ユーザーが特定の列を選択してほとんどのクエリを実行していることに気付きました。
Athena クエリのパフォーマンスを最も高速化するソリューションはどれですか?

12 / 100

No.12
製造会社では、工場の現場からセンサーデータを収集して、運用効率を監視および強化しています。同社は Amazon Kinesis Data Streams を使用して、センサーが収集したデータをデータストリームに公開します。次に、Amazon Kinesis Data Firehose がデータを Amazon S3 バケットに書き込みます。
同社は、製造施設の大型スクリーンに運用効率のリアルタイム ビューを表示する必要があります。

12. どのソリューションが、最も低いレイテンシーでこれらの要件を満たしますか?

13 / 100

13.

No.13
ある会社では、投資ポートフォリオの財務実績の毎日の記録を .csv 形式で Amazon S3 バケットに保存しています。データエンジニアは、AWS Glue クローラーを使用して S3 データをクロールします。
データエンジニアは、AWS Glue データカタログで S3 データを毎日アクセスできるようにする必要があります。
これらの要件を満たすソリューションはどれですか?

14 / 100

14.

No.14
ある会社では、毎日の終わりに、毎日のトランザクションデータを Amazon Redshift テーブルにロードします。会社は、どのテーブルがロードされたか、どのテーブルがまだロードする必要があるかを追跡できるようにしたいと考えています。
データエンジニアは、Redshift テーブルのロードステータスを Amazon DynamoDB テーブルに保存したいと考えています。データエンジニアは、ロードステータスの詳細を DynamoDB に公開する AWS Lambda 関数を作成します。
データエンジニアは、ロードステータスを DynamoDB テーブルに書き込むために、どのように Lambda 関数を呼び出す必要がありますか?

15 / 100

15.

No.15
データ エンジニアは、オンプレミスのデータ センターから Amazon S3 バケットに 5 TB のデータを安全に転送する必要があります。データの約 5% が毎日変更されます。データの更新は、S3 バケットに定期的に拡散する必要があります。データには、複数の形式のファイルが含まれます。データ エンジニアは転送プロセスを自動化する必要があり、プロセスが定期的に実行されるようにスケジュールする必要があります。
データ エンジニアは、最も運用効率の高い方法でデータを転送するためにどの AWS サービスを使用する必要がありますか?

16 / 100

16.

No.16
ある会社では、オンプレミスの Microsoft SQL Server データベースを使用して金融取引データを保存しています。この会社は、毎月末に取引データをオンプレミスのデータベースから AWS に移行しています。この会社は、オンプレミスのデータベースから Amazon RDS for SQL Server データベースにデータを移行するコストが最近増加していることに気付きました。
この会社は、データを AWS に移行するためのコスト効率の高いソリューションを必要としています。このソリューションは、データベースにアクセスするアプリケーションのダウンタイムを最小限に抑える必要があります。
これらの要件を満たすために、この会社はどの AWS サービスを使用すべきですか?

17 / 100

17.

No.17
データ エンジニアは、AWS Glue の抽出、変換、ロード (ETL) ジョブを使用して AWS 上にデータ パイプラインを構築しています。データ エンジニアは、Amazon RDS と MongoDB からのデータを処理し、変換を実行し、変換されたデータを分析用に Amazon Redshift にロードする必要があります。データの更新は 1 時間ごとに実行する必要があります。
どのタスクの組み合わせが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか? (2 つ選択してください)。

18 / 100

18.

No.18
ある会社では、RA3 ノードで実行される Amazon Redshift クラスターを使用しています。この会社は、需要に合わせて読み取りおよび書き込み容量を拡張したいと考えています。データエンジニアは、同時実行スケーリングを有効にするソリューションを特定する必要があります。
この要件を満たすソリューションはどれですか?

19 / 100

19.

No.19
データエンジニアは、毎日実行される一連の Amazon Athena クエリをオーケストレーションする必要があります。各クエリは 15 分以上実行されることがあります。
これらの要件を最もコスト効率よく満たす手順の組み合わせはどれですか? (2 つ選択してください)

20 / 100

20.

No.20
ある企業がオンプレミスのワークロードを AWS に移行しています。この企業は、全体的な運用オーバーヘッドを削減したいと考えています。また、サーバーレス オプションも検討したいと考えています。
この企業の現在のワークロードでは、Apache Pig、Apache Oozie、Apache Spark、Apache Hbase、および Apache Flink を使用しています。オンプレミスのワークロードは、ペタバイト単位のデータを数秒で処理します。この企業は、AWS への移行後も同等以上のパフォーマンスを維持する必要があります。
これらの要件を満たす抽出、変換、ロード (ETL) サービスはどれですか?

21 / 100

21.

No.21
データ エンジニアは、AWS サービスを使用して、データセットを Amazon S3 データ レイクに取り込む必要があります。データ エンジニアはデータセットをプロファイルし、データセットに個人を特定できる情報 (PII) が含まれていることを発見します。データ エンジニアは、データセットをプロファイルして PII を難読化するソリューションを実装する必要があります。
どのソリューションが、最も少ない運用労力でこの要件を満たしますか?

22 / 100

22.

No.22
ある会社では、会社の運用データベースから Amazon S3 ベースのデータレイクにデータを取り込む複数の抽出、変換、ロード (ETL) ワークフローを維持しています。ETL ワークフローは、AWS Glue と Amazon EMR を使用してデータを処理します。
この会社は、既存のアーキテクチャを改善して、自動化されたオーケストレーションを提供し、手作業を最小限に抑えたいと考えています。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

23 / 100

23.

No.23
現在、ある会社では、S3 標準ストレージ クラスを使用して、すべてのデータを Amazon S3 に保存しています。
データ エンジニアは、傾向を特定するためにデータ アクセス パターンを調べました。最初の 6 か月間は、ほとんどのデータ ファイルが 1 日に数回アクセスされます。6 か月から 2 年の間は、ほとんどのデータ ファイルが月に 1 回か 2 回アクセスされます。2 年後、データ ファイルへのアクセスは年に 1 回か 2 回のみになります。
データ エンジニアは、S3 ライフサイクル ポリシーを使用して、新しいデータ ストレージ ルールを開発する必要があります。新しいストレージ ソリューションは、引き続き高可用性を提供する必要があります。
これらの要件を最もコスト効率の高い方法で満たすソリューションはどれですか?

24 / 100

24.

No.24
ある会社では、重要な分析タスクをサポートするために、抽出、変換、ロード (ETL) 操作に使用する Amazon Redshift プロビジョニング済みクラスターを維持しています。会社内の営業チームは、営業チームがビジネス インテリジェンス (BI) タスクに使用する Redshift クラスターを維持しています。
営業チームは最近、チームが毎週の要約分析タスクを実行できるように、ETL Redshift クラスターにあるデータへのアクセスを要求しました。営業チームは、ETL クラスターのデータと営業チームの BI クラスターにあるデータを結合する必要があります。
会社には、重要な分析タスクを中断することなく ETL クラスター データを営業チームと共有するソリューションが必要です。ソリューションは、ETL クラスターのコンピューティング リソースの使用を最小限に抑える必要があります。
これらの要件を満たすソリューションはどれですか?

25 / 100

25.

No.25
データエンジニアは、1 回限りの分析ジョブを実行するために、複数のソースからのデータを結合する必要があります。データは、Amazon DynamoDB、Amazon RDS、Amazon Redshift、および Amazon S3 に保存されています。
この要件を最もコスト効率よく満たすソリューションはどれですか?

26 / 100

26.

No.26
ある企業は、Apache Spark ジョブを実行するプロビジョニング済みの Amazon EMR クラスターを使用してビッグ データ分析を実行することを計画しています。この企業では高い信頼性が求められています。ビッグ データ チームは、Amazon EMR でコストが最適化された長時間実行ワークロードを実行するためのベスト プラクティスに従う必要があります。チームは、企業の現在のパフォーマンス レベルを維持するソリューションを見つける必要があります。
どのリソースの組み合わせが、これらの要件を最もコスト効率よく満たしますか? (2 つ選択してください)。

27 / 100

No.27
ある企業がリアルタイム分析機能を実装したいと考えています。同社は、Amazon Kinesis Data Streams と Amazon Redshift を使用して、ストリーミング データを数ギガバイト/秒の速度で取り込み、処理したいと考えています。同社は、既存のビジネス インテリジェンス (BI) および分析ツールを使用して、ほぼリアルタイムの洞察を導き出したいと考えています。

27. どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

28 / 100

28.

No.28
ある会社では、Amazon QuickSight ダッシュボードを使用して、会社のアプリケーションの 1 つの使用状況を監視しています。この会社は、ダッシュボードのデータ処理に AWS Glue ジョブを使用しています。この会社は、データを 1 つの Amazon S3 バケットに保存しています。この会社は、毎日新しいデータを追加しています。
データエンジニアは、ダッシュボードのクエリが時間の経過とともに遅くなっていることを発見しました。データエンジニアは、クエリの速度低下の根本原因は、長時間実行される AWS Glue ジョブであると判断しました。
データエンジニアは、AWS Glue ジョブのパフォーマンスを向上させるために、どのアクションを実行する必要がありますか? (2 つ選択してください)。

29 / 100

29.

No.29
データ エンジニアは、AWS Step Functions を使用してオーケストレーション ワークフローを設計する必要があります。ワークフローでは、大量のデータ ファイルのコレクションを並列処理し、各ファイルに特定の変換を適用する必要があります。
これらの要件を満たすために、データエンジニアはどの Step Functions 状態を使用する必要がありますか?

30 / 100

30.

No.30
ある会社が、レガシーアプリケーションを Amazon S3 ベースのデータレイクに移行しています。データエンジニアは、レガシーアプリケーションに関連付けられているデータをレビューしました。データエンジニアは、レガシーデータに重複した情報が含まれていることを発見しました。
データエンジニアは、レガシーアプリケーションデータから重複した情報を特定して削除する必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えてこれらの要件を満たしますか?

31 / 100

31.

No.31
ある会社が分析ソリューションを構築しています。このソリューションでは、データレイクストレージに Amazon S3 を使用し、データウェアハウスに Amazon Redshift を使用しています。この会社は、Amazon S3 にあるデータをクエリするために Amazon Redshift Spectrum を使用したいと考えています。
どのアクションが最も高速なクエリを提供しますか? (2 つ選択してください)

32 / 100

32.

No.32
ある会社では、Amazon RDS を使用してトランザクション データを保存しています。この会社は、プライベート サブネットで RDS DB インスタンスを実行しています。開発者は、DB インスタンスにデータを挿入、更新、または削除するためのデフォルト設定の AWS Lambda 関数を作成しました。
開発者は、Lambda 関数に、パブリック インターネットを使用せずに DB インスタンスにプライベートに接続する機能を与える必要があります。
どの手順の組み合わせが、運用オーバーヘッドを最小限に抑えながらこの要件を満たしますか? (2 つ選択してください)。

33 / 100

No.33
ある会社には、Amazon API Gateway を使用して REST API を呼び出すフロントエンド ReactJS ウェブサイトがあります。API はウェブサイトの機能を実行します。データ エンジニアは、API Gateway を介して時々呼び出すことができる Python スクリプトを作成する必要があります。コードは API Gateway に結果を返す必要があります。

33. どのソリューションが、運用オーバーヘッドが最も少なく、これらの要件を満たしますか?

34 / 100

34.

No.34
ある会社には、会社のワークロードを実行する本番環境の AWS アカウントがあります。会社のセキュリティ チームは、本番環境の AWS アカウントからのセキュリティ ログを保存および分析するためのセキュリティ AWS アカウントを作成しました。本番環境の AWS アカウントのセキュリティ ログは、Amazon CloudWatch Logs に保存されます。
会社は、セキュリティ ログをセキュリティ AWS アカウントに配信するために、Amazon Kinesis Data Streams を使用する必要があります。
これらの要件を満たすソリューションはどれですか?

35 / 100

35.

No.35
ある会社では、Amazon S3 を使用して半構造化データをトランザクション データ レイクに保存しています。一部のデータ ファイルは小さいですが、他のデータ ファイルは数十テラバイトです。
データ エンジニアは、データ ソースから変更されたデータを識別するために、変更データ キャプチャ (CDC) 操作を実行する必要があります。データソースは、毎日完全なスナップショットを JSON ファイルとして送信し、変更されたデータをデータレイクに取り込みます。
変更されたデータを最もコスト効率よくキャプチャするソリューションはどれですか?

36 / 100

36.

No.36
データエンジニアは、Amazon S3 バケットにあるデータに対して Amazon Athena クエリを実行します。Athena クエリは、メタデータテーブルとして AWS Glue Data Catalog を使用します。
データエンジニアは、Athena クエリプランでパフォーマンスのボトルネックが発生していることに気付きました。データエンジニアは、パフォーマンスのボトルネックの原因は S3 バケットにあるパーティションの数が多いことであると判断しました。データエンジニアは、パフォーマンスのボトルネックを解決し、Athena クエリの計画時間を短縮する必要があります。
これらの要件を満たすソリューションはどれですか? (2 つ選択してください)

37 / 100

37.

No.37
データエンジニアは、リアルタイムストリーミングデータの AWS への取り込みを管理する必要があります。データエンジニアは、最大 30 分のウィンドウで時間ベースの集計を使用して、受信ストリーミングデータのリアルタイム分析を実行したいと考えています。データエンジニアには、耐障害性が非常に高いソリューションが必要です。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

38 / 100

38.

No.38
ある企業が、Amazon Elastic Block Store (Amazon EBS) 汎用 SSD ストレージを gp2 から gp3 にアップグレードすることを計画しています。同社は、アップグレードされたストレージへの移行中に Amazon EC2 インスタンスでデータ損失を引き起こす中断を回避したいと考えています。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

39 / 100

39.

★No.39
ある会社が、Microsoft SQL Server を実行する Amazon EC2 インスタンスから Amazon RDS for Microsoft SQL Server DB インスタンスにデータベース サーバーを移行しています。会社の分析チームは、移行が完了するまで毎日大量のデータ要素をエクスポートする必要があります。データ要素は、複数のテーブルにわたる SQL 結合の結果です。データは Apache Parquet 形式である必要があります。分析チームデータを Amazon S3 に保存する必要があります。
これらの要件を最も効率的に運用できるソリューションはどれですか?

40 / 100

40.

No.40
データエンジニアリングチームは、運用レポートに Amazon Redshift データウェアハウスを使用しています。チームは、長時間実行されるクエリによって発生する可能性のあるパフォーマンスの問題を防止したいと考えています。データエンジニアは、クエリオプティマイザーがパフォーマンスの問題を示す可能性のある条件を識別したときに、Amazon Redshift のシステムテーブルを選択して異常を記録する必要があります。
この要件を満たすために、データエンジニアはどのテーブルビューを使用する必要がありますか?

41 / 100

41.

No.41
データエンジニアは、.csv 形式の構造化データのソースを Amazon S3 データレイクに取り込む必要があります。.csv ファイルには 15 列が含まれています。データアナリストは、データセットの 1 つまたは 2 つの列に対して Amazon Athena クエリを実行する必要があります。データアナリストがファイル全体をクエリすることはほとんどありません。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

42 / 100

42.

No.42
ある会社には、異なる AWS リージョンに 5 つのオフィスがあります。各オフィスには独自の人事 (HR) 部門があり、独自の IAM ロールを使用しています。この会社では、従業員の記録を Amazon S3 ストレージに基づくデータレイクに保存しています。
データエンジニアリングチームは、記録へのアクセスを制限する必要があります。各 HR 部門は、HR 部門のリージョン内にいる従業員の記録にのみアクセスできる必要があります。
データエンジニアリングチームは、運用上のオーバーヘッドを最小限に抑えながらこの要件を満たすために、どの手順の組み合わせを実行する必要がありますか? (2 つ選択してください)。

43 / 100

43.

No.43
ある会社では、AWS Step Functions を使用してデータパイプラインをオーケストレーションしています。パイプラインは、データソースからデータを取り込み、そのデータを Amazon S3 バケットに保存する Amazon EMR ジョブで構成されています。パイプラインには、データを Amazon Redshift にロードする EMR ジョブも含まれています。
会社のクラウドインフラストラクチャチームは、Step Functions ステートマシンを手動で構築しました。クラウドインフラストラクチャチームは、EMR ジョブをサポートするために VPC に EMR クラスターを起動しました。ただし、デプロイされた Step Functions ステートマシンは EMR ジョブを実行できません。
Step Functions ステートマシンが EMR ジョブを実行できない理由を特定するために、会社が実行する必要がある手順の組み合わせはどれですか? (2 つ選択してください)。

44 / 100

44.

No.44
ある会社が Amazon EC2 インスタンスで実行されるアプリケーションを開発しています。現在、アプリケーションが生成するデータは一時的なものです。ただし、会社は EC2 インスタンスが終了した場合でもデータを永続化する必要があります。
データエンジニアは、Amazon マシンイメージ (AMI) から新しい EC2 インスタンスを起動し、データを保存するようにインスタンスを設定する必要があります。
この要件を満たすソリューションはどれですか?

45 / 100

45.

No.45
ある企業は Amazon Athena を使用して、Create Table As Select (CTAS) を使用した抽出、変換、ロード (ETL) タスクの SQL クエリを実行します。分析を生成するには、SQL ではなく Apache Spark を使用する必要があります。
どのソリューションを使用すれば、Spark を使用して Athena にアクセスできるようになりますか?

46 / 100

46.

No.46
ある企業は、データレイクに使用する Amazon S3 ストレージをパーティション分割する必要があります。パーティション分割では、次の形式の S3 オブジェクトキーのパスを使用します: s3://bucket/prefix/year=2023/month=01/day=01。
データエンジニアは、企業がバケットに新しいパーティションを追加したときに、AWS Glue データカタログが S3 ストレージと同期していることを確認する必要があります。
どのソリューションが、これらの要件を最小のレイテンシーで満たしますか?

47 / 100

No.47
メディア企業は、サードパーティのツールを使用してデータを収集するために、サービスとしてのソフトウェア (SaaS) アプリケーションを使用しています。この企業は、Amazon S3 バケットにデータを保存する必要があります。この企業は、Amazon Redshift を使用して、データに基づく分析を実行します。

47. 運用オーバーヘッドが最も少ない AWS サービスまたは機能はどれですか?

48 / 100

No.48
データエンジニアは Amazon Athena を使用して、Amazon S3 にある売上データを分析しています。データエンジニアは、sales_data というテーブルから複数の製品の 2023 年の売上額を取得するクエリを作成します。ただし、クエリは sales_data テーブルにあるすべての製品の結果を返すわけではありません。データエンジニアは、この問題を解決するためにクエリのトラブルシューティングを行う必要があります。
データエンジニアの元のクエリは次のとおりです。
SELECT product_name, sum(sales_amount)

48. FROM sales_data -

WHERE year = 2023 -

GROUP BY product_name -

データエンジニアは、これらの要件を満たすために Athena クエリをどのように変更する必要がありますか?

49 / 100

49.

No.49
データ エンジニアには、Amazon S3 バケット内の Apache Parquet 形式のオブジェクトからデータを読み取るという 1 回限りのタスクがあります。データエンジニアは、データの 1 つの列のみをクエリする必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

50 / 100

50.

No.50
ある会社では、データ ウェアハウスに Amazon Redshift を使用しています。この会社は、Amazon Redshift マテリアライズド ビューの更新スケジュールを自動化する必要があります。
どのソリューションが、最小限の労力でこの要件を満たしますか?

51 / 100

51.

No.51
データエンジニアは、1 つの AWS Lambda 関数と 1 つの AWS Glue ジョブで構成されるデータパイプラインをオーケストレーションする必要があります。ソリューションは AWS サービスと統合する必要があります。
管理オーバーヘッドが最も少なく、これらの要件を満たすソリューションはどれですか?

52 / 100

52.

No.52
ある企業は、AWS クラウドで実行されるデータソースのデータカタログとメタデータ管理を設定する必要があります。企業は、データカタログを使用して、一連のデータストアにあるすべてのオブジェクトのメタデータを維持します。データストアには、Amazon RDS や Amazon Redshift などの構造化ソースが含まれます。データストアには、Amazon S3 に保存されている JSON ファイルや .xml ファイルなどの半構造化ソースも含まれます。
企業は、データカタログを定期的に更新するソリューションを必要としています。ソリューションは、ソースメタデータの変更も検出する必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

53 / 100

53.

No.53
ある企業は、プロビジョニングされた容量モードで動作する Amazon DynamoDB テーブルにアプリケーションからのデータを保存しています。アプリケーションのワークロードには、定期的なスケジュールで予測可能なスループット負荷があります。毎週月曜日、早朝にアクティビティがすぐに増加します。週末のアプリケーションの使用率は非常に低くなります。
企業は、使用率がピークの時間帯にアプリケーションが一貫して動作するようにする必要があります。
どのソリューションが最もコスト効率の高い方法でこれらの要件を満たしますか?

54 / 100

54.

No.54
ある会社がオンプレミスの Apache Hadoop クラスターを Amazon EMR に移行することを計画しています。また、データカタログを永続的なストレージソリューションに移行する必要もあります。
現在、この会社では、Hadoop クラスター上のオンプレミスの Apache Hive メタストアにデータカタログを保存しています。この会社では、データカタログを移行するためにサーバーレスソリューションを必要としています。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

55 / 100

55.

No.55
ある会社では、Amazon Redshift プロビジョニング済みクラスターをデータベースとして使用しています。Redshift クラスターには 5 つの予約済み ra3.4xlarge ノードがあり、キー分散を使用しています。
データエンジニアは、ノードの 1 つで CPU 負荷が頻繁に 90% を超えていることに気付きました。ノードで実行される SQL クエリはキューに入れられます。他の 4 つのノードの CPU 負荷は通常、日常の運用中に 15% 未満です。
データエンジニアは、現在のコンピューティングノードの数を維持したいと考えています。また、データエンジニアは、5 つのコンピューティングノード全体で負荷をより均等に分散したいと考えています。
これらの要件を満たすソリューションはどれですか?

56 / 100

56.

No.56
セキュリティ会社が JSON 形式の IoT データを Amazon S3 バケットに保存しています。会社が IoT デバイスをアップグレードすると、データ構造が変わることがあります。会社は IoT データを含むデータカタログを作成したいと考えています。会社の分析部門は、データカタログを使用してデータのインデックスを作成します。
どのソリューションがこれらの要件を最もコスト効率よく満たしますか?

57 / 100

57.

No.57
ある会社が Amazon S3 バケットにトランザクションの詳細を保存します。この会社は、S3 バケットへのすべての書き込みを、同じ AWS リージョンにある別の S3 バケットに記録したいと考えています。
どのソリューションが、最も少ない運用労力でこの要件を満たしますか?

58 / 100

58.

No.58
データエンジニアは、ユーザーが Amazon EMR および Amazon Athena クエリを通じてアクセスする中央メタデータリポジトリを維持する必要があります。リポジトリは、多くのテーブルのスキーマとプロパティを提供する必要があります。メタデータの一部は Apache Hive に保存されます。データエンジニアは、Hive から中央メタデータリポジトリにメタデータをインポートする必要があります。
開発労力を最小限に抑えてこれらの要件を満たすソリューションはどれですか?

59 / 100

59.

No.59
ある企業は AWS にデータレイクを構築する必要があります。企業は特定のチームに行レベルのデータアクセスと列レベルのデータアクセスを提供する必要があります。チームは Amazon EMR の Amazon Athena、Amazon Redshift Spectrum、Apache Hive を使用してデータにアクセスします。
どのソリューションが、運用オーバーヘッドが最も少なく、これらの要件を満たしますか?

60 / 100

60.

No.60
航空会社は、分析のためにフライト アクティビティに関するメトリクスを収集しています。同社は、概念実証 (POC) テストを実施して、分析によって、会社が定時出発を増やすために使用できる洞察をどのように提供できるかを示しています。
POC テストでは、メトリクスが .csv 形式で含まれる Amazon S3 内のオブジェクトを使用します。POC テストでは、Amazon Athena を使用してデータをクエリします。データは日付別に S3 バケットに分割されています。
データ量が増えるにつれて、クエリのパフォーマンスを向上させるためにストレージ ソリューションを最適化したいと考えています。
これらの要件を満たすソリューションの組み合わせはどれですか? (2 つ選択してください)。

61 / 100

61.

No.61
ある会社では、重要なアプリケーションのデータベースとして Amazon RDS for MySQL を使用しています。データベースのワークロードは、ほとんどが書き込みで、読み取りは少数です。
データ エンジニアは、DB インスタンスの CPU 使用率が非常に高いことに気付きました。CPU 使用率が高いため、アプリケーションの速度が低下しています。データ エンジニアは、DB インスタンスの CPU 使用率を下げる必要があります。
この要件を満たすために、データ エンジニアはどのようなアクションを取る必要がありますか? (2 つ選択してください)

62 / 100

62.

No.62
ある会社では、Orders という名前の Amazon Redshift テーブルを 6 か月間使用しています。この会社は、テーブルの更新と削除を毎週実行しています。このテーブルには、AWS リージョンを含む列にインターリーブされたソートキーがあります。
この会社は、ストレージ容量が不足しないようにディスク容量を再利用したいと考えています。また、ソートキー列を分析したいと考えています。
これらの要件を満たす Amazon Redshift コマンドはどれですか?

63 / 100

63.

No.63
製造会社がセンサーからデータを収集したいと考えています。データ エンジニアは、センサー データをほぼリアルタイムで取り込むソリューションを実装する必要があります。
ソリューションでは、データを永続的なデータ ストアに保存する必要があります。ソリューションでは、データをネストされた JSON 形式で保存する必要があります。企業は、10 ミリ秒未満のレイテンシーでデータ ストアからクエリを実行できる必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

64 / 100

64.

No.64
ある会社が Amazon S3 にあるデータレイクにデータを保存しています。会社がデータレイクに保存するデータには、個人を特定できる情報 (PII) が含まれています。複数のユーザーグループが生データにアクセスする必要があります。会社は、ユーザーグループが必要な PII のみにアクセスできるようにする必要があります。
どのソリューションが、最小限の労力でこれらの要件を満たしますか?

65 / 100

65.

No.65
データ エンジニアは、10 個のソース システムから Amazon Redshift データベースにある 10 個のテーブルにデータを処理してロードするための抽出、変換、ロード (ETL) パイプラインを構築する必要があります。すべてのソース システムは、15 分ごとに .csv、JSON、または Apache Parquet ファイルを生成します。ソースシステムはすべて、ファイルを 1 つの Amazon S3 バケットに配信します。ファイル サイズは 10 MB から 20 GB の範囲です。データ スキーマが変更されても、ETL パイプラインは正しく機能する必要があります。
これらの要件を満たすデータ パイプライン ソリューションはどれですか? (2 つ選択してください)。

66 / 100

66.

No.66
金融会社は、ビジネスインテリジェンス (BI) アプリケーションをサポートするために、ペタバイト規模のデータセットでオンデマンド SQL クエリを実行するために Amazon Athena を使用したいと考えています。営業時間外に実行される AWS Glue ジョブは、データセットを 1 日に 1 回更新します。BI アプリケーションは、会社のポリシーに準拠するために、標準のデータ更新頻度が 1 時間です。
データエンジニアは、追加のインフラストラクチャコストを追加することなく、会社の Amazon Athena の使用コストを最適化したいと考えています。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

67 / 100

67.

No.67
ある会社のデータエンジニアは、テーブル SQL クエリのパフォーマンスを最適化する必要があります。会社は Amazon Redshift クラスターにデータを保存しています。データエンジニアは予算の制約により、クラスターのサイズを増やすことができません。
会社は複数のテーブルにデータを保存し、EVEN 分散スタイルを使用してデータをロードします。テーブルによっては、サイズが数百ギガバイトのものもあります。その他のテーブルのサイズは 10 MB 未満です。
これらの要件を満たすソリューションはどれですか?

68 / 100

No.68
ある会社が、物理アドレス データを含む .csv ファイルを受け取ります。データは、Door_No、Street_Name、City、および Zip_Code という名前を持つ列にあります。同社は、これらの値を次の形式で保存する単一の列を作成したいと考えています:

{
"Door_No": "24",

68. "Street_Name": "AAA street",

"City": "BBB",

"Zip_Code": "111111"
}

最も少ないコーディング作業でこの要件を満たすソリューションはどれですか?

69 / 100

69.

No.69
ある会社が、顧客の機密情報を含む Amazon S3 オブジェクトとして通話ログを受け取ります。会社は、暗号化を使用して S3 オブジェクトを保護する必要があります。また、特定の従業員だけがアクセスできる暗号化キーを使用する必要があります。
どのソリューションが、最小限の労力でこれらの要件を満たしますか?

70 / 100

70.

No.70
ある企業は、S3 標準ストレージ クラスの何千もの Amazon S3 バケットにペタバイト単位のデータを保存しています。このデータは、予測不可能で変動するデータ アクセス パターンを持つ分析ワークロードをサポートしています。
この企業は、何ヶ月も一部のデータにアクセスしません。ただし、この企業はすべてのデータを数ミリ秒以内に取得できる必要があります。この企業は S3 ストレージ コストを最適化する必要があります。
運用オーバーヘッドを最小限に抑えながら、これらの要件を満たすソリューションはどれですか?

71 / 100

71.

No.71
セキュリティレビュー中に、ある会社が AWS Glue ジョブの脆弱性を特定しました。会社は、Amazon Redshift クラスターにアクセスするための認証情報がジョブスクリプトにハードコードされていることを発見しました。
データエンジニアは、AWS Glue ジョブのセキュリティ脆弱性を修正する必要があります。ソリューションでは、認証情報を安全に保存する必要があります。
これらの要件を満たすために、データエンジニアが実行する必要がある手順の組み合わせはどれですか? (2 つ選択してください)。

72 / 100

72.

No.72
データエンジニアは、Amazon Redshift を使用して、リソースを大量に消費する分析プロセスを毎月 1 回実行しています。データエンジニアは毎月、新しい Redshift プロビジョニング済みクラスターを作成します。データエンジニアは、毎月の分析プロセスが完了したら、Redshift プロビジョニング済みクラスターを削除します。データエンジニアは、毎月クラスターを削除する前に、クラスターから Amazon S3 バケットにバックアップデータをアンロードします。
データエンジニアは、データエンジニアがインフラストラクチャを手動で管理する必要のない、毎月の分析プロセスを実行するソリューションを必要としています。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

73 / 100

73.

No.73
ある会社が、顧客データを .xls 形式で含む毎日のファイルを受け取ります。会社はそのファイルを Amazon S3 に保存します。毎日のファイルのサイズは約 2 GB です。
データエンジニアは、ファイル内の顧客のファーストネームを含む列と顧客のラストネームを含む列を連結します。データエンジニアは、ファイル内の個別の顧客の数を特定する必要があります。
最も少ない運用労力でこの要件を満たすソリューションはどれですか?

74 / 100

74.

No.74
ヘルスケア企業は、Amazon Kinesis Data Streams を使用して、ウェアラブルデバイス、病院の機器、患者の記録からリアルタイムの健康データをストリーミングしています。
データエンジニアは、ストリーミングデータを処理するソリューションを見つける必要があります。データエンジニアは、Amazon Redshift Serverless ウェアハウスにデータを保存する必要があります。ソリューションは、ストリーミングデータと前日のデータのほぼリアルタイムの分析をサポートする必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

75 / 100

75.

No.75
データエンジニアは、Amazon S3 バケットに保存されているデータに対する Amazon Athena クエリに基づく Amazon QuickSight ダッシュボードを使用する必要があります。データエンジニアが QuickSight ダッシュボードに接続すると、権限が不十分であることを示すエラーメッセージが表示されます。
権限関連のエラーの原因となる要因はどれですか? (2 つ選択してください)。

76 / 100

76.

No.76
ある会社では、データセットを JSON 形式と .csv 形式で Amazon S3 バケットに保存しています。この会社には、Microsoft SQL Server データベース用の Amazon RDS、プロビジョニングされたキャパシティーモードの Amazon DynamoDB テーブル、および Amazon Redshift クラスターがあります。データエンジニアリングチームは、データサイエンティストが SQL に似た構文を使用してすべてのデータソースをクエリできるようにするソリューションを開発する必要があります。
どのソリューションが、運用オーバーヘッドが最も少なく、これらの要件を満たしますか?

77 / 100

77.

No.77
データエンジニアは、Amazon SageMaker Studio を設定して、AWS Glue インタラクティブセッションを使用して機械学習 (ML) モデル用のデータを準備しています。
データエンジニアが SageMaker Studio を使用してデータを準備しようとすると、アクセス拒否エラーが発生します。
エンジニアは、SageMaker Studio にアクセスするためにどの変更を行う必要がありますか?

78 / 100

78.

No.78
ある企業は、SAP HANA、Microsoft SQL Server、MongoDB、Apache Kafka、Amazon DynamoDB などのデータソースから毎日約 1 TB のデータを抽出しています。一部のデータソースには、未定義のデータスキーマや変更されるデータスキーマがあります。
データエンジニアは、これらのデータソースのスキーマを検出できるソリューションを実装する必要があります。ソリューションは、データを抽出、変換し、Amazon S3 バケットにロードする必要があります。この企業は、データ作成後 15 分以内にデータを S3 バケットにロードするというサービスレベル契約 (SLA) を結んでいます。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

79 / 100

79.

No.79
ある会社には、Amazon S3 バケットに保存されているデータセットを使用する複数のアプリケーションがあります。この会社には、個人を特定できる情報 (PII) を含むデータセットを生成する e コマース アプリケーションがあります。この会社には、PII へのアクセスを必要としない社内分析アプリケーションがあります。
規制に準拠するために、会社は PII を不必要に共有してはなりません。データ エンジニアは、データセットにアクセスする各アプリケーションのニーズに基づいて、PII を動的に編集するソリューションを実装する必要があります。
どのソリューションが、運用オーバーヘッドが最も少なく、要件を満たすでしょうか。

80 / 100

80.

★No.80
データ エンジニアは、抽出、変換、ロード (ETL) ジョブを構築する必要があります。 ETL ジョブは、ユーザーが Amazon S3 バケットにアップロードする毎日の受信 .csv ファイルを処理します。各 S3 オブジェクトのサイズは 100 MB 未満です。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

81 / 100

81.

No.81
データエンジニアは、Orders という名前の AWS Glue クローラーを使用して、AWS Glue データカタログテーブルを作成します。データエンジニアは、次の新しいパーティションを追加したいと考えています。

s3://transactions/orders/order_date=2023-01-01
s3://transactions/orders/order_date=2023-01-02

データエンジニアは、テーブルの場所にあるすべてのフォルダとファイルをスキャンせずに、メタデータを編集してテーブルに新しいパーティションを含める必要があります。
データエンジニアは、Amazon Athena でどのデータ定義言語 (DDL) ステートメントを使用する必要がありますか?

82 / 100

82.

No.82
ある会社では、10 ~ 15 TB の非圧縮 .csv ファイルを Amazon S3 に保存しています。この会社は、Amazon Athena をワンタイム クエリ エンジンとして評価しています。
この会社は、クエリの実行時間とストレージ コストを最適化するためにデータを変換したいと考えています。
Athena クエリのこれらの要件を満たすファイル形式と圧縮ソリューションはどれですか?

83 / 100

83.

No.83
ある会社では、Apache Airflow を使用して、会社の現在のオンプレミス データ パイプラインをオーケストレーションしています。この会社は、パイプラインの一部として SQL データ品質チェック タスクを実行しています。この会社は、パイプラインを AWS に移行し、AWS マネージド サービスを使用したいと考えています。
リファクタリングを最小限に抑えてこれらの要件を満たすソリューションはどれですか?

84 / 100

84.

No.84
ある会社では、複数のソースから取得したデータを変換するために、抽出、変換、ロード (ETL) パイプラインとして Amazon EMR を使用しています。データエンジニアは、パフォーマンスを最大化するためにパイプラインを調整する必要があります。
どの AWS サービスがこの要件を最もコスト効率よく満たしますか?

85 / 100

85.

No.85
オンライン小売会社が、Application Load Balancer (ALB) アクセスログを Amazon S3 バケットに保存しています。この会社は、Amazon Athena を使用してログをクエリし、トラフィックパターンを分析したいと考えています。
データエンジニアが Athena にパーティション化されていないテーブルを作成します。データの量が徐々に増加すると、クエリの応答時間も長くなります。データエンジニアは、Athena でのクエリパフォーマンスを改善したいと考えています。
どのソリューションが、最小限の運用労力でこれらの要件を満たしますか?

86 / 100

86.

No.86
ある会社が AWS 上にビジネス インテリジェンス プラットフォームを持っています。この会社は、AWS Storage Gateway Amazon S3 ファイル ゲートウェイを使用して、会社のオンプレミス環境から Amazon S3 バケットにファイルを転送します。
データ エンジニアは、各ファイル転送が正常に終了したときに一連の AWS Glue ジョブを実行する AWS Glue ワークフローを自動的に起動するプロセスをセットアップする必要があります。
これらの要件を満たす、運用オーバーヘッドが最も少ないソリューションはどれですか?

87 / 100

87.

No.87
小売会社では、Amazon Aurora PostgreSQL を使用してライブトランザクションデータを処理および保存しています。同社はデータウェアハウスに Amazon Redshift クラスターを使用しています。
抽出、変換、ロード (ETL) ジョブが毎朝実行され、PostgreSQL データベースからの新しいデータで Redshift クラスターを更新します。会社は急速に成長しており、Redshift クラスターのコストを最適化する必要があります。
データ エンジニアは、履歴データをアーカイブするソリューションを作成する必要があります。データ エンジニアは、PostgreSQL のライブ トランザクション データ、Redshift の現在のデータ、アーカイブされた履歴データのデータを効果的に組み合わせる分析クエリを実行できる必要があります。コストを削減するには、ソリューションで Amazon Redshift に最新の 15 か月分のデータのみを保持する必要があります。
これらの要件を満たす手順の組み合わせはどれですか (2 つ選択してください)。

88 / 100

88.

No.88
ある製造会社では、世界中の施設に多数の IoT デバイスがあります。この会社は Amazon Kinesis Data Streams を使用してデバイスからデータを収集します。データには、デバイス ID、キャプチャ日、測定タイプ、測定値、施設 ID が含まれます。この会社は、施設 ID をパーティション キーとして使用します。
同社の運用チームは最近、WriteThroughputExceeded 例外を多数確認しました。運用チームは、一部のシャードは頻繁に使用されているものの、他のシャードは概してアイドル状態であることを発見しました。
運用チームが確認した問題を同社はどのように解決すべきでしょうか?

89 / 100

89.

No.89
データ エンジニアは、Amazon Athena で販売データ テーブルに対して実行される SQL クエリのパフォーマンスを改善したいと考えています。
データ エンジニアは、特定の SQL ステートメントの実行プランを理解したいと考えています。また、データ エンジニアは、SQL クエリ内の各操作の計算コストを確認したいと考えています。
これらの要件を満たすために、データ エンジニアが実行する必要があるステートメントはどれですか?

90 / 100

90.

No.90
ある会社が VPC 内でログ配信ストリームをプロビジョニングすることを計画しています。この会社は、Amazon CloudWatch Logs に公開するように VPC フローログを設定しました。この会社は、さらなる分析のためにフローログをほぼリアルタイムで Splunk に送信する必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

91 / 100

91.

No.91
ある会社には AWS 上にデータ レイクがあります。データ レイクは、ビジネス ユニットからのデータ ソースを取り込み、クエリに Amazon Athena を使用します。ストレージ レイヤーは、メタデータ リポジトリとして AWS Glue Data Catalog を備えた Amazon S3 です。
会社は、データをデータ サイエンティストやビジネス アナリストが利用できるようにしたいと考えています。ただし、まず、ユーザーの役割と責任に基づいて、Athena のきめ細かい列レベルのデータ アクセスを管理する必要があります。
これらの要件を満たすソリューションはどれですか?

92 / 100

92.

No.92
ある会社では、Amazon S3 からのデータを検証および変換するために、AWS Glue の抽出、変換、ロード (ETL) ジョブをいくつか開発しました。ETL ジョブは、データを 1 日に 1 回バッチで Amazon RDS for MySQL にロードします。ETL ジョブは、DynamicFrame を使用して S3 データを読み取ります。
ETL ジョブは現在、S3 バケット内のすべてのデータを処理しています。ただし、会社はジョブで毎日の増分データのみを処理することを望んでいます。
最も少ないコーディング作業でこの要件を満たすソリューションはどれですか?

93 / 100

93.

No.93
オンライン小売会社には、VPC 内の Amazon EC2 インスタンスで実行されるアプリケーションがあります。この会社は、VPC のフローログを収集し、ネットワーク トラフィックを分析したいと考えています。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

94 / 100

94.

No.94
小売会社は、トランザクション、店舗の場所、および顧客情報のテーブルを、予約済みの ra3.4xlarge Amazon Redshift クラスターノード 4 つに保存しています。3 つのテーブルはすべて、均等なテーブル分散を使用しています。
この会社は、店舗の場所テーブルを数年に 1 回か 2 回しか更新していません。
データエンジニアは、ほとんどのクエリで店舗の場所テーブル全体が 4 つのコンピューティングノードすべてに常にブロードキャストされているため、Redshift キューの速度が低下していることに気付きました。データエンジニアは、店舗の場所テーブルのブロードキャストを最小限に抑えて、クエリのパフォーマンスを高速化したいと考えています。
これらの要件を最もコスト効率の高い方法で満たすソリューションはどれですか?

95 / 100

95.

No.95
ある会社には、Sales というテーブルを含むデータ ウェアハウスがあります。会社は、そのテーブルを Amazon Redshift に保存します。そのテーブルには、city_name という列が含まれています。会社は、テーブルをクエリして、city_name が "San" または "El" で始まるすべての行を検索したいと考えています。
この要件を満たす SQL クエリはどれですか。

96 / 100

96.

No.96
ある企業は、オンプレミスの PostgreSQL データベースから AWS に顧客通話データを送信して、ほぼリアルタイムの洞察を生成する必要があります。ソリューションでは、PostgreSQL データベースで実行される運用データストアから更新をキャプチャしてロードする必要があります。データは継続的に変更されます。
データエンジニアは、AWS Database Migration Service (AWS DMS) の継続的なレプリケーションタスクを構成します。タスクは、各テーブルの PostgreSQL ソースデータベーストランザクションログからほぼリアルタイムで変更を読み取ります。次に、タスクはデータを Amazon Redshift クラスターに送信して処理します。
データエンジニアは、タスクの変更データキャプチャ (CDC) 中にレイテンシーの問題を発見しました。データエンジニアは、PostgreSQL ソースデータベースが高レイテンシーの原因であると考えています。
どのソリューションで、PostgreSQL データベースが高レイテンシーの原因であることがわかりますか?

97 / 100

97.

No.97
ラボでは、IoT センサーを使用してプロジェクトの湿度、温度、圧力を監視しています。センサーは 10 秒ごとに 100 KB のデータを送信します。ダウンストリームプロセスは、30 秒ごとに Amazon S3 バケットからデータを読み取ります。
最もレイテンシーの低い S3 バケットにデータを配信するソリューションはどれですか?

98 / 100

98.

No.98
ある企業は、Amazon S3 データレイクにあるデータの分析に機械学習 (ML) を使用したいと考えています。この企業には、社内の消費者がレポートを作成できるようにする 2 つのデータ変換要件があります。
この企業は、スケジュールされた時間に Amazon S3 に到着する必要があるさまざまな形式の 300 GB のデータに対して毎日変換を実行する必要があります。この企業は、S3 データレイクにある数テラバイトのアーカイブされたデータに対して 1 回限りの変換を実行する必要があります。この企業は、処理を調整するために Amazon Managed Workflows for Apache Airflow (Amazon MWAA) の有向非巡回グラフ (DAG) を使用しています。
これらの要件を最もコスト効率よく満たすために、この企業は Amazon MWAA DA​​G でどのタスクの組み合わせをスケジュールする必要がありますか? (2 つ選択してください)。

99 / 100

99.

No.99
小売会社が、顧客の注文に関する情報を含むデータセットの抽出、変換、ロード (ETL) 操作に AWS Glue を使用しています。この会社は、データの正確性と一貫性を確保するために、特定の検証ルールを実装したいと考えています。
これらの要件を満たすソリューションはどれですか?

100 / 100

100.

★No.100
保険会社は、gzip で圧縮した取引データを保管しています。
会社は、定期的な監査のために取引データを照会する必要があります。
どのソリューションが最もコスト効率の高い方法でこの要件を満たしますか?

Your score is

0%

 

■AWS DEA-C01(JP) Q.101-204

/104

AWS DEA-C01(JP) Q.101-204

[Q. 101-204] AWS Certified Data Engineer - Associate は、コアデータ関連の AWS サービスに関するスキルと知識や、データの取り込みと変換、プログラミングの概念を適用しながらのデータパイプラインのオーケストレート、データモデルの設計、データライフサイクルの管理、データ品質の確保といった能力を検証します。

回答: C

説明:
これは、クエリエディタ v2 (https://docs.aws.amazon.com/redshift/latest/mgmt/query-editor-v2-schedule-query.html) で実現できます。

1 / 104

1.

No.101
データエンジニアは、ミッションクリティカルではないテーブルにデータを処理して挿入する Amazon Redshift ストアドプロシージャのテストを終了しました。エンジニアは、ストアドプロシージャを毎日自動的に実行したいと考えています。
どのソリューションが最もコスト効率の高い方法でこの要件を満たしますか?

2 / 104

2.

No.102
マーケティング会社がクリックストリームデータを収集します。同社はクリックストリームデータを Amazon Kinesis Data Firehose に送信し、Amazon S3 に保存します。同社は、複数の部門の何百人ものユーザーが使用する一連のダッシュボードを構築したいと考えています。
同社は Amazon QuickSight を使用してダッシュボードを開発します。同社は、クリックストリームアクティビティに関する毎日の更新を拡張して提供できるソリューションを求めています。
どの手順の組み合わせが、これらの要件を最もコスト効率よく満たしますか? (2 つ選択してください)。

3 / 104

3.

No.103
データ エンジニアがデータ オーケストレーション ワークフローを構築しています。データ エンジニアは、オンプレミスのリソースとクラウド内のリソースを含むハイブリッド モデルを使用する予定です。データ エンジニアは、移植性とオープン ソース リソースを優先したいと考えています。
データ エンジニアは、オンプレミス環境とクラウドベースの環境の両方でどのサービスを使用する必要がありますか?

4 / 104

No.104
ゲーム会社では、顧客情報を保存するために NoSQL データベースを使用しています。同社は AWS への移行を計画しています。
同社には、高負荷のオンライントランザクション処理 (OLTP) ワークロードを処理し、1 桁ミリ秒のパフォーマンスを提供し、世界中で高可用性を提供する、完全に管理された AWS ソリューションが必要です。

4. 運用オーバーヘッドが最も少ないソリューションはどれですか?

5 / 104

5.

No.105
データエンジニアは、Amazon EventBridge イベントが呼び出す AWS Lambda 関数を作成します。データエンジニアが EventBridge イベントを使用して Lambda 関数を呼び出そうとすると、AccessDeniedException メッセージが表示されます。
データエンジニアは例外をどのように解決する必要がありますか?

6 / 104

6.

No.106
ある会社では、Amazon S3 バケットに基づくデータレイクを使用しています。規制に準拠するには、S3 バケットにアップロードされるファイルに 2 層のサーバー側暗号化を適用する必要があります。会社は、AWS Lambda 関数を使用して必要な暗号化を適用したいと考えています。
これらの要件を満たすソリューションはどれですか?

7 / 104

7.

No.107
データエンジニアは、Amazon Athena クエリが実行前にキューに保持されていることに気付きました。
データエンジニアは、クエリがキューに入れられないようにするにはどうすればよいでしょうか?

8 / 104

8.

No.108
データエンジニアは、Amazon S3 から読み取り、Amazon Redshift に書き込む AWS Glue ジョブをデバッグする必要があります。データエンジニアは、AWS Glue ジョブのブックマーク機能を有効にしました。
データエンジニアは、AWS Glue ジョブの最大同時実行数を 1 に設定しました。
AWS Glue ジョブは、出力を Amazon Redshift に正常に書き込んでいます。ただし、AWS Glue ジョブの以前の実行中にロードされた Amazon S3 ファイルは、後続の実行によって再処理されています。
AWS Glue ジョブがファイルを再処理している理由として考えられるのは何ですか?

9 / 104

9.

No.109
e コマース会社が、AWS を使用してオンプレミス環境から AWS クラウドにデータ パイプラインを移行したいと考えています。現在、この会社はオンプレミス環境でサードパーティ ツールを使用して、データ取り込みプロセスを調整しています。
この会社は、会社がサーバーを管理する必要がない移行ソリューションを望んでいます。このソリューションは、Python および Bash スクリプトを調整できる必要があります。このソリューションでは、会社がコードをリファクタリングする必要はありません。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

10 / 104

10.

No.110
小売会社では、製品ライフサイクル管理 (PLM) アプリケーションからのデータをオンプレミスの MySQL データベースに保存しています。PLM アプリケーションは、トランザクションが発生するとデータベースを頻繁に更新します。
同社は、PLM アプリケーションからほぼリアルタイムで洞察を収集したいと考えています。同社は、洞察を他のビジネスデータセットと統合し、Amazon Redshift データウェアハウスを使用して結合されたデータセットを分析したいと考えています。
同社は、オンプレミスのインフラストラクチャと AWS の間に AWS Direct Connect 接続をすでに確立しています。
どのソリューションが、最小限の開発労力でこれらの要件を満たしますか?

11 / 104

11.

No.111
マーケティング会社では、Amazon S3 を使用してクリックストリーム データを保存しています。同社は、別々のバケットに保存されている S3 オブジェクトに対して SQL JOIN 句を使用して、毎日の終わりにデータをクエリします。
同社は、オブジェクトに基づいて主要業績評価指標 (KPI) を作成します。同社には、データをパーティション化してユーザーがデータをクエリできるようにするサーバーレス ソリューションが必要です。ソリューションは、データの原子性、一貫性、独立性、および耐久性 (ACID) 特性を維持する必要があります。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

12 / 104

12.

No.112
ある企業が、Account_A という AWS アカウントの eu-east-1 リージョンにある Amazon RDS for PostgreSQL DB インスタンスからデータを移行したいと考えています。この企業は、Account_B という AWS アカウントの eu-west-1 リージョンにある Amazon Redshift クラスターにデータを移行します。
AWS Database Migration Service (AWS DMS) に 2 つのデータストア間でデータをレプリケートする機能を提供するソリューションはどれですか?

13 / 104

13.

No.113
ある会社では、Amazon S3 をデータレイクとして使用しています。この会社は、マルチノードの Amazon Redshift クラスターを使用してデータウェアハウスをセットアップしています。この会社は、各データファイルのデータソースに基づいて、データレイク内のデータファイルを整理しています。
この会社は、データファイルの場所ごとに個別の COPY コマンドを使用して、すべてのデータファイルを Redshift クラスター内の 1 つのテーブルにロードします。この方法では、すべてのデータファイルをテーブルにロードするのに長い時間がかかります。この会社は、データ取り込みの速度を上げる必要があります。この会社は、プロセスのコストを増やしたくありません。
これらの要件を満たすソリューションはどれですか?

14 / 104

14.

★No.114
ある会社が Amazon Kinesis Data Firehose を使用して Amazon S3 にデータを保存する予定です。ソースデータは 2 MB の .csv ファイルで構成されています。会社は .csv ファイルを JSON 形式に変換する必要があります。会社は Apache Parquet 形式でファイルを保存する必要があります。
どのソリューションが、開発の労力を最小限に抑えてこれらの要件を満たしますか?

15 / 104

15.

No.115
ある会社が、オンプレミス環境から AWS にデータを移行するために AWS Transfer Family サーバーを使用しています。会社のポリシーでは、転送中のデータを暗号化するために TLS 1.2 以上の使用が義務付けられています。
これらの要件を満たすソリューションはどれですか?

16 / 104

16.

No.116
ある企業が、アプリケーションとオンプレミスの Apache Kafka サーバーを AWS に移行したいと考えています。アプリケーションは、オンプレミスの Oracle データベースが Kafka サーバーに送信する増分更新を処理します。企業は、リファクタリング戦略ではなく、再プラットフォーム移行戦略を使用したいと考えています。
管理オーバーヘッドが最も少ない状態でこれらの要件を満たすソリューションはどれですか?

17 / 104

17.

No.117
データエンジニアは、AWS Glue を使用して、自動抽出、変換、ロード (ETL) 取り込みパイプラインを構築しています。パイプラインは、Amazon S3 バケットにある圧縮ファイルを取り込みます。取り込みパイプラインは、増分データ処理をサポートする必要があります。
データエンジニアはこの要件を満たすためにどの AWS Glue 機能を使用すべきですか?

18 / 104

18.

No.118
銀行会社がアプリケーションを使用して大量のトランザクションデータを収集しています。この会社はリアルタイム分析に Amazon Kinesis Data Streams を使用しています。この会社のアプリケーションは、PutRecord アクションを使用してデータを Kinesis Data Streams に送信します。
データエンジニアは、1 日の特定の時間帯にネットワークが停止するのを観察しました。データエンジニアは、処理パイプライン全体に対して 1 回限りの配信を設定したいと考えています。
この要件を満たすソリューションはどれですか?

19 / 104

19.

No.119
ある会社が Amazon S3 バケットにログを保存しています。データエンジニアが複数のログファイルにアクセスしようとすると、一部のファイルが意図せず削除されていることに気付きます。
データエンジニアは、将来的に意図しないファイルの削除を防ぐソリューションを必要としています。
どのソリューションが、運用上のオーバーヘッドを最小限に抑えながらこの要件を満たしますか?

20 / 104

20.

No.120
ある通信会社は、毎日、1 秒あたり数千のデータ ポイントの割合でネットワーク使用状況データを収集しています。同社は、使用状況データをリアルタイムで処理するアプリケーションを実行しています。同社は、データを集約して Amazon Aurora DB インスタンスに保存しています。
ネットワーク使用状況の突然の低下は、通常、ネットワークの停止を示しています。同社は、ネットワーク使用状況の突然の低下を識別して、すぐに是正措置を講じることができる必要があります。
どのソリューションが、この要件を最もレイテンシーの少ない方法で満たしますか?

21 / 104

21.

No.121
データ エンジニアが、Amazon S3 にある数テラバイトの生データを処理および分析しています。データ エンジニアは、データをクリーンアップして準備する必要があります。次に、データ エンジニアは分析のためにデータを Amazon Redshift にロードする必要があります。
データ エンジニアには、データ アナリストが複雑なクエリを実行できるソリューションが必要です。ソリューションでは、複雑な抽出、変換、ロード (ETL) プロセスを実行したり、インフラストラクチャを管理したりする必要がなくなる必要があります。
これらの要件を満たす、運用オーバーヘッドが最も少ないソリューションはどれですか?

22 / 104

22.

No.122
ある会社では、AWS Lambda 関数を使用して、従来の SFTP 環境から Amazon S3 バケットにファイルを転送しています。Lambda 関数は VPC 対応で、Lambda 関数と同じ VPC 環境にある他の A​​VS サービスとの間のすべての通信が安全なネットワーク経由で行われるようにします。
Lambda 関数は SFTP 環境に正常に接続できます。ただし、Lambda 関数が S3 バケットにファイルをアップロードしようとすると、Lambda 関数はタイムアウト エラーを返します。データ エンジニアは、タイムアウトの問題を安全な方法で解決する必要があります。
どのソリューションが最もコスト効率の高い方法でこれらの要件を満たしますか?

23 / 104

23.

No.123
ある会社が、Amazon RDS で実行される顧客データベースからデータを読み取ります。データベースには、多くの不整合なフィールドが含まれています。たとえば、あるデータベースで place_id という名前が付けられた顧客レコード フィールドは、別のデータベースでは location_id という名前になっています。会社は、顧客レコード フィールドが一致しない場合でも、異なるデータベース間で顧客レコードをリンクする必要があります。
どのソリューションが、運用オーバーヘッドが最も少なく、これらの要件を満たしますか?

24 / 104

24.

No.124
金融会社がサードパーティのデータプロバイダーからデータを受け取り、そのデータを Amazon S3 バケットにオブジェクトとして保存します。
同社は、オブジェクトに対して AWS Glue クローラーを実行してデータカタログを作成しました。AWS Glue クローラーは複数のテーブルを作成しました。しかし、同社はクローラーが 1 つのテーブルのみを作成すると予想していました。
同社には、AVS Glue クローラーが 1 つのテーブルのみを作成することを保証するソリューションが必要です。
この要件を満たすソリューションの組み合わせはどれですか? (2 つ選択してください)

25 / 104

25.

★No.125
アプリケーションは、Amazon Simple Queue Service (Amazon SQS) キューからのメッセージを消費します。アプリケーションは時々ダウンタイムを経験します。ダウンタイムの結果、キュー内のメッセージは期限切れになり、1 日後に削除されます。メッセージの削除により、アプリケーションのデータ損失が発生します。
アプリケーションのデータ損失を最小限に抑えるソリューションはどれですか? (2 つ選択してください)。

26 / 104

26.

No.126
ある会社が、時系列データを視覚化するためにほぼリアルタイムのダッシュボードを作成しています。会社は、データを Amazon Managed Streaming for Apache Kafka (Amazon MSK) に取り込みます。カスタマイズされたデータパイプラインがデータを消費します。次に、パイプラインは Amazon Keyspaces (Apache Cassandra 用)、Amazon OpenSearch Service、および Amazon S3 の Apache Avro オブジェクトにデータを書き込みます。
どのソリューションが、最もレイテンシーの低いデータ視覚化にデータを利用できるようにしますか?

27 / 104

27.

★No.127
データ エンジニアは、Amazon Redshift データベースに基づくマテリアライズド ビューを管理しています。ビューには、各行がロードされた日付を格納する load_date という列があります。
データ エンジニアは、マテリアライズド ビューからすべての行を削除して、データベース ストレージ領域を再利用する必要があります。
どのコマンドがデータベース ストレージ領域を最も再利用しますか?

28 / 104

28.

No.128
あるメディア企業は、Amazon OpenSearch Service を使用して、人気のミュージシャンや曲に関するリアルタイム データを分析したいと考えています。同社は、毎日何百万もの新しいデータ イベントを取り込む予定です。新しいデータ イベントは、Amazon Kinesis データ ストリームを通じて到着します。同社はデータを変換してから、OpenSearch Service ドメインに取り込む必要があります。
運用オーバーヘッドを最小限に抑えてデータを取り込むには、どの方法を使用すればよいですか。

29 / 104

29.

No.129
ある会社が、顧客住所を含む顧客データテーブルを AWS Lake Formation データレイクに保存しています。新しい規制に準拠するために、会社はユーザーがカナダの顧客のデータにアクセスできないようにする必要があります。
会社には、カナダの顧客の行へのユーザーアクセスを防ぐソリューションが必要です。
どのソリューションが、運用上の労力を最小限に抑えてこの要件を満たしますか?

30 / 104

30.

★No.130
ある会社が Amazon Redshift にレイクハウスアーキテクチャを実装しました。この会社は、サードパーティの ID プロバイダー (IdP) を使用して、ユーザーが Redshift クエリエディターに認証できるようにする必要があります。
データエンジニアは認証メカニズムを設定する必要があります。
この要件を満たすためにデータエンジニアが実行する必要がある最初の手順は何ですか?

31 / 104

31.

No.131
現在、ある会社では、汎用 Amazon EC2 インスタンスを含むプロビジョニングされた Amazon EMR クラスターを使用しています。EMR クラスターでは、会社の長期実行 Apache Spark 抽出、変換、ロード (ETL) ジョブに 1 ~ 5 個のタスクノード間の EMR マネージドスケーリングを使用しています。会社は毎日 ETL ジョブを実行しています。
会社が ETL ジョブを実行すると、EMR クラスターはすぐに 5 ノードまでスケールアップします。EMR クラスターは CPU 使用率が最大に達することがよくありますが、メモリ使用量は 30% 未満のままです。
会社は、毎日の ETL ジョブを実行するための EMR コストを削減するために、EMR クラスター設定を変更したいと考えています。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

32 / 104

32.

No.132
ある会社が .csv ファイルを Amazon S3 バケットにアップロードします。会社のデータ プラットフォーム チームは、データ検出を実行し、テーブルとスキーマを作成するために AWS Glue クローラーを設定しました。
AWS Glue ジョブは、テーブルから処理されたデータを Amazon Redshift データベースに書き込みます。AWS Glue ジョブは列マッピングを処理し、Redshift データベースに Amazon Redshift テーブルを適切に作成します。
会社が何らかの理由で AWS Glue ジョブを再実行すると、重複レコードが Amazon Redshift テーブルに導入されます。会社には、重複なしで Redshift テーブルを更新するソリューションが必要です。
これらの要件を満たすソリューションはどれですか?

33 / 104

33.

No.133
ある会社が Amazon Redshift を使用してデータ ウェアハウス ソリューションを構築しています。この会社は、Redshift クラスター内のファクト テーブルに数百のファイルをロードしています。
この会社は、データ ウェアハウス ソリューションで可能な限り最大のスループットを実現したいと考えています。このソリューションでは、ファクト テーブルにデータをロードするときにクラスター リソースを最適に使用する必要があります。
これらの要件を満たすソリューションはどれですか?

34 / 104

34.

No.134
ある企業が複数のデータソースからデータを取り込み、Amazon S3 バケットにデータを保存します。AWS Glue の抽出、変換、ロード (ETL) ジョブでデータを変換し、変換されたデータを Amazon S3 ベースのデータレイクに書き込みます。この企業は、Amazon Athena を使用して、データレイクにあるデータをクエリします。
レコードに共通の一意の識別子がない場合でも、一致するレコードを識別する必要があります。
この要件を満たすソリューションはどれですか?

35 / 104

35.

No.135
データエンジニアは、AWS Glue クローラーを使用して、Amazon S3 バケット内のデータをカタログ化しています。S3 バケットには、.csv ファイルと json ファイルの両方が含まれています。データエンジニアは、カタログから .json ファイルを除外するようにクローラーを構成しました。
データエンジニアが Amazon Athena でクエリを実行すると、除外された .json ファイルもクエリで処理されます。データエンジニアはこの問題を解決したいと考えています。データエンジニアは、ソース S3 バケット内の .csv ファイルへのアクセス要件に影響を与えないソリューションを必要としています。
どのソリューションが、この要件を最短のクエリ時間で満たしますか?

36 / 104

36.

No.136
データ エンジニアは、Amazon S3 バケットに保存されているオブジェクトを読み取る AWS Lambda 関数を設定しました。オブジェクトは AWS KMS キーによって暗号化されています。
データ エンジニアは、S3 バケットにアクセスするように Lambda 関数の実行ロールを設定しました。しかし、Lambda 関数でエラーが発生し、オブジェクトのコンテンツを取得できませんでした。
エラーの原因として考えられるものは何ですか?

37 / 104

37.

No.137
データ エンジニアが 1,000 個の AWS Glue Data Catalog テーブルにデータ品質ルールを実装しました。最近ビジネス要件が変更されたため、データ エンジニアはデータ品質ルールを編集する必要があります。
データ エンジニアは、運用オーバーヘッドを最小限に抑えながらこの要件を満たすにはどうすればよいですか?

38 / 104

38.

No.138
2 人の開発者が別々のアプリケーション リリースに取り組んでいます。開発者は、GitHub リポジトリのマスター ブランチをソースとして使用して、ブランチ A とブランチ B という名前の機能ブランチを作成しました。
ブランチ A の開発者は、コードを本番システムにデプロイしました。ブランチ B のコードは、翌週に予定されているアプリケーション リリースでマスター ブランチにマージされます。
ブランチ B の開発者がマスター ブランチにプル リクエストを発行する前に実行する必要があるコマンドはどれですか。

39 / 104

39.

★No.139
ある会社が従業員データを Amazon Resdshift に保存しています。Employee という名前のテーブルでは、Region ID、Department ID、および Role ID という名前の列が複合ソート キーとして使用されています。
テーブルの複合ソート キーを使用することで、クエリの速度が最も向上するクエリはどれですか (2 つ選択してください)。

40 / 104

40.

No.140
ある会社が、世界各地にあるテスト施設からテスト結果を受け取ります。会社は、テスト結果を数百万の 1 KB JSON ファイルで Amazon S3 バケットに保存します。データエンジニアは、ファイルを処理し、Apache Parquet 形式に変換して、Amazon Redshift テーブルにロードする必要があります。データエンジニアは、AWS Glue を使用してファイルを処理し、AWS Step Functions を使用してプロセスを調整し、Amazon EventBridge を使用してジョブをスケジュールします。
会社は最近、テスト施設を追加しました。ファイルの処理に必要な時間が増加しています。データエンジニアは、データ処理時間を短縮する必要があります。
データ処理時間を最も短縮できるソリューションはどれですか?

41 / 104

41.

No.141
データエンジニアは、Amazon Managed Workflows for Apache Airflow (Amazon MWAA) を使用して、AWS アカウントでデータパイプラインを実行します。
最近、ワークフローの実行に失敗しました。データエンジニアは、Apache Airflow ログを使用してワークフローの失敗を診断する必要があります。
データエンジニアは、失敗の原因を診断するためにどのログタイプを使用する必要がありますか?

42 / 104

42.

No.142
金融会社では、Amazon Redshift をデータ ウェアハウスとして使用しています。会社は、共有 Amazon S3 バケットにデータを保存しています。同社は、Amazon Redshift Spectrum を使用して、S3 バケットに保存されているデータにアクセスします。データは、認定されたサードパーティのデータプロバイダーから提供されます。各サードパーティのデータプロバイダーには、固有の接続詳細があります。
規制に準拠するには、会社の AWS 環境の外部からデータにアクセスできないようにする必要があります。
これらの要件を満たすために、会社が実行する必要がある手順の組み合わせはどれですか? (2 つ選択してください)。

43 / 104

43.

No.143
複数のデータ ソースからのファイルが定期的に Amazon S3 バケットに到着します。データ エンジニアは、新しいファイルが S3 バケットに到着すると、ほぼリアルタイムで新しいファイルを Amazon Redshift に取り込むことを望んでいます。
これらの要件を満たすソリューションはどれですか?

44 / 104

44.

No.144
現在、あるテクノロジー企業では、Amazon Kinesis Data Streams を使用して、ログデータをリアルタイムで収集しています。同社は、ダウンストリームのリアルタイムクエリに Amazon Redshift を使用し、ログデータを拡充したいと考えています。
どのソリューションが、運用オーバーヘッドが最も少ない状態で Amazon Redshift にデータを取り込むことができますか?

45 / 104

45.

No.145
ある会社では、オンプレミスの Oracle データベースでデータウェアハウスを維持しています。この会社は、AWS 上にデータレイクを構築したいと考えています。この会社は、データウェアハウス テーブルを Amazon S3 にロードし、データウェアハウスから毎日到着する増分データとテーブルを同期したいと考えています。
各テーブルには、単調に増加する値を含む列があります。各テーブルのサイズは 50 GB 未満です。データウェアハウス テーブルは、毎晩午前 1 時から午前 2 時の間に更新されます。ビジネス インテリジェンス チームは、毎日午前 10 時から午後 8 時の間にテーブルをクエリします。
これらの要件を最も効率的に運用できるソリューションはどれですか?

46 / 104

46.

No.146
ある会社が新しい分析チーム用のデータレイクを構築しています。この会社は、ストレージに Amazon S3 を使用し、クエリ分析に Amazon Athena を使用しています。Amazon S3 にあるすべてのデータは、Apache Parquet 形式です。
この会社は、会社のデータセンターでソースシステムとして新しい Oracle データベースを実行しています。この会社の Oracle データベースには 70 個のテーブルがあります。すべてのテーブルには主キーがあります。ソースシステムでデータが時々変更されることがあります。この会社は、テーブルを毎日データレイクに取り込むことを望んでいます。
この要件を最も少ない労力で満たすソリューションはどれですか?

47 / 104

47.

No.147
運送会社は、地理位置情報レコードを取得して車両の動きを追跡したいと考えています。レコードのサイズは 10 バイトです。会社は 1 秒あたり最大 10,000 件のレコードを受信します。ネットワークの状態が不安定なため、数分のデータ転送遅延は許容されます。
運送会社は、Amazon Kinesis Data Streams を使用して地理位置情報データを取り込むことを希望しています。会社は、Kinesis Data Streams にデータを送信するための信頼性の高いメカニズムを必要としています。会社は、Kinesis シャードのスループット効率を最大化する必要があります。
どのソリューションが最も運用効率の高い方法でこれらの要件を満たしますか?

48 / 104

48.

No.148
投資会社は、継続的に増加する半構造化データの量を管理し、そこから洞察を引き出す必要があります。
データエンジニアは、半構造化データの重複を排除し、重複しているレコードを削除し、重複しているレコードの一般的なスペルミスを削除する必要があります。
どのソリューションが、運用上のオーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

49 / 104

49.

No.149
ある会社が、製品を自動的に再注文するための在庫管理システムと在庫再注文システムを構築しています。どちらのシステムも Amazon Kinesis Data Streams を使用しています。在庫管理システムは、Amazon Kinesis Producer Library (KPL) を使用してデータをストリームに公開します。在庫再発注システムは、Amazon Kinesis Client Library (KCL) を使用してストリームからデータを消費します。会社は、必要に応じてストリームをスケールアップおよびスケールダウンするように構成します。
会社がシステムを本番環境にデプロイする前に、在庫再発注システムが重複データを受信したことを発見しました。
再発注システムが重複データを受信した原因として考えられる要因は何ですか? (2 つ選択してください)。

50 / 104

50.

No.150
e コマース会社では、AWS でホストされている複数の運用システムにまたがる複雑な注文処理プロセスを運用しています。各運用システムには、最新の処理状態がキャプチャされる Java データベース接続 (JDBC) 準拠のリレーショナル データベースがあります。
この会社は、運用チームがフルフィルメント プロセス全体にわたって 1 時間ごとに注文を追跡できるようにする必要があります。
開発オーバーヘッドが最も少ないソリューションはどれですか?

51 / 104

51.

No.151
データエンジニアは、Amazon Neptune を使用してグラフアプリケーションを開発する必要があります。
エンジニアはグラフアプリケーションを開発するためにどのプログラミング言語を使用する必要がありますか? (2 つ選択してください)

52 / 104

52.

No.152
モバイル ゲーム会社がゲーム アプリからデータを取得したいと考えています。会社は、そのデータを 3 人の社内データ コンシューマーに提供したいと考えています。データ レコードのサイズは約 20 KB です。
会社は、ゲーム アプリを実行する各デバイスから最適なスループットを実現したいと考えています。さらに、会社はデータ ストリームを処理するアプリケーションを開発したいと考えています。ストリーム処理アプリケーションには、社内コンシューマーごとに専用のスループットが必要です。
これらの要件を満たすソリューションはどれですか?

53 / 104

53.

No.153
小売会社では、Amazon Redshift データウェアハウスと Amazon S3 バケットを使用しています。同社は、小売注文データを毎日 S3 バケットに取り込みます。
同社は、すべての注文データを S3 バケット内の単一のパスに保存します。データには 100 を超える列があります。同社は、毎日 30 を超える CSV 形式のファイルを生成するサードパーティ アプリケーションから注文データを取り込みます。各 CSV ファイルのサイズは 50 ~ 70 MB です。
同社は、Amazon Redshift Spectrum を使用して、列のセットを選択するクエリを実行します。ユーザーは、毎日の注文に基づいてメトリクスを集計します。最近、ユーザーから、クエリのパフォーマンスが低下したという報告がありました。データ エンジニアは、クエリのパフォーマンスの問題を解決する必要があります。
どの手順の組み合わせが、開発の労力を最小限に抑えてこの要件を満たしますか? (2 つ選択してください)。

54 / 104

54.

No.154
ある会社が顧客レコードを Amazon S3 に保存しています。会社は、各レコードが作成されてから 7 年間、顧客レコード データを削除または変更してはなりません。ルート ユーザーにも、データを削除または変更する権限が付与されてはなりません。
データ エンジニアは、S3 オブジェクト ロックを使用してデータを保護したいと考えています。
これらの要件を満たすソリューションはどれですか?

55 / 104

55.

No.155
データ エンジニアは、既存のテーブル old_table と同じスキーマを持つ新しい空のテーブルを Amazon Athena に作成する必要があります。
この要件を満たすためにデータ エンジニアが使用すべき SQL ステートメントはどれですか。

56 / 104

56.

No.156
データエンジニアは、既存の Athena テーブル cities_world のデータのサブセットに基づいて Amazon Athena テーブルを作成する必要があります。cities_world テーブルには、世界中の都市が含まれています。データエンジニアは、cities_world の米国にある都市のみを含む、cities_us という新しいテーブルを作成する必要があります。
この要件を満たすために、データエンジニアはどの SQL ステートメントを使用する必要がありますか?

57 / 104

57.

★No.157
ある会社が、中央ガバナンス アカウントを持つデータ メッシュを実装しています。会社は、ガバナンス アカウント内のすべてのデータをカタログ化する必要があります。ガバナンス アカウントは、AWS Lake Formation を使用して、データを一元的に共有し、アクセス権限を付与します。
会社は、Amazon Redshift Serverless テーブルのグループを含む新しいデータ製品を作成しました。データ エンジニアは、データ製品をマーケティング チームと共有する必要があります。マーケティング チームは、列のサブセットのみにアクセスできる必要があります。データ エンジニアは、同じデータ製品をコンプライアンス チームと共有する必要があります。コンプライアンス チームは、マーケティング チームがアクセスする必要がある列とは異なるサブセットにアクセスできる必要があります。
これらの要件を満たすために、データ エンジニアが実行する必要がある手順の組み合わせはどれですか? (2 つ選択してください)。

58 / 104

58.

No.158
ある会社には Amazon S3 にデータレイクがあります。会社は AWS Glue を使用してデータをカタログ化し、AWS Glue Studio を使用してデータの抽出、変換、ロード (ETL) パイプラインを実装しています。
会社は、パイプラインが実行されるたびにデータ品質の問題がチェックされるようにする必要があります。データエンジニアは、既存のパイプラインを強化して、定義済みのしきい値に基づいてデータ品質ルールを評価する必要があります。
どのソリューションが、最小限の実装労力でこれらの要件を満たしますか?

59 / 104

59.

No.159
ある会社には、マイクロサービス アーキテクチャを使用するアプリケーションがあります。この会社は、Amazon Elastic Kubernetes Services (Amazon EKS) クラスターでアプリケーションをホストしています。
この会社は、アプリケーション用の堅牢なモニタリング システムを設定したいと考えています。この会社は、EKS クラスターとアプリケーションからのログを分析する必要があります。この会社は、クラスターのログをアプリケーションのトレースと相関させて、アプリケーション リクエスト フロー全体の障害点を特定する必要があります。
どのステップの組み合わせが、開発の労力を最小限に抑えながらこれらの要件を満たすでしょうか (2 つ選択してください)。

60 / 104

60.

No.160
ある会社には、Amazon DynamoDB テーブルにデータを保存するゲーム アプリケーションがあります。データ エンジニアは、ゲーム データを Amazon OpenSearch Service クラスターに取り込む必要があります。データの更新はほぼリアルタイムで実行する必要があります。
これらの要件を満たすソリューションはどれですか?

61 / 104

61.

No.161
ある会社では、データ ウェアハウス サービスとして Amazon Redshift を使用しています。データ エンジニアは物理データ モデルを設計する必要があります。
データ エンジニアは、サイズが拡大している非正規化テーブルに遭遇しました。テーブルには、分散キーとして使用するのに適した列がありません。
データ エンジニアは、メンテナンスのオーバーヘッドを最小限に抑えながらこれらの要件を満たすために、どの分散スタイルを使用すればよいですか?

62 / 104

62.

No.162
小売企業がグローバルに事業を拡大しています。この企業は、財務レポートの為替レートを正確に計算するために Amazon QuickSight を使用する必要があります。この企業には、グローバル通貨の値と為替レートを含むデータセットの分析に基づくビジュアルを含む既存のダッシュボードがあります。
データエンジニアは、為替レートが小数点以下 4 桁の精度で計算されるようにする必要があります。計算は事前に計算されている必要があります。データエンジニアは、結果を QuickSight の超高速並列インメモリ計算エンジン (SPICE) で実現する必要があります。
これらの要件を満たすソリューションはどれですか?

63 / 104

63.

★No.163
ある会社には 3 つの子会社があります。各子会社は異なるデータ ウェアハウス ソリューションを使用しています。最初の子会社は Amazon Redshift でデータ ウェアハウスをホストしています。2 番目の子会社は AWS で Teradata Vantage を使用しています。3 番目の子会社は Google BigQuery を使用しています。
会社はすべてのデータを中央の Amazon S3 データ レイクに集約したいと考えています。会社はテーブル形式として Apache Iceberg を使用したいと考えています。
データ エンジニアは、すべてのデータ ソースに接続し、各ソース エンジンを使用して変換を実行し、データを結合して Iceberg にデータを書き込むための新しいパイプラインを構築する必要があります。
どのソリューションが、最小限の運用労力でこれらの要件を満たしますか?

64 / 104

64.

No.164
ある会社がデータストリーム処理アプリケーションを構築しています。アプリケーションは Amazon Elastic Kubernetes Service (Amazon EKS) クラスターで実行されます。アプリケーションは処理されたデータを Amazon DynamoDB テーブルに保存します。
会社では、EKS クラスター内のアプリケーション コンテナが DynamoDB テーブルに安全にアクセスできるようにする必要があります。会社は、コンテナに AWS 認証情報を埋め込むことを望んでいません。
これらの要件を満たすソリューションはどれですか?

65 / 104

65.

No.165
データエンジニアは、新しいデータプロデューサーを AWS にオンボードする必要があります。データプロデューサーは、データ製品を AWS に移行する必要があります。
データプロデューサーは、ビジネスアプリケーションをサポートする多くのデータパイプラインを維持しています。各パイプラインには、サービスアカウントとそれに対応する認証情報が必要です。データエンジニアは、データプロデューサーのオンプレミスデータセンターから AWS への安全な接続を確立する必要があります。データエンジニアは、オンプレミスデータセンターから AWS にデータを転送するためにパブリックインターネットを使用してはなりません。
これらの要件を満たすソリューションはどれですか?

66 / 104

66.

★No.166
データ エンジニアは、Amazon S3 バケットに保存されているデータ用に AWS Glue データ カタログを構成しました。データ エンジニアは、増分更新を受信するようにデータ カタログを構成する必要があります。
データ エンジニアは、S3 バケットのイベント通知を設定し、S3 イベントを受信するための Amazon Simple Queue Service (Amazon SQS) キューを作成します。
データ エンジニアは、これらの要件を最小の運用オーバーヘッドで満たすために、どの手順の組み合わせを実行する必要がありますか? (2 つ選択してください。)

67 / 104

67.

No.167
ある会社では、AWS Glue データカタログを使用して、Amazon S3 バケットに毎日アップロードされるデータをインデックス化しています。この会社は、抽出、変換、ロード (ETL) パイプラインで毎日のバッチプロセスを使用して、外部ソースから S3 バケットにデータをアップロードしています。
この会社は、S3 データに関する日次レポートを実行します。日によっては、毎日のデータがすべて S3 バケットにアップロードされる前にレポートを実行します。データエンジニアは、既存の Amazon Simple Notification Service (Amazon SNS) トピックに、不完全なデータを識別するメッセージを送信できる必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこの要件を満たしますか?

68 / 104

68.

No.168
ある会社が、個人を特定できる情報 (PII) を含む顧客データを Amazon Redshift クラスターに保存しています。会社のマーケティング、請求、分析の各チームは、顧客データにアクセスできる必要があります。
マーケティング チームは難読化された請求情報にアクセスできる必要がありますが、顧客の連絡先情報には完全にアクセスできる必要があります。請求チームは、チームが処理する各請求の顧客情報にアクセスできる必要があります。分析チームは、難読化された PII データにのみアクセスできる必要があります。
どのソリューションが、管理オーバーヘッドを最小限に抑えながら、これらのデータ アクセス要件を適用しますか?

69 / 104

69.

No.169
金融会社が最近、モバイルアプリに機能を追加しました。新機能のために、既存の Amazon Managed Streaming for Apache Kafka (Amazon MSK) クラスターに新しいトピックを作成する必要がありました。
会社が新しいトピックを追加してから数日後、Amazon CloudWatch が MSK クラスターの RootDiskUsed メトリクスでアラームを発しました。
会社は CloudWatch アラームにどのように対処する必要がありますか?

70 / 104

70.

No.170
データ エンジニアは、会社の Amazon S3 バケットと Amazon RDS データベースに基づいてエンタープライズ データ カタログを構築する必要があります。データ カタログには、カタログ内のデータのストレージ形式のメタデータが含まれている必要があります。
これらの要件を最も少ない労力で満たすソリューションはどれですか?

71 / 104

71.

No.171
ある会社では、四半期ごとにデータレイクのデータを分析して在庫評価を行っています。データエンジニアは、AWS Glue DataBrew を使用して、データ内の顧客に関する個人識別情報 (PII) を検出します。会社のプライバシーポリシーでは、一部のカスタム情報カテゴリを PII と見なしています。ただし、これらのカテゴリは標準の DataBrew データ品質ルールには含まれていません。
データエンジニアは、データレイク内の複数のデータセットにわたってカスタム PII カテゴリをスキャンするために、現在のプロセスを変更する必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

72 / 104

72.

No.172
ある会社は、パートナーから毎日 Amazon S3 バケットにデータファイルを受け取ります。会社は、毎日の AWS Glue 抽出、変換、ロード (ETL) パイプラインを使用して、各データファイルをクリーンアップおよび変換します。ETL パイプラインの出力は、2 番目の S3 バケットの Daily.csv という CSV ファイルに書き込まれます。
場合によっては、毎日のデータファイルが空であったり、必須フィールドの値が欠落していたり​​することがあります。ファイルにデータが欠落している場合、会社は前日の CSV ファイルを使用できます。
データエンジニアは、新しい毎日のファイルが完全で有効な場合にのみ、前日のデータファイルが上書きされるようにする必要があります。
最も少ない労力でこれらの要件を満たすソリューションはどれですか?

73 / 104

73.

No.173
マーケティング会社では、Amazon S3 を使用してマーケティングデータを保存しています。この会社は、一部のバケットでバージョン管理を使用しています。この会社は、バケットにデータを読み取ってロードするために、いくつかのジョブを実行します。
ストレージのコストを最適化するために、同社は S3 バケットに存在する不完全なマルチパートアップロードと古いバージョンに関する情報を収集したいと考えています。
これらの要件を、最も少ない運用労力で満たすソリューションはどれですか?

74 / 104

74.

No.174
あるゲーム会社では、Amazon Kinesis Data Streams を使用してクリックストリームデータを収集しています。同社は Amazon Data Firehose 配信ストリームを使用して、データを JSON 形式で Amazon S3 に保存しています。同社のデータ サイエンティストは、Amazon Athena を使用して最新のデータをクエリし、ビジネス インサイトを取得しています。
同社は Athena のコストを削減したいと考えていますが、データ パイプラインを再作成することは望んでいません。
どのソリューションが、管理の手間を最小限に抑えてこれらの要件を満たしますか?

75 / 104

75.

No.175
ある会社では、既存の Amazon DynamoDB テーブルのコストを管理するためのソリューションが必要です。また、テーブルのサイズを制御する必要もあります。ソリューションは、進行中の読み取りまたは書き込み操作を中断してはなりません。会社は、1 か月後にテーブルからデータを自動的に削除するソリューションを使用したいと考えています。
どのソリューションが、継続的なメンテナンスを最小限に抑えながらこれらの要件を満たしますか?

76 / 104

76.

★No.176
ある会社では、Amazon S3 を使用してデータを保存し、Amazon QuickSight を使用して視覚化を作成しています。
この会社には、Hub-Account という AWS アカウントに S3 バケットがあります。S3 バケットは、AWS Key Management Service (AWS KMS) キーによって暗号化されています。この会社の QuickSight インスタンスは、BI-Account という別のアカウントにあります。
この会社は、S3 バケットポリシーを更新して、QuickSight サービスロールにアクセス権を付与します。この会社は、クロスアカウントアクセスを有効にして、QuickSight が S3 バケットとやり取りできるようにしたいと考えています。
この要件を満たす手順の組み合わせはどれですか (2 つ選択してください)。

77 / 104

77.

No.177
ある自動車販売会社では、ある地域で販売されている自動車に関するデータを管理しています。この会社は、毎日データを圧縮ファイルとして Amazon S3 にアップロードするベンダーから新車リストに関するデータを受け取ります。圧縮ファイルのサイズは最大 5 KB です。この会社は、データが Amazon S3 にアップロードされるとすぐに最新のリストを確認したいと考えています。
データエンジニアは、ダッシュボードにフィードするために、リストのデータ処理ワークフローを自動化および調整する必要があります。また、データエンジニアは、1 回限りのクエリと分析レポートを実行する機能も提供する必要があります。クエリソリューションはスケーラブルである必要があります。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

78 / 104

78.

No.178
ある会社では、複数の AWS リージョンに AWS リソースがあります。会社が運営する各リージョンには、Amazon EFS ファイルシステムがあります。会社のデータサイエンスチームは、単一のリージョン内でのみ運営しています。データサイエンスチームが扱うデータは、チームのリージョン内にとどまっている必要があります。
データエンジニアは、会社の各リージョン EFS ファイルシステムにあるファイルを処理して、単一のデータセットを作成する必要があります。データエンジニアは、AWS Step Functions ステートマシンを使用して、AWS Lambda 関数をオーケストレーションし、データを処理したいと考えています。
どのソリューションが、最小限の労力でこれらの要件を満たしますか?

79 / 104

79.

No.179
ある企業が Amazon EC2 インスタンスでアプリケーションをホストしています。企業は、顧客が管理する AWS インフラストラクチャと安全に通信するために、転送中のデータを暗号化する SSL/TLS 接続を使用する必要があります。
データ エンジニアは、デジタル証明書の生成、配布、ローテーションを簡素化するソリューションを実装する必要があります。ソリューションは、SSL/TLS 証明書を自動的に更新してデプロイする必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

80 / 104

80.

No.180
企業は、顧客データを Amazon S3 バケットに保存します。同社は、AWS KMS キー (SSE-KMS) を使用したサーバー側暗号化を使用してバケットを暗号化しています。データセットには、社会保障番号やアカウントの詳細などの個人識別情報 (PII) が含まれています。
PII としてタグ付けされたデータは、同社が顧客データを分析に使用する前にマスクする必要があります。一部のユーザーは、前処理フェーズ中に PII データに安全にアクセスする必要があります。同社には、エンジニアリング パイプライン全体を通じて PII データをマスクして保護するための、メンテナンスの手間がかからないソリューションが必要です。
これらの要件を満たすソリューションの組み合わせはどれですか (2 つ選択してください)。

81 / 104

81.

No.181
データエンジニアが Amazon EMR クラスターを起動しています。データエンジニアが新しいクラスターにロードする必要があるデータは現在、Amazon S3 バケットにあります。データエンジニアは、保存時と転送時の両方でデータが暗号化されていることを確認する必要があります。
S3 バケット内のデータは、AWS Key Management Service (AWS KMS) キーによって暗号化されています。データエンジニアには、Privacy Enhanced Mail (PEM) ファイルがある Amazon S3 パスがあります。
これらの要件を満たすソリューションはどれですか?

82 / 104

82.

No.182
小売会社が Amazon Redshift クラスターを使用してリアルタイムの在庫管理をサポートしています。同社は Amazon SageMaker のリアルタイムエンドポイントに ML モデルをデプロイしました。
同社はリアルタイムの在庫推奨を作成したいと考えています。同社はまた、将来の在庫ニーズについても予測したいと考えています。
これらの要件を満たすソリューションはどれですか? (2 つ選択してください)

83 / 104

83.

No.183
ある会社が CSV ファイルを Amazon S3 バケットに保存しています。データ エンジニアは CSV ファイルのデータを処理し、処理したデータを新しい S3 バケットに保存する必要があります。
このプロセスでは、列の名前を変更し、特定の列を削除し、各ファイルの 2 行目を無視し、データの最初の行の値に基づいて新しい列を作成し、列の数値で結果をフィルターする必要があります。
どのソリューションが、開発の労力を最小限に抑えてこれらの要件を満たしますか?

84 / 104

84.

No.184
ある会社が Amazon Redshift をデータウェアハウスとして使用しています。データ エンコーディングは、データウェアハウスの既存のテーブルに適用されます。データ エンジニアは、一部のテーブルに適用されている圧縮エンコーディングがデータに最適ではないことを発見しました。
データ エンジニアは、エンコーディングが最適でないテーブルのデータ エンコーディングを改善する必要があります。
この要件を満たすソリューションはどれですか?

85 / 104

85.

No.185
この会社は大量の顧客レコードを Amazon S3 に保存しています。規制に準拠するために、レコードが作成されてから最初の 30 日間は、新しい顧客レコードにすぐにアクセスできる必要があります。会社は、30 日以上前のレコードにはあまりアクセスしません。
この会社は、Amazon S3 ストレージのコストを最適化する必要があります。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

86 / 104

86.

No.186
データエンジニアは、Amazon QuickSight を使用して、複数の AWS リージョンでの会社の収益を報告するダッシュボードを構築しています。データエンジニアは、ビジュアルに表示されるドリルダウンレベルに関係なく、ダッシュボードにリージョンの合計収益を表示したいと考えています。
これらの要件を満たすソリューションはどれですか?

87 / 104

87.

No.187
小売会社が顧客データを Amazon S3 バケットに保存しています。顧客データの一部には、顧客に関する個人識別情報 (PII) が含まれています。会社は PII データをビジネスパートナーと共有してはなりません。
データエンジニアは、データセット内のオブジェクトをビジネスパートナーが利用できるようにする前に、データセットに PII が含まれているかどうかを判断する必要があります。
最も手動介入が少なくてこの要件を満たすソリューションはどれですか?

88 / 104

88.

No.188
データ エンジニアは、データ処理タスクを実行するために、Amazon Athena の既存のテーブルの空のコピーを作成する必要があります。Athena の既存のテーブルには 1,000 行が含まれています。
この要件を満たすクエリはどれですか?

89 / 104

89.

No.189
ある会社には Amazon S3 にデータレイクがあります。この会社は複数のアプリケーションの AWS CloudTrail ログを収集しています。この会社はデータレイクにログを保存し、AWS Glue でログをカタログ化し、年に基づいてログをパーティション分割します。この会社は Amazon Athena を使用してログを分析します。
最近、顧客から、At​​hena テーブルの 1 つに対するクエリでデータが返されなかったという報告がありました。データエンジニアがこの問題を解決する必要があります。
データエンジニアが実行すべきトラブルシューティング手順の組み合わせはどれですか? (2 つ選択してください)

90 / 104

90.

No.190
データ エンジニアは、AWS で実行される一連の抽出、変換、ロード (ETL) ジョブをオーケストレーションしたいと考えています。ETL ジョブには、Amazon EMR で Apache Spark ジョブを実行し、Salesforce への API 呼び出しを行い、Amazon Redshift にデータをロードする必要があるタスクが含まれています。
ETL ジョブは、失敗と再試行を自動的に処理する必要があります。データ エンジニアは、Python を使用してジョブをオーケストレーションする必要があります。
これらの要件を満たすサービスはどれですか?

91 / 104

91.

No.191
データ エンジニアは、多くの AWS Lambda 関数が使用するデータ フォーマット プロセスを実行するカスタム Python スクリプトを管理しています。データ エンジニアが Python スクリプトを変更する必要がある場合、データ エンジニアはすべての Lambda 関数を手動で更新する必要があります。
データ エンジニアは、Lambda 関数を更新するためのより手動の手間の少ない方法を必要としています。
この要件を満たすソリューションはどれですか?

92 / 104

92.

No.192
ある会社が顧客データを Amazon S3 バケットに保存しています。会社内の複数のチームが顧客データをダウンストリーム分析に使用したいと考えています。会社は、チームが顧客に関する個人識別情報 (PII) にアクセスできないようにする必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこの要件を満たしますか?

93 / 104

93.

No.193
ある会社が処理済みのデータを S3 バケットに保存しています。この会社には厳格なデータ アクセス ポリシーがあります。この会社は IAM ロールを使用して、社内のチームに S3 バケットへのさまざまなレベルのアクセスを許可しています。
この会社は、ユーザーがデータ アクセス ポリシーに違反したときに通知を受け取りたいと考えています。各通知には、ポリシーに違反したユーザーのユーザー名が含まれている必要があります。
これらの要件を満たすソリューションはどれですか?

94 / 104

94.

No.194
ある会社では、サードパーティから取得した顧客データを Amazon Redshift データ ウェアハウスにロードする必要があります。この会社は、注文データと製品データを同じデータ ウェアハウスに保存しています。この会社は、結合されたデータセットを使用して、潜在的な新規顧客を特定したいと考えています。
データ エンジニアは、ソース データのフィールドの 1 つに JSON 形式の値が含まれていることに気付きました。
データ エンジニアは、最小限の労力で JSON データをデータ ウェアハウスにロードするにはどうすればよいでしょうか。

95 / 104

95.

No.195
ある会社が、MySQL データベースに保存している販売記録を分析したいと考えています。会社は、その記録を Salesforce が特定した販売機会と相関させたいと考えています。
会社は毎日 2 GB の販売記録を受け取ります。会社には 100 GB の特定された販売機会があります。データエンジニアは、販売記録と販売機会を分析して相関させるプロセスを開発する必要があります。このプロセスは毎晩 1 回実行する必要があります。
どのソリューションが、運用オーバーヘッドが最も少なく、これらの要件を満たしますか?

96 / 104

96.

No.196
ある会社がサーバーログを Amazon S3 バケットに保存しています。会社はログを 1 年間保持する必要があります。1 年後にはログは必要ありません。
データエンジニアは、1 年以上経過したログを自動的に削除するソリューションを必要としています。
最も少ない運用オーバーヘッドでこれらの要件を満たすソリューションはどれですか?

97 / 104

97.

No.197
ある会社が、複数のステップを含む AWS Step Functions のサーバーレスデータ処理ワークフローを設計しています。処理ワークフローは外部 API からデータを取り込み、複数の AWS Lambda 関数を使用してデータを変換し、変換されたデータを Amazon DynamoDB にロードします。
会社では、受信データの内容に基づいて特定の手順を実行するワークフローが必要です。
この要件を満たすには、どの Step Functions 状態タイプを使用する必要がありますか?

98 / 104

98.

No.198
データエンジニアが Amazon Athena に cloudtrail_logs というテーブルを作成し、AWS CloudTrail ログをクエリして監査用のデータを準備しました。データエンジニアは、2024 年の初めから発生したエラーをエラーコードとともに表示するクエリを作成する必要があります。クエリは最新の 10 件のエラーを返す必要があります。
これらの要件を満たすクエリはどれですか?

99 / 104

99.

No.199
オンライン小売業者は、複数の配送パートナーを使用して顧客に商品を配送しています。配送パートナーは注文の概要を小売業者に送信します。小売業者は注文の概要を Amazon S3 に保存します。
注文の概要の一部には、顧客に関する個人識別情報 (PII) が含まれています。データエンジニアは注文の概要で PII を検出して、会社が PII を編集できるようにする必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えてこれらの要件を満たしますか?

100 / 104

100.

No.200
ある会社には、ユーザーがさまざまな IAM ロールを使用してアクセスする Amazon Redshift データ ウェアハウスがあります。毎日 100 人以上のユーザーがデータ ウェアハウスにアクセスしています。
会社は、各ユーザーの職務、権限、およびデータの機密性に基づいて、オブジェクトへのユーザー アクセスを制御したいと考えています。
これらの要件を満たすソリューションはどれですか?

101 / 104

101.

No.201
ある会社では、データ ガバナンスおよびビジネス カタログ ソリューションとして Amazon DataZone を使用しています。会社はデータを Amazon S3 データレイクに保存しています。会社は AWS Glue を AWS Glue データカタログとともに使用しています。
データエンジニアは、AWS Glue データ品質スコアを Amazon DataZone ポータルに公開する必要があります。
この要件を満たすソリューションはどれですか?

102 / 104

102.

No.202
ある会社には Amazon Redshift にデータウェアハウスがあります。セキュリティ規制に準拠するために、会社はデータウェアハウスのすべてのユーザーアクティビティと接続アクティビティをログに記録して保存する必要があります。
これらの要件を満たすソリューションはどれですか?

103 / 104

103.

No.203
ある企業が、データウェアハウスを Teradata から Amazon Redshift に移行したいと考えています。
どのソリューションが、運用上の労力を最小限に抑えてこの要件を満たしますか?

104 / 104

104.

No.204
ある会社では、さまざまな AWS およびサードパーティのデータストアを使用しています。この会社は、すべてのデータを中央データウェアハウスに統合して分析を実行したいと考えています。ユーザーは、分析クエリの応答時間を短縮する必要があります。
この会社は、Amazon QuickSight をダイレクトクエリモードで使用してデータを視覚化します。ユーザーは通常、予測できないスパイクが発生するクエリを毎日数時間実行します。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

Your score is

0%

最終更新: 2月 20, 2025