AWS DEA-C01日本語 2025版 - AWS練習問題集

AWS Certified Data Engineer – Associate は、コアデータ関連の AWS サービスに関するスキルと知識や、データの取り込みと変換、プログラミングの概念を適用しながらのデータパイプラインのオーケストレート、データモデルの設計、データライフサイクルの管理、データ品質の確保といった能力を検証します。

■AWS DEA-C01(JP) 全問

/204

AWS DEA-C01(JP) All

AWS Certified Data Engineer - Associate は、コアデータ関連の AWS サービスに関するスキルと知識や、データの取り込みと変換、プログラミングの概念を適用しながらのデータパイプラインのオーケストレート、データモデルの設計、データライフサイクルの管理、データ品質の確保といった能力を検証します。

1 / 204

No.1
データエンジニアは、Amazon S3 バケットからデータを読み取るための AWS Glue ジョブを設定しています。データエンジニアは、必要な AWS Glue 接続の詳細と関連する IAM ロールを設定しました。ただし、データエンジニアが AWS Glue ジョブを実行しようとすると、Amazon S3 VPC ゲートウェイエンドポイントに問題があることを示すエラーメッセージが表示されます。
データエンジニアはエラーを解決し、AWS Glue ジョブを S3 バケットに接続する必要があります。
この要件を満たすソリューションはどれですか?

A. AWS Glue セキュリティグループを更新して、Amazon S3 VPC ゲートウェイエンドポイントからの受信トラフィックを許可します。

B. S3 バケットポリシーを設定して、AWS Glue ジョブに S3 バケットへのアクセス許可を明示的に付与します。

C. AWS Glue ジョブコードを確認して、AWS Glue 接続の詳細に完全修飾ドメイン名が含まれていることを確認します。

D. VPC のルートテーブルに、Amazon S3 VPC ゲートウェイエンドポイントの受信ルートと送信ルートが含まれていることを確認します。

回答: D

説明:
A - 間違い - AWS グルーはサーバーレスサービスなので、セキュリティグループはありません
B - 間違い - S3 自体ではなく、VPC にエラーがあるためです
C - 間違い - S3 では、バケットには常に FQDN のみがあるためです

2 / 204

No.2
ある小売会社では、Amazon S3 バケットに顧客データハブがあります。多くの国の従業員がデータハブを使用して、会社全体の分析をサポートしています。ガバナンスチームは、会社のデータアナリストがアナリストと同じ国内にいる顧客のデータにのみアクセスできるようにする必要があります。
どのソリューションが、最小限の運用労力でこれらの要件を満たしますか?

A. 各国の顧客データ用に個別のテーブルを作成します。アナリストがサービスを提供する国に基づいて、各アナリストにアクセスを提供します。

B. S3 バケットを AWS Lake Formation のデータレイクの場所として登録します。Lake Formation の行レベルのセキュリティ機能を使用して、会社のアクセスポリシーを適用します。

C. 顧客がいる国に近い AWS リージョンにデータを移動します。アナリストがサービスを提供する国に基づいて、各アナリストにアクセスを提供します。

D. データを Amazon Redshift にロードします。各国のビューを作成します。各国のデータにアクセスできるように、各国に個別の IAM ロールを作成します。アナリストに適切なロールを割り当てます。

回答: B

説明:
AWS Lake Formation: AWS 上のデータレイクを管理するために特別に設計されており、データへのアクセスを保護および制御する機能を提供します。
行レベルのセキュリティ: Lake Formation を使用すると、行レベルのセキュリティを含むきめ細かなアクセス制御ポリシーを定義できます。つまり、各顧客に関連付けられた国などの特定の条件に基づいてデータへのアクセスを制限するポリシーを適用できます。
運用上の労力が最小限: Lake Formation 内でポリシーが定義されると、オプション A、C、D のように国ごとに個別のテーブルやビューを作成する必要がなく、ポリシーを一元管理して S3 バケットのデータに適用できます。これにより、運用上のオーバーヘッドと複雑さが軽減されます。

3 / 204

No.3
メディア企業は、ユーザーの行動と好みに基づいて顧客にメディアコンテンツを推奨するシステムを改善したいと考えています。推奨システムを改善するには、サードパーティのデータセットからの洞察を会社の既存の分析プラットフォームに組み込む必要があります。
会社は、サードパーティのデータセットを組み込むために必要な労力と時間を最小限に抑えたいと考えています。
最も少ない運用オーバーヘッドでこれらの要件を満たすソリューションはどれですか?

A. API 呼び出しを使用して、AWS Data Exchange からサードパーティのデータセットにアクセスして統合します。

B. API 呼び出しを使用して、AWS DataSync からサードパーティのデータセットにアクセスして統合します。

C. Amazon Kinesis Data Streams を使用して、AWS CodeCommit リポジトリからサードパーティのデータセットにアクセスして統合します。

D. Amazon Kinesis Data Streams を使用して、Amazon Elastic Container Registry (Amazon ECR) からサードパーティのデータセットにアクセスして統合します。

回答: A

説明:
AWS DataSync は主に、オンプレミスのストレージシステムと AWS ストレージサービス間、および異なる AWS ストレージサービス間でのデータの移動を簡素化、自動化、高速化するように設計されたデータ転送サービスに使用されます。その主な役割は、サードパーティのデータセットにアクセスすることではなく、大量のデータを効率的に転送することです。
対照的に、AWS Data Exchange はクラウド内のサードパーティデータの検出とサブスクライブに特化して設計されており、これらのデータセットへの直接 API アクセスを提供します。これは、最小限のオーバーヘッドでこのデータを推奨システムに統合するという企業のニーズに完全に一致しています。

4 / 204

No.4
金融会社がデータメッシュを実装したいと考えています。データメッシュは、集中型データガバナンス、データ分析、およびデータアクセス制御をサポートする必要があります。同社は、データカタログと抽出、変換、ロード (ETL) 操作に AWS Glue を使用することを決定しました。
データメッシュを実装する AWS サービスの組み合わせはどれですか? (2 つ選択してください)

A. データストレージに Amazon Aurora を使用します。データ分析には Amazon Redshift プロビジョニング済みクラスターを使用します。

B. データストレージに Amazon S3 を使用します。データ分析には Amazon Athena を使用します。

C. 集中型データガバナンスとアクセス制御には AWS Glue DataBrew を使用します。

D. データストレージに Amazon RDS を使用します。データ分析には Amazon EMR を使用します。

E. 集中型データガバナンスとアクセス制御には AWS Lake Formation を使用します。

回答: B、E

説明:
答えは B と E です。
データメッシュ実装では、データストレージと分析に Amazon S3 と Athena を使用し、集中型データガバナンスとアクセス制御には AWS Lake Formation を使用します。 AWS Glue と組み合わせると、データを効率的に管理できます。

5 / 204

No.5
データエンジニアは、多くの AWS Lambda 関数が使用するデータフォーマット処理を実行するカスタム Python スクリプトを管理しています。データエンジニアが Python スクリプトを変更する必要がある場合、データエンジニアはすべての Lambda 関数を手動で更新する必要があります。
データエンジニアは、Lambda 関数を更新するためのより手動の手間の少ない方法を必要としています。
この要件を満たすソリューションはどれですか?

A. 共有 Amazon S3 バケット内の実行コンテキストオブジェクトにカスタム Python スクリプトへのポインターを保存します。

B. カスタム Python スクリプトを Lambda レイヤーにパッケージ化します。Lambda レイヤーを Lambda 関数に適用します。

C. 共有 Amazon S3 バケット内の環境変数にカスタム Python スクリプトへのポインターを保存します。

D. 各 Lambda 関数に同じエイリアスを割り当てます。関数のエイリアスを指定して、各 Lambda 関数を呼び出します。

回答: B

説明:
B. カスタム Python スクリプトを Lambda レイヤーにパッケージ化します。Lambda レイヤーを Lambda 関数に適用します。
Lambda レイヤーを使用すると、複数の Lambda 関数間で共有されるコードと依存関係を一元的に管理できます。カスタム Python スクリプトを Lambda レイヤーにパッケージ化することで、スクリプトに変更が加えられるたびにレイヤーを更新するだけで、レイヤーを使用するすべての Lambda 関数が自動的に更新を継承します。このアプローチにより、手作業の労力が軽減され、関数間の一貫性が確保されます。

一元化されたコード管理: Lambda レイヤーを使用すると、カスタム Python スクリプトを個々の Lambda 関数コードの外部の中央の場所に保存して管理できます。これにより、各 Lambda 関数のスクリプトを手動で更新する必要がなくなります。

再利用可能なコード: レイヤーを使用すると、複数の Lambda 関数間でコードを共有できます。レイヤーコードに加えられた変更は、そのレイヤーを使用するすべての関数に自動的に反映されるため、更新が効率化されます。

デプロイメントサイズの縮小: コア機能をレイヤーに分割することで、個々の Lambda 関数コードを集中して小さくすることができます。これにより、デプロイメントパッケージのサイズが縮小され、Lambda の実行時間が改善される可能性があります。

6 / 204

No.6
ある会社が AWS Glue で抽出、変換、ロード (ETL) データパイプラインを作成しました。データエンジニアは、Microsoft SQL Server にあるテーブルをクロールする必要があります。データエンジニアは、クロールの出力を抽出、変換し、Amazon S3 バケットにロードする必要があります。また、データエンジニアはデータパイプラインをオーケストレーションする必要もあります。
これらの要件を最もコスト効率よく満たす AWS サービスまたは機能はどれですか?

A. AWS Step Functions

B. AWS Glue ワークフロー

C. AWS Glue Studio

D. Apache Airflow 向け Amazon マネージドワークフロー (Amazon MWAA)

回答: B

説明:
Glue ワークフローは、ここでは最も簡単なソリューションです:

https://aws.amazon.com/blogs/big-data/orchestrate-an-etl-pipeline-using-aws-glue-workflows-triggers-and-crawlers-with-custom-classifiers/

https://aws.amazon.com/blogs/big-data/extracting-multidimensional-data-from-microsoft-sql-server-analysis-services-using-aws-glue/

A. AWS Step Functions:
これは、さまざまな AWS サービスのステップを使用してワークフローをオーケストレーションするのに適したオプションですが、Microsoft SQL Server に接続するための追加の開発が必要です。

B. AWS Glue ワークフロー:
これは、最も優れた、最も収益性の高いオプションです。 AWS Glue は、AWS 上の ETL 専用に設計されており、コネクタを介して Microsoft SQL Server などのデータソースと直接統合します。これにより、構成が簡単になり、追加の開発が不要になります。

C. AWS Glue Studio:
これは、ETL ジョブの作成と管理を容易にする AWS Glue のビジュアルインターフェイスです。ただし、基礎となる機能は AWS Glue (B) ワークフローから提供されます。

D. Amazon Managed Workflows for Apache Airflow (Amazon MWAA):
これは実行可能なオプションですが、AWS Glue Workflows などのネイティブ AWS サービスよりも一般的に高価です。さらに、セットアップとメンテナンスには Airflow の経験が必要です。

7 / 204

No.7
金融サービス会社が Amazon Redshift に金融データを保存しています。データエンジニアは、Web ベースの取引アプリケーションをサポートするために、金融データに対してリアルタイムクエリを実行したいと考えています。データエンジニアは、取引アプリケーション内からクエリを実行したいと考えています。
運用オーバーヘッドが最も少ないソリューションはどれですか?

A. Amazon Redshift への WebSocket 接続を確立します。

B. Amazon Redshift Data API を使用します。

C. Amazon Redshift への Java Database Connectivity (JDBC) 接続を設定します。

D. 頻繁にアクセスするデータを Amazon S3 に保存します。Amazon S3 Select を使用してクエリを実行します。

回答: B

説明:
Amazon Redshift Data API は、軽量の HTTPS ベースの API で、Amazon Redshift に対してクエリを実行するために JDBC または ODBC ドライバーを使用する代わりに使用できます。接続やドライバーを管理する必要なく、アプリケーション内から直接 SQL クエリを実行できます。WebSocket または JDBC 接続を管理および維持する必要がないため、運用上のオーバーヘッドが削減されます。

8 / 204

No.8
ある会社では、Amazon S3 にあるデータに対する 1 回限りのクエリに Amazon Athena を使用しています。この会社には複数のユースケースがあります。この会社は、同じ AWS アカウント内のユーザー、チーム、アプリケーション間でクエリプロセスとクエリ履歴へのアクセスを分離するためのアクセス許可制御を実装する必要があります。
これらの要件を満たすソリューションはどれですか?

A. ユースケースごとに S3 バケットを作成します。適切な個々の IAM ユーザーにアクセス許可を付与する S3 バケットポリシーを作成します。S3 バケットポリシーを S3 バケットに適用します。

B. ユースケースごとに Athena ワークグループを作成します。ワークグループにタグを適用します。タグを使用してワークグループに適切なアクセス許可を適用する IAM ポリシーを作成します。

C. ユースケースごとに IAM ロールを作成します。ユースケースごとに適切なアクセス許可をロールに割り当てます。ロールを Athena に関連付けます。

D. ユースケースごとに適切な個々の IAM ユーザーにアクセス許可を付与する AWS Glue Data Catalog リソースポリシーを作成します。Athena が使用する特定のテーブルにリソースポリシーを適用します。

回答: B

説明:
https://docs.aws.amazon.com/athena/latest/ug/user-created-workgroups.html

Athena ワークグループを使用すると、さまざまなワークロード、ユーザー、および権限を分離して管理できます。ユースケースごとに個別のワークグループを作成することで、クエリ履歴へのアクセスを制御し、権限を管理し、ワークロードごとに個別にリソース使用制限を適用できます。ワークグループにタグを適用すると、ユースケースに基づいてワークグループを分類および整理できるため、ポリシー管理が簡素化されます。

9 / 204

No.9
データエンジニアは、AWS Glue ジョブのセットを毎日実行するワークフローをスケジュールする必要があります。データエンジニアは、Glue ジョブが特定の時間に実行または終了することを必要としません。
どのソリューションが最もコスト効率の高い方法で Glue ジョブを実行しますか?

A. Glue ジョブのプロパティで FLEX 実行クラスを選択します。

B. Glue ジョブのプロパティでスポットインスタンスタイプを使用します。

C. Glue ジョブのプロパティで STANDARD 実行クラスを選択します。

D. Glue ジョブのプロパティの GlueVersion フィールドで最新バージョンを選択します。

回答: A

説明:
FLEX 実行クラスは、AWS インフラストラクチャ内の予備容量を活用して、標準実行クラスに比べて割引価格で Glue ジョブを実行します。データエンジニアには特定の時間的制約がないため、予備容量を利用することはコスト削減に最適です。
今日の日付は予備容量を確保するためのチェックボックスであり、いつ終了するかがわからないことを意味します。タイムアウトを増やすことをお勧めします。

10 / 204

10.

No.10
データエンジニアは、データの形式を .csv から Apache Parquet に変換する AWS Lambda 関数を作成する必要があります。Lambda 関数は、ユーザーが .csv ファイルを Amazon S3 バケットにアップロードした場合にのみ実行する必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えてこれらの要件を満たしますか?

A. イベントタイプが s3:ObjectCreated:* の S3 イベント通知を作成します。フィルタールールを使用して、サフィックスに .csv が含まれている場合にのみ通知を生成します。Lambda 関数の Amazon リソース名 (ARN) をイベント通知の送信先として設定します。

B. タグが .csv に設定されているオブジェクトに対して、イベントタイプが s3:ObjectTagging:* の S3 イベント通知を作成します。Lambda 関数の Amazon リソース名 (ARN) をイベント通知の送信先として設定します。

C. イベントタイプが s3:* の S3 イベント通知を作成します。フィルタールールを使用して、サフィックスに .csv が含まれている場合にのみ通知を生成します。Lambda 関数の Amazon リソース名 (ARN) をイベント通知の送信先として設定します。

D. イベントタイプが s3:ObjectCreated:* の S3 イベント通知を作成します。フィルタールールを使用して、サフィックスに .csv が含まれている場合にのみ通知を生成します。イベント通知の送信先として Amazon Simple Notification Service (Amazon SNS) トピックを設定します。Lambda 関数を SNS トピックにサブスクライブします。

回答: A

説明:
「ユーザーが Amazon S3 バケットにデータをアップロードする場合のみ」は、s3:ObjectCreated:* が必要なため、B と C を除外します。

S3 イベント通知には SNS は必要ないため、A の方が簡単です。

このソリューションは、.csv ファイルが S3 バケットにアップロードされた場合にのみ Lambda 関数を直接トリガーし、Lambda 関数の不要な呼び出しを最小限に抑えます。特定のイベントタイプ (s3:ObjectCreated:*) とフィルタールールを使用して、関連するイベントに対してのみ Lambda 関数が呼び出されるようにします。さらに、Amazon SNS などの追加サービスを必要とせずに Lambda 関数を直接呼び出すため、運用上のオーバーヘッドが削減されます。

11 / 204

11.

No.11
データエンジニアは、Amazon Athena クエリをより速く完了する必要があります。データエンジニアは、Athena クエリが使用するすべてのファイルが現在、圧縮されていない .csv 形式で保存されていることに気付きました。また、データエンジニアは、ユーザーが特定の列を選択してほとんどのクエリを実行していることに気付きました。
Athena クエリのパフォーマンスを最も高速化するソリューションはどれですか?

A. データ形式を .csv から JSON 形式に変更します。Snappy 圧縮を適用します。

B. Snappy 圧縮を使用して .csv ファイルを圧縮します。

C. データ形式を .csv から Apache Parquet に変更します。Snappy 圧縮を適用します。

D. gzip 圧縮を使用して .csv ファイルを圧縮します。

回答: C

説明:

オプション C - Apache Parquet は、分析クエリ用に最適化された列指向のストレージ形式です。列のプルーニングと述語プッシュダウンの最適化が可能であるため、特にクエリで特定の列を選択する場合、クエリのパフォーマンスが非常に効率的です。

12 / 204

No.12
製造会社では、工場の現場からセンサーデータを収集して、運用効率を監視および強化しています。同社は Amazon Kinesis Data Streams を使用して、センサーが収集したデータをデータストリームに公開します。次に、Amazon Kinesis Data Firehose がデータを Amazon S3 バケットに書き込みます。
同社は、製造施設の大型スクリーンに運用効率のリアルタイムビューを表示する必要があります。

12. どのソリューションが、最も低いレイテンシーでこれらの要件を満たしますか?

A. Amazon Managed Service for Apache Flink (旧称 Amazon Kinesis Data Analytics) を使用してセンサーデータを処理します。Apache Flink のコネクタを使用して、Amazon Timestream データベースにデータを書き込みます。Timestream データベースをソースとして使用して、Grafana ダッシュボードを作成します。

B. 新しいオブジェクトが作成されたときに AWS Lambda 関数に通知を送信するように S3 バケットを設定します。Lambda 関数を使用して、データを Amazon Aurora に公開します。Aurora をソースとして使用して、Amazon QuickSight ダッシュボードを作成します。

C. Amazon Managed Service for Apache Flink (旧称 Amazon Kinesis Data Analytics) を使用してセンサーデータを処理します。新しい Data Firehose 配信ストリームを作成して、データを Amazon Timestream データベースに直接公開します。Timestream データベースをソースとして使用して、Amazon QuickSight ダッシュボードを作成します。

D. AWS Glue ブックマークを使用して、S3 バケットからセンサーデータをリアルタイムで読み取ります。データを Amazon Timestream データベースに公開します。Timestream データベースをソースとして使用して、Grafana ダッシュボードを作成します。

回答: A

説明:
https://aws.amazon.com/blogs/database/near-real-time-processing-with-amazon-kinesis-amazon-timestream-and-grafana/
リアルタイム -> Quicksight なし。また、ブックマークを使用してセンサーデータをリアルタイムで読み取ることは、地球平面説と同じくらい愚かです。 A そうです。

13 / 204

13.

No.13
ある会社では、投資ポートフォリオの財務実績の毎日の記録を .csv 形式で Amazon S3 バケットに保存しています。データエンジニアは、AWS Glue クローラーを使用して S3 データをクロールします。
データエンジニアは、AWS Glue データカタログで S3 データを毎日アクセスできるようにする必要があります。
これらの要件を満たすソリューションはどれですか?

A. AmazonS3FullAccess ポリシーを含む IAM ロールを作成します。ロールをクローラーに関連付けます。ソースデータの S3 バケットパスをクローラーのデータストアとして指定します。クローラーを実行するための毎日のスケジュールを作成します。出力先を既存の S3 バケット内の新しいパスに設定します。

B. AWSGlueServiceRole ポリシーを含む IAM ロールを作成します。ロールをクローラーに関連付けます。ソースデータの S3 バケットパスをクローラーのデータストアとして指定します。クローラーを実行するための毎日のスケジュールを作成します。出力のデータベース名を指定します。

C. AmazonS3FullAccess ポリシーを含む IAM ロールを作成します。ロールをクローラーに関連付けます。ソースデータの S3 バケットパスをクローラーのデータストアとして指定します。データ処理ユニット (DPU) を割り当てて、クローラーを毎日実行します。出力のデータベース名を指定します。

D. AWSGlueServiceRole ポリシーを含む IAM ロールを作成します。ロールをクローラーに関連付けます。ソースデータの S3 バケットパスをクローラーのデータストアとして指定します。データ処理ユニット (DPU) を割り当てて、クローラーを毎日実行します。出力先を既存の S3 バケット内の新しいパスに設定します。

回答: B

説明:

オプション B - オプション B は、AWS Glue で使用するために設計された AWSGlueServiceRole ポリシーを使用して、必要なアクセス許可を持つ IAM ロールを正しく設定します。ソースデータの S3 バケットパスをクローラーのデータストアとして指定し、クローラーを実行する毎日のスケジュールを作成します。さらに、出力のデータベース名を指定し、クロールされたデータが AWS Glue データカタログに適切にカタログ化されるようにします。
Glue クローラーはサーバーレスです。DPU の割り当てが、オプション B を選択したポイントです。

14 / 204

14.

No.14
ある会社では、毎日の終わりに、毎日のトランザクションデータを Amazon Redshift テーブルにロードします。会社は、どのテーブルがロードされたか、どのテーブルがまだロードする必要があるかを追跡できるようにしたいと考えています。
データエンジニアは、Redshift テーブルのロードステータスを Amazon DynamoDB テーブルに保存したいと考えています。データエンジニアは、ロードステータスの詳細を DynamoDB に公開する AWS Lambda 関数を作成します。
データエンジニアは、ロードステータスを DynamoDB テーブルに書き込むために、どのように Lambda 関数を呼び出す必要がありますか?

A. 2 番目の Lambda 関数を使用して、Amazon CloudWatch イベントに基づいて最初の Lambda 関数を呼び出します。

B. Amazon Redshift Data API を使用して、イベントを Amazon EventBridge に公開します。 Lambda 関数を呼び出すように EventBridge ルールを設定します。

C. Amazon Redshift Data API を使用して、Amazon Simple Queue Service (Amazon SQS) キューにメッセージを公開します。SQS キューを設定して、Lambda 関数を呼び出します。

D. 2 番目の Lambda 関数を使用して、AWS CloudTrail イベントに基づいて最初の Lambda 関数を呼び出します。

回答: B

説明:
https://docs.aws.amazon.com/redshift/latest/mgmt/data-api-monitoring-events.html

オプション B は、Amazon Redshift Data API を利用して、AWS サービス全体でイベントを処理するためのサーバーレスイベントバスサービスを提供する Amazon EventBridge にイベントを公開します。Redshift Data API によって公開されたイベントに応答して Lambda 関数を呼び出すように EventBridge ルールを設定することで、データエンジニアは、Amazon Redshift に新しいトランザクションデータがロードされるたびに Lambda 関数がトリガーされるようにすることができます。このアプローチは、追加の Lambda 関数やサービスに頼ることなく、テーブルのロードステータスを追跡するための簡単でスケーラブルなソリューションを提供します。

15 / 204

15.

No.15
データエンジニアは、オンプレミスのデータセンターから Amazon S3 バケットに 5 TB のデータを安全に転送する必要があります。データの約 5% が毎日変更されます。データの更新は、S3 バケットに定期的に拡散する必要があります。データには、複数の形式のファイルが含まれます。データエンジニアは転送プロセスを自動化する必要があり、プロセスが定期的に実行されるようにスケジュールする必要があります。
データエンジニアは、最も運用効率の高い方法でデータを転送するためにどの AWS サービスを使用する必要がありますか?

A. AWS DataSync

B. AWS Glue

C. AWS Direct Connect

D. Amazon S3 Transfer Acceleration

回答: A

説明:

オプション A - AWS DataSync は、オンプレミスのストレージと Amazon S3、EFS、または FSx for Windows ファイルサーバーの間で大量のデータをオンラインで移動することを簡素化および高速化するマネージドデータ転送サービスです。 DataSync は、大規模なデータセットの効率的で増分的かつ信頼性の高い転送に最適化されており、毎日更新される 5 TB のデータの転送に適しています。

16 / 204

16.

No.16
ある会社では、オンプレミスの Microsoft SQL Server データベースを使用して金融取引データを保存しています。この会社は、毎月末に取引データをオンプレミスのデータベースから AWS に移行しています。この会社は、オンプレミスのデータベースから Amazon RDS for SQL Server データベースにデータを移行するコストが最近増加していることに気付きました。
この会社は、データを AWS に移行するためのコスト効率の高いソリューションを必要としています。このソリューションは、データベースにアクセスするアプリケーションのダウンタイムを最小限に抑える必要があります。
これらの要件を満たすために、この会社はどの AWS サービスを使用すべきですか?

A. AWS Lambda

B. AWS Database Migration Service (AWS DMS)

C. AWS Direct Connect

D. AWS DataSync

回答: B

説明:
回答を事前にマークする管理者が誰であれ、今すぐ始めましょう。

AWS Database Migration Service (DMS) は、オンプレミスのデータベースを含むさまざまなソースから、アプリケーションのダウンタイムと中断を最小限に抑えて AWS にデータを移行するために特別に設計されています。同種移行 (SQL Server から SQL Server など) だけでなく異種移行 (SQL Server から Amazon RDS for SQL Server など) もサポートします。

17 / 204

17.

No.17
データエンジニアは、AWS Glue の抽出、変換、ロード (ETL) ジョブを使用して AWS 上にデータパイプラインを構築しています。データエンジニアは、Amazon RDS と MongoDB からのデータを処理し、変換を実行し、変換されたデータを分析用に Amazon Redshift にロードする必要があります。データの更新は 1 時間ごとに実行する必要があります。
どのタスクの組み合わせが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか? (2 つ選択してください)。

A. ETL ジョブを 1 時間ごとに実行するように AWS Glue トリガーを構成します。

B. AWS Glue DataBrew を使用して、分析用にデータをクリーンアップして準備します。

C. AWS Lambda 関数を使用して、ETL ジョブを 1 時間ごとにスケジュールして実行します。

D. AWS Glue 接続を使用して、データソースと Amazon Redshift 間の接続を確立します。

E. Redshift Data API を使用して、変換されたデータを Amazon Redshift にロードします。

回答: A、D

説明:

オプション A - ETL ジョブを 1 時間ごとに実行するように AWS Glue トリガーを構成します。

コードの複雑さの軽減: Glue トリガーを使用すると、ETL ジョブをスケジュールするためのカスタムコードを記述する必要がなくなります。これにより、パイプラインが簡素化され、メンテナンスのオーバーヘッドが削減されます。

スケーラビリティと統合: Glue トリガーは Glue ETL ジョブとシームレスに連携し、Glue エコシステム内での効率的なスケジュールと実行を保証します。

オプション C - AWS Glue 接続を使用して、データソースと Amazon Redshift 間の接続を確立します。

事前構築済みコネクタ: Glue 接続は、RDS や Redshift などのさまざまなデータソース用の事前構築済みコネクタを提供します。これにより、手動構成が不要になり、ETL ジョブ内でのデータソースアクセスが簡素化されます。

一元管理: Glue 接続は Glue サービス内で一元管理されるため、接続管理が効率化され、運用オーバーヘッドが削減されます。

AWS Glue トリガーは、ETL ジョブをスケジュールするためのシンプルで統合された方法を提供します。これらのトリガーを 1 時間ごとに実行するように構成することで、データエンジニアは、外部のスケジュールツールやカスタムスクリプトを必要とせずに、必要に応じてデータの処理と更新が行われるようにすることができます。このアプローチは AWS Glue と直接統合されているため、複雑さと運用上のオーバーヘッドが軽減されます。
AWS Glue は、Amazon RDS や MongoDB などのさまざまなデータソースへの接続をサポートしています。AWS Glue 接続を使用すると、データエンジニアはこれらのデータソースと Amazon Redshift 間の接続を簡単に構成および管理できます。この方法では、データソース統合用の AWS Glue の組み込み機能を活用するため、運用上の複雑さが最小限に抑えられ、ソースから宛先 (Amazon Redshift) へのシームレスなデータフローが保証されます。

18 / 204

18.

No.18
ある会社では、RA3 ノードで実行される Amazon Redshift クラスターを使用しています。この会社は、需要に合わせて読み取りおよび書き込み容量を拡張したいと考えています。データエンジニアは、同時実行スケーリングを有効にするソリューションを特定する必要があります。
この要件を満たすソリューションはどれですか?

A. Redshift Serverless ワークグループのワークロード管理 (WLM) で同時実行スケーリングをオンにします。

B. Redshift クラスターのワークロード管理 (WLM) キューレベルで同時実行スケーリングをオンにします。

C. 新しい Redshift クラスターの作成時に設定で同時実行スケーリングをオンにします。

D. Redshift クラスターの 1 日あたりの使用量クォータの同時実行スケーリングをオンにします。

回答: B

説明:

オプション B - Amazon Redshift の同時実行スケーリングにより、クラスターはワークロードの需要に応じてコンピューティングリソースを自動的に追加および削除できます。ワークロード管理 (WLM) キューレベルで同時実行スケーリングを有効にすると、クエリワークロードに基づいて同時実行スケーリングのメリットを享受できるキューを指定できます。

19 / 204

19.

No.19
データエンジニアは、毎日実行される一連の Amazon Athena クエリをオーケストレーションする必要があります。各クエリは 15 分以上実行されることがあります。
これらの要件を最もコスト効率よく満たす手順の組み合わせはどれですか? (2 つ選択してください)

A. AWS Lambda 関数と Athena Boto3 クライアントの start_query_execution API 呼び出しを使用して、Athena クエリをプログラムで呼び出します。

B. AWS Step Functions ワークフローを作成し、2 つの状態を追加します。最初の状態を Lambda 関数の前に追加します。2 番目の状態を待機状態として設定し、Athena Boto3 get_query_execution API 呼び出しを使用して、Athena クエリが終了したかどうかを定期的に確認します。現在のクエリの実行が終了したら次のクエリを呼び出すようにワークフローを設定します。

C. AWS Glue Python シェルジョブと Athena Boto3 クライアントの start_query_execution API 呼び出しを使用して、Athena クエリをプログラムで呼び出します。

D. AWS Glue Python シェルスクリプトを使用して、現在の Athena クエリが正常に実行されたかどうかを 5 分ごとにチェックするスリープタイマーを実行します。現在のクエリの実行が終了したら次のクエリを呼び出すように Python シェルスクリプトを構成します。

E. Amazon Managed Workflows for Apache Airflow (Amazon MWAA) を使用して、AWS Batch で Athena クエリをオーケストレーションします。

回答: A、B

説明:
AWS Lambda は、Athena クエリをトリガーするために効果的に使用できます。Athena Boto3 クライアントの start_query_execution API を使用すると、プログラムで Athena クエリを開始できます。Lambda 関数は、使用したコンピューティング時間に基づいて課金され、コードが実行されていないときは課金されないため、コスト効率に優れています。ただし、Lambda の最大実行タイムアウトは 15 分であるため、長時間実行される操作には適していませんが、クエリをトリガーまたは開始するために使用できます。
AWS Step Functions は、ワークフローで複数の AWS サービスをオーケストレーションできます。待機状態を使用することで、ワークフローは定期的に Athena クエリのステータスを確認し、クエリが完了したら次のステップに進むことができます。このアプローチは、Step Functions が長時間実行されるプロセスをより適切に処理し、ワークフローの各ステップの状態を維持できるため、Lambda 関数を継続的に実行するよりもスケーラブルで信頼性が高くなります。

20 / 204

20.

No.20
ある企業がオンプレミスのワークロードを AWS に移行しています。この企業は、全体的な運用オーバーヘッドを削減したいと考えています。また、サーバーレスオプションも検討したいと考えています。
この企業の現在のワークロードでは、Apache Pig、Apache Oozie、Apache Spark、Apache Hbase、および Apache Flink を使用しています。オンプレミスのワークロードは、ペタバイト単位のデータを数秒で処理します。この企業は、AWS への移行後も同等以上のパフォーマンスを維持する必要があります。
これらの要件を満たす抽出、変換、ロード (ETL) サービスはどれですか?

A. AWS Glue

B. Amazon EMR

C. AWS Lambda

D. Amazon Redshift

回答: B

説明:
Glue は、EMR の見た目は良いものの、より弱い兄弟のようなものです。したがって、ペタバイト規模の場合は、EMR に作業を任せ、Glue には作業を任せないでください。

21 / 204

21.

No.21
データエンジニアは、AWS サービスを使用して、データセットを Amazon S3 データレイクに取り込む必要があります。データエンジニアはデータセットをプロファイルし、データセットに個人を特定できる情報 (PII) が含まれていることを発見します。データエンジニアは、データセットをプロファイルして PII を難読化するソリューションを実装する必要があります。
どのソリューションが、最も少ない運用労力でこの要件を満たしますか?

A. Amazon Kinesis Data Firehose 配信ストリームを使用してデータセットを処理します。AWS Lambda 変換関数を作成して PII を識別します。AWS SDK を使用して PII を難読化します。S3 データレイクを配信ストリームのターゲットとして設定します。

B. AWS Glue Studio の Detect PII 変換を使用して PII を識別します。PII を難読化します。AWS Step Functions ステートマシンを使用してデータパイプラインを調整し、データを S3 データレイクに取り込みます。

C. AWS Glue Studio の Detect PII 変換を使用して PII を識別します。AWS Glue Data Quality でルールを作成し、PII を難読化します。AWS Step Functions ステートマシンを使用してデータパイプラインを調整し、データを S3 データレイクに取り込みます。

D. データセットを Amazon DynamoDB に取り込みます。AWS Lambda 関数を作成して、DynamoDB テーブル内の PII を識別して難読化し、データを変換します。同じ Lambda 関数を使用して、データを S3 データレイクに取り込みます。

回答: B

説明:
Data Quality はどのようにして PII を難読化しますか?これは Glue Studio で直接実行できます: https://docs.aws.amazon.com/glue/latest/dg/detect-PII.html

オプション C では、AWS Glue Data Quality でルールを作成するための追加の手順と複雑さが伴い、AWS Glue Studio の機能を直接使用する場合に比べて運用上の労力が増加します。

22 / 204

22.

No.22
ある会社では、会社の運用データベースから Amazon S3 ベースのデータレイクにデータを取り込む複数の抽出、変換、ロード (ETL) ワークフローを維持しています。ETL ワークフローは、AWS Glue と Amazon EMR を使用してデータを処理します。
この会社は、既存のアーキテクチャを改善して、自動化されたオーケストレーションを提供し、手作業を最小限に抑えたいと考えています。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. AWS Glue ワークフロー

B. AWS Step Functions タスク

C. AWS Lambda 関数

D. Amazon Managed Workflows for Apache Airflow (Amazon MWAA) ワークフロー

回答: B

説明:
Glue ワークフローは、クローラーとグルージョブのみをオーケストレーションします。

私にとっては B です。Glue が EMR プロセスを OOTB でトリガー/オーケストレーションできる可能性が見つからなかったからです。
しかし、StepFunction には方法があります: https://aws.amazon.com/blogs/big-data/orchestrate-amazon-emr-serverless-jobs-with-aws-step-functions/

23 / 204

23.

No.23
現在、ある会社では、S3 標準ストレージクラスを使用して、すべてのデータを Amazon S3 に保存しています。
データエンジニアは、傾向を特定するためにデータアクセスパターンを調べました。最初の 6 か月間は、ほとんどのデータファイルが 1 日に数回アクセスされます。6 か月から 2 年の間は、ほとんどのデータファイルが月に 1 回か 2 回アクセスされます。2 年後、データファイルへのアクセスは年に 1 回か 2 回のみになります。
データエンジニアは、S3 ライフサイクルポリシーを使用して、新しいデータストレージルールを開発する必要があります。新しいストレージソリューションは、引き続き高可用性を提供する必要があります。
これらの要件を最もコスト効率の高い方法で満たすソリューションはどれですか?

A. 6 か月後にオブジェクトを S3 One Zone-Infrequent Access (S3 One Zone-IA) に移行します。 2 年後にオブジェクトを S3 Glacier Flexible Retrieval に転送します。

B. 6 か月後にオブジェクトを S3 Standard-Infrequent Access (S3 Standard-IA) に移行します。2 年後にオブジェクトを S3 Glacier Flexible Retrieval に転送します。

C. 6 か月後にオブジェクトを S3 Standard-Infrequent Access (S3 Standard-IA) に移行します。2 年後にオブジェクトを S3 Glacier Deep Archive に転送します。

D. 6 か月後にオブジェクトを S3 One Zone-Infrequent Access (S3 One Zone-IA) に移行します。2 年後にオブジェクトを S3 Glacier Deep Archive に転送します。

回答: C

説明:
Flexible Retrieval は Deep Archive よりもコストが高くなります。レコードを 1 年に 1 回か 2 回しか取得する必要がない場合は、すぐに利用できるようにする必要はありません。

24 / 204

24.

No.24
ある会社では、重要な分析タスクをサポートするために、抽出、変換、ロード (ETL) 操作に使用する Amazon Redshift プロビジョニング済みクラスターを維持しています。会社内の営業チームは、営業チームがビジネスインテリジェンス (BI) タスクに使用する Redshift クラスターを維持しています。
営業チームは最近、チームが毎週の要約分析タスクを実行できるように、ETL Redshift クラスターにあるデータへのアクセスを要求しました。営業チームは、ETL クラスターのデータと営業チームの BI クラスターにあるデータを結合する必要があります。
会社には、重要な分析タスクを中断することなく ETL クラスターデータを営業チームと共有するソリューションが必要です。ソリューションは、ETL クラスターのコンピューティングリソースの使用を最小限に抑える必要があります。
これらの要件を満たすソリューションはどれですか?

A. Redshift データ共有を使用して、営業チームの BI クラスターを ETL クラスターのコンシューマーとして設定します。

B. 営業チームの要件に基づいてマテリアライズドビューを作成します。営業チームに ETL クラスターへの直接アクセスを許可します。

C. 営業チームの要件に基づいてデータベースビューを作成します。営業チームに ETL クラスターへの直接アクセスを許可します。

D. ETL クラスターから Amazon S3 バケットに毎週データのコピーをアンロードします。ETL クラスターのコンテンツに基づいて Amazon Redshift Spectrum テーブルを作成します。

回答: A

説明:
A: Redshift データ共有:
https://docs.aws.amazon.com/redshift/latest/dg/data_sharing_intro.html
データ共有を使用すると、Amazon Redshift クラスター間でライブデータを安全かつ簡単に共有できます。
B: マテリアライズドビューは、1 つの Redshift クラスター内の異なるテーブルにのみ存在します。

25 / 204

25.

No.25
データエンジニアは、1 回限りの分析ジョブを実行するために、複数のソースからのデータを結合する必要があります。データは、Amazon DynamoDB、Amazon RDS、Amazon Redshift、および Amazon S3 に保存されています。
この要件を最もコスト効率よく満たすソリューションはどれですか?

A. Amazon EMR プロビジョニングされたクラスターを使用して、すべてのソースから読み取ります。Apache Spark を使用してデータを結合し、分析を実行します。

B. DynamoDB、Amazon RDS、および Amazon Redshift から Amazon S3 にデータをコピーします。S3 ファイルで Amazon Athena クエリを直接実行します。

C. Amazon Athena Federated Query を使用して、すべてのデータソースからのデータを結合します。

D. Redshift Spectrum を使用して、Redshift から直接 DynamoDB、Amazon RDS、および Amazon S3 のデータをクエリします。

回答: C

説明:
この用途では Federated Query が一般的であるため、C を選択します。さらに、S3 にリソースを追加/複製する必要はありません。ただし、Athena は S3 向けに最適化されているため、考慮すべきトレードオフが増える可能性があり、私の意見では、データが S3 に集中している方がデータガバナンスが容易になるなど、難しい問題になる可能性があると思います。

サーバーレス処理: Athena はサーバーレスクエリサービスです。つまり、実行したクエリに対してのみ料金が発生します。これにより、EMR クラスターのようにコンピューティングリソースをプロビジョニングおよび管理する必要がなくなり、1 回限りのジョブに最適です。

フェデレーションクエリ機能: Athena フェデレーションクエリを使用すると、データを物理的に移動せずに、DynamoDB、RDS、Redshift、S3 などのさまざまなソースからデータを直接クエリできます。これにより、データ移動コストがなくなり、分析プロセスが簡素化されます。

大規模データセットのコスト削減: 大規模データセットではコストがかかる可能性がある S3 へのデータのコピーと比較して、Athena フェデレーションクエリでは不要なデータ移動が回避され、全体的なコストが削減されます。

26 / 204

26.

No.26
ある企業は、Apache Spark ジョブを実行するプロビジョニング済みの Amazon EMR クラスターを使用してビッグデータ分析を実行することを計画しています。この企業では高い信頼性が求められています。ビッグデータチームは、Amazon EMR でコストが最適化された長時間実行ワークロードを実行するためのベストプラクティスに従う必要があります。チームは、企業の現在のパフォーマンスレベルを維持するソリューションを見つける必要があります。
どのリソースの組み合わせが、これらの要件を最もコスト効率よく満たしますか? (2 つ選択してください)。

A. Hadoop 分散ファイルシステム (HDFS) を永続データストアとして使用します。

B. Amazon S3 を永続データストアとして使用します。

C. コアノードとタスクノードに x86 ベースのインスタンスを使用します。

D. コアノードとタスクノードに Graviton インスタンスを使用します。

E. すべてのプライマリノードにスポットインスタンスを使用します。

回答: B、D

説明:
クラスターが終了すると、すべての HDFS データが失われるため、HDFS は永続ストレージには推奨されません。また、長時間実行されるワークロードはディスク領域をすぐにいっぱいにする可能性があります。したがって、可用性、耐久性、拡張性に優れた S3 が最適な選択肢です。

AWS Graviton ベースのインスタンスは、同等の x86 ベースの Amazon EC2 インスタンスよりも最大 20% 安価です: https://aws.amazon.com/ec2/graviton/

27 / 204

No.27
ある企業がリアルタイム分析機能を実装したいと考えています。同社は、Amazon Kinesis Data Streams と Amazon Redshift を使用して、ストリーミングデータを数ギガバイト/秒の速度で取り込み、処理したいと考えています。同社は、既存のビジネスインテリジェンス (BI) および分析ツールを使用して、ほぼリアルタイムの洞察を導き出したいと考えています。

27. どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. Kinesis Data Streams を使用して Amazon S3 にデータをステージングします。COPY コマンドを使用して Amazon S3 から Amazon Redshift に直接データをロードし、データをリアルタイム分析にすぐに使用できるようにします。

B. SQL クエリを使用して Kinesis Data Streams からデータにアクセスします。ストリームの上に直接マテリアライズドビューを作成します。マテリアライズドビューを定期的に更新して、最新のストリームデータをクエリします。

C. Amazon Redshift で外部スキーマを作成し、Kinesis Data Streams のデータを Amazon Redshift オブジェクトにマップします。ストリームからデータを読み取るマテリアライズドビューを作成します。マテリアライズドビューを自動更新に設定します。

D. Kinesis Data Streams を Amazon Kinesis Data Firehose に接続します。Kinesis Data Firehose を使用して Amazon S3 にデータをステージングします。COPY コマンドを使用して、Amazon S3 から Amazon Redshift のテーブルにデータをロードします。

回答: C

説明:

オプション C - ほぼリアルタイムの洞察分析を提供できます。AWS の記事を参照してください - https://aws.amazon.com/blogs/big-data/real-time-analytics-with-amazon-redshift-streaming-ingestion/

ここでのキーワードはほぼリアルタイムです。S3 と COPY が関係する場合は、ほぼリアルタイムにはなりません。

回答: C

説明:

ここでのキーワードはほぼリアルタイムです。S3 と COPY が関係する場合は、ほぼリアルタイムにはなりません。

28 / 204

28.

No.28
ある会社では、Amazon QuickSight ダッシュボードを使用して、会社のアプリケーションの 1 つの使用状況を監視しています。この会社は、ダッシュボードのデータ処理に AWS Glue ジョブを使用しています。この会社は、データを 1 つの Amazon S3 バケットに保存しています。この会社は、毎日新しいデータを追加しています。
データエンジニアは、ダッシュボードのクエリが時間の経過とともに遅くなっていることを発見しました。データエンジニアは、クエリの速度低下の根本原因は、長時間実行される AWS Glue ジョブであると判断しました。
データエンジニアは、AWS Glue ジョブのパフォーマンスを向上させるために、どのアクションを実行する必要がありますか? (2 つ選択してください)。

A. S3 バケット内のデータをパーティション分割します。データを年、月、日ごとに整理します。

B. ワーカータイプをスケールアップして、AWS Glue インスタンスのサイズを増やします。

C. AWS Glue スキーマを DynamicFrame スキーマクラスに変換します。

D. AWS Glue ジョブのスケジュール頻度を調整して、ジョブが 1 日に半分の回数実行されるようにします。

E. AWS Glue へのアクセスを許可する IAM ロールを変更して、すべての S3 機能へのアクセスを許可します。

回答: A、B

説明:

オプション A - Amazon S3 でデータをパーティション分割すると、クエリのパフォーマンスが大幅に向上します。年、月、日ごとにデータを整理することで、AWS Glue と Amazon QuickSight は関連するデータパーティションのみをスキャンできるため、読み取られて処理されるデータの量が減ります。このアプローチは、クエリが特定の時間範囲をターゲットにすることが多い時系列データに特に効果的です。

オプション B - ワーカータイプをスケールアップすると、AWS Glue ジョブにさらに多くの計算リソースが提供され、データをより速く処理できるようになります。これは、大規模なデータセットや複雑な変換を処理する場合に特に役立ちます。スケールアップによるパフォーマンスの向上とコストへの影響を監視することが重要です。

29 / 204

29.

No.29
データエンジニアは、AWS Step Functions を使用してオーケストレーションワークフローを設計する必要があります。ワークフローでは、大量のデータファイルのコレクションを並列処理し、各ファイルに特定の変換を適用する必要があります。
これらの要件を満たすために、データエンジニアはどの Step Functions 状態を使用する必要がありますか?

A. 並列状態

B. 選択状態

C. マップ状態

D. 待機状態

回答: C

説明:
大規模なデータファイルのコレクションを並列処理し、各ファイルに特定の変換を適用するという要件を満たすには、データエンジニアは AWS Step Functions のマップ状態を使用する必要があります。
マップ状態は、コレクションまたは配列内の各要素に対して一連のタスクを並列で実行するように特別に設計されています。各要素 (この場合は各データファイル) は独立して並列処理されるため、ワークフローは並列処理を活用できます。

30 / 204

30.

No.30
ある会社が、レガシーアプリケーションを Amazon S3 ベースのデータレイクに移行しています。データエンジニアは、レガシーアプリケーションに関連付けられているデータをレビューしました。データエンジニアは、レガシーデータに重複した情報が含まれていることを発見しました。
データエンジニアは、レガシーアプリケーションデータから重複した情報を特定して削除する必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えてこれらの要件を満たしますか?

A. Python でカスタムの抽出、変換、ロード (ETL) ジョブを作成します。Pandas ライブラリをインポートして DataFrame.drop_duplicates() 関数を使用し、データ重複排除を実行します。

B. AWS Glue の抽出、変換、ロード (ETL) ジョブを作成します。FindMatches 機械学習 (ML) 変換を使用してデータを変換し、データ重複排除を実行します。

C. Python でカスタムの抽出、変換、ロード (ETL) ジョブを作成します。Python の重複排除ライブラリをインポートします。重複排除ライブラリを使用してデータ重複排除を実行します。

D. AWS Glue の抽出、変換、ロード (ETL) ジョブを作成します。Python の重複排除ライブラリをインポートします。重複排除ライブラリを使用してデータ重複排除を実行します。

回答: B

説明:
オプション B (FindMatches ML 変換を使用して AWS Glue ETL ジョブを作成する) は、運用オーバーヘッドが最も少なく、要件を満たす可能性が高いです。このソリューションはマネージドサービス (AWS Glue) を活用し、重複排除専用に設計された組み込みの ML 変換を組み込むことで、手動によるセットアップ、メンテナンス、機械学習の専門知識の必要性を最小限に抑えます。

31 / 204

31.

No.31
ある会社が分析ソリューションを構築しています。このソリューションでは、データレイクストレージに Amazon S3 を使用し、データウェアハウスに Amazon Redshift を使用しています。この会社は、Amazon S3 にあるデータをクエリするために Amazon Redshift Spectrum を使用したいと考えています。
どのアクションが最も高速なクエリを提供しますか? (2 つ選択してください)

A. gzip 圧縮を使用して、個々のファイルを 1 GB から 5 GB のサイズに圧縮します。

B. 列指向ストレージファイル形式を使用します。

C. 最も一般的なクエリ述語に基づいてデータをパーティション分割します。

D. データを 10 KB 未満のファイルに分割します。

E. 分割できないファイル形式を使用します。

回答: B、C

説明:
B. 列指向ストレージファイル形式を使用します。これは優れたアプローチです。Redshift Spectrum では、Parquet や ORC などの列指向ストレージ形式の使用を強くお勧めします。データは列に格納されるため、Spectrum はクエリに必要な列のみをスキャンでき、クエリのパフォーマンスが大幅に向上し、スキャンされるデータの量が削減されます。

C. 最も一般的なクエリ述語に基づいてデータをパーティション分割する: よく使用されるクエリ述語 (日付、地域など) に基づいて S3 のデータをパーティション分割すると、Redshift Spectrum は特定のクエリに関係のないデータの大部分をスキップできます。これにより、特に大規模なデータセットの場合、パフォーマンスが大幅に向上します。

https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-external-performance.html

32 / 204

32.

No.32
ある会社では、Amazon RDS を使用してトランザクションデータを保存しています。この会社は、プライベートサブネットで RDS DB インスタンスを実行しています。開発者は、DB インスタンスにデータを挿入、更新、または削除するためのデフォルト設定の AWS Lambda 関数を作成しました。
開発者は、Lambda 関数に、パブリックインターネットを使用せずに DB インスタンスにプライベートに接続する機能を与える必要があります。
どの手順の組み合わせが、運用オーバーヘッドを最小限に抑えながらこの要件を満たしますか? (2 つ選択してください)。

A. DB インスタンスのパブリックアクセス設定をオンにします。

B. DB インスタンスのセキュリティグループを更新して、データベースポートでの Lambda 関数の呼び出しのみを許可します。

C. DB インスタンスが使用するのと同じサブネットで実行されるように Lambda 関数を構成します。

D. Lambda 関数と DB インスタンスに同じセキュリティグループをアタッチします。データベースポート経由のアクセスを許可する自己参照ルールを含めます。

E. プライベートサブネットのネットワーク ACL を更新して、データベースポート経由のアクセスを許可する自己参照ルールを含めます。

回答: C、D

説明:
このソリューションでは、DB インスタンスのセキュリティグループの受信ルールのみが変更され、Lambda 関数のセキュリティグループの送信ルールは変更されません。さらに、このソリューションでは、Lambda 関数から DB インスタンスへのプライベート接続は行われないため、Lambda 関数は DB インスタンスにアクセスするためにパブリックインターネットを使用する必要があります。したがって、このオプションは要件を満たしていません。

B: セキュリティグループを更新する必要があります。また、Lambda 関数以外に、データベースにアクセスする必要があるアプリケーションが他にもある可能性があります。

D: 動作し、運用オーバーヘッドが少ないセキュリティグループを再利用します。

33 / 204

No.33
ある会社には、Amazon API Gateway を使用して REST API を呼び出すフロントエンド ReactJS ウェブサイトがあります。API はウェブサイトの機能を実行します。データエンジニアは、API Gateway を介して時々呼び出すことができる Python スクリプトを作成する必要があります。コードは API Gateway に結果を返す必要があります。

33. どのソリューションが、運用オーバーヘッドが最も少なく、これらの要件を満たしますか?

A. Amazon Elastic Container Service (Amazon ECS) クラスターにカスタム Python スクリプトをデプロイします。

B. プロビジョニングされた同時実行性を備えた AWS Lambda Python 関数を作成します。

C. Amazon Elastic Kubernetes Service (Amazon EKS) で API Gateway と統合できるカスタム Python スクリプトをデプロイします。

D. AWS Lambda 関数を作成します。関数がウォーム状態であることを確認するには、Amazon EventBridge ルールをスケジュールして、モックイベントを使用して 5 分ごとに Lambda 関数を呼び出します。

回答: B

説明:
B と D はどちらも問題ありません。ただし、運用オーバーヘッドが最も少ないと記載されているため、シンプルにしておきます。それなら B です。
AWS Lambda 関数は Amazon API Gateway と簡単に統合して、RESTful API を作成できます。この統合により、API エンドポイントがヒットしたときに API Gateway が Lambda 関数を直接呼び出すことができます。

34 / 204

34.

No.34
ある会社には、会社のワークロードを実行する本番環境の AWS アカウントがあります。会社のセキュリティチームは、本番環境の AWS アカウントからのセキュリティログを保存および分析するためのセキュリティ AWS アカウントを作成しました。本番環境の AWS アカウントのセキュリティログは、Amazon CloudWatch Logs に保存されます。
会社は、セキュリティログをセキュリティ AWS アカウントに配信するために、Amazon Kinesis Data Streams を使用する必要があります。
これらの要件を満たすソリューションはどれですか?

A. 本番環境の AWS アカウントに宛先データストリームを作成します。セキュリティ AWS アカウントで、本番環境の AWS アカウントの Kinesis Data Streams へのクロスアカウント権限を持つ IAM ロールを作成します。

B. セキュリティ AWS アカウントに宛先データストリームを作成します。IAM ロールと信頼ポリシーを作成し、CloudWatch Logs にストリームにデータを入れる権限を付与します。セキュリティ AWS アカウントにサブスクリプションフィルターを作成します。

C. 本番環境の AWS アカウントに宛先データストリームを作成します。本番環境の AWS アカウントで、セキュリティ AWS アカウントの Kinesis Data Streams へのクロスアカウント権限を持つ IAM ロールを作成します。

D. セキュリティ AWS アカウントに宛先データストリームを作成します。IAM ロールと信頼ポリシーを作成し、CloudWatch Logs にストリームにデータを入れる権限を付与します。本番 AWS アカウントにサブスクリプションフィルターを作成します。

回答: D

説明:
アカウント間配信: セキュリティアカウントの Kinesis Data Streams により、ログが指定されたセキュリティ重視の環境に存在することが保証されます。

CloudWatch Logs 統合: CloudWatch Logs にレコードを Kinesis Data Stream に入れる権限を付与すると、本番アカウントからの合理化された安全なデータフローが直接確立されます。

フィルタリング制御: 本番アカウントのサブスクリプションフィルターにより、セキュリティアカウントに送信されるログイベントを正確に制御できます。

35 / 204

35.

No.35
ある会社では、Amazon S3 を使用して半構造化データをトランザクションデータレイクに保存しています。一部のデータファイルは小さいですが、他のデータファイルは数十テラバイトです。
データエンジニアは、データソースから変更されたデータを識別するために、変更データキャプチャ (CDC) 操作を実行する必要があります。データソースは、毎日完全なスナップショットを JSON ファイルとして送信し、変更されたデータをデータレイクに取り込みます。
変更されたデータを最もコスト効率よくキャプチャするソリューションはどれですか?

A. AWS Lambda 関数を作成して、以前のデータと現在のデータの間の変更を識別します。Lambda 関数を設定して、変更をデータレイクに取り込みます。

B. データを Amazon RDS for MySQL に取り込みます。AWS Database Migration Service (AWS DMS) を使用して、変更されたデータをデータレイクに書き込みます。

C. オープンソースのデータレイク形式を使用して、データソースを S3 データレイクとマージし、新しいデータを挿入して既存のデータを更新します。

D. Aurora Serverless を実行する Amazon Aurora MySQL DB インスタンスにデータを取り込みます。AWS Database Migration Service (AWS DMS) を使用して、変更されたデータをデータレイクに書き込みます。

回答: C

説明:
https://aws.amazon.com/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/

これは難しい問題です。オプション A は AWS サービスを使用するため最適な選択肢のように思えますが、Lambda でカスタムコードを書くよりも Delta/Iceberg API を使用する方が簡単だと思います。

36 / 204

36.

No.36
データエンジニアは、Amazon S3 バケットにあるデータに対して Amazon Athena クエリを実行します。Athena クエリは、メタデータテーブルとして AWS Glue Data Catalog を使用します。
データエンジニアは、Athena クエリプランでパフォーマンスのボトルネックが発生していることに気付きました。データエンジニアは、パフォーマンスのボトルネックの原因は S3 バケットにあるパーティションの数が多いことであると判断しました。データエンジニアは、パフォーマンスのボトルネックを解決し、Athena クエリの計画時間を短縮する必要があります。
これらの要件を満たすソリューションはどれですか? (2 つ選択してください)

A. AWS Glue パーティションインデックスを作成します。パーティションフィルタリングを有効にします。

B. ユーザークエリの WHERE 句でデータに共通する列に基づいてデータをバケット化します。

C. S3 バケットプレフィックスに基づいて Athena パーティションプロジェクションを使用します。

D. S3 バケット内のデータを Apache Parquet 形式に変換します。

E. Amazon EMR S3DistCP ユーティリティを使用して、S3 バケット内の小さなオブジェクトを大きなオブジェクトに結合します。

回答: A、C

説明:
https://aws.amazon.com/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/
パーティションプロジェクションを使用したパーティション処理の最適化
パーティションの数が非常に多く、AWS Glue パーティションインデックスを使用していない場合、パーティション情報の処理が Athena クエリのボトルネックになる可能性があります。 Athena のパーティションプロジェクションを使用すると、高度にパーティション化されたテーブルのクエリ処理を高速化し、パーティション管理を自動化できます。パーティションプロジェクションを使用すると、メタストアからパーティション情報を取得するのではなく、パーティション情報を計算してパーティションをクエリできるため、このオーバーヘッドを最小限に抑えることができます。これにより、AWS Glue テーブルにパーティションのメタデータを追加する必要がなくなります。

37 / 204

37.

No.37
データエンジニアは、リアルタイムストリーミングデータの AWS への取り込みを管理する必要があります。データエンジニアは、最大 30 分のウィンドウで時間ベースの集計を使用して、受信ストリーミングデータのリアルタイム分析を実行したいと考えています。データエンジニアには、耐障害性が非常に高いソリューションが必要です。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. ビジネスロジックと分析ロジックの両方を含む AWS Lambda 関数を使用して、Amazon Kinesis Data Streams のデータに対して最大 30 分のウィンドウで時間ベースの集計を実行します。

B. Amazon Managed Service for Apache Flink (旧称 Amazon Kinesis Data Analytics) を使用して、複数のタイプの集計を使用して、重複が含まれる可能性のあるデータを分析します。

C. ビジネスロジックと分析ロジックの両方を含む AWS Lambda 関数を使用して、イベントのタイムスタンプに基づいて最大 30 分のタンブリングウィンドウで集計を実行します。

D. Amazon Managed Service for Apache Flink (旧称 Amazon Kinesis Data Analytics) を使用して、複数の種類の集計を使用して最大 30 分間の時間ベースの分析を実行することでデータを分析します。

回答: D

説明:
Amazon Managed Service for Apache Flink を使用した 30 分間の時間ベースの分析: このオプションは、Amazon Managed Service for Apache Flink を使用して最大 30 分間の時間ベースの分析を実行することを正しく識別します。Apache Flink は、このようなシナリオの処理に優れており、複雑なイベント処理、時間枠による集計、および時間の経過に伴う状態の維持の機能を提供します。このオプションは、サービスが管理されているため、高い耐障害性と最小限の運用オーバーヘッドを提供します。

38 / 204

38.

No.38
ある企業が、Amazon Elastic Block Store (Amazon EBS) 汎用 SSD ストレージを gp2 から gp3 にアップグレードすることを計画しています。同社は、アップグレードされたストレージへの移行中に Amazon EC2 インスタンスでデータ損失を引き起こす中断を回避したいと考えています。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. gp2 ボリュームのスナップショットを作成します。スナップショットから新しい gp3 ボリュームを作成します。新しい gp3 ボリュームを EC2 インスタンスに接続します。

B. 新しい gp3 ボリュームを作成します。データを新しい gp3 ボリュームに徐々に転送します。転送が完了したら、新しい gp3 ボリュームを EC2 インスタンスにマウントして、gp2 ボリュームを置き換えます。

C. 既存の gp2 ボリュームのボリュームタイプを gp3 に変更します。ボリュームサイズ、IOPS、スループットの新しい値を入力します。

D. AWS DataSync を使用して新しい gp3 ボリュームを作成します。元の gp2 ボリュームから新しい gp3 ボリュームにデータを転送します。

回答: C

説明:
https://aws.amazon.com/blogs/storage/migrate-your-amazon-ebs-volumes-from-gp2-to-gp3-and-save-up-to-20-on-costs/

GiorgioGss のリンクの「AWS マネジメントコンソールを使用して Amazon EBS ボリュームを変更するには」のセクションを確認してください
Amazon EBS Elastic Volumes を使用すると、ボリュームをデタッチしたりインスタンスを再起動したりすることなく (変更の要件)、ボリュームタイプを gp2 から gp3 に変更できます。つまり、変更中にアプリケーションが中断されることはありません。

39 / 204

39.

★No.39
ある会社が、Microsoft SQL Server を実行する Amazon EC2 インスタンスから Amazon RDS for Microsoft SQL Server DB インスタンスにデータベースサーバーを移行しています。会社の分析チームは、移行が完了するまで毎日大量のデータ要素をエクスポートする必要があります。データ要素は、複数のテーブルにわたる SQL 結合の結果です。データは Apache Parquet 形式である必要があります。分析チームデータを Amazon S3 に保存する必要があります。
これらの要件を最も効率的に運用できるソリューションはどれですか?

A. EC2 インスタンスベースの SQL Server データベースに、必要なデータ要素を含むビューを作成します。ビューから直接データを選択し、Parquet 形式のデータを S3 バケットに転送する AWS Glue ジョブを作成します。AWS Glue ジョブが毎日実行されるようにスケジュールします。

B. SQL Server エージェントが、EC2 インスタンスベースの SQL Server データベースから必要なデータ要素を選択する毎日の SQL クエリを実行するようにスケジュールします。出力 .csv オブジェクトを S3 バケットに送信するようにクエリを構成します。出力形式を .csv から Parquet に変換する AWS Lambda 関数を呼び出す S3 イベントを作成します。

C. SQL クエリを使用して、EC2 インスタンスベースの SQL Server データベースに必要なデータ要素を含むビューを作成します。AWS Glue クローラーを作成して実行し、ビューを読み取ります。データを取得し、そのデータを Parquet 形式で S3 バケットに転送する AWS Glue ジョブを作成します。AWS Glue ジョブが毎日実行されるようにスケジュールします。

D. Java Database Connectivity (JDBC) を使用して EC2 インスタンスベースのデータベースをクエリする AWS Lambda 関数を作成します。必要なデータを取得し、そのデータを Parquet 形式に変換して、そのデータを S3 バケットに転送するように Lambda 関数を設定します。Amazon EventBridge を使用して、Lambda 関数が毎日実行されるようにスケジュールします。

40 / 204

40.

No.40
データエンジニアリングチームは、運用レポートに Amazon Redshift データウェアハウスを使用しています。チームは、長時間実行されるクエリによって発生する可能性のあるパフォーマンスの問題を防止したいと考えています。データエンジニアは、クエリオプティマイザーがパフォーマンスの問題を示す可能性のある条件を識別したときに、Amazon Redshift のシステムテーブルを選択して異常を記録する必要があります。
この要件を満たすために、データエンジニアはどのテーブルビューを使用する必要がありますか?

A. STL_USAGE_CONTROL

B. STL_ALERT_EVENT_LOG

C. STL_QUERY_METRICS

D. STL_PLAN_INFO

回答: B

説明:
STL_ALERT_EVENT_LOG は、クエリまたはユーザー定義のパフォーマンスしきい値に関連するアラート/通知を記録します。これにより、潜在的なパフォーマンスの問題に関するオプティマイザーアラートがキャプチャされます。

STL_PLAN_INFO は、実行プランに関する詳細情報を提供します。オプティマイザーの統計と警告は、問題のあるクエリプランに関する洞察を提供します。

STL_USAGE_CONTROL はユーザーアクティビティを制限しますが、異常はログに記録しません。

STL_QUERY_METRICS には実行統計がありますが、プラン診断はありません。

アラートを有効にし、STL_ALERT_EVENT_LOG と STL_PLAN_INFO をチェックすることで、データエンジニアは、パフォーマンスが低下する前に、オプティマイザーによって問題があるとフラグが付けられたクエリを最も適切に検出してトラブルシューティングできます。これにより、実行時間の長い潜在的なクエリをキャッチするという要件が満たされます。

41 / 204

41.

No.41
データエンジニアは、.csv 形式の構造化データのソースを Amazon S3 データレイクに取り込む必要があります。.csv ファイルには 15 列が含まれています。データアナリストは、データセットの 1 つまたは 2 つの列に対して Amazon Athena クエリを実行する必要があります。データアナリストがファイル全体をクエリすることはほとんどありません。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

A. AWS Glue PySpark ジョブを使用して、ソースデータを .csv 形式でデータレイクに取り込みます。

B. .csv 構造化データソースから読み取る AWS Glue 抽出、変換、ロード (ETL) ジョブを作成します。JSON 形式でデータをデータレイクに取り込むようにジョブを構成します。

C. AWS Glue PySpark ジョブを使用して、Apache Avro 形式でソースデータをデータレイクに取り込みます。

D. .csv 構造化データソースから読み取る AWS Glue 抽出、変換、ロード (ETL) ジョブを作成します。Apache Parquet 形式でデータをデータレイクに書き込むようにジョブを構成します。

回答: D

説明:
Athena は、Parquet 形式で保存されたデータのクエリに最適化されています。特定のクエリに必要な列のみを効率的にスキャンできるため、処理されるデータの量を削減できます。これにより、主に 1 つまたは 2 つの列に重点を置くデータアナリストにとって、クエリ実行時間が短縮され、クエリコストが削減されます。

42 / 204

42.

No.42
ある会社には、異なる AWS リージョンに 5 つのオフィスがあります。各オフィスには独自の人事 (HR) 部門があり、独自の IAM ロールを使用しています。この会社では、従業員の記録を Amazon S3 ストレージに基づくデータレイクに保存しています。
データエンジニアリングチームは、記録へのアクセスを制限する必要があります。各 HR 部門は、HR 部門のリージョン内にいる従業員の記録にのみアクセスできる必要があります。
データエンジニアリングチームは、運用上のオーバーヘッドを最小限に抑えながらこの要件を満たすために、どの手順の組み合わせを実行する必要がありますか? (2 つ選択してください)。

A. 各リージョンのデータフィルターを使用して、S3 パスをデータの場所として登録します。

B. S3 パスを AWS Lake Formation の場所として登録します。

C. HR 部門の IAM ロールを変更して、各部門のリージョンのデータフィルターを追加します。

D. AWS Lake Formation できめ細かなアクセス制御を有効にします。リージョンごとにデータフィルターを追加します。

E. リージョンごとに個別の S3 バケットを作成します。S3 アクセスを許可するように IAM ポリシーを構成します。リージョンに基づいてアクセスを制限します。

回答: B、D

説明:
https://docs.aws.amazon.com/lake-formation/latest/dg/data-filters-about.html
https://docs.aws.amazon.com/lake-formation/latest/dg/access-control-fine-grained.html

S3 パスを AWS Lake Formation ロケーションとして登録することは、Lake Formation のデータガバナンスとアクセス制御機能を活用するための最初のステップです。これにより、データエンジニアリングチームは S3 データレイクに保存されているデータを一元的に管理および統制できます。
AWS Lake Formation できめ細かなアクセス制御を有効にし、各リージョンにデータフィルターを追加することは、必要なアクセス制御を実現するための重要なステップです。Lake Formation のデータフィルターを使用すると、特定の条件または属性 (この場合はリージョン) に基づいて、行レベルおよび列レベルのアクセスポリシーを定義できます。

43 / 204

43.

No.43
ある会社では、AWS Step Functions を使用してデータパイプラインをオーケストレーションしています。パイプラインは、データソースからデータを取り込み、そのデータを Amazon S3 バケットに保存する Amazon EMR ジョブで構成されています。パイプラインには、データを Amazon Redshift にロードする EMR ジョブも含まれています。
会社のクラウドインフラストラクチャチームは、Step Functions ステートマシンを手動で構築しました。クラウドインフラストラクチャチームは、EMR ジョブをサポートするために VPC に EMR クラスターを起動しました。ただし、デプロイされた Step Functions ステートマシンは EMR ジョブを実行できません。
Step Functions ステートマシンが EMR ジョブを実行できない理由を特定するために、会社が実行する必要がある手順の組み合わせはどれですか? (2 つ選択してください)。

A. AWS CloudFormation を使用して、Step Functions ステートマシンのデプロイを自動化します。失敗した EMR ジョブ中にステートマシンを一時停止する手順を作成します。人間のユーザーが電子メールメッセージで承認を送信するのを待つように手順を構成します。さらに分析するために、電子メールメッセージに EMR タスクの詳細を含めます。

B. Step Functions ステートマシンコードに、EMR ジョブの作成と実行に必要なすべての IAM 権限があることを確認します。Step Functions ステートマシンコードに、EMR ジョブが使用する Amazon S3 バケットにアクセスするための IAM 権限も含まれていることを確認します。Access Analyzer for S3 を使用して、S3 アクセスプロパティを確認します。

C. 新しく作成された EMR クラスターの Amazon CloudWatch のエントリを確認します。EKS で Amazon EMR を使用するように AWS Step Functions ステートマシンコードを変更します。Step Functions ステートマシンコードの IAM アクセスポリシーとセキュリティグループ設定を変更して、Amazon Elastic Kubernetes Service (Amazon EKS) の組み込みを反映します。

D. VPC のフローログをクエリします。EMR クラスターから発信されたトラフィックがデータプロバイダーに正常に到達できるかどうかを判断します。Amazon EMR クラスターに接続されている可能性のあるセキュリティグループが、通知されたポートでデータソースサーバーへの接続を許可しているかどうかを判断します。

E. 会社が EMR ジョブ用に設定した再試行シナリオを確認します。各 EMR タスク間の間隔の秒数を増やします。各フォールバック状態に、各決定状態に対する適切なキャッチがあることを確認します。エラーメッセージを保存する Amazon Simple Notification Service (Amazon SNS) トピックを構成します。

回答: B、D

説明:
https://docs.aws.amazon.com/step-functions/latest/dg/procedure-create-iam-role.html
https://docs.aws.amazon.com/step-functions/latest/dg/service-integration-iam-templates.html

もちろん権限が必要です。また、EMR は VPC 内にあると記載されているため、トラフィックがどのホップでもブロックされていないかどうかを確認する必要があります。フローログ

44 / 204

44.

No.44
ある会社が Amazon EC2 インスタンスで実行されるアプリケーションを開発しています。現在、アプリケーションが生成するデータは一時的なものです。ただし、会社は EC2 インスタンスが終了した場合でもデータを永続化する必要があります。
データエンジニアは、Amazon マシンイメージ (AMI) から新しい EC2 インスタンスを起動し、データを保存するようにインスタンスを設定する必要があります。
この要件を満たすソリューションはどれですか?

A. アプリケーションデータを含む EC2 インスタンスストアボリュームでサポートされている AMI を使用して、新しい EC2 インスタンスを起動します。EC2 インスタンスにデフォルト設定を適用します。

B. アプリケーションデータを含むルート Amazon Elastic Block Store (Amazon EBS) ボリュームでサポートされている AMI を使用して、新しい EC2 インスタンスを起動します。EC2 インスタンスにデフォルト設定を適用します。

C. EC2 インスタンスストアボリュームでサポートされている AMI を使用して、新しい EC2 インスタンスを起動します。アプリケーションデータを格納するために Amazon Elastic Block Store (Amazon EBS) ボリュームを接続します。EC2 インスタンスにデフォルト設定を適用します。

D. Amazon Elastic Block Store (Amazon EBS) ボリュームでサポートされている AMI を使用して、新しい EC2 インスタンスを起動します。アプリケーションデータを格納するために追加の EC2 インスタンスストアボリュームを接続します。 EC2 インスタンスにデフォルト設定を適用します。

回答: C

説明:
追加の EBS ボリュームをアタッチする必要があります。
インスタンスが終了すると、アタッチされた各 EBS ボリュームの DeleteOnTermination 属性の値によって、ボリュームを保持するか削除するかが決まります。デフォルトでは、ルートボリュームの DeleteOnTermination 属性は True に設定されています。
参照: https://repost.aws/knowledge-center/deleteontermination-ebs

45 / 204

45.

No.45
ある企業は Amazon Athena を使用して、Create Table As Select (CTAS) を使用した抽出、変換、ロード (ETL) タスクの SQL クエリを実行します。分析を生成するには、SQL ではなく Apache Spark を使用する必要があります。
どのソリューションを使用すれば、Spark を使用して Athena にアクセスできるようになりますか?

A. Athena クエリ設定

B. Athena ワークグループ

C. Athena データソース

D. Athena クエリエディター

回答: B

説明:
https://docs.aws.amazon.com/athena/latest/ug/notebooks-spark-getting-started.html
「Amazon Athena で Apache Spark を使用するには、Spark エンジンを使用する Amazon Athena ワークグループを作成します。」
C ではなく B です。
ワークグループは、クエリを整理、制御、および監視するためのものです。
データソースは、Spark が Athena 経由でデータをクエリできるようにするメカニズムです。これにより、Spark は Athena と対話できます。
この質問は、SQL を使用する代わりに、Athena 内で Apache Spark を有効にして分析を生成することに焦点を当てています。したがって、Spark 対応のワークグループを作成する必要があります。

46 / 204

46.

No.46
ある企業は、データレイクに使用する Amazon S3 ストレージをパーティション分割する必要があります。パーティション分割では、次の形式の S3 オブジェクトキーのパスを使用します: s3://bucket/prefix/year=2023/month=01/day=01。
データエンジニアは、企業がバケットに新しいパーティションを追加したときに、AWS Glue データカタログが S3 ストレージと同期していることを確認する必要があります。
どのソリューションが、これらの要件を最小のレイテンシーで満たしますか?

A. AWS Glue クローラーを毎朝実行するようにスケジュールします。

B. AWS Glue CreatePartition API を 1 日に 2 回手動で実行します。

C. Amazon S3 にデータを書き込むコードを使用して、Boto3 AWS Glue create_partition API 呼び出しを呼び出します。

D. AWS Glue コンソールから MSCK REPAIR TABLE コマンドを実行します。

回答: C

説明:
Amazon S3 にデータを書き込むコードを使用して、Boto3 AWS Glue create_partition API 呼び出しを呼び出します。このアプローチにより、新しいデータが S3 に書き込まれるとすぐにデータカタログが更新され、新しいパーティションを反映する際のレイテンシーが最小限に抑えられます。

47 / 204

No.47
メディア企業は、サードパーティのツールを使用してデータを収集するために、サービスとしてのソフトウェア (SaaS) アプリケーションを使用しています。この企業は、Amazon S3 バケットにデータを保存する必要があります。この企業は、Amazon Redshift を使用して、データに基づく分析を実行します。

47. 運用オーバーヘッドが最も少ない AWS サービスまたは機能はどれですか?

A. Amazon Managed Streaming for Apache Kafka (Amazon MSK)

B. Amazon AppFlow

C. AWS Glue Data Catalog

D. Amazon Kinesis

回答: B

説明:
メディア企業は、運用オーバーヘッドを最小限に抑えながら、サードパーティの SaaS アプリケーションから Amazon S3 バケットにデータを取り込むプロセスを簡素化するフルマネージドサービスを活用できます。さらに、AppFlow は Amazon Redshift と統合できるため、企業は取り込んだデータを分析環境に直接ロードして、さらに処理および分析することができます。

48 / 204

No.48
データエンジニアは Amazon Athena を使用して、Amazon S3 にある売上データを分析しています。データエンジニアは、sales_data というテーブルから複数の製品の 2023 年の売上額を取得するクエリを作成します。ただし、クエリは sales_data テーブルにあるすべての製品の結果を返すわけではありません。データエンジニアは、この問題を解決するためにクエリのトラブルシューティングを行う必要があります。
データエンジニアの元のクエリは次のとおりです。
SELECT product_name, sum(sales_amount)

48. FROM sales_data -

WHERE year = 2023 -

GROUP BY product_name -

データエンジニアは、これらの要件を満たすために Athena クエリをどのように変更する必要がありますか?

A. 集計のために、sum(sales_amount) を count(*) に置き換えます。

B. WHERE year = 2023 を WHERE extract(year FROM sales_data) = 2023 に変更します。

C. GROUP BY 句の後に HAVING sum(sales_amount) > 0 を追加します。

D. GROUP BY 句を削除します。

回答: B

説明:
"SELECT product_name, sum(sales_amount)
FROM sales_data
WHERE extract(year FROM sales_date) = 2023
GROUP BY product_name;"
A. これにより、クエリが変更され、売上を合計するのではなく、行数をカウントします。
C. これにより、売上額がゼロの製品が除外されます。
D. GROUP BY 句を削除すると、product_name でグループ化せずに、すべての売上額が 1 回だけ合計されます。

49 / 204

49.

No.49
データエンジニアには、Amazon S3 バケット内の Apache Parquet 形式のオブジェクトからデータを読み取るという 1 回限りのタスクがあります。データエンジニアは、データの 1 つの列のみをクエリする必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. AWS Lambda 関数を設定して、S3 バケットから pandas データフレームにデータをロードします。データフレームに SQL SELECT ステートメントを記述して、必要な列をクエリします。

B. S3 Select を使用して SQL SELECT ステートメントを記述し、S3 オブジェクトから必要な列を取得します。

C. S3 オブジェクトを消費して必要な列をクエリするための AWS Glue DataBrew プロジェクトを準備します。

D. S3 オブジェクトで AWS Glue クローラーを実行します。Amazon Athena で SQL SELECT ステートメントを使用して、必要な列をクエリします。

回答: B

説明:
https://docs.aws.amazon.com/AmazonS3/latest/userguide/storage-inventory-athena-query.html
S3 Select を使用すると、単純な SQL 式を使用して、S3 に保存されているオブジェクトからデータのサブセットを取得できます。 Parquet 形式のオブジェクトを直接操作できます。

50 / 204

50.

No.50
ある会社では、データウェアハウスに Amazon Redshift を使用しています。この会社は、Amazon Redshift マテリアライズドビューの更新スケジュールを自動化する必要があります。
どのソリューションが、最小限の労力でこの要件を満たしますか?

A. Apache Airflow を使用してマテリアライズドビューを更新します。

B. Amazon Redshift 内で AWS Lambda ユーザー定義関数 (UDF) を使用して、マテリアライズドビューを更新します。

C. Amazon Redshift のクエリエディタ v2 を使用して、マテリアライズドビューを更新します。

D. AWS Glue ワークフローを使用して、マテリアライズドビューを更新します。

回答: C

説明:
Query Editor V2 のクエリスケジューラを使用して、更新をスケジュールできます。
この会社は、最小限の労力でマテリアライズドビューの更新スケジュールを自動化できます。このアプローチでは、Amazon Redshift の組み込み機能を活用するため、追加のサービス、構成、またはカスタムコードの必要性が減ります。これは、要件を満たす最もシンプルで直接的なソリューションを使用するという原則に沿っており、運用上のオーバーヘッドと複雑さを最小限に抑えます。

51 / 204

51.

No.51
データエンジニアは、1 つの AWS Lambda 関数と 1 つの AWS Glue ジョブで構成されるデータパイプラインをオーケストレーションする必要があります。ソリューションは AWS サービスと統合する必要があります。
管理オーバーヘッドが最も少なく、これらの要件を満たすソリューションはどれですか?

A. ステートマシンを含む AWS Step Functions ワークフローを使用します。ステートマシンを構成して、Lambda 関数を実行してから AWS Glue ジョブを実行します。

B. Amazon EC2 インスタンスにデプロイされている Apache Airflow ワークフローを使用します。最初のタスクが Lambda 関数を呼び出し、2 番目のタスクが AWS Glue ジョブを呼び出す有向非巡回グラフ (DAG) を定義します。

C. AWS Glue ワークフローを使用して、Lambda 関数を実行してから AWS Glue ジョブを実行します。

D. Amazon Elastic Kubernetes Service (Amazon EKS) にデプロイされている Apache Airflow ワークフローを使用します。最初のタスクが Lambda 関数を呼び出し、2 番目のタスクが AWS Glue ジョブを呼び出す有向非巡回グラフ (DAG) を定義します。

回答: A

説明:
Step Functions は、サーバーレスワークフローを構築するためのマネージドサービスです。実行シーケンスを調整するステートマシンを定義します。

これにより、Airflow などの独自のワークフローオーケストレーションサーバーを管理および維持する必要がなくなります。

52 / 204

52.

No.52
ある企業は、AWS クラウドで実行されるデータソースのデータカタログとメタデータ管理を設定する必要があります。企業は、データカタログを使用して、一連のデータストアにあるすべてのオブジェクトのメタデータを維持します。データストアには、Amazon RDS や Amazon Redshift などの構造化ソースが含まれます。データストアには、Amazon S3 に保存されている JSON ファイルや .xml ファイルなどの半構造化ソースも含まれます。
企業は、データカタログを定期的に更新するソリューションを必要としています。ソリューションは、ソースメタデータの変更も検出する必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. Amazon Aurora をデータカタログとして使用します。データカタログに接続する AWS Lambda 関数を作成します。 Lambda 関数を設定して、複数のソースからメタデータ情報を収集し、Aurora データカタログを更新します。Lambda 関数が定期的に実行されるようにスケジュールします。

B. AWS Glue データカタログを中央メタデータリポジトリとして使用します。AWS Glue クローラーを使用して、複数のデータストアに接続し、メタデータの変更でデータカタログを更新します。クローラーが定期的に実行されるようにスケジュールし、メタデータカタログを更新します。

C. Amazon DynamoDB をデータカタログとして使用します。データカタログに接続する AWS Lambda 関数を作成します。Lambda 関数を設定して、複数のソースからメタデータ情報を収集し、DynamoDB データカタログを更新します。Lambda 関数が定期的に実行されるようにスケジュールします。

D. AWS Glue データカタログを中央メタデータリポジトリとして使用します。Amazon RDS および Amazon Redshift ソースのスキーマを抽出し、データカタログを構築します。Amazon S3 にあるデータに AWS Glue クローラーを使用して、スキーマを推測し、データカタログを自動的に更新します。

回答: B

説明:
AWS Glue データカタログは、データソースの中央メタデータリポジトリとして機能するように設計された、専用のフルマネージドサービスです。構造化データベース (Amazon RDS や Amazon Redshift など) や半構造化データ形式 (Amazon S3 の JSON や XML ファイルなど) を含むさまざまなソースにわたるデータの統合ビューを提供します。

53 / 204

53.

No.53
ある企業は、プロビジョニングされた容量モードで動作する Amazon DynamoDB テーブルにアプリケーションからのデータを保存しています。アプリケーションのワークロードには、定期的なスケジュールで予測可能なスループット負荷があります。毎週月曜日、早朝にアクティビティがすぐに増加します。週末のアプリケーションの使用率は非常に低くなります。
企業は、使用率がピークの時間帯にアプリケーションが一貫して動作するようにする必要があります。
どのソリューションが最もコスト効率の高い方法でこれらの要件を満たしますか?

A. プロビジョニングされた容量を、ピーク負荷時間帯に現在存在する最大容量まで増やします。

B. テーブルを 2 つのテーブルに分割します。各テーブルを、元のテーブルのプロビジョニングされた容量の半分でプロビジョニングします。クエリを両方のテーブルに均等に分散します。

C. AWS Application Auto Scaling を使用して、ピーク使用時間にはプロビジョニングされた容量を高くスケジュールします。オフピーク時には容量を低くスケジュールします。

D. 容量モードをプロビジョニングからオンデマンドに変更します。テーブルの負荷に基づいてテーブルをスケールアップおよびスケールダウンするように構成します。

回答: C

説明:
AWS Application Auto Scaling を使用して、ピーク使用時間にはプロビジョニングされた容量を高くスケジュールし、オフピーク時には容量を低くスケジュールすることが、説明したシナリオで最も費用対効果の高いソリューションです。これにより、企業は DynamoDB 容量コストを実際の使用パターンに合わせて調整し、必要な場合にのみスケールアップし、使用率の低い期間にはスケールダウンすることができます。

54 / 204

54.

No.54
ある会社がオンプレミスの Apache Hadoop クラスターを Amazon EMR に移行することを計画しています。また、データカタログを永続的なストレージソリューションに移行する必要もあります。
現在、この会社では、Hadoop クラスター上のオンプレミスの Apache Hive メタストアにデータカタログを保存しています。この会社では、データカタログを移行するためにサーバーレスソリューションを必要としています。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

A. AWS Database Migration Service (AWS DMS) を使用して、Hive メタストアを Amazon S3 に移行します。AWS Glue Data Catalog を設定して、Amazon S3 をスキャンし、データカタログを生成します。

B. Amazon EMR で Hive メタストアを設定します。既存のオンプレミスの Hive メタストアを Amazon EMR に移行します。AWS Glue Data Catalog を使用して、会社のデータカタログを外部データカタログとして保存します。

C. Amazon EMR で外部 Hive メタストアを設定します。既存のオンプレミスの Hive メタストアを Amazon EMR に移行します。 Amazon Aurora MySQL を使用して会社のデータカタログを保存します。

D. Amazon EMR で新しい Hive メタストアを構成します。既存のオンプレミス Hive メタストアを Amazon EMR に移行します。新しいメタストアを会社のデータカタログとして使用します。

回答: B

説明:
https://aws.amazon.com/blogs/big-data/migrate-and-deploy-your-apache-hive-metastore-on-amazon-emr/ オプション B が最も適していると思われます。Hive メタストアを Amazon EMR に移行し、AWS Glue Data Catalog を外部カタログとして使用すると、AWS のスケーラブルで管理されたサービス (EMR や Glue Data Catalog など) を活用することと、オンプレミスのセットアップからのスムーズな移行を保証することのバランスが取れます。このアプローチでは、AWS Glue Data Catalog のサーバーレスな性質を活用し、運用オーバーヘッドを最小限に抑え、データベースサーバーの管理に比べてコストを削減できる可能性があります。

55 / 204

55.

No.55
ある会社では、Amazon Redshift プロビジョニング済みクラスターをデータベースとして使用しています。Redshift クラスターには 5 つの予約済み ra3.4xlarge ノードがあり、キー分散を使用しています。
データエンジニアは、ノードの 1 つで CPU 負荷が頻繁に 90% を超えていることに気付きました。ノードで実行される SQL クエリはキューに入れられます。他の 4 つのノードの CPU 負荷は通常、日常の運用中に 15% 未満です。
データエンジニアは、現在のコンピューティングノードの数を維持したいと考えています。また、データエンジニアは、5 つのコンピューティングノード全体で負荷をより均等に分散したいと考えています。
これらの要件を満たすソリューションはどれですか?

A. ソートキーを、SQL SELECT ステートメントの WHERE 句で最も頻繁に使用されるデータ列に変更します。

B. 分散キーを、最も大きなディメンションを持つテーブル列に変更します。

C. 予約済みノードを ra3.4xlarge から ra3.16xlarge にアップグレードします。

D. 主キーを、SQL SELECT ステートメントの WHERE 句で最も頻繁に使用されるデータ列に変更します。

回答: B

説明:

https://docs.aws.amazon.com/redshift/latest/dg/t_Distributing_data.html
オプション B (分散キーの変更) は、5 つのコンピューティングノード全体で負荷をより均等に分散する最も効果的なソリューションです。クエリパターンとデータ特性に一致する適切な分散キーを選択すると、データとワークロードがより均等に分散されるため、1 つのノードが過剰に使用され、他のノードが十分に使用されない可能性が低くなります。

56 / 204

56.

No.56
セキュリティ会社が JSON 形式の IoT データを Amazon S3 バケットに保存しています。会社が IoT デバイスをアップグレードすると、データ構造が変わることがあります。会社は IoT データを含むデータカタログを作成したいと考えています。会社の分析部門は、データカタログを使用してデータのインデックスを作成します。
どのソリューションがこれらの要件を最もコスト効率よく満たしますか?

A. AWS Glue データカタログを作成します。AWS Glue スキーマレジストリを構成します。新しい AWS Glue ワークロードを作成して、分析部門が Amazon Redshift Serverless で使用するデータの取り込みを調整します。

B. Amazon Redshift プロビジョニング済みクラスターを作成します。分析部門が Amazon S3 にあるデータを探索するための Amazon Redshift Spectrum データベースを作成します。データを Amazon Redshift にロードするための Redshift ストアドプロシージャを作成します。

C. Amazon Athena ワークグループを作成します。Athena を介して Apache Spark を使用して Amazon S3 にあるデータを探索します。Athena ワークグループのスキーマとテーブルを分析部門に提供します。

D. AWS Glue データカタログを作成します。AWS Glue スキーマレジストリを構成します。Amazon Redshift データ API を使用して AWS Lambda ユーザー定義関数 (UDF) を作成します。分析部門が Amazon Redshift Serverless で使用するデータの取り込みをオーケストレーションする AWS Step Functions ジョブを作成します。

回答: A

説明:
オプション A (Glue スキーマレジストリを使用して AWS Glue データカタログを作成し、AWS Glue を使用して Amazon Redshift Serverless へのデータ取り込みをオーケストレーションする) は、最もコスト効率が高く適切なソリューションであると思われます。これは、IoT データの進化するデータスキーマを管理するサーバーレスアプローチを提供し、プロビジョニングされたデータベースクラスターの管理や複雑なオーケストレーション設定のオーバーヘッドなしで、データ分析のニーズを効率的にサポートします。

57 / 204

57.

No.57
ある会社が Amazon S3 バケットにトランザクションの詳細を保存します。この会社は、S3 バケットへのすべての書き込みを、同じ AWS リージョンにある別の S3 バケットに記録したいと考えています。
どのソリューションが、最も少ない運用労力でこの要件を満たしますか?

A. トランザクション S3 バケットのすべてのアクティビティに対して S3 イベント通知ルールを設定し、AWS Lambda 関数を呼び出します。Lambda 関数をプログラムして、イベントを Amazon Kinesis Data Firehose に書き込みます。Kinesis Data Firehose を設定して、イベントをログ S3 バケットに書き込みます。

B. AWS CloudTraiL で管理イベントの証跡を作成します。証跡を設定して、トランザクション S3 バケットからデータを受け取ります。空のプレフィックスと書き込み専用イベントを指定します。ログ S3 バケットを宛先バケットとして指定します。

C. トランザクション S3 バケットのすべてのアクティビティに対して S3 イベント通知ルールを設定し、AWS Lambda 関数を呼び出します。Lambda 関数をプログラムして、イベントをログ S3 バケットに書き込みます。

D. AWS CloudTraiL でデータイベントの証跡を作成します。証跡を設定して、トランザクション S3 バケットからデータを受け取ります。空のプレフィックスと書き込み専用イベントを指定します。ログ S3 バケットを宛先バケットとして指定します。

回答: D

説明:
https://docs.aws.amazon.com/AmazonS3/latest/userguide/logging-with-S3.html
オプション D (AWS CloudTrail でデータイベントの証跡を作成する) は、最小限の運用労力で要件を満たす最適なソリューションです。必要なアクティビティを別の S3 バケットに直接記録し、Lambda 関数や Kinesis Data Firehose ストリームなどの追加リソースの開発とメンテナンスは不要です。

58 / 204

58.

No.58
データエンジニアは、ユーザーが Amazon EMR および Amazon Athena クエリを通じてアクセスする中央メタデータリポジトリを維持する必要があります。リポジトリは、多くのテーブルのスキーマとプロパティを提供する必要があります。メタデータの一部は Apache Hive に保存されます。データエンジニアは、Hive から中央メタデータリポジトリにメタデータをインポートする必要があります。
開発労力を最小限に抑えてこれらの要件を満たすソリューションはどれですか?

A. Amazon EMR と Apache Ranger を使用します。

B. EMR クラスターで Hive メタストアを使用します。

C. AWS Glue データカタログを使用します。

D. Amazon RDS for MySQL DB インスタンスでメタストアを使用します。

回答: C

説明:
https://aws.amazon.com/blogs/big-data/metadata-classification-lineage-and-discovery-using-apache-atlas-on-amazon-emr/
オプション C の AWS Glue データカタログの使用は、最小限の開発労力で要件を満たす最適なソリューションです。AWS Glue データカタログは、EMR や Athena などのさまざまな AWS サービスと統合できる中央メタデータリポジトリとして設計されており、組み込みの Hive 互換性を備えた、メタデータ管理用のマネージドでスケーラブルなソリューションを提供します。

59 / 204

59.

No.59
ある企業は AWS にデータレイクを構築する必要があります。企業は特定のチームに行レベルのデータアクセスと列レベルのデータアクセスを提供する必要があります。チームは Amazon EMR の Amazon Athena、Amazon Redshift Spectrum、Apache Hive を使用してデータにアクセスします。
どのソリューションが、運用オーバーヘッドが最も少なく、これらの要件を満たしますか?

A. データレイクのストレージに Amazon S3 を使用します。S3 アクセスポリシーを使用して、行と列によるデータアクセスを制限します。Amazon S3 を介してデータアクセスを提供します。

B. データレイクのストレージに Amazon S3 を使用します。Amazon EMR を介して Apache Ranger を使用して、行と列によるデータアクセスを制限します。Apache Pig を使用してデータアクセスを提供します。

C. データレイクのストレージに Amazon Redshift を使用します。Redshift セキュリティポリシーを使用して、行と列によるデータアクセスを制限します。Apache Spark と Amazon Athena フェデレーションクエリを使用してデータアクセスを提供します。

D. データレイクのストレージに Amazon S3 を使用します。AWS Lake Formation を使用して、行と列によるデータアクセスを制限します。AWS Lake Formation を介してデータアクセスを提供します。

回答: D

説明:
オプション D は、運用オーバーヘッドを最小限に抑えながら要件を満たす最適なソリューションです。

ストレージに Amazon S3 を使用し、アクセス制御とデータアクセスに AWS Lake Formation を使用すると、次の利点が得られます。

S3 は、耐久性、可用性、拡張性に優れたデータレイクストレージレイヤーを提供します。

Lake Formation は、列レベルと行レベルまでのきめ細かなアクセス制御を可能にします。

Athena、Redshift Spectrum、EMR とネイティブに統合され、データアクセスが簡素化されます。

フルマネージドサービスにより、自己管理型の Ranger や断片的なソリューションと比較して、管理オーバーヘッドが最小限に抑えられます。

60 / 204

60.

No.60
航空会社は、分析のためにフライトアクティビティに関するメトリクスを収集しています。同社は、概念実証 (POC) テストを実施して、分析によって、会社が定時出発を増やすために使用できる洞察をどのように提供できるかを示しています。
POC テストでは、メトリクスが .csv 形式で含まれる Amazon S3 内のオブジェクトを使用します。POC テストでは、Amazon Athena を使用してデータをクエリします。データは日付別に S3 バケットに分割されています。
データ量が増えるにつれて、クエリのパフォーマンスを向上させるためにストレージソリューションを最適化したいと考えています。
これらの要件を満たすソリューションの組み合わせはどれですか? (2 つ選択してください)。

A. パーティション全体のスループットを向上させるために、Amazon S3 のキーの先頭にランダムな文字列を追加します。

B. Athena を使用してデータをクエリするのと同じアカウントにある S3 バケットを使用します。

C. 会社が Athena クエリを実行するのと同じ AWS リージョンにある S3 バケットを使用します。

D. クエリに必要なドキュメントキーのみを取得して、.csv データを JSON 形式に前処理します。

E. 述語に必要なデータブロックのみを取得して、.csv データを Apache Parquet 形式に前処理します。

回答: C、E

説明:
https://docs.aws.amazon.com/athena/latest/ug/performance-tuning.html

61 / 204

61.

No.61
ある会社では、重要なアプリケーションのデータベースとして Amazon RDS for MySQL を使用しています。データベースのワークロードは、ほとんどが書き込みで、読み取りは少数です。
データエンジニアは、DB インスタンスの CPU 使用率が非常に高いことに気付きました。CPU 使用率が高いため、アプリケーションの速度が低下しています。データエンジニアは、DB インスタンスの CPU 使用率を下げる必要があります。
この要件を満たすために、データエンジニアはどのようなアクションを取る必要がありますか? (2 つ選択してください)

A. Amazon RDS のパフォーマンスインサイト機能を使用して、CPU 使用率が高いクエリを特定します。問題のあるクエリを最適化します。

B. データベーススキーマを変更して、追加のテーブルとインデックスを含めます。

C. RDS DB インスタンスを毎週 1 回再起動します。

D. インスタンスサイズを大きくアップグレードします。

E. キャッシュを実装して、データベースクエリの負荷を軽減します。

回答: A、D

説明:
ここでの問題は書き込みにあり、キャッシュでは解決できません。
他のオプションの方が読み取りパフォーマンスの問題を改善する可能性が高いためです。

62 / 204

62.

No.62
ある会社では、Orders という名前の Amazon Redshift テーブルを 6 か月間使用しています。この会社は、テーブルの更新と削除を毎週実行しています。このテーブルには、AWS リージョンを含む列にインターリーブされたソートキーがあります。
この会社は、ストレージ容量が不足しないようにディスク容量を再利用したいと考えています。また、ソートキー列を分析したいと考えています。
これらの要件を満たす Amazon Redshift コマンドはどれですか?

A. VACUUM FULL 注文

B. VACUUM DELETE ONLY 注文

C. VACUUM REINDEX 注文

D. VACUUM SORT ONLY 注文

回答: C

説明:
https://docs.aws.amazon.com/redshift/latest/dg/r_VACUUM_command.html
「完全なバキュームでは、インターリーブされたテーブルの再インデックスは実行されません。インターリーブされたテーブルの再インデックスに続いて完全なバキュームを実行するには、VACUUM REINDEX オプションを使用します。」
A - 「完全なバキュームでは、インターリーブされたテーブルの再インデックスは実行されません。」 - 上記のドキュメントより
B - 「DELETE ONLY バキューム操作では、テーブルデータはソートされません。」 - 上記のドキュメントより
D - 「削除された行によって解放されたスペースを再利用せずに。」 - 上記の参照ドキュメントより。

63 / 204

63.

No.63
製造会社がセンサーからデータを収集したいと考えています。データエンジニアは、センサーデータをほぼリアルタイムで取り込むソリューションを実装する必要があります。
ソリューションでは、データを永続的なデータストアに保存する必要があります。ソリューションでは、データをネストされた JSON 形式で保存する必要があります。企業は、10 ミリ秒未満のレイテンシーでデータストアからクエリを実行できる必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. セルフホスト型 Apache Kafka クラスターを使用してセンサーデータをキャプチャします。クエリ用にデータを Amazon S3 に保存します。

B. AWS Lambda を使用してセンサーデータを処理します。クエリ用にデータを Amazon S3 に保存します。

C. Amazon Kinesis Data Streams を使用してセンサーデータをキャプチャします。クエリ用にデータを Amazon DynamoDB に保存します。

D. Amazon Simple Queue Service (Amazon SQS) を使用して、受信センサーデータをバッファリングします。クエリ用にデータを Amazon RDS に保存するには、AWS Glue を使用します。

回答: C

説明:
Amazon Kinesis Data Streams は、IoT センサーを含むさまざまなデータソースをシームレスに統合できるフルマネージドサービスです。Kinesis Data Streams を取り込みメカニズムとして使用することで、Apache Kafka クラスターやその他のデータ取り込みパイプラインの設定と管理にかかるオーバーヘッドを回避できます。
より正確に言うと、
Kinesis Data streams = リアルタイム
Kinesis Data Firehose = ほぼリアルタイム

64 / 204

64.

No.64
ある会社が Amazon S3 にあるデータレイクにデータを保存しています。会社がデータレイクに保存するデータには、個人を特定できる情報 (PII) が含まれています。複数のユーザーグループが生データにアクセスする必要があります。会社は、ユーザーグループが必要な PII のみにアクセスできるようにする必要があります。
どのソリューションが、最小限の労力でこれらの要件を満たしますか?

A. Amazon Athena を使用してデータをクエリします。AWS Lake Formation を設定し、データフィルターを作成して、会社の IAM ロールのアクセスレベルを確立します。各ユーザーを、ユーザーの PII アクセス要件に一致する IAM ロールに割り当てます。

B. Amazon QuickSight を使用してデータにアクセスします。QuickSight の列レベルのセキュリティ機能を使用して、ユーザーが Amazon Athena を使用して Amazon S3 から取得できる PII を制限します。ユーザーの PII アクセス要件に基づいて、QuickSight アクセスレベルを定義します。

C. データにアクセスするためにバックグラウンドで Athena クエリを実行するカスタムクエリビルダー UI を構築します。Amazon Cognito でユーザーグループを作成します。ユーザーの PII アクセス要件に基づいて、ユーザーグループにアクセスレベルを割り当てます。

D. さまざまなレベルのきめ細かなアクセスを持つ IAM ロールを作成します。IAM ロールを IAM ユーザーグループに割り当てます。ID ベースのポリシーを使用して、列レベルでユーザーグループにアクセスレベルを割り当てます。

回答: A

説明:
Amazon Athena を使用してデータをクエリし、データフィルターを使用して AWS Lake Formation を設定することで、企業はユーザーグループが必要な個人識別情報 (PII) のみにアクセスできるようにすることができます。クエリ用の Athena とアクセス制御用の Lake Formation を組み合わせることで、PII アクセス要件を効果的かつ安全に管理するための包括的なソリューションが提供されます。

65 / 204

65.

No.65
データエンジニアは、10 個のソースシステムから Amazon Redshift データベースにある 10 個のテーブルにデータを処理してロードするための抽出、変換、ロード (ETL) パイプラインを構築する必要があります。すべてのソースシステムは、15 分ごとに .csv、JSON、または Apache Parquet ファイルを生成します。ソースシステムはすべて、ファイルを 1 つの Amazon S3 バケットに配信します。ファイルサイズは 10 MB から 20 GB の範囲です。データスキーマが変更されても、ETL パイプラインは正しく機能する必要があります。
これらの要件を満たすデータパイプラインソリューションはどれですか? (2 つ選択してください)。

A. Amazon EventBridge ルールを使用して、15 分ごとに AWS Glue ジョブを実行します。AWS Glue ジョブを構成して、データを処理して Amazon Redshift テーブルにロードします。

B. Amazon EventBridge ルールを使用して、15 分ごとに AWS Glue ワークフロージョブを呼び出します。AWS Glue ワークフローを構成して、AWS Glue クローラーを実行し、クローラーが正常に実行されたら AWS Glue ジョブを実行するオンデマンドトリガーを設定します。AWS Glue ジョブを構成して、データを処理して Amazon Redshift テーブルにロードします。

C. ファイルが S3 バケットにロードされたときに AWS Glue クローラーを呼び出す AWS Lambda 関数を構成します。AWS Glue ジョブを構成して、データを処理して Amazon Redshift テーブルにロードします。 AWS Glue ジョブを実行する 2 番目の Lambda 関数を作成します。AWS Glue クローラーが正常に実行を終了したときに 2 番目の Lambda 関数を呼び出す Amazon EventBridge ルールを作成します。

D. ファイルが S3 バケットにロードされたときに AWS Glue ワークフローを呼び出す AWS Lambda 関数を設定します。AWS Glue ワークフローを設定して、AWS Glue クローラーを実行し、クローラーが正常に実行を終了したときに AWS Glue ジョブを実行するオンデマンドトリガーを設定します。AWS Glue ジョブを設定して、データを処理して Amazon Redshift テーブルにロードします。

E. ファイルが S3 バケットにロードされたときに AWS Glue ジョブを呼び出す AWS Lambda 関数を設定します。AWS Glue ジョブを設定して、S3 バケットから Apache Spark DataFrame にファイルを読み込みます。AWS Glue ジョブを設定して、DataFrame の小さなパーティションも Amazon Kinesis Data Firehose 配信ストリームに配置します。配信ストリームを設定して、データを Amazon Redshift テーブルにロードします。

回答: B、D

説明:
オプション B: 15 分ごとに AWS Glue ワークフロージョブを実行する Amazon EventBridge ルール - 合理化されたプロセス、自動スケジュール、スキーマ変更の処理能力が優れています。

オプション D: ファイルがロードされたときに AWS Glue ワークフローを呼び出す AWS Lambda - ファイルの到着に対する応答性とスキーマ変更への適応性が優れていますが、オプション B よりも少し複雑です。

66 / 204

66.

No.66
金融会社は、ビジネスインテリジェンス (BI) アプリケーションをサポートするために、ペタバイト規模のデータセットでオンデマンド SQL クエリを実行するために Amazon Athena を使用したいと考えています。営業時間外に実行される AWS Glue ジョブは、データセットを 1 日に 1 回更新します。BI アプリケーションは、会社のポリシーに準拠するために、標準のデータ更新頻度が 1 時間です。
データエンジニアは、追加のインフラストラクチャコストを追加することなく、会社の Amazon Athena の使用コストを最適化したいと考えています。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. 1 日後にデータを S3 Glacier Deep Archive ストレージクラスに移動するように Amazon S3 ライフサイクルポリシーを設定します。

B. SQL クエリに Amazon Athena のクエリ結果再利用機能を使用します。

C. BI アプリケーションと Athena の間に Amazon ElastiCache クラスターを追加します。

D. データセット内のファイルの形式を Apache Parquet に変更します。

回答: B

説明:
https://docs.aws.amazon.com/athena/latest/ug/performance-tuning.html
Amazon Athena のクエリ結果再利用機能を使用します。これにより、Athena の組み込み機能を利用して冗長なデータスキャンが削減され、クエリコストが削減されます。

67 / 204

67.

No.67
ある会社のデータエンジニアは、テーブル SQL クエリのパフォーマンスを最適化する必要があります。会社は Amazon Redshift クラスターにデータを保存しています。データエンジニアは予算の制約により、クラスターのサイズを増やすことができません。
会社は複数のテーブルにデータを保存し、EVEN 分散スタイルを使用してデータをロードします。テーブルによっては、サイズが数百ギガバイトのものもあります。その他のテーブルのサイズは 10 MB 未満です。
これらの要件を満たすソリューションはどれですか?

A. すべてのテーブルに EVEN 分散スタイルを使用し続けます。すべてのテーブルに主キーと外部キーを指定します。

B. 大きなテーブルには ALL 分散スタイルを使用します。すべてのテーブルに主キーと外部キーを指定します。

C. ほとんど更新されない小さなテーブルには、ALL 分散スタイルを使用します。すべてのテーブルに主キーと外部キーを指定します。

D. すべてのテーブルに分散キー、ソートキー、パーティションキーの組み合わせを指定します。

回答: C

説明:
ほとんど更新されない小さなテーブルには、ALL 分散スタイルを使用します。このアプローチは、これらの小さなテーブルを含む結合のパフォーマンスを最適化し、Redshift データウェアハウスの一般的なベストプラクティスです。大きなテーブルの場合は、EVEN 分散スタイルを維持するか、KEY ベースの分散 (共通の結合列がある場合) を検討する方が適切です。

68 / 204

No.68
ある会社が、物理アドレスデータを含む .csv ファイルを受け取ります。データは、Door_No、Street_Name、City、および Zip_Code という名前を持つ列にあります。同社は、これらの値を次の形式で保存する単一の列を作成したいと考えています:

{
"Door_No": "24",

68. "Street_Name": "AAA street",

"City": "BBB",

"Zip_Code": "111111"
}

最も少ないコーディング作業でこの要件を満たすソリューションはどれですか?

A. AWS Glue DataBrew を使用してファイルを読み取ります。NEST_TO_ARRAY 変換を使用して新しい列を作成します。

B. AWS Glue DataBrew を使用してファイルを読み取ります。NEST_TO_MAP 変換を使用して新しい列を作成します。

C. AWS Glue DataBrew を使用してファイルを読み取ります。PIVOT 変換を使用して新しい列を作成します。

D. Python で Lambda 関数を記述してファイルを読み取ります。Python データディクショナリタイプを使用して新しい列を作成します。

回答: B

説明:
NEST_TO_ARRAY の結果は次のようになります:
[ {"key": "key1", "value": "value1"}, {"key": "key2", "value": "value2"}, {"key": "key3", "value": "value3"}]

一方、NEST_TO_MAP の結果は次のようになります: {
"key1": "value1",
"key2": "value2",
"key3": "value3"
}
したがって、B を使用します。

69 / 204

69.

No.69
ある会社が、顧客の機密情報を含む Amazon S3 オブジェクトとして通話ログを受け取ります。会社は、暗号化を使用して S3 オブジェクトを保護する必要があります。また、特定の従業員だけがアクセスできる暗号化キーを使用する必要があります。
どのソリューションが、最小限の労力でこれらの要件を満たしますか?

A. AWS CloudHSM クラスターを使用して暗号化キーを保存します。Amazon S3 に書き込むプロセスを設定し、CloudHSM を呼び出してオブジェクトの暗号化と復号化を行います。CloudHSM クラスターへのアクセスを制限する IAM ポリシーをデプロイします。

B. 顧客提供キー (SSE-C) を使用したサーバー側暗号化を使用して、顧客情報を含むオブジェクトを暗号化します。オブジェクトを暗号化するキーへのアクセスを制限します。

C. AWS KMS キー (SSE-KMS) を使用したサーバー側暗号化を使用して、顧客情報を含むオブジェクトを暗号化します。オブジェクトを暗号化する KMS キーへのアクセスを制限する IAM ポリシーを設定します。

D. Amazon S3 管理キー (SSE-S3) によるサーバー側暗号化を使用して、顧客情報を含むオブジェクトを暗号化します。オブジェクトを暗号化する Amazon S3 管理キーへのアクセスを制限する IAM ポリシーを設定します。

回答: C

説明:
AWS KMS キー (SSE-KMS) によるサーバー側暗号化を使用して、顧客情報を含むオブジェクトを暗号化します。オブジェクトを暗号化する KMS キーへのアクセスを制限する IAM ポリシーを設定します。

AWS KMS (SSE-KMS) によるサーバー側暗号化は、S3 オブジェクトに強力な暗号化を提供し、AWS Key Management Service (KMS) によるきめ細かなアクセス制御を可能にします。SSE-KMS を使用すると、IAM ポリシーを使用して暗号化キーへのアクセスを制御し、特定の従業員のみがアクセスできるようにすることができます。

このソリューションは、AWS のマネージド暗号化サービス (SSE-KMS) を活用し、S3 とシームレスに統合されるため、最小限の労力で済みます。さらに、IAM ポリシーは KMS キーへのアクセスを制限するように簡単に設定できるため、暗号化キーにアクセスできるユーザーをきめ細かく制御できます。

70 / 204

70.

No.70
ある企業は、S3 標準ストレージクラスの何千もの Amazon S3 バケットにペタバイト単位のデータを保存しています。このデータは、予測不可能で変動するデータアクセスパターンを持つ分析ワークロードをサポートしています。
この企業は、何ヶ月も一部のデータにアクセスしません。ただし、この企業はすべてのデータを数ミリ秒以内に取得できる必要があります。この企業は S3 ストレージコストを最適化する必要があります。
運用オーバーヘッドを最小限に抑えながら、これらの要件を満たすソリューションはどれですか?

A. S3 Storage Lens 標準メトリクスを使用して、オブジェクトをよりコスト最適化されたストレージクラスに移動するタイミングを決定します。S3 バケットの S3 ライフサイクルポリシーを作成して、オブジェクトをコスト最適化されたストレージクラスに移動します。今後も S3 ライフサイクルポリシーを改良し、ストレージコストを最適化します。

B. S3 Storage Lens アクティビティメトリクスを使用して、この企業があまりアクセスしない S3 バケットを特定します。データの古さに基づいて、S3 標準から S3 標準低頻度アクセス (S3 標準 IA) および S3 Glacier ストレージクラスにオブジェクトを移動するように S3 ライフサイクルルールを設定します。

C. S3 Intelligent-Tiering を使用します。Deep Archive アクセス層をアクティブにします。

D. S3 Intelligent-Tiering を使用します。デフォルトのアクセス層を使用します。

回答: D

説明:
C の方がコスト効率は高いですが、「すべてのデータを数ミリ秒以内に取得できる必要がある」ため、D を使用します。

Amazon S3 Glacier Deep Archive ストレージクラスは、データの取得時間が柔軟な長期データアーカイブ用に設計されています。ミリ秒単位の取得時間は提供されません。代わりに、S3 Glacier Deep Archive からのデータ取得には通常 12 時間以上かかります。ミリ秒単位の取得時間が必要な場合は、低レイテンシーで頻繁または不定期のアクセス向けに設計された S3 標準、S3 標準 IA、または S3 ワンゾーン IA ストレージクラスを使用します。

71 / 204

71.

No.71
セキュリティレビュー中に、ある会社が AWS Glue ジョブの脆弱性を特定しました。会社は、Amazon Redshift クラスターにアクセスするための認証情報がジョブスクリプトにハードコードされていることを発見しました。
データエンジニアは、AWS Glue ジョブのセキュリティ脆弱性を修正する必要があります。ソリューションでは、認証情報を安全に保存する必要があります。
これらの要件を満たすために、データエンジニアが実行する必要がある手順の組み合わせはどれですか? (2 つ選択してください)。

A. 認証情報を AWS Glue ジョブパラメータに保存します。

B. 認証情報を Amazon S3 バケットにある設定ファイルに保存します。

C. AWS Glue ジョブを使用して、Amazon S3 バケットにある設定ファイルから認証情報にアクセスします。

D. 認証情報を AWS Secrets Manager に保存します。

E. 保存された認証情報へのアクセス権を AWS Glue ジョブの IAM ロールに付与します。

回答: D、E

説明:
D は認証情報のセキュリティ保護に関する AWS のベストプラクティスであり、E は認証情報をシークレットに格納した後はアクセス権限が必要になるためです。

D. 認証情報を AWS Secrets Manager に保存する: AWS Secrets Manager は、独自のインフラストラクチャを運用するための先行投資や継続的なメンテナンス費用をかけずに、アプリケーション、サービス、IT リソースへのアクセスを保護するのに役立つサービスです。認証情報を安全に保存および取得するように特別に設計されているため、Redshift クラスター認証情報の処理に適しています。

E. AWS Glue ジョブに、保存された認証情報への IAM ロールアクセスを付与する: AWS Glue の IAM ロールにより、ジョブは AWS Secrets Manager の認証情報にアクセスするために必要な権限を持つロールを引き受けることができます。この方法により、スクリプトまたは設定ファイルに直接認証情報を埋め込む必要がなくなり、認証情報を一元管理できます。

72 / 204

72.

No.72
データエンジニアは、Amazon Redshift を使用して、リソースを大量に消費する分析プロセスを毎月 1 回実行しています。データエンジニアは毎月、新しい Redshift プロビジョニング済みクラスターを作成します。データエンジニアは、毎月の分析プロセスが完了したら、Redshift プロビジョニング済みクラスターを削除します。データエンジニアは、毎月クラスターを削除する前に、クラスターから Amazon S3 バケットにバックアップデータをアンロードします。
データエンジニアは、データエンジニアがインフラストラクチャを手動で管理する必要のない、毎月の分析プロセスを実行するソリューションを必要としています。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. Amazon Step Functions を使用して、分析プロセスが完了したら Redshift クラスターを一時停止し、クラスターを再開して毎月新しいプロセスを実行します。

B. Amazon Redshift Serverless を使用して、分析ワークロードを自動的に処理します。

C. AWS CLI を使用して、分析ワークロードを自動的に処理します。

D. AWS CloudFormation テンプレートを使用して、分析ワークロードを自動的に処理します。

回答: B

説明:
完全に管理されたサーバーレス: Redshift Serverless を使用すると、クラスターを手動で作成、管理、または削除する必要がなくなります。ワークロードに基づいてリソースを自動的にスケーリングし、運用オーバーヘッドを大幅に削減します。
頻度の低いワークロードでもコスト効率が高い: 分析プロセスは月に 1 回しか実行されないため、Redshift Serverless の従量課金モデルはダウンタイム中のコストを最小限に抑えるのに最適です。

シームレスな S3 統合: Redshift Serverless は、バックアップおよび復元操作のために S3 とネイティブに統合され、既存のプロセスとの互換性が確保されます。

73 / 204

73.

No.73
ある会社が、顧客データを .xls 形式で含む毎日のファイルを受け取ります。会社はそのファイルを Amazon S3 に保存します。毎日のファイルのサイズは約 2 GB です。
データエンジニアは、ファイル内の顧客のファーストネームを含む列と顧客のラストネームを含む列を連結します。データエンジニアは、ファイル内の個別の顧客の数を特定する必要があります。
最も少ない運用労力でこの要件を満たすソリューションはどれですか?

A. AWS Glue ノートブックで Apache Spark ジョブを作成して実行します。ジョブを構成して、S3 ファイルを読み取り、個別の顧客数を計算します。

B. AWS Glue クローラーを作成して、S3 ファイルの AWS Glue データカタログを作成します。Amazon Athena から SQL クエリを実行して、個別の顧客数を計算します。

C. Amazon EMR Serverless で Apache Spark ジョブを作成して実行し、個別の顧客数を計算します。

D. AWS Glue DataBrew を使用して、COUNT_DISTINCT 集計関数を使用して個別の顧客数を計算するレシピを作成します。

回答: D

説明:
AWS Glue DataBrew: AWS Glue DataBrew は、データエンジニアとデータアナリストがコードを記述せずにデータをクリーンアップおよび正規化できるようにするビジュアルデータ準備ツールです。DataBrew を使用すると、データエンジニアは顧客の姓と名の連結を含むレシピを作成し、COUNT_DISTINCT 関数を使用できます。これには複雑なコードは必要なく、DataBrew ユーザーインターフェイスから実行できるため、運用上の労力が少なくて済みます。

74 / 204

74.

No.74
ヘルスケア企業は、Amazon Kinesis Data Streams を使用して、ウェアラブルデバイス、病院の機器、患者の記録からリアルタイムの健康データをストリーミングしています。
データエンジニアは、ストリーミングデータを処理するソリューションを見つける必要があります。データエンジニアは、Amazon Redshift Serverless ウェアハウスにデータを保存する必要があります。ソリューションは、ストリーミングデータと前日のデータのほぼリアルタイムの分析をサポートする必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. データを Amazon Kinesis Data Firehose にロードします。データを Amazon Redshift にロードします。

B. Amazon Redshift のストリーミング取り込み機能を使用します。

C. データを Amazon S3 にロードします。COPY コマンドを使用して、データを Amazon Redshift にロードします。

D. Amazon Aurora ゼロ ETL 統合を Amazon Redshift と使用します。

回答: B

説明:

https://docs.aws.amazon.com/redshift/latest/dg/materialized-view-streaming-ingestion.html
Amazon Redshift のストリーミング取り込み機能を使用する: Amazon Redshift は最近、ストリーミングデータの取り込みを導入し、Redshift が Kinesis Data Streams からほぼリアルタイムでデータを直接消費できるようになりました。この機能は、中間ステップやサービスが不要になることでアーキテクチャを簡素化し、ほぼリアルタイムの分析をサポートするように特別に設計されています。この機能は Redshift に統合されているため、運用上のオーバーヘッドは最小限に抑えられます。

75 / 204

75.

No.75
データエンジニアは、Amazon S3 バケットに保存されているデータに対する Amazon Athena クエリに基づく Amazon QuickSight ダッシュボードを使用する必要があります。データエンジニアが QuickSight ダッシュボードに接続すると、権限が不十分であることを示すエラーメッセージが表示されます。
権限関連のエラーの原因となる要因はどれですか? (2 つ選択してください)。

A. QuickSight と Athena の間には接続がありません。

B. Athena テーブルがカタログ化されていません。

C. QuickSight には S3 バケットへのアクセス権がありません。

D. QuickSight には S3 データを復号化するアクセス権がありません。

E. QuickSight に IAM ロールが割り当てられていません。

回答: C、D

説明:
https://docs.aws.amazon.com/quicksight/latest/user/troubleshoot-athena-insufficient-permissions.html

E は不正解です。認証/承認エラーが発生し、権限不足エラーにはなりません。

C. QuickSight には S3 バケットへのアクセス権がありません。Amazon QuickSight には、データが存在する S3 バケットにアクセスするための必要な権限が必要です。QuickSight に S3 バケットからデータを読み取る権限がない場合、権限不足を示すエラーが発生します。

D. QuickSight には S3 データを復号化するアクセス権がありません。S3 のデータが暗号化されている場合、QuickSight にはデータを復号化するために必要なキーを使用する権限が必要です。通常、AWS Key Management Service (KMS) によって管理される復号化キーにアクセスできないと、QuickSight は暗号化されたデータを読み取ることができず、エラーが発生します。

76 / 204

76.

No.76
ある会社では、データセットを JSON 形式と .csv 形式で Amazon S3 バケットに保存しています。この会社には、Microsoft SQL Server データベース用の Amazon RDS、プロビジョニングされたキャパシティーモードの Amazon DynamoDB テーブル、および Amazon Redshift クラスターがあります。データエンジニアリングチームは、データサイエンティストが SQL に似た構文を使用してすべてのデータソースをクエリできるようにするソリューションを開発する必要があります。
どのソリューションが、運用オーバーヘッドが最も少なく、これらの要件を満たしますか?

A. AWS Glue を使用してデータソースをクロールします。メタデータを AWS Glue データカタログに保存します。Amazon Athena を使用してデータをクエリします。構造化データソースには SQL を使用します。JSON 形式で保存されているデータには PartiQL を使用します。

B. AWS Glue を使用してデータソースをクロールします。メタデータを AWS Glue データカタログに保存します。Redshift Spectrum を使用してデータをクエリします。構造化データソースには SQL を使用します。JSON 形式で保存されているデータには PartiQL を使用します。

C. AWS Glue を使用してデータソースをクロールします。メタデータを AWS Glue データカタログに保存します。AWS Glue ジョブを使用して、JSON 形式のデータを Apache Parquet または .csv 形式に変換します。変換されたデータを S3 バケットに保存します。Amazon Athena を使用して、S3 バケットから元のデータと変換されたデータをクエリします。

D. AWS Lake Formation を使用してデータレイクを作成します。Lake Formation ジョブを使用して、すべてのデータソースのデータを Apache Parquet 形式に変換します。変換されたデータを S3 バケットに保存します。Amazon Athena または Redshift Spectrum を使用してデータをクエリします。

回答: A

説明:
運用上のオーバーヘッドが最も少ないのは、中間アクションやサービスなしで Athena で直接クエリすることです。

A. Athena による統合クエリ: Athena は、S3 の JSON や CSV、従来のデータベースなど、さまざまなデータソースをクエリするための SQL のようなインターフェイスを提供します。

PartiQL サポート: Athena の PartiQL 拡張機能を使用すると、半構造化 JSON データを直接クエリできるため、別のクエリエンジンが不要になります。
サーバーレスで管理: AWS Glue と Athena はどちらもサーバーレスで、データエンジニアのインフラストラクチャ管理を最小限に抑えます。
不要な変換なし: JSON データの変換を回避することで、パイプラインが簡素化され、運用オーバーヘッドが削減されます。
B. Redshift Spectrum: Spectrum は外部データをクエリできますが、主に Redshift データウェアハウスの拡張機能を対象としています。RDS および DynamoDB データソースの複雑さが増します。

77 / 204

77.

No.77
データエンジニアは、Amazon SageMaker Studio を設定して、AWS Glue インタラクティブセッションを使用して機械学習 (ML) モデル用のデータを準備しています。
データエンジニアが SageMaker Studio を使用してデータを準備しようとすると、アクセス拒否エラーが発生します。
エンジニアは、SageMaker Studio にアクセスするためにどの変更を行う必要がありますか?

A. データエンジニアの IAM ユーザーに AWSGlueServiceRole マネージドポリシーを追加します。

B. データエンジニアの IAM ユーザーに、信頼ポリシーに AWS Glue および SageMaker サービスプリンシパルの sts:AssumeRole アクションを含むポリシーを追加します。

C. データエンジニアの IAM ユーザーに AmazonSageMakerFullAccess マネージドポリシーを追加します。

D. データエンジニアの IAM ユーザーに、信頼ポリシーに AWS Glue および SageMaker サービスプリンシパルの sts:AddAssociation アクションを許可するポリシーを追加します。

回答: B

説明:
AmazonSageMakerFullAccess でもアクセスが拒否される可能性があるため、B を採用します。
こちらをご覧ください: https://stackoverflow.com/questions/64709871/aws-sagemaker-studio-createdomain-access-error

78 / 204

78.

No.78
ある企業は、SAP HANA、Microsoft SQL Server、MongoDB、Apache Kafka、Amazon DynamoDB などのデータソースから毎日約 1 TB のデータを抽出しています。一部のデータソースには、未定義のデータスキーマや変更されるデータスキーマがあります。
データエンジニアは、これらのデータソースのスキーマを検出できるソリューションを実装する必要があります。ソリューションは、データを抽出、変換し、Amazon S3 バケットにロードする必要があります。この企業は、データ作成後 15 分以内にデータを S3 バケットにロードするというサービスレベル契約 (SLA) を結んでいます。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. Amazon EMR を使用してスキーマを検出し、データを抽出、変換し、S3 バケットにロードします。Apache Spark でパイプラインを作成します。

B. AWS Glue を使用してスキーマを検出し、データを抽出、変換、S3 バケットにロードします。Apache Spark でパイプラインを作成します。

C. AWS Lambda で PySpark プログラムを作成し、データを抽出、変換、S3 バケットにロードします。

D. Amazon Redshift でストアドプロシージャを作成し、スキーマを検出し、データを抽出、変換、Redshift Spectrum テーブルにロードします。Amazon S3 からテーブルにアクセスします。

回答: B

説明:
AWS Glue を使用してスキーマを検出し、データを抽出、変換、S3 バケットにロードします。Apache Spark でパイプラインを作成します。

79 / 204

79.

No.79
ある会社には、Amazon S3 バケットに保存されているデータセットを使用する複数のアプリケーションがあります。この会社には、個人を特定できる情報 (PII) を含むデータセットを生成する e コマースアプリケーションがあります。この会社には、PII へのアクセスを必要としない社内分析アプリケーションがあります。
規制に準拠するために、会社は PII を不必要に共有してはなりません。データエンジニアは、データセットにアクセスする各アプリケーションのニーズに基づいて、PII を動的に編集するソリューションを実装する必要があります。
どのソリューションが、運用オーバーヘッドが最も少なく、要件を満たすでしょうか。

A. 各アプリケーションのアクセスを制限する S3 バケットポリシーを作成します。データセットの複数のコピーを作成します。各データセットコピーに、コピーにアクセスするアプリケーションのニーズに合わせて適切なレベルの編集を行います。

B. S3 オブジェクト Lambda エンドポイントを作成します。S3 オブジェクト Lambda エンドポイントを使用して、S3 バケットからデータを読み取ります。S3 オブジェクト Lambda 関数内に編集ロジックを実装して、データにアクセスする各アプリケーションのニーズに基づいて、PII を動的に編集します。

C. AWS Glue を使用して、各アプリケーションのデータを変換します。データセットのコピーを複数作成します。各データセットのコピーに、コピーにアクセスするアプリケーションのニーズに合わせて適切なレベルの編集を行います。

D. カスタムオーソライザーを持つ API Gateway エンドポイントを作成します。API Gateway エンドポイントを使用して、S3 バケットからデータを読み取ります。REST API 呼び出しを開始し、データにアクセスする各アプリケーションのニーズに基づいて PII を動的に編集します。

回答: B

説明:
Amazon S3 Object Lambda を使用すると、S3 GET リクエストに独自のコードを追加して、アプリケーションに返されるデータを変更および処理できます。たとえば、S3 Object Lambda を使用して、S3 から取得したデータから個人を特定できる情報 (PII) を動的に編集できます。これにより、データの複数のコピーを作成して管理することなく、さまざまなアプリケーションのニーズに基づいて機密情報へのアクセスを制御できます。

80 / 204

80.

★No.80
データエンジニアは、抽出、変換、ロード (ETL) ジョブを構築する必要があります。 ETL ジョブは、ユーザーが Amazon S3 バケットにアップロードする毎日の受信 .csv ファイルを処理します。各 S3 オブジェクトのサイズは 100 MB 未満です。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

A. カスタム Python アプリケーションを作成します。アプリケーションを Amazon Elastic Kubernetes Service (Amazon EKS) クラスターでホストします。

B. PySpark ETL スクリプトを作成します。スクリプトを Amazon EMR クラスターでホストします。

C. AWS Glue PySpark ジョブを作成します。Apache Spark を使用してデータを変換します。

D. AWS Glue Python シェルジョブを作成します。pandas を使用してデータを変換します。

81 / 204

81.

No.81
データエンジニアは、Orders という名前の AWS Glue クローラーを使用して、AWS Glue データカタログテーブルを作成します。データエンジニアは、次の新しいパーティションを追加したいと考えています。

s3://transactions/orders/order_date=2023-01-01
s3://transactions/orders/order_date=2023-01-02

データエンジニアは、テーブルの場所にあるすべてのフォルダとファイルをスキャンせずに、メタデータを編集してテーブルに新しいパーティションを含める必要があります。
データエンジニアは、Amazon Athena でどのデータ定義言語 (DDL) ステートメントを使用する必要がありますか?

A. ALTER TABLE Orders ADD PARTITION(order_date=’2023-01-01’) LOCATION ‘s3://transactions/orders/order_date=2023-01-01’; ALTER TABLE Orders ADD PARTITION(order_date=’2023-01-02’) LOCATION ‘s3://transactions/orders/order_date=2023-01-02’;

B. MSCK REPAIR TABLE Orders;

C. REPAIR TABLE Orders;

D. ALTER TABLE Orders MODIFY PARTITION(order_date=’2023-01-01’) LOCATION ‘s3://transactions/orders/2023-01-01’; ALTER TABLE Orders MODIFY PARTITION(order_date=’2023-01-02’) LOCATION ‘s3://transactions/orders/2023-01-02’;

回答: A

説明:
他のオプションが間違っている理由:
オプション B: MSCK REPAIR TABLE Orders: このコマンドは、指定された場所にあるすべてのファイルをスキャンして、テーブルのパーティションを修復するために使用されます。追加する特定のパーティションがわかっている場合は、テーブルの場所全体をスキャンするため、効率的ではありません。
オプション C: REPAIR TABLE Orders: これは有効な Athena DDL コマンドではありません。
オプション D: ALTER TABLE Orders MODIFY PARTITION: このコマンドは、新しいパーティションを追加するためではなく、既存のパーティションの場所を変更するために使用されます。新しいパーティションの追加には機能しません。

82 / 204

82.

No.82
ある会社では、10 ～ 15 TB の非圧縮 .csv ファイルを Amazon S3 に保存しています。この会社は、Amazon Athena をワンタイムクエリエンジンとして評価しています。
この会社は、クエリの実行時間とストレージコストを最適化するためにデータを変換したいと考えています。
Athena クエリのこれらの要件を満たすファイル形式と圧縮ソリューションはどれですか?

A. zip で圧縮された .csv 形式

B. bzip2 で圧縮された JSON 形式

C. Snappy で圧縮された Apache Parquet 形式

D. LZO で圧縮された Apache Avro 形式

回答: C

説明:
Parquet は効率的な列指向ストレージを提供し、Athena がクエリに必要なデータのみを読み取ることができるため、スキャン時間が短縮され、クエリのパフォーマンスが向上します。
Snappy 圧縮は、圧縮速度と効率のバランスが取れているため、クエリ時間に大きな影響を与えることなくストレージコストを削減できます。

83 / 204

83.

No.83
ある会社では、Apache Airflow を使用して、会社の現在のオンプレミスデータパイプラインをオーケストレーションしています。この会社は、パイプラインの一部として SQL データ品質チェックタスクを実行しています。この会社は、パイプラインを AWS に移行し、AWS マネージドサービスを使用したいと考えています。
リファクタリングを最小限に抑えてこれらの要件を満たすソリューションはどれですか?

A. 会社が Airflow を使用する場所に最も近い AWS リージョンに AWS Outposts をセットアップします。サーバーを Outposts がホストする Amazon EC2 インスタンスに移行します。パイプラインを更新して、オンプレミスのパイプラインではなく、Outposts がホストする EC2 インスタンスとやり取りします。

B. Airflow アプリケーションと、会社が移行する必要があるコードを含むカスタム Amazon Machine Image (AMI) を作成します。カスタム AMI を使用して Amazon EC2 インスタンスをデプロイします。ネットワーク接続を更新して、新しくデプロイされた EC2 インスタンスとやり取りします。

C. 既存の Airflow オーケストレーション構成を Amazon Managed Workflows for Apache Airflow (Amazon MWAA) に移行します。取り込み中にデータ品質チェックを作成し、Airflow の SQL タスクを使用してデータ品質を検証します。

D. パイプラインを AWS Step Functions ワークフローに変換します。SQL でのデータ品質チェックを Python ベースの AWS Lambda 関数として再作成します。

回答: C

説明:
Amazon MWAA は、Apache Airflow を実行するためのマネージドサービスです。最小限の変更で既存の Airflow 構成を移行できます。データ品質チェックは、現在の設定と同様に、引き続き Airflow の SQL タスクとして実装できます。

84 / 204

84.

No.84
ある会社では、複数のソースから取得したデータを変換するために、抽出、変換、ロード (ETL) パイプラインとして Amazon EMR を使用しています。データエンジニアは、パフォーマンスを最大化するためにパイプラインを調整する必要があります。
どの AWS サービスがこの要件を最もコスト効率よく満たしますか?

A. Amazon EventBridge

B. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)

C. AWS Step Functions

D. AWS Glue Workflows

回答: C

説明:
Glue Workflows は Glue ジョブのオーケストレーション用です。C はさまざまな AWS サービスとのオーケストレーション用です。

85 / 204

85.

No.85
オンライン小売会社が、Application Load Balancer (ALB) アクセスログを Amazon S3 バケットに保存しています。この会社は、Amazon Athena を使用してログをクエリし、トラフィックパターンを分析したいと考えています。
データエンジニアが Athena にパーティション化されていないテーブルを作成します。データの量が徐々に増加すると、クエリの応答時間も長くなります。データエンジニアは、Athena でのクエリパフォーマンスを改善したいと考えています。
どのソリューションが、最小限の運用労力でこれらの要件を満たしますか?

A. すべての ALB アクセスログのスキーマを決定し、パーティションメタデータを AWS Glue データカタログに書き込む AWS Glue ジョブを作成します。

B. すべての ALB アクセスログのスキーマを決定し、パーティションメタデータを AWS Glue データカタログに書き込む分類子を含む AWS Glue クローラーを作成します。

C. すべての ALB アクセスログを変換する AWS Lambda 関数を作成します。結果を Apache Parquet 形式で Amazon S3 に保存します。メタデータをパーティション化します。Athena を使用して、変換されたデータをクエリします。

D. Apache Hive を使用してバケット化されたテーブルを作成します。AWS Lambda 関数を使用して、すべての ALB アクセスログを変換します。

回答: B

説明:
AWS Glue クローラー (オプション B) を作成することは、スキーマを自動的に決定し、データを分割し、AWS Glue データカタログを最新の状態に保つための最も簡単で運用負荷の少ない方法です。これにより、大規模な手動管理や追加の処理手順を必要とせずに、Athena クエリが最適化されます。

86 / 204

86.

No.86
ある会社が AWS 上にビジネスインテリジェンスプラットフォームを持っています。この会社は、AWS Storage Gateway Amazon S3 ファイルゲートウェイを使用して、会社のオンプレミス環境から Amazon S3 バケットにファイルを転送します。
データエンジニアは、各ファイル転送が正常に終了したときに一連の AWS Glue ジョブを実行する AWS Glue ワークフローを自動的に起動するプロセスをセットアップする必要があります。
これらの要件を満たす、運用オーバーヘッドが最も少ないソリューションはどれですか?

A. 以前の成功したファイル転送に基づいて、ファイル転送が通常いつ終了するかを決定します。 Amazon EventBridge のスケジュールされたイベントを設定して、その時間に AWS Glue ジョブを開始します。

B. S3 ファイルゲートウェイのファイル転送イベントが成功するたびに AWS Glue ワークフローを開始する Amazon EventBridge イベントを設定します。

C. オンデマンドの AWS Glue ワークフローを設定して、各ファイル転送が完了したときにデータエンジニアが AWS Glue ワークフローを開始できるようにします。

D. AWS Glue ワークフローを呼び出す AWS Lambda 関数を設定します。Lambda 関数のトリガーとして、S3 オブジェクトを作成するイベントを設定します。

回答: B

説明:
EventBridge を直接使用して S3 イベントで AWS Glue ワークフローをトリガーするのは簡単で、AWS のイベント駆動型アーキテクチャを活用し、メンテナンスは最小限で済みます。

87 / 204

87.

No.87
小売会社では、Amazon Aurora PostgreSQL を使用してライブトランザクションデータを処理および保存しています。同社はデータウェアハウスに Amazon Redshift クラスターを使用しています。
抽出、変換、ロード (ETL) ジョブが毎朝実行され、PostgreSQL データベースからの新しいデータで Redshift クラスターを更新します。会社は急速に成長しており、Redshift クラスターのコストを最適化する必要があります。
データエンジニアは、履歴データをアーカイブするソリューションを作成する必要があります。データエンジニアは、PostgreSQL のライブトランザクションデータ、Redshift の現在のデータ、アーカイブされた履歴データのデータを効果的に組み合わせる分析クエリを実行できる必要があります。コストを削減するには、ソリューションで Amazon Redshift に最新の 15 か月分のデータのみを保持する必要があります。
これらの要件を満たす手順の組み合わせはどれですか (2 つ選択してください)。

A. Amazon Redshift フェデレーテッドクエリ機能を設定して、PostgreSQL データベースにあるライブトランザクションデータをクエリします。

B. Amazon Redshift Spectrum を設定して、PostgreSQL データベースにあるライブトランザクションデータをクエリします。

C. UNLOAD コマンドを使用して、15 か月以上前のデータを Amazon S3 にコピーする月次ジョブをスケジュールします。Redshift クラスターから古いデータを削除します。Amazon Redshift Spectrum を設定して、Amazon S3 の履歴データにアクセスします。

D. UNLOAD コマンドを使用して、15 か月以上前のデータを Amazon S3 Glacier Flexible Retrieval にコピーする月次ジョブをスケジュールします。Redshift クラスターから古いデータを削除します。S3 Glacier Flexible Retrieval の履歴データにアクセスするように Redshift Spectrum を設定します。

E. さまざまなソースからのライブデータ、現在のデータ、履歴データを組み合わせたマテリアライズドビューを Amazon Redshift に作成します。

回答: A

説明:
オプション A (A): Amazon Redshift フェデレーションクエリを設定すると、Redshift は PostgreSQL データベース内のライブトランザクションデータをインポートせずに直接クエリできます。これにより、最新のライブデータに効率的にアクセスできます。

オプション C (C): 15 か月以上前のデータを Amazon S3 にコピーするジョブを毎月スケジュールし、Amazon Redshift Spectrum を使用してこの履歴データにアクセスすると、コスト効率の高い方法でストレージを管理できます。これにより、最新の 15 か月のデータのみが Amazon Redshift に保持され、ストレージコストが削減されます。履歴データは、分析クエリのために Redshift Spectrum 経由で引き続きアクセスできます。

88 / 204

88.

No.88
ある製造会社では、世界中の施設に多数の IoT デバイスがあります。この会社は Amazon Kinesis Data Streams を使用してデバイスからデータを収集します。データには、デバイス ID、キャプチャ日、測定タイプ、測定値、施設 ID が含まれます。この会社は、施設 ID をパーティションキーとして使用します。
同社の運用チームは最近、WriteThroughputExceeded 例外を多数確認しました。運用チームは、一部のシャードは頻繁に使用されているものの、他のシャードは概してアイドル状態であることを発見しました。
運用チームが確認した問題を同社はどのように解決すべきでしょうか?

A. パーティションキーを施設 ID からランダムに生成されたキーに変更します。

B. シャードの数を増やします。

C. プロデューサー側でデータをアーカイブします。

D. パーティションキーを施設 ID からキャプチャ日付に変更します。

回答: A

説明:
シャードの使用量の不均一性と WriteThroughputExceeded 例外の問題を解決する最適なソリューションは、シャード間で負荷をより均等に分散することです。これは、パーティションキーをシャード間でより均一にデータが分散されるように変更することで効果的に実現できます。

89 / 204

89.

No.89
データエンジニアは、Amazon Athena で販売データテーブルに対して実行される SQL クエリのパフォーマンスを改善したいと考えています。
データエンジニアは、特定の SQL ステートメントの実行プランを理解したいと考えています。また、データエンジニアは、SQL クエリ内の各操作の計算コストを確認したいと考えています。
これらの要件を満たすために、データエンジニアが実行する必要があるステートメントはどれですか?

A. EXPLAIN SELECT * FROM sales;

B. EXPLAIN ANALYZE FROM sales;

C. EXPLAIN ANALYZE SELECT * FROM sales;

D. EXPLAIN FROM sales;

回答: C

説明:
EXPLAIN ANALIZE を使用します

https://docs.aws.amazon.com/athena/latest/ug/athena-explain-statement.html

A - 計算コストが含まれていないため、要件を部分的にしか満たしていません。

B - 構文が正しくないため、要件を満たしていません。

C - 実行プランと計算コストの両方を提供することで、要件を完全に満たしています。

D - 構文が正しくないため、要件を満たしていません。

90 / 204

90.

No.90
ある会社が VPC 内でログ配信ストリームをプロビジョニングすることを計画しています。この会社は、Amazon CloudWatch Logs に公開するように VPC フローログを設定しました。この会社は、さらなる分析のためにフローログをほぼリアルタイムで Splunk に送信する必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. Splunk を宛先として使用するように Amazon Kinesis Data Streams データストリームを設定します。ログイベントをデータストリームに送信するには、CloudWatch Logs サブスクリプションフィルターを作成します。

B. Splunk を宛先として使用するように Amazon Kinesis Data Firehose 配信ストリームを作成します。ログイベントを配信ストリームに送信するには、CloudWatch Logs サブスクリプションフィルターを作成します。

C. Splunk を宛先として使用するように Amazon Kinesis Data Firehose 配信ストリームを作成します。フローログを CloudWatch Logs から配信ストリームに送信する AWS Lambda 関数を作成します。

D. Splunk を宛先として使用するように Amazon Kinesis Data Streams データストリームを設定します。 AWS Lambda 関数を作成して、CloudWatch Logs からデータストリームにフローログを送信します。

回答: B

説明:
Kinesis Data Firehose には、宛先として Splunk のサポートが組み込まれているため、統合が簡単です。CloudWatch Logs サブスクリプションフィルターを Firehose に直接使用すると、データフローが簡素化され、追加の Lambda 関数やカスタム統合が不要になります。

91 / 204

91.

No.91
ある会社には AWS 上にデータレイクがあります。データレイクは、ビジネスユニットからのデータソースを取り込み、クエリに Amazon Athena を使用します。ストレージレイヤーは、メタデータリポジトリとして AWS Glue Data Catalog を備えた Amazon S3 です。
会社は、データをデータサイエンティストやビジネスアナリストが利用できるようにしたいと考えています。ただし、まず、ユーザーの役割と責任に基づいて、Athena のきめ細かい列レベルのデータアクセスを管理する必要があります。
これらの要件を満たすソリューションはどれですか?

A. AWS Lake Formation を設定します。 Lake Formation で、IAM ロール別にユーザーとアプリケーションのセキュリティポリシーベースのルールを定義します。

B. AWS Glue テーブルに IAM リソースベースのポリシーを定義します。同じポリシーを IAM ユーザーグループにアタッチします。

C. AWS Glue テーブルに IAM アイデンティティベースのポリシーを定義します。同じポリシーを IAM ロールにアタッチします。IAM ロールを、ユーザーを含む IAM グループに関連付けます。

D. AWS Resource Access Manager (AWS RAM) でリソース共有を作成し、IAM ユーザーにアクセスを許可します。

回答: A

説明:
AWS Lake Formation: このサービスは、データレイクのセキュリティ保護と管理のプロセスを簡素化および自動化します。データベース、テーブル、列レベルできめ細かなアクセス制御ポリシーを定義できます。
セキュリティポリシーベースのルール: Lake Formation を使用すると、列レベルのアクセス制御など、特定のデータにアクセスできるユーザーまたはロールを指定するポリシーを作成できます。これにより、ロールと責任に基づいてアクセスを管理しやすくなります。

92 / 204

92.

No.92
ある会社では、Amazon S3 からのデータを検証および変換するために、AWS Glue の抽出、変換、ロード (ETL) ジョブをいくつか開発しました。ETL ジョブは、データを 1 日に 1 回バッチで Amazon RDS for MySQL にロードします。ETL ジョブは、DynamicFrame を使用して S3 データを読み取ります。
ETL ジョブは現在、S3 バケット内のすべてのデータを処理しています。ただし、会社はジョブで毎日の増分データのみを処理することを望んでいます。
最も少ないコーディング作業でこの要件を満たすソリューションはどれですか?

A. S3 ファイルのステータスを読み取り、Amazon DynamoDB にステータスを記録する ETL ジョブを作成します。

B. ETL ジョブのジョブブックマークを有効にして、実行後に状態を更新し、以前に処理されたデータを追跡します。

C. ETL ジョブのジョブメトリクスを有効にして、Amazon CloudWatch で処理されたオブジェクトを追跡します。

D. ETL ジョブを設定して、実行ごとに Amazon S3 から処理されたオブジェクトを削除します。

回答: B

説明:
AWS Glue ジョブブックマークは、状態を自動的に追跡することで増分データ処理を処理するように設計されています。

93 / 204

93.

No.93
オンライン小売会社には、VPC 内の Amazon EC2 インスタンスで実行されるアプリケーションがあります。この会社は、VPC のフローログを収集し、ネットワークトラフィックを分析したいと考えています。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

A. フローログを Amazon CloudWatch Logs に発行します。分析には Amazon Athena を使用します。

B. フローログを Amazon CloudWatch Logs に発行します。分析には Amazon OpenSearch Service クラスターを使用します。

C. フローログをテキスト形式で Amazon S3 に発行します。分析には Amazon Athena を使用します。

D. フローログを Apache Parquet 形式で Amazon S3 に発行します。分析には Amazon Athena を使用します。

回答: D

説明:
フローログは、Parquet 形式で S3 に公開できます: https://docs.aws.amazon.com/vpc/latest/userguide/flow-logs-s3.html#flow-logs-s3-path

94 / 204

94.

No.94
小売会社は、トランザクション、店舗の場所、および顧客情報のテーブルを、予約済みの ra3.4xlarge Amazon Redshift クラスターノード 4 つに保存しています。3 つのテーブルはすべて、均等なテーブル分散を使用しています。
この会社は、店舗の場所テーブルを数年に 1 回か 2 回しか更新していません。
データエンジニアは、ほとんどのクエリで店舗の場所テーブル全体が 4 つのコンピューティングノードすべてに常にブロードキャストされているため、Redshift キューの速度が低下していることに気付きました。データエンジニアは、店舗の場所テーブルのブロードキャストを最小限に抑えて、クエリのパフォーマンスを高速化したいと考えています。
これらの要件を最もコスト効率の高い方法で満たすソリューションはどれですか?

A. 店舗の場所テーブルの分散スタイルを均等分散から全分散に変更します。

B. 店舗所在地テーブルの分散スタイルを、最も高い次元を持つ列に基づく KEY 分散に変更します。

C. すべてのテーブルのソートキーに store_id という結合列を追加します。

D. Redshift 予約ノードを、同じインスタンスファミリー内のより大きなインスタンスサイズにアップグレードします。

回答: A

説明:
店舗所在地テーブルの分散スタイルを ALL 分散 (A) に変更するのが、最もコスト効率の高いソリューションです。これは、各ノードでテーブル全体を利用できるようにすることでブロードキャストの問題に直接対処し、大幅な追加コストをかけずに結合パフォーマンスを大幅に向上させます。

95 / 204

95.

No.95
ある会社には、Sales というテーブルを含むデータウェアハウスがあります。会社は、そのテーブルを Amazon Redshift に保存します。そのテーブルには、city_name という列が含まれています。会社は、テーブルをクエリして、city_name が "San" または "El" で始まるすべての行を検索したいと考えています。
この要件を満たす SQL クエリはどれですか。

A. Select * from Sales where city_name ~ ‘$(San|El)*’;

B. Select * from Sales where city_name ~ ‘^(San|El)*’;

C. Select * from Sales where city_name ~’$(San&El)*’;

D. Select * from Sales where city_name ~ ‘^(San&El)*’;

回答: B

説明:
誰もが参照できる正規表現パターン

. : 任意の 1 文字に一致します。
* : 前の要素の 0 個以上に一致します。
+ : 前の要素の 1 個以上に一致します。
[abc] : 囲まれた文字のいずれかに一致します。
[^abc] : 囲まれていない任意の文字に一致します。
^ : 文字列の先頭に一致します。
$ : 文字列の末尾に一致します。
| : 論理 OR 演算子。
(abc) : 「abc」に一致し、一致を記憶します。

96 / 204

96.

No.96
ある企業は、オンプレミスの PostgreSQL データベースから AWS に顧客通話データを送信して、ほぼリアルタイムの洞察を生成する必要があります。ソリューションでは、PostgreSQL データベースで実行される運用データストアから更新をキャプチャしてロードする必要があります。データは継続的に変更されます。
データエンジニアは、AWS Database Migration Service (AWS DMS) の継続的なレプリケーションタスクを構成します。タスクは、各テーブルの PostgreSQL ソースデータベーストランザクションログからほぼリアルタイムで変更を読み取ります。次に、タスクはデータを Amazon Redshift クラスターに送信して処理します。
データエンジニアは、タスクの変更データキャプチャ (CDC) 中にレイテンシーの問題を発見しました。データエンジニアは、PostgreSQL ソースデータベースが高レイテンシーの原因であると考えています。
どのソリューションで、PostgreSQL データベースが高レイテンシーの原因であることがわかりますか?

A. Amazon CloudWatch を使用して DMS タスクを監視します。CDCIncomingChanges メトリックを調べて、ソースデータベースからの CDC の遅延を特定します。

B. ソースデータベースの論理レプリケーションが postgresql.conf 構成ファイルで構成されていることを確認します。

C. ソースデータベースの DMS エンドポイントに対して Amazon CloudWatch Logs を有効にします。エラーメッセージを確認します。

D. Amazon CloudWatch を使用して DMS タスクを監視します。CDCLatencySource メトリックを調べて、ソースデータベースからの CDC の遅延を特定します。

回答: D

説明:
CDCLatencySource メトリック: このメトリックは、ソースデータベースと DMS タスク間のレイテンシーを測定します。ソースデータベースのトランザクションログから変更が読み取られるまでにかかる時間を示します。

https://docs.aws.amazon.com/dms/latest/userguide/CHAP_Monitoring.html#CHAP_Monitoring.Metrics

97 / 204

97.

No.97
ラボでは、IoT センサーを使用してプロジェクトの湿度、温度、圧力を監視しています。センサーは 10 秒ごとに 100 KB のデータを送信します。ダウンストリームプロセスは、30 秒ごとに Amazon S3 バケットからデータを読み取ります。
最もレイテンシーの低い S3 バケットにデータを配信するソリューションはどれですか?

A. Amazon Kinesis Data Streams と Amazon Kinesis Data Firehose を使用して、データを S3 バケットに配信します。Kinesis Data Firehose のデフォルトのバッファ間隔を使用します。

B. Amazon Kinesis Data Streams を使用して、データを S3 バケットに配信します。5 つのプロビジョニングされたシャードを使用するようにストリームを構成します。

C. Amazon Kinesis Data Streams を使用して、Kinesis クライアントライブラリを呼び出して、データを S3 バケットに配信します。アプリケーションから 5 秒のバッファ間隔を使用します。

D. Amazon Managed Service for Apache Flink (旧称 Amazon Kinesis Data Analytics) と Amazon Kinesis Data Firehose を使用して、データを S3 バケットに配信します。Kinesis Data Firehose のバッファ間隔は 5 秒を使用します。

回答: C

説明:
C - このオプションでは、短いバッファ間隔 (5 秒) を使用して低レイテンシーを実現します。KCL を使用すると、処理ロジックをカスタマイズし、データをタイムリーに S3 に配信できます。これにより、レイテンシーを最小限に抑える有力な候補となります。

D - このオプションは 5 秒のバッファ間隔で低レイテンシーを実現しますが、一見単純なデータ取り込みタスクに Apache Flink を使用することで、不要な複雑さが生じます。このオプションは、特定のユースケースには過剰であり、必要以上に運用上のオーバーヘッドを追加する可能性があります。

A ではダメなのはなぜですか?
https://aws.amazon.com/blogs/big-data/optimize-downstream-data-processing-with-amazon-data-firehose-and-amazon-emr-running-apache-spark/
Data Firehose + Kinesis Data Streams を使用します

98 / 204

98.

No.98
ある企業は、Amazon S3 データレイクにあるデータの分析に機械学習 (ML) を使用したいと考えています。この企業には、社内の消費者がレポートを作成できるようにする 2 つのデータ変換要件があります。
この企業は、スケジュールされた時間に Amazon S3 に到着する必要があるさまざまな形式の 300 GB のデータに対して毎日変換を実行する必要があります。この企業は、S3 データレイクにある数テラバイトのアーカイブされたデータに対して 1 回限りの変換を実行する必要があります。この企業は、処理を調整するために Amazon Managed Workflows for Apache Airflow (Amazon MWAA) の有向非巡回グラフ (DAG) を使用しています。
これらの要件を最もコスト効率よく満たすために、この企業は Amazon MWAA DAG でどのタスクの組み合わせをスケジュールする必要がありますか? (2 つ選択してください)。

No.98 ある企業は、Amazon S3 データレイクにあるデータの分析に機械学習 (ML) を使用したいと考えています。この企業には、社内の消費者がレポートを作成できるようにする 2 つのデータ変換要件があります。この企業は、スケジュールされた時間に Amazon S3 に到着する必要があるさまざまな形式の 300 GB のデータに対して毎日変換を実行する必要があります。この企業は、S3 データレイクにある数テラバイトのアーカイブされたデータに対して 1 回限りの変換を実行する必要があります。この企業は、処理を調整するために Amazon Managed Workflows for Apache Airflow (Amazon MWAA) の有向非巡回グラフ (DAG) を使用しています。これらの要件を最もコスト効率よく満たすために、この企業は Amazon MWAA DAG でどのタスクの組み合わせをスケジュールする必要がありますか? (2 つ選択してください)。

B. 毎日受信されるデータについては、Amazon Athena を使用してスキーマをスキャンして識別します。

C. 毎日受信されるデータについては、Amazon Redshift を使用して変換を実行します。

D. 毎日およびアーカイブされたデータについては、Amazon EMR を使用してデータ変換を実行します。

E. アーカイブされたデータについては、Amazon SageMaker を使用してデータ変換を実行します。

回答: A、D

説明:
Glue クローラーはスキーマを識別し、EMR はデータのバッチ処理を実行します。

A. 毎日受信されるデータについては、AWS Glue クローラーを使用してスキーマをスキャンして識別します。
D. 毎日およびアーカイブされたデータについては、Amazon EMR を使用してデータ変換を実行します。

理由は次のとおりです。

A. AWS Glue クローラーは、S3 のデータのスキーマをスキャンして識別するのに適しています。毎日受信されるデータに対してコスト効率が高く、効率的です。
D. Amazon EMR は、大規模なデータ変換を実行するためのコスト効率の高いソリューションです。300 GB のデータの毎日の変換と、テラバイト単位のアーカイブされたデータの 1 回限りの変換の両方を効率的に処理できます。

99 / 204

99.

No.99
小売会社が、顧客の注文に関する情報を含むデータセットの抽出、変換、ロード (ETL) 操作に AWS Glue を使用しています。この会社は、データの正確性と一貫性を確保するために、特定の検証ルールを実装したいと考えています。
これらの要件を満たすソリューションはどれですか?

A. AWS Glue ジョブブックマークを使用して、データの正確性と一貫性を追跡します。

B. カスタム AWS Glue データ品質ルールセットを作成して、特定のデータ品質チェックを定義します。

C. 組み込みの AWS Glue データ品質変換を使用して、標準的なデータ品質検証を行います。

D. AWS Glue データカタログを使用して、一元化されたデータスキーマとメタデータリポジトリを維持します。

回答: B

説明:
カスタム AWS Glue データ品質ルールセットを使用すると、特定のニーズに合わせて調整された正確なデータ品質チェックを定義し、データが必要な正確性と一貫性の基準を満たしていることを確認できます。このアプローチにより、ビジネス要件に基づいて幅広い検証ルールを実装する柔軟性が得られます。

100 / 204

100.

★No.100
保険会社は、gzip で圧縮した取引データを保管しています。
会社は、定期的な監査のために取引データを照会する必要があります。
どのソリューションが最もコスト効率の高い方法でこの要件を満たしますか?

A. データを Amazon Glacier Flexible Retrieval に保管します。Amazon S3 Glacier Select を使用してデータを照会します。

B. データを Amazon S3 に保管します。Amazon S3 Select を使用してデータを照会します。

C. データを Amazon S3 に保管します。Amazon Athena を使用してデータを照会します。

D. データを Amazon Glacier Instant Retrieval に保管します。Amazon Athena を使用してデータを照会します。

回答: C

説明:
これは、クエリエディタ v2 (https://docs.aws.amazon.com/redshift/latest/mgmt/query-editor-v2-schedule-query.html) で実現できます。

101 / 204

101.

No.101
データエンジニアは、ミッションクリティカルではないテーブルにデータを処理して挿入する Amazon Redshift ストアドプロシージャのテストを終了しました。エンジニアは、ストアドプロシージャを毎日自動的に実行したいと考えています。
どのソリューションが最もコスト効率の高い方法でこの要件を満たしますか?

A. AWS Lambda 関数を作成して、ストアドプロシージャを実行する cron ジョブをスケジュールします。

B. Amazon EC2 スポットインスタンスで Amazon Redshift データ API を使用して、ストアドプロシージャをスケジュールして実行します。

C. クエリエディタ v2 を使用して、スケジュールに従ってストアドプロシージャを実行します。

D. AWS Glue Python シェルジョブをスケジュールして、ストアドプロシージャを実行します。

102 / 204

102.

No.102
マーケティング会社がクリックストリームデータを収集します。同社はクリックストリームデータを Amazon Kinesis Data Firehose に送信し、Amazon S3 に保存します。同社は、複数の部門の何百人ものユーザーが使用する一連のダッシュボードを構築したいと考えています。
同社は Amazon QuickSight を使用してダッシュボードを開発します。同社は、クリックストリームアクティビティに関する毎日の更新を拡張して提供できるソリューションを求めています。
どの手順の組み合わせが、これらの要件を最もコスト効率よく満たしますか? (2 つ選択してください)。

A. Amazon Redshift を使用してクリックストリームデータを保存およびクエリします。

B. Amazon Athena を使用してクリックストリームデータをクエリします。

C. Amazon S3 分析を使用してクリックストリームデータをクエリします。

D. QuickSight 直接 SQL クエリを介してクエリデータにアクセスします。

E. QuickSight SPICE (超高速、並列、インメモリ計算エンジン) を介してクエリデータにアクセスします。データセットの毎日の更新を構成します。

回答: B、E

説明:
B. Amazon Athena を使用してクリックストリームデータをクエリする: Amazon Athena を使用すると、複雑な ETL プロセスを必要とせずに、Amazon S3 に保存されているデータに対して直接 SQL クエリを実行できます。これは、S3 上の大規模なデータセットをクエリするためのコスト効率の高いソリューションです。

E. QuickSight SPICE を介してクエリデータにアクセスする: QuickSight SPICE は、高速なインメモリデータ分析用に設計されており、多くのユーザーと大規模なデータセットをサポートするように拡張できます。毎日更新を構成することで、クエリのパフォーマンスを高く維持し、コストを低く抑えながら、ダッシュボードが最新のデータで更新されるようにすることができます。

103 / 204

103.

No.103
データエンジニアがデータオーケストレーションワークフローを構築しています。データエンジニアは、オンプレミスのリソースとクラウド内のリソースを含むハイブリッドモデルを使用する予定です。データエンジニアは、移植性とオープンソースリソースを優先したいと考えています。
データエンジニアは、オンプレミス環境とクラウドベースの環境の両方でどのサービスを使用する必要がありますか?

A. AWS Data Exchange

B. Amazon Simple Workflow Service (Amazon SWF)

C. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)

D. AWS Glue

回答: C

説明:
Amazon MWAA は、オープンソースのワークフロー自動化ツールである Apache Airflow のマネージドサービスです。Apache Airflow はオンプレミスでもクラウドでも使用できるため、ハイブリッド環境に最適です。Amazon MWAA を使用すると、データエンジニアはクラウドでマネージドサービスを利用しながら、オンプレミスで同じオープンソースの Airflow セットアップを使用する機能を維持し、環境間での移植性と一貫性を確保できます。

104 / 204

No.104
ゲーム会社では、顧客情報を保存するために NoSQL データベースを使用しています。同社は AWS への移行を計画しています。
同社には、高負荷のオンライントランザクション処理 (OLTP) ワークロードを処理し、1 桁ミリ秒のパフォーマンスを提供し、世界中で高可用性を提供する、完全に管理された AWS ソリューションが必要です。

104. 運用オーバーヘッドが最も少ないソリューションはどれですか?

A. Amazon Keyspaces (Apache Cassandra 用)

B. Amazon DocumentDB (MongoDB 互換)

C. Amazon DynamoDB

D. Amazon Timestream

回答: C

説明:
1 桁ミリ秒のパフォーマンスを提供する => DynamoDB

105 / 204

105.

No.105
データエンジニアは、Amazon EventBridge イベントが呼び出す AWS Lambda 関数を作成します。データエンジニアが EventBridge イベントを使用して Lambda 関数を呼び出そうとすると、AccessDeniedException メッセージが表示されます。
データエンジニアは例外をどのように解決する必要がありますか?

A. Lambda 関数実行ロールの信頼ポリシーで、EventBridge が実行ロールを引き受けることができることを確認します。

B. EventBridge が使用する IAM ロールと Lambda 関数のリソースベースのポリシーの両方に必要な権限があることを確認します。

C. Lambda 関数がデプロイされているサブネットがプライベートサブネットとして設定されていることを確認します。

D. EventBridge スキーマが有効であり、イベントマッピング構成が正しいことを確認します。

回答: B

説明:
Lambda リソースベースのポリシーでは、イベントプリンシパルが Lambda 関数を呼び出すことを許可する必要があります。 https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-run-lambda-schedule.html#eb-schedule-create-rule および https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-run-lambda-schedule.html#eb-schedule-create-rule Amazon SQS、Amazon SNS、Lambda、CloudWatch Logs、および EventBridge バスターゲットはロールを使用しないため、EventBridge へのアクセス許可はリソースポリシーを介して付与する必要があります。

106 / 204

106.

No.106
ある会社では、Amazon S3 バケットに基づくデータレイクを使用しています。規制に準拠するには、S3 バケットにアップロードされるファイルに 2 層のサーバー側暗号化を適用する必要があります。会社は、AWS Lambda 関数を使用して必要な暗号化を適用したいと考えています。
これらの要件を満たすソリューションはどれですか?

A. AWS KMS キー (SSE-KMS) を使用したサーバー側暗号化と Amazon S3 暗号化クライアントの両方を使用します。

B. AWS KMS キー (DSSE-KMS) を使用したデュアルレイヤーサーバー側暗号化を使用します。

C. ファイルをアップロードする前に、顧客提供のキー (SSE-C) を使用したサーバー側暗号化を使用します。

D. AWS KMS キー (SSE-KMS) を使用したサーバー側暗号化を使用します。

回答: B

説明:
B. AWS KMS キー (DSSE-KMS) を使用したデュアルレイヤーサーバー側暗号化を使用します。

AWS KMS キー (DSSE-KMS) を使用したデュアルレイヤーサーバー側暗号化は、規制コンプライアンス要件を満たすために 2 つの暗号化レイヤーを適用するように特別に設計されています。これにより、Amazon S3 に保存されている各オブジェクトが 2 回暗号化され、会社が必要とする追加のセキュリティレイヤーが提供されます。

107 / 204

107.

No.107
データエンジニアは、Amazon Athena クエリが実行前にキューに保持されていることに気付きました。
データエンジニアは、クエリがキューに入れられないようにするにはどうすればよいでしょうか?

A. クエリ結果の制限を増やします。

B. 既存のワークグループにプロビジョニングされた容量を設定します。

C. フェデレーションクエリを使用します。

D. 既存のワークグループに対して Athena クエリを実行するユーザーを許可します。

回答: B

説明:
Amazon Athena のプロビジョニングされた容量を使用すると、ワークグループに専用のクエリ処理容量を割り当てることができます。これにより、クエリがキューに保持されることなく実行されるようになり、より一貫性があり予測可能なパフォーマンスが実現します。

108 / 204

108.

No.108
データエンジニアは、Amazon S3 から読み取り、Amazon Redshift に書き込む AWS Glue ジョブをデバッグする必要があります。データエンジニアは、AWS Glue ジョブのブックマーク機能を有効にしました。
データエンジニアは、AWS Glue ジョブの最大同時実行数を 1 に設定しました。
AWS Glue ジョブは、出力を Amazon Redshift に正常に書き込んでいます。ただし、AWS Glue ジョブの以前の実行中にロードされた Amazon S3 ファイルは、後続の実行によって再処理されています。
AWS Glue ジョブがファイルを再処理している理由として考えられるのは何ですか?

A. AWS Glue ジョブには、ブックマークが正しく機能するために必要な s3:GetObjectAcl 権限がありません。

B. AWS Glue ジョブの最大同時実行数は 1 に設定されています。

C. データエンジニアが、Glue ジョブに古いバージョンの AWS Glue を誤って指定しました。

D. AWS Glue ジョブに必要なコミットステートメントがありません。

回答: D

説明:
ジョブブックマークを更新し、処理されたデータを適切に追跡して、ジョブを再度実行するときに古いデータの再処理を防ぐために、AWS Glue ジョブスクリプト内の「コミット」ステートメントが絶対に必要です。基本的に、コミットステートメントを含めないと、ジョブは中断した場所を記憶せず、データを複数回処理する可能性があります。job.commit() の詳細については、次のドキュメントを参照してください - https://docs.aws.amazon.com/glue/latest/dg/glue-troubleshooting-errors.html#error-job-bookmarks-reprocess-data

109 / 204

109.

No.109
e コマース会社が、AWS を使用してオンプレミス環境から AWS クラウドにデータパイプラインを移行したいと考えています。現在、この会社はオンプレミス環境でサードパーティツールを使用して、データ取り込みプロセスを調整しています。
この会社は、会社がサーバーを管理する必要がない移行ソリューションを望んでいます。このソリューションは、Python および Bash スクリプトを調整できる必要があります。このソリューションでは、会社がコードをリファクタリングする必要はありません。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. AWS Lambda

B. Amazon Managed Workflows for Apache Airflow (Amazon MVVAA)

C. AWS Step Functions

D. AWS Glue

回答: B

説明:
企業はオンプレミスで同じツールを使用し、運用オーバーヘッドを最小限に抑えたいと考えているためです。

110 / 204

110.

No.110
小売会社では、製品ライフサイクル管理 (PLM) アプリケーションからのデータをオンプレミスの MySQL データベースに保存しています。PLM アプリケーションは、トランザクションが発生するとデータベースを頻繁に更新します。
同社は、PLM アプリケーションからほぼリアルタイムで洞察を収集したいと考えています。同社は、洞察を他のビジネスデータセットと統合し、Amazon Redshift データウェアハウスを使用して結合されたデータセットを分析したいと考えています。
同社は、オンプレミスのインフラストラクチャと AWS の間に AWS Direct Connect 接続をすでに確立しています。
どのソリューションが、最小限の開発労力でこれらの要件を満たしますか?

A. スケジュールされた AWS Glue 抽出、変換、ロード (ETL) ジョブを実行し、Java Database Connectivity (JDBC) 接続を使用して MySQL データベースの更新を取得します。ETL ジョブの送信先として Amazon Redshift を設定します。

B. AWS Database Migration Service (AWS DMS) でフルロードと CDC タスクを実行して、MySQL データベースの変更を継続的にレプリケートします。タスクの送信先として Amazon Redshift を設定します。

C. Amazon AppFlow SDK を使用して、MySQL データベースのカスタムコネクタを構築し、データベースの変更を継続的にレプリケートします。コネクタの宛先として Amazon Redshift を設定します。

D. スケジュールされた AWS DataSync タスクを実行して、MySQL データベースからデータを同期します。タスクの宛先として Amazon Redshift を設定します。

回答: B

説明:
オプション B (AWS DMS) は、開発の労力を最小限に抑えて最適です。AWS DMS は CDC 機能による継続的なデータレプリケーションをサポートしているため、MySQL から Amazon Redshift へのほぼリアルタイムのデータ統合に適しています。スキーマ変換を処理し、カスタム開発やスケジュールされた ETL ジョブと比較してセットアッププロセスを簡素化します。既存の AWS Direct Connect を考慮すると、AWS DMS は最小限のレイテンシーで MySQL の更新を Redshift に効率的にレプリケートできるため、ほぼリアルタイムのインサイト統合という会社の要件を満たします。したがって、オプション B が正しい選択です。

111 / 204

111.

No.111
マーケティング会社では、Amazon S3 を使用してクリックストリームデータを保存しています。同社は、別々のバケットに保存されている S3 オブジェクトに対して SQL JOIN 句を使用して、毎日の終わりにデータをクエリします。
同社は、オブジェクトに基づいて主要業績評価指標 (KPI) を作成します。同社には、データをパーティション化してユーザーがデータをクエリできるようにするサーバーレスソリューションが必要です。ソリューションは、データの原子性、一貫性、独立性、および耐久性 (ACID) 特性を維持する必要があります。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

A. Amazon S3 Select

B. Amazon Redshift Spectrum

C. Amazon Athena

D. Amazon EMR

回答: C

説明:
サーバーレス: Amazon Athena は、インフラストラクチャを管理することなく、Amazon S3 に保存されているデータに対して直接 SQL クエリを実行できるサーバーレスクエリサービスです。

パーティション化: Athena は、パーティション化によるデータのクエリをサポートしており、スキャンされるデータの量を制限することでクエリのパフォーマンスを大幅に向上できます。
ACID プロパティ: Amazon S3 自体は ACID プロパティを提供していませんが、Amazon Athena はマネージドクエリ実行を通じてクエリ結果の一貫性と S3 に保存されたデータの耐久性を保証します。
コスト効率: Amazon Athena では、実行したクエリとスキャンしたデータの量に対してのみ料金が発生するため、インフラストラクチャの管理や Amazon Redshift Spectrum や Amazon EMR などの専用サービスの使用に比べてコスト効率に優れています。

112 / 204

112.

No.112
ある企業が、Account_A という AWS アカウントの eu-east-1 リージョンにある Amazon RDS for PostgreSQL DB インスタンスからデータを移行したいと考えています。この企業は、Account_B という AWS アカウントの eu-west-1 リージョンにある Amazon Redshift クラスターにデータを移行します。
AWS Database Migration Service (AWS DMS) に 2 つのデータストア間でデータをレプリケートする機能を提供するソリューションはどれですか?

A. eu-west-1 の Account_B に AWS DMS レプリケーションインスタンスを設定します。

B. eu-east-1 の Account_B に AWS DMS レプリケーションインスタンスを設定します。

C. eu-west-1 の新しい AWS アカウントに AWS DMS レプリケーションインスタンスを設定します。

D. eu-east-1 の Account_A に AWS DMS レプリケーションインスタンスを設定します。

回答: A

説明:
Redshift はレプリケーションインスタンスと同じリージョンにある必要があります。ドキュメントを参照してください:
https://docs.aws.amazon.com/dms/latest/userguide/CHAP_Target.Redshift.html#CHAP_Target.Redshift.Prerequisites

113 / 204

113.

No.113
ある会社では、Amazon S3 をデータレイクとして使用しています。この会社は、マルチノードの Amazon Redshift クラスターを使用してデータウェアハウスをセットアップしています。この会社は、各データファイルのデータソースに基づいて、データレイク内のデータファイルを整理しています。
この会社は、データファイルの場所ごとに個別の COPY コマンドを使用して、すべてのデータファイルを Redshift クラスター内の 1 つのテーブルにロードします。この方法では、すべてのデータファイルをテーブルにロードするのに長い時間がかかります。この会社は、データ取り込みの速度を上げる必要があります。この会社は、プロセスのコストを増やしたくありません。
これらの要件を満たすソリューションはどれですか?

A. プロビジョニングされた Amazon EMR クラスターを使用して、すべてのデータファイルを 1 つのフォルダーにコピーします。COPY コマンドを使用して、データを Amazon Redshift にロードします。

B. すべてのデータファイルを Amazon Aurora に並列でロードします。AWS Glue ジョブを実行して、データを Amazon Redshift にロードします。

C. AWS Give ジョブを使用して、すべてのデータファイルを 1 つのフォルダーにコピーします。 COPY コマンドを使用して、データを Amazon Redshift にロードします。

D. データファイルの場所を含むマニフェストファイルを作成します。COPY コマンドを使用して、データを Amazon Redshift にロードします。

回答: D

説明:
https://docs.aws.amazon.com/redshift/latest/dg/c_best-practices-single-copy-command.html

114 / 204

114.

★No.114
ある会社が Amazon Kinesis Data Firehose を使用して Amazon S3 にデータを保存する予定です。ソースデータは 2 MB の .csv ファイルで構成されています。会社は .csv ファイルを JSON 形式に変換する必要があります。会社は Apache Parquet 形式でファイルを保存する必要があります。
どのソリューションが、開発の労力を最小限に抑えてこれらの要件を満たしますか?

A. Kinesis Data Firehose を使用して .csv ファイルを JSON に変換します。AWS Lambda 関数を使用して、ファイルを Parquet 形式で保存します。

B. Kinesis Data Firehose を使用して .csv ファイルを JSON に変換し、Parquet 形式でファイルを保存します。

C. Kinesis Data Firehose を使用して、.csv ファイルを JSON に変換し、Parquet 形式でファイルを保存する AWS Lambda 関数を呼び出します。

D. Kinesis Data Firehose を使用して、.csv ファイルを JSON に変換する AWS Lambda 関数を呼び出します。Kinesis Data Firehose を使用して、Parquet 形式でファイルを保存します。

115 / 204

115.

No.115
ある会社が、オンプレミス環境から AWS にデータを移行するために AWS Transfer Family サーバーを使用しています。会社のポリシーでは、転送中のデータを暗号化するために TLS 1.2 以上の使用が義務付けられています。
これらの要件を満たすソリューションはどれですか?

A. Transfer Family サーバーの新しい SSH キーを生成します。古いキーと新しいキーを使用できるようにします。

B. オンプレミスネットワークのセキュリティグループルールを更新して、TLS 1.2 以上を使用する接続のみを許可します。

C. Transfer Family サーバーのセキュリティポリシーを更新して、最小プロトコルバージョンとして TLS 1.2 を指定します。

D. Transfer Family サーバーに SSL 証明書をインストールして、TLS 1.2 を使用してデータ転送を暗号化します。

回答: C

説明:
ある会社が AWS Transfer Family サーバーを使用してオンプレミス環境から AWS にデータを移行しています。会社のポリシーでは、転送中のデータを暗号化するために TLS 1.2 以上の使用が義務付けられています。

116 / 204

116.

No.116
ある企業が、アプリケーションとオンプレミスの Apache Kafka サーバーを AWS に移行したいと考えています。アプリケーションは、オンプレミスの Oracle データベースが Kafka サーバーに送信する増分更新を処理します。企業は、リファクタリング戦略ではなく、再プラットフォーム移行戦略を使用したいと考えています。
管理オーバーヘッドが最も少ない状態でこれらの要件を満たすソリューションはどれですか?

A. Amazon Kinesis Data Streams

B. Amazon Managed Streaming for Apache Kafka (Amazon MSK) プロビジョニング済みクラスター

C. Amazon Kinesis Data Firehose

D. Amazon Managed Streaming for Apache Kafka (Amazon MSK) サーバーレス

回答: D

説明:
これはリフトアンドシフト移行であり、サーバーレスであるため、管理オーバーヘッドが最も少ない

A. Amazon Kinesis Data Streams: これは、リアルタイムのストリーミングデータを取り込んで処理するためのマネージドサービスですが、メッセージプロデューサーとコンシューマーに個別の構成が必要です。管理オーバーヘッドを最小限に抑えるには理想的ではありません。
B. Amazon Managed Streaming for Apache Kafka (Amazon MSK) プロビジョニング済みクラスター: MSK は使い慣れた Kafka エクスペリエンスを提供しますが、クラスターのスケーリングや構成などの基盤となるインフラストラクチャの管理が必要です。管理オーバーヘッドが増加します。
C. Amazon Kinesis Data Firehose: このサービスは、他の AWS 送信先にリアルタイムデータを配信しますが、Kafka の直接的な代替品ではなく、データストリームを複製するための追加の構成が必要です。
D. Amazon Managed Streaming for Apache Kafka (Amazon MSK) サーバーレス: 自動スケーリングを備えた完全に管理された Kafka エクスペリエンスを提供し、サーバーやインフラストラクチャを管理する必要がないため、これが最適になります。これは、再プラットフォーム戦略と完全に一致し、管理オーバーヘッドを最小限に抑えます。

117 / 204

117.

No.117
データエンジニアは、AWS Glue を使用して、自動抽出、変換、ロード (ETL) 取り込みパイプラインを構築しています。パイプラインは、Amazon S3 バケットにある圧縮ファイルを取り込みます。取り込みパイプラインは、増分データ処理をサポートする必要があります。
データエンジニアはこの要件を満たすためにどの AWS Glue 機能を使用すべきですか?

A. ワークフロー

B. トリガー

C. ジョブブックマーク

D. 分類子

回答: C

説明:

オプション C - AWS GLue ブックマークは増分処理を実装するために使用されます
増分処理: AWS Glue のジョブブックマークは、Amazon S3 内のデータの最後の処理状態を追跡するのに役立ちます。これにより、中断または後続の実行が発生した場合に ETL ジョブを中断したところから再開でき、最後の正常な実行以降の新しいデータまたは変更されたデータのみが処理されます (増分処理)。

自動 ETL: ジョブブックマークは AWS Glue ETL ジョブ内でシームレスに機能し、ジョブは手動で介入することなく、処理されたデータの状態を効率的に管理できます。

圧縮ファイルのサポート: AWS Glue は Amazon S3 からの圧縮ファイルの読み取りをネイティブにサポートしているため、取り込みパイプラインは圧縮されたデータ形式を効率的に処理できます。

118 / 204

118.

No.118
銀行会社がアプリケーションを使用して大量のトランザクションデータを収集しています。この会社はリアルタイム分析に Amazon Kinesis Data Streams を使用しています。この会社のアプリケーションは、PutRecord アクションを使用してデータを Kinesis Data Streams に送信します。
データエンジニアは、1 日の特定の時間帯にネットワークが停止するのを観察しました。データエンジニアは、処理パイプライン全体に対して 1 回限りの配信を設定したいと考えています。
この要件を満たすソリューションはどれですか?

A. ソースの各レコードに一意の ID を埋め込むことで、処理中に重複を削除できるようにアプリケーションを設計します。

B. Amazon Managed Service for Apache Flink (旧称 Amazon Kinesis Data Analytics) データ収集アプリケーションのチェックポイント設定を更新して、イベントの重複処理を回避します。

C. イベントが Kinesis Data Streams に複数回取り込まれないようにデータソースを設計します。

D. Kinesis Data Streams の使用を中止します。代わりに Amazon EMR を使用します。Amazon EMR で Apache Flink と Apache Spark Streaming を使用します。

回答: A

説明:
このアプローチでは、ネットワークの停止やその他の問題によりレコードが複数回送信された場合でも、一意の ID を使用して重複を識別および削除できるため、レコードは 1 回だけ処理されます。これは、分散システムで正確に 1 回の処理セマンティクスを実現するための一般的なパターンです。他のオプションでは、パイプライン全体で正確に 1 回の配信が保証されません。オプション B は部分的に正しいですが、パイプライン全体ではなく、Amazon Managed Service for Apache Flink 内での重複処理を回避するだけです。オプション C は、ネットワークの問題やその他の要因によりイベントが Kinesis Data Streams に複数回取り込まれる可能性があるため、常に実行可能であるとは限りません。オプション D では、テクノロジースタック全体を変更する必要がありますが、これは目的の結果を達成するために必要ではなく、複雑さとコストが増加する可能性があります。

119 / 204

119.

No.119
ある会社が Amazon S3 バケットにログを保存しています。データエンジニアが複数のログファイルにアクセスしようとすると、一部のファイルが意図せず削除されていることに気付きます。
データエンジニアは、将来的に意図しないファイルの削除を防ぐソリューションを必要としています。
どのソリューションが、運用上のオーバーヘッドを最小限に抑えながらこの要件を満たしますか?

A. S3 バケットを定期的に手動でバックアップします。

B. S3 バケットの S3 バージョニングを有効にします。

C. S3 バケットのレプリケーションを設定します。

D. Amazon S3 Glacier ストレージクラスを使用して、S3 バケット内のデータをアーカイブします。

回答: B

説明:
S3 バージョニングでは、オブジェクトの複数のバージョンが同じバケットに保持されます。バージョニングを有効にすると、オブジェクトが上書きまたは削除されるたびに、そのオブジェクトの新しいバージョンが作成され、以前のバージョンが保持されます。これにより、誤って削除または上書きされたためにデータが永久に失われることがなくなります。

120 / 204

120.

No.120
ある通信会社は、毎日、1 秒あたり数千のデータポイントの割合でネットワーク使用状況データを収集しています。同社は、使用状況データをリアルタイムで処理するアプリケーションを実行しています。同社は、データを集約して Amazon Aurora DB インスタンスに保存しています。
ネットワーク使用状況の突然の低下は、通常、ネットワークの停止を示しています。同社は、ネットワーク使用状況の突然の低下を識別して、すぐに是正措置を講じることができる必要があります。
どのソリューションが、この要件を最もレイテンシーの少ない方法で満たしますか?

A. AWS Lambda 関数を作成して、Aurora にネットワーク使用状況の低下を照会します。Amazon EventBridge を使用して、Lambda 関数を 1 分ごとに自動的に呼び出します。

B. 処理アプリケーションを変更して、データを Amazon Kinesis データストリームに公開します。Amazon Managed Service for Apache Flink (旧称 Amazon Kinesis Data Analytics) アプリケーションを作成して、ネットワーク使用状況の低下を検出します。

C. Aurora データベースを Amazon DynamoDB テーブルに置き換えます。 AWS Lambda 関数を作成し、DynamoDB テーブルにクエリを実行して、1 分ごとにネットワーク使用量の低下を調べます。処理アプリケーションと DynamoDB テーブルの間で DynamoDB Accelerator (DAX) を使用します。

D. Aurora のデータベースアクティビティストリーム機能内に AWS Lambda 関数を作成し、ネットワーク使用量の低下を検出します。

回答: B

説明:
D に関して、Aurora のデータベースアクティビティストリームは、主にデータベースアクティビティを監査するためのものであり、アプリデータを分析するためのものではありません。
B. 処理アプリケーションを変更して、データを Amazon Kinesis データストリームに公開します。Amazon Managed Service for Apache Flink (旧称 Amazon Kinesis Data Analytics) アプリケーションを作成して、ネットワーク使用量の低下を検出します。
このアプローチにより、最小限のレイテンシーでリアルタイム処理が保証され、ネットワーク使用量の低下を即座に検出して対応できます。

121 / 204

121.

No.121
データエンジニアが、Amazon S3 にある数テラバイトの生データを処理および分析しています。データエンジニアは、データをクリーンアップして準備する必要があります。次に、データエンジニアは分析のためにデータを Amazon Redshift にロードする必要があります。
データエンジニアには、データアナリストが複雑なクエリを実行できるソリューションが必要です。ソリューションでは、複雑な抽出、変換、ロード (ETL) プロセスを実行したり、インフラストラクチャを管理したりする必要がなくなる必要があります。
これらの要件を満たす、運用オーバーヘッドが最も少ないソリューションはどれですか?

A. Amazon EMR を使用してデータを準備します。AWS Step Functions を使用してデータを Amazon Redshift にロードします。Amazon QuickSight を使用してクエリを実行します。

B. AWS Glue DataBrew を使用してデータを準備します。AWS Glue を使用してデータを Amazon Redshift にロードします。Amazon Redshift を使用してクエリを実行します。

C. AWS Lambda を使用してデータを準備します。Amazon Kinesis Data Firehose を使用してデータを Amazon Redshift にロードします。Amazon Athena を使用してクエリを実行します。

D. AWS Glue を使用してデータを準備します。AWS Database Migration Service (AVVS DMS) を使用してデータを Amazon Redshift にロードします。Amazon Redshift Spectrum を使用してクエリを実行します。

回答: B

説明:
DMS はソースとして S3 をサポートしていないため D にはなりませんが、主題に記載されているすべての目標を達成しているため B です。

122 / 204

122.

No.122
ある会社では、AWS Lambda 関数を使用して、従来の SFTP 環境から Amazon S3 バケットにファイルを転送しています。Lambda 関数は VPC 対応で、Lambda 関数と同じ VPC 環境にある他の AVS サービスとの間のすべての通信が安全なネットワーク経由で行われるようにします。
Lambda 関数は SFTP 環境に正常に接続できます。ただし、Lambda 関数が S3 バケットにファイルをアップロードしようとすると、Lambda 関数はタイムアウトエラーを返します。データエンジニアは、タイムアウトの問題を安全な方法で解決する必要があります。
どのソリューションが最もコスト効率の高い方法でこれらの要件を満たしますか?

A. VPC のパブリックサブネットに NAT ゲートウェイを作成します。ネットワークトラフィックを NAT ゲートウェイにルーティングします。

B. Amazon S3 の VPC ゲートウェイエンドポイントを作成します。ネットワークトラフィックを VPC ゲートウェイエンドポイントにルーティングします。

C. Amazon S3 の VPC インターフェイスエンドポイントを作成します。ネットワークトラフィックを VPC インターフェイスエンドポイントにルーティングします。

D. VPC インターネットゲートウェイを使用してインターネットに接続します。ネットワークトラフィックを VPC インターネットゲートウェイにルーティングします。

回答: B

説明:

オプション B - Amazon S3 の VPC ゲートウェイエンドポイント
Amazon S3 の VPC ゲートウェイエンドポイント
インターフェイスエンドポイントは実行可能なソリューションですが、ゲートウェイエンドポイントに比べて複雑で高価になる可能性があります。VPC インターフェイスエンドポイントは、転送されたデータ 1 時間あたりおよびギガバイトあたりで課金されます。

123 / 204

123.

No.123
ある会社が、Amazon RDS で実行される顧客データベースからデータを読み取ります。データベースには、多くの不整合なフィールドが含まれています。たとえば、あるデータベースで place_id という名前が付けられた顧客レコードフィールドは、別のデータベースでは location_id という名前になっています。会社は、顧客レコードフィールドが一致しない場合でも、異なるデータベース間で顧客レコードをリンクする必要があります。
どのソリューションが、運用オーバーヘッドが最も少なく、これらの要件を満たしますか?

A. プロビジョニングされた Amazon EMR クラスターを作成し、データベース内のデータを処理および分析します。Apache Zeppelin ノートブックに接続します。FindMatches 変換を使用して、データ内の重複レコードを検索します。

B. AWS Glue クローラーを作成してデータベースをクロールします。FindMatches 変換を使用してデータ内の重複レコードを見つけます。パフォーマンスと結果を評価して、変換を評価および調整します。

C. AWS Glue クローラーを作成してデータベースをクロールします。Amazon SageMaker を使用して Apache Spark ML パイプラインを構築し、データ内の重複レコードを見つけます。

D. プロビジョニングされた Amazon EMR クラスターを作成して、データベース内のデータを処理および分析します。Apache Zeppelin ノートブックに接続します。Apache Spark ML モデルを使用して、データ内の重複レコードを見つけます。パフォーマンスと結果を評価して、モデルを評価および調整します。

回答: B

説明:
RDS データベース内のデータのスキーマと構造を自動的に検出し、手作業の労力を大幅に削減します。
クエリまたは変換できる統合データカタログを作成します。

124 / 204

124.

No.124
金融会社がサードパーティのデータプロバイダーからデータを受け取り、そのデータを Amazon S3 バケットにオブジェクトとして保存します。
同社は、オブジェクトに対して AWS Glue クローラーを実行してデータカタログを作成しました。AWS Glue クローラーは複数のテーブルを作成しました。しかし、同社はクローラーが 1 つのテーブルのみを作成すると予想していました。
同社には、AVS Glue クローラーが 1 つのテーブルのみを作成することを保証するソリューションが必要です。
この要件を満たすソリューションの組み合わせはどれですか? (2 つ選択してください)

A. オブジェクト形式、圧縮タイプ、スキーマが各オブジェクトで同じであることを確認します。

B. オブジェクト形式とスキーマが各オブジェクトで同じであることを確認します。各オブジェクトの圧縮タイプに一貫性を持たせないでください。

C. オブジェクト形式とスキーマが各オブジェクトで同じであることを確認します。各オブジェクトのファイル形式と圧縮タイプに一貫性を持たせないでください。

D. 各 S3 オブジェクト名のプレフィックスの構造が一貫していることを確認します。

E. すべての S3 オブジェクト名が同様のパターンに従っていることを確認します。

回答: A、D

説明:
AWS Glue クローラーが 1 つのテーブルのみを作成し、オブジェクト形式、圧縮タイプ、スキーマ、プレフィックス構造を一貫して処理できるようにするには、次の操作を実行します。

オブジェクト形式、圧縮タイプ、スキーマ、プレフィックス構造の一貫性を確保する

1. **一貫性のあるオブジェクト形式**:
- S3 バケット内のすべてのオブジェクトが同じ形式 (例: CSV、JSON、Parquet) であることを確認します。

2. **一貫性のある圧縮タイプ**:
- すべてのオブジェクトが同じ圧縮タイプ (例: GZIP、Snappy) を使用していることを確認します。

3. **一貫性のあるスキーマ**:
- すべてのオブジェクトが同じスキーマ (つまり、同じデータ型の同じフィールド) であることを確認します。

4. **一貫したプレフィックス構造**:
- S3 バケット内のすべてのオブジェクトが一貫した命名規則とプレフィックス構造に従っていることを確認します (例: `s3://your-bucket/path/to/data/`)。

125 / 204

125.

★No.125
アプリケーションは、Amazon Simple Queue Service (Amazon SQS) キューからのメッセージを消費します。アプリケーションは時々ダウンタイムを経験します。ダウンタイムの結果、キュー内のメッセージは期限切れになり、1 日後に削除されます。メッセージの削除により、アプリケーションのデータ損失が発生します。
アプリケーションのデータ損失を最小限に抑えるソリューションはどれですか? (2 つ選択してください)。

A. メッセージの保持期間を延長する

B. 可視性のタイムアウトを延長する。

C. SQS キューにデッドレターキュー (DLQ) をアタッチする。

D. 遅延キューを使用してメッセージの配信を遅延する

E. メッセージ処理時間を短縮する。

126 / 204

126.

No.126
ある会社が、時系列データを視覚化するためにほぼリアルタイムのダッシュボードを作成しています。会社は、データを Amazon Managed Streaming for Apache Kafka (Amazon MSK) に取り込みます。カスタマイズされたデータパイプラインがデータを消費します。次に、パイプラインは Amazon Keyspaces (Apache Cassandra 用)、Amazon OpenSearch Service、および Amazon S3 の Apache Avro オブジェクトにデータを書き込みます。
どのソリューションが、最もレイテンシーの低いデータ視覚化にデータを利用できるようにしますか?

A. OpenSearch Service のデータを使用して OpenSearch ダッシュボードを作成します。

B. Apache Hive メタストアを備えた Amazon Athena を使用して、Amazon S3 の Avro オブジェクトをクエリします。Amazon Managed Grafana を使用して Athena に接続し、ダッシュボードを作成します。

C. Amazon Athena を使用して、Amazon S3 の Avro オブジェクトからデータをクエリします。Amazon Keyspaces をデータカタログとして設定します。Amazon QuickSight を Athena に接続してダッシュボードを作成します。

D. AWS Glue を使用してデータをカタログ化します。S3 Select を使用して、Amazon S3 の Avro オブジェクトをクエリします。Amazon QuickSight を S3 バケットに接続してダッシュボードを作成します。

回答: A

説明:

オプション A - OpenSearch サービスのデータを使用して OpenSearch ダッシュボードを作成するのが、レイテンシを最小に抑える最適な選択です。OpenSearch は、低レイテンシのデータ取得と視覚化用に設計されており、ほぼリアルタイムのダッシュボードに最適です。

127 / 204

127.

★No.127
データエンジニアは、Amazon Redshift データベースに基づくマテリアライズドビューを管理しています。ビューには、各行がロードされた日付を格納する load_date という列があります。
データエンジニアは、マテリアライズドビューからすべての行を削除して、データベースストレージ領域を再利用する必要があります。
どのコマンドがデータベースストレージ領域を最も再利用しますか?

A. DELETE FROM materialized_view_name where 1=1

B. TRUNCATE materialized_view_name

C. VACUUM table_name where load_date<=current_date materializedview

D. DELETE FROM materialized_view_name where load_date<=current_date

128 / 204

128.

No.128
あるメディア企業は、Amazon OpenSearch Service を使用して、人気のミュージシャンや曲に関するリアルタイムデータを分析したいと考えています。同社は、毎日何百万もの新しいデータイベントを取り込む予定です。新しいデータイベントは、Amazon Kinesis データストリームを通じて到着します。同社はデータを変換してから、OpenSearch Service ドメインに取り込む必要があります。
運用オーバーヘッドを最小限に抑えてデータを取り込むには、どの方法を使用すればよいですか。

A. Amazon Kinesis Data Firehose と AWS Lambda 関数を使用してデータを変換し、変換されたデータを OpenSearch Service に配信します。

B. フィルターがあらかじめ組み込まれた Logstash パイプラインを使用してデータを変換し、変換されたデータを OpenSearch Service に配信します。

C. AWS Lambda 関数を使用して Amazon Kinesis Agent を呼び出し、データを変換して変換されたデータを OpenSearch Service に配信します。

D. Kinesis クライアントライブラリ (KCL) を使用してデータを変換し、変換されたデータを OpenSearch Service に配信します。

回答: A

説明:

オプション A - Amazon Kinesis Data Firehose と AWS Lambda 関数を使用してデータを変換し、変換されたデータを OpenSearch Service に配信することが、運用オーバーヘッドを最小限に抑えるための最適な選択肢です。Kinesis Data Firehose は、データ取り込みプロセスを自動化し、シームレスに拡張し、OpenSearch Service と直接統合するマネージドサービスであり、手動による介入やインフラストラクチャ管理の必要性を最小限に抑えます。

129 / 204

129.

No.129
ある会社が、顧客住所を含む顧客データテーブルを AWS Lake Formation データレイクに保存しています。新しい規制に準拠するために、会社はユーザーがカナダの顧客のデータにアクセスできないようにする必要があります。
会社には、カナダの顧客の行へのユーザーアクセスを防ぐソリューションが必要です。
どのソリューションが、運用上の労力を最小限に抑えてこの要件を満たしますか?

A. 行レベルのフィルターを設定して、国がカナダの行へのユーザーアクセスを防止します。

B. 国がカナダの住所へのユーザーアクセスを制限する IAM ロールを作成します。

C. 列レベルのフィルターを設定して、国がカナダの行へのユーザーアクセスを防止します。

D. 国がカナダであるすべての行にタグを適用します。タグが「カナダ」に等しいユーザーアクセスを防止します。

回答: A

説明:
行レベルのセキュリティ: AWS Lake Formation には、行レベルのセキュリティが組み込まれており、条件に基づいてテーブル内の特定の行へのアクセスを制御できます。これはまさにこのシナリオで必要なことです。

最小限の運用労力: 一度設定すると、このフィルターはすべてのクエリに自動的に適用され、データを変更したり複雑な IAM ポリシーを作成したりする必要はありません。

スケーラビリティ: テーブルに新しいデータが追加されると、フィルターが自動的に適用され、追加の労力は必要ありません。

精度: 国がカナダである行へのアクセスを防止し、他のデータに影響を与えることなく、要件に直接対応します。

130 / 204

130.

★No.130
ある会社が Amazon Redshift にレイクハウスアーキテクチャを実装しました。この会社は、サードパーティの ID プロバイダー (IdP) を使用して、ユーザーが Redshift クエリエディターに認証できるようにする必要があります。
データエンジニアは認証メカニズムを設定する必要があります。
この要件を満たすためにデータエンジニアが実行する必要がある最初の手順は何ですか?

A. Redshift クラスターの構成設定で、サードパーティの IdP を ID プロバイダーとして登録します。

B. Amazon Redshift 内からサードパーティの IdP を ID プロバイダーとして登録します。

C. サードパーティの IdP を AVS Secrets Manager の ID プロバイダーとして登録します。Amazon Redshift を設定して、Secrets Manager を使用してユーザー認証情報を管理するようにします。

D. サードパーティの IdP を AWS Certificate Manager (ACM) の ID プロバイダーとして登録します。Amazon Redshift を設定して、ACM を使用してユーザー認証情報を管理するようにします。

131 / 204

131.

No.131
現在、ある会社では、汎用 Amazon EC2 インスタンスを含むプロビジョニングされた Amazon EMR クラスターを使用しています。EMR クラスターでは、会社の長期実行 Apache Spark 抽出、変換、ロード (ETL) ジョブに 1 ～ 5 個のタスクノード間の EMR マネージドスケーリングを使用しています。会社は毎日 ETL ジョブを実行しています。
会社が ETL ジョブを実行すると、EMR クラスターはすぐに 5 ノードまでスケールアップします。EMR クラスターは CPU 使用率が最大に達することがよくありますが、メモリ使用量は 30% 未満のままです。
会社は、毎日の ETL ジョブを実行するための EMR コストを削減するために、EMR クラスター設定を変更したいと考えています。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

A. EMR マネージドスケーリングのタスクノードの最大数を 10 に増やします。

B. タスクノードタイプを汎用 EC2 インスタンスからメモリ最適化 EC2 インスタンスに変更します。

C. タスクノードタイプを汎用 Re インスタンスからコンピューティング最適化 EC2 インスタンスに切り替えます。

D. プロビジョニングされた EMR クラスターのスケーリングクールダウン期間を短縮します。

回答: C

説明:
ETL ジョブは最大 CPU 使用率に達しますが、メモリ使用率には達しないため、汎用インスタンスからコンピューティング最適化インスタンス (C5 または C6g インスタンスなど) に切り替えると、CPU 依存のワークロードの 1 ドルあたりのパフォーマンスが向上します。

132 / 204

132.

No.132
ある会社が .csv ファイルを Amazon S3 バケットにアップロードします。会社のデータプラットフォームチームは、データ検出を実行し、テーブルとスキーマを作成するために AWS Glue クローラーを設定しました。
AWS Glue ジョブは、テーブルから処理されたデータを Amazon Redshift データベースに書き込みます。AWS Glue ジョブは列マッピングを処理し、Redshift データベースに Amazon Redshift テーブルを適切に作成します。
会社が何らかの理由で AWS Glue ジョブを再実行すると、重複レコードが Amazon Redshift テーブルに導入されます。会社には、重複なしで Redshift テーブルを更新するソリューションが必要です。
これらの要件を満たすソリューションはどれですか?

A. AWS Glue ジョブを変更して、行をステージング Redshift テーブルにコピーします。ステージング Redshift テーブルからの新しい値で既存の行を更新する SQL コマンドを追加します。

B. AWS Glue ジョブを変更して、以前に挿入したデータを MySQL データベースにロードします。MySQL データベースでアップサート操作を実行します。結果を Amazon Redshift テーブルにコピーします。

C. Apache Spark の DataFrame dropDuplicates() API を使用して重複を排除します。データを Redshift テーブルに書き込みます。

D. AWS Glue ResolveChoice 組み込み変換を使用して、最新のレコードから列の値を選択します。

回答: A

説明:
ステージングテーブルを作成し、続いて Redshift の merge ステートメントを使用してステージングテーブルからターゲットテーブルを更新し、最後にステージングテーブルを切り捨て/ハウスキーピングする 2 段階のアプローチ。

133 / 204

133.

No.133
ある会社が Amazon Redshift を使用してデータウェアハウスソリューションを構築しています。この会社は、Redshift クラスター内のファクトテーブルに数百のファイルをロードしています。
この会社は、データウェアハウスソリューションで可能な限り最大のスループットを実現したいと考えています。このソリューションでは、ファクトテーブルにデータをロードするときにクラスターリソースを最適に使用する必要があります。
これらの要件を満たすソリューションはどれですか?

A. 複数の COPY コマンドを使用して、データを Redshift クラスターにロードします。

B. S3DistCp を使用して、複数のファイルを Hadoop Distributed File System (HDFS) にロードします。HDFS コネクタを使用して、データを Redshift クラスターに取り込みます。

C. Redshift クラスターノードの数と同じ数の INSERT ステートメントを使用します。各ノードにデータを並列にロードします。

D. 1 つの COPY コマンドを使用して、データを Redshift クラスターにロードします。

回答: D

説明:
1 つの COPY コマンドで、Redshift クラスター内のすべてのノードにわたってロード操作が自動的に並列化されます。これにより、クラスターリソースが最適に使用されます。

134 / 204

134.

No.134
ある企業が複数のデータソースからデータを取り込み、Amazon S3 バケットにデータを保存します。AWS Glue の抽出、変換、ロード (ETL) ジョブでデータを変換し、変換されたデータを Amazon S3 ベースのデータレイクに書き込みます。この企業は、Amazon Athena を使用して、データレイクにあるデータをクエリします。
レコードに共通の一意の識別子がない場合でも、一致するレコードを識別する必要があります。
この要件を満たすソリューションはどれですか?

A. ETL ジョブの一部として Amazon Macie パターンマッチングを使用します。

B. ETL ジョブで AWS Glue PySpark Filter クラスをトレーニングして使用します。

C. テーブルをパーティション化し、ETL ジョブを使用して一意の識別子でデータをパーティション化します。

D. ETL ジョブで AWS Lake Formation FindMatches 変換をトレーニングして使用します。

回答: D

説明:
AWS Lake Formation は、データをクレンジングするためのカスタム変換を作成する機械学習機能を提供します。現在、FindMatches という変換が 1 つ利用可能です。FindMatches 変換を使用すると、レコードに共通の一意の識別子がなく、完全に一致するフィールドがない場合でも、データセット内の重複レコードまたは一致するレコードを識別できます。これには、コードを記述したり、機械学習の仕組みを理解したりする必要はありません。

135 / 204

135.

No.135
データエンジニアは、AWS Glue クローラーを使用して、Amazon S3 バケット内のデータをカタログ化しています。S3 バケットには、.csv ファイルと json ファイルの両方が含まれています。データエンジニアは、カタログから .json ファイルを除外するようにクローラーを構成しました。
データエンジニアが Amazon Athena でクエリを実行すると、除外された .json ファイルもクエリで処理されます。データエンジニアはこの問題を解決したいと考えています。データエンジニアは、ソース S3 バケット内の .csv ファイルへのアクセス要件に影響を与えないソリューションを必要としています。
どのソリューションが、この要件を最短のクエリ時間で満たしますか?

A. AWS Glue クローラー設定を調整して、AWS Glue クローラーが .json ファイルも除外するようにします。

B. Athena コンソールを使用して、Athena クエリが .json ファイルも除外するようにします。

C. .json ファイルを S3 バケット内の別のパスに再配置します。

D. S3 バケットポリシーを使用して、.json ファイルへのアクセスをブロックします。

回答: C

説明:
Athena は、AWS Glue クローラーに指定した除外パターンを認識しません。たとえば、.csv ファイルと .json ファイルの両方を含む Amazon S3 バケットがあり、.json ファイルをクローラーから除外すると、Athena は両方のファイルグループをクエリします。これを回避するには、除外するファイルを別の場所に配置します。

https://docs.aws.amazon.com/athena/latest/ug/troubleshooting-athena.html

136 / 204

136.

No.136
データエンジニアは、Amazon S3 バケットに保存されているオブジェクトを読み取る AWS Lambda 関数を設定しました。オブジェクトは AWS KMS キーによって暗号化されています。
データエンジニアは、S3 バケットにアクセスするように Lambda 関数の実行ロールを設定しました。しかし、Lambda 関数でエラーが発生し、オブジェクトのコンテンツを取得できませんでした。
エラーの原因として考えられるものは何ですか?

A. データエンジニアが S3 バケットの権限を誤って設定しました。Lambda 関数はオブジェクトにアクセスできませんでした。

B. Lambda 関数が古い SDK バージョンを使用しているため、読み取りに失敗しました。

C. S3 バケットは、データエンジニアが作業しているリージョンとは異なる AWS リージョンにあります。レイテンシーの問題により、Lambda 関数でエラーが発生しました。

D. Lambda 関数の実行ロールには、S3 オブジェクトを復号化できる KMS キーにアクセスするために必要な権限がありません。

回答: D

説明:
Lambda 関数は S3 バケットにアクセスするように設定されています: データエンジニアは、S3 バケットにアクセスするための Lambda 関数の実行ロールをすでに設定しています。つまり、基本的な S3 アクセス権限が設定されている可能性があります。

オブジェクトは KMS キーで暗号化されています: これは重要な詳細です。S3 内のオブジェクトが KMS キーで暗号化されている場合、そのオブジェクトを読み取ろうとするエンティティには、次の 2 セットの権限が必要です。a. S3 バケットとオブジェクトにアクセスする権限 b. 復号化に特定の KMS キーを使用する権限

コンテンツを取得しようとするとエラーが発生します。これは、Lambda 関数がオブジェクトを表示できる可能性が高いことを示しています (S3 アクセス権があるため) が、そのコンテンツを読み取ろうとすると失敗します。

この問題を解決するには、データエンジニアは Lambda 関数の実行ロールに必要な KMS 権限を付与する必要があります。具体的には、S3 オブジェクトの暗号化に使用される KMS キーに「kms:Decrypt」権限を追加します。

137 / 204

137.

No.137
データエンジニアが 1,000 個の AWS Glue Data Catalog テーブルにデータ品質ルールを実装しました。最近ビジネス要件が変更されたため、データエンジニアはデータ品質ルールを編集する必要があります。
データエンジニアは、運用オーバーヘッドを最小限に抑えながらこの要件を満たすにはどうすればよいですか?

A. AWS Glue ETL でパイプラインを作成し、1,000 個の Data Catalog テーブルごとにルールを編集します。 AWS Lambda 関数を使用して、各データカタログテーブルに対応する AWS Glue ジョブを呼び出します。

B. AWS Glue Data Quality への API 呼び出しを行って編集を行う AWS Lambda 関数を作成します。

C. Amazon EMR クラスターを作成します。Amazon EMR でパイプラインを実行し、各データカタログテーブルのルールを編集します。AWS Lambda 関数を使用して EMR パイプラインを実行します。

D. AWS マネジメントコンソールを使用して、データカタログ内のルールを編集します。

回答: B

説明:
AWS Glue Data Quality への API 呼び出しを行って編集を行う AWS Lambda 関数を作成します。

138 / 204

138.

No.138
2 人の開発者が別々のアプリケーションリリースに取り組んでいます。開発者は、GitHub リポジトリのマスターブランチをソースとして使用して、ブランチ A とブランチ B という名前の機能ブランチを作成しました。
ブランチ A の開発者は、コードを本番システムにデプロイしました。ブランチ B のコードは、翌週に予定されているアプリケーションリリースでマスターブランチにマージされます。
ブランチ B の開発者がマスターブランチにプルリクエストを発行する前に実行する必要があるコマンドはどれですか。

A. git diff branchB master git commit -m

B. git pull master

C. git rebase master

D. git fetch -b master

回答: C

説明:
ブランチ B を更新されたマスターブランチにリベースすると、ブランチ B にマスターブランチからの最近の変更がすべて組み込まれます (本番環境にデプロイされたブランチ A からの変更を含む)。

ブランチ B のコミットを最新のマスターブランチコミットの上に置くことで、線形でクリーンな履歴を維持できます。

このアプローチにより、プルリクエストが最終的にマスターにマージされるときに、マージ競合が発生する可能性が減ります。

プルリクエスト内のすべての変更が関連性があり最新のものになるため、コードレビュープロセスが簡単になります。

git rebase master を使用することで、開発者はプルリクエストを作成する前に、ブランチ B がブランチ A からの変更を含むマスターブランチ内のすべての変更で最新であることを確認できます。このアプローチにより、クリーンで直線的な履歴が維持され、マージプロセス中に競合が発生する可能性が減ります。

139 / 204

139.

★No.139
ある会社が従業員データを Amazon Resdshift に保存しています。Employee という名前のテーブルでは、Region ID、Department ID、および Role ID という名前の列が複合ソートキーとして使用されています。
テーブルの複合ソートキーを使用することで、クエリの速度が最も向上するクエリはどれですか (2 つ選択してください)。

A. Select *from Employee where Region ID=’North America’;

B. Select *from Employee where Region ID=’North America’ and Department ID=20;

C. 部門 ID が 20 でリージョン ID が「北米」である従業員から * を選択します。

D. ロール ID が 50 である従業員から * を選択します。

E. リージョン ID が「北米」でロール ID が 50 である従業員から * を選択します。

140 / 204

140.

No.140
ある会社が、世界各地にあるテスト施設からテスト結果を受け取ります。会社は、テスト結果を数百万の 1 KB JSON ファイルで Amazon S3 バケットに保存します。データエンジニアは、ファイルを処理し、Apache Parquet 形式に変換して、Amazon Redshift テーブルにロードする必要があります。データエンジニアは、AWS Glue を使用してファイルを処理し、AWS Step Functions を使用してプロセスを調整し、Amazon EventBridge を使用してジョブをスケジュールします。
会社は最近、テスト施設を追加しました。ファイルの処理に必要な時間が増加しています。データエンジニアは、データ処理時間を短縮する必要があります。
データ処理時間を最も短縮できるソリューションはどれですか?

A. AWS Lambda を使用して、生の入力ファイルを大きなファイルにグループ化します。大きなファイルを Amazon S3 に書き戻します。 AWS Glue を使用してファイルを処理します。ファイルを Amazon Redshift テーブルにロードします。

B. AWS Glue の動的フレームファイルグループ化オプションを使用して、生の入力ファイルを取り込みます。ファイルを処理します。ファイルを Amazon Redshift テーブルにロードします。

C. Amazon Redshift COPY コマンドを使用して、生の入力ファイルを Amazon S3 から Amazon Redshift テーブルに直接移動します。ファイルを Amazon Redshift で処理します。

D. AWS Glue ではなく Amazon EMR を使用して生の入力ファイルをグループ化します。ファイルを Amazon EMR で処理します。ファイルを Amazon Redshift テーブルにロードします。

回答: B

説明:
重要な要件は、Amazon S3 に保存されている数百万の小さな JSON ファイルの処理時間を短縮することです。ソリューションでは、既存の AWS Glue と Amazon Redshift の設定を活用しながら、多数の小さなファイルによって生じる非効率性に対処する必要があります。

141 / 204

141.

No.141
データエンジニアは、Amazon Managed Workflows for Apache Airflow (Amazon MWAA) を使用して、AWS アカウントでデータパイプラインを実行します。
最近、ワークフローの実行に失敗しました。データエンジニアは、Apache Airflow ログを使用してワークフローの失敗を診断する必要があります。
データエンジニアは、失敗の原因を診断するためにどのログタイプを使用する必要がありますか?

A. YourEnvironmentName-WebServer

B. YourEnvironmentName-Scheduler

C. YourEnvironmentName-DAGProcessing

D. YourEnvironmentName-Task

回答: D

説明:
https://pupuweb.com/amazon-dea-c01-which-apache-airflow-log-type-should-you-use-to-diagnose-workflow-failures-in-amazon-mwaa/

Amazon MWAA でワークフローの実行に失敗した場合、タスクログ (YourEnvironmentName-Task) が問題の診断に最も関連します。タスクログには、ワークフロー内の個々のタスクの実行に関する詳細情報が含まれており、エラーメッセージやスタックトレースも含まれているため、失敗の原因を正確に特定するのに役立ちます。

142 / 204

142.

No.142
金融会社では、Amazon Redshift をデータウェアハウスとして使用しています。会社は、共有 Amazon S3 バケットにデータを保存しています。同社は、Amazon Redshift Spectrum を使用して、S3 バケットに保存されているデータにアクセスします。データは、認定されたサードパーティのデータプロバイダーから提供されます。各サードパーティのデータプロバイダーには、固有の接続詳細があります。
規制に準拠するには、会社の AWS 環境の外部からデータにアクセスできないようにする必要があります。
これらの要件を満たすために、会社が実行する必要がある手順の組み合わせはどれですか? (2 つ選択してください)。

A. 既存の Redshift クラスターを、プライベートサブネットにある新しい Redshift クラスターに置き換えます。インターフェイス VPC エンドポイントを使用して、Redshift クラスターに接続します。NAT ゲートウェイを使用して、Redshift に S3 バケットへのアクセスを許可します。

B. 各データプロバイダーに AWS CloudHSM ハードウェアセキュリティモジュール (HSM) を作成します。各データプロバイダーに対応する HSM を使用して、各データプロバイダーのデータを暗号化します。

C. Amazon Redshift クラスターの拡張 VPC ルーティングをオンにします。AWS Direct Connect 接続を設定し、各データプロバイダーと金融会社の VPC 間の接続を構成します。

D. 主キーと外部キーのテーブル制約を定義します。

E. フェデレーションクエリを使用して、各データプロバイダーのデータにアクセスします。データを S3 バケットにアップロードしないでください。ゲートウェイ VPC エンドポイントを介してフェデレーションクエリを実行します。

回答: A、C

説明:

オプション A - 既存の Redshift クラスターを、プライベートサブネットにある新しい Redshift クラスターに置き換えます。インターフェイス VPC エンドポイントを使用して、Redshift クラスターに接続します。NAT ゲートウェイを使用して、Redshift に S3 バケットへのアクセスを許可します。

オプション C - Amazon Redshift クラスターの拡張 VPC ルーティングをオンにします。AWS Direct Connect 接続を設定し、各データプロバイダーと金融会社の VPC 間の接続を構成します。

143 / 204

143.

No.143
複数のデータソースからのファイルが定期的に Amazon S3 バケットに到着します。データエンジニアは、新しいファイルが S3 バケットに到着すると、ほぼリアルタイムで新しいファイルを Amazon Redshift に取り込むことを望んでいます。
これらの要件を満たすソリューションはどれですか?

A. クエリエディタ v2 を使用して、COPY コマンドをスケジュールし、新しいファイルを Amazon Redshift にロードします。

B. Amazon Aurora と Amazon Redshift 間のゼロ ETL 統合を使用して、新しいファイルを Amazon Redshift にロードします。

C. AWS Glue ジョブブックマークを使用して、新しいファイルを抽出、変換、ロード (ETL) し、Amazon Redshift にロードします。

D. S3 イベント通知を使用して、新しいファイルを Amazon Redshift にロードする AWS Lambda 関数を呼び出します。

回答: D

説明:
アップロード時にトリガーするのが最も速いオプションです。

144 / 204

144.

No.144
現在、あるテクノロジー企業では、Amazon Kinesis Data Streams を使用して、ログデータをリアルタイムで収集しています。同社は、ダウンストリームのリアルタイムクエリに Amazon Redshift を使用し、ログデータを拡充したいと考えています。
どのソリューションが、運用オーバーヘッドが最も少ない状態で Amazon Redshift にデータを取り込むことができますか?

A. Amazon Kinesis Data Firehose 配信ストリームを設定して、Redshift プロビジョニング済みクラスターテーブルにデータを送信します。

B. Amazon Kinesis Data Firehose 配信ストリームを設定して、Amazon S3 にデータを送信します。Redshift プロビジョニング済みクラスターを設定して、1 分ごとにデータをロードします。

C. Amazon Managed Service for Apache Flink (旧称 Amazon Kinesis Data Analytics) を設定して、Redshift プロビジョニング済みクラスターテーブルにデータを直接送信します。

D. Kinesis Data Streams からの Amazon Redshift ストリーミング取り込みを使用して、データをマテリアライズドビューとして表示します。

回答: D

説明:
Amazon Redshift は、Amazon Kinesis Data Streams からのストリーミング取り込みをサポートしています。 Amazon Redshift ストリーミング取り込み機能は、Amazon Kinesis Data Streams から Amazon Redshift マテリアライズドビューへのストリーミングデータの低レイテンシーかつ高速な取り込みを実現します。Amazon Redshift ストリーミング取り込みにより、Amazon Redshift に取り込む前に Amazon S3 でデータをステージングする必要がなくなります。

リンク: https://docs.aws.amazon.com/streams/latest/dev/using-other-services-redshift.html

145 / 204

145.

No.145
ある会社では、オンプレミスの Oracle データベースでデータウェアハウスを維持しています。この会社は、AWS 上にデータレイクを構築したいと考えています。この会社は、データウェアハウステーブルを Amazon S3 にロードし、データウェアハウスから毎日到着する増分データとテーブルを同期したいと考えています。
各テーブルには、単調に増加する値を含む列があります。各テーブルのサイズは 50 GB 未満です。データウェアハウステーブルは、毎晩午前 1 時から午前 2 時の間に更新されます。ビジネスインテリジェンスチームは、毎日午前 10 時から午後 8 時の間にテーブルをクエリします。
これらの要件を最も効率的に運用できるソリューションはどれですか?

A. AWS Database Migration Service (AWS DMS) のフルロードと CDC ジョブを使用して、オンプレミスのデータウェアハウスから Amazon S3 に単調に増加するデータ列を含むテーブルをロードします。AWS Glue のカスタムロジックを使用して、毎日の増分データを Amazon S3 にあるフルロードコピーに追加します。

B. AWS Glue Java Database Connectivity (JDBC) 接続を使用します。単調に増加する値を含む列のジョブブックマークを設定します。カスタムロジックを記述して、毎日の増分データを Amazon S3 にあるフルロードコピーに追加します。

C. AWS Database Migration Service (AWS DMS) のフルロード移行を使用して、データウェアハウステーブルを毎日 Amazon S3 にロードします。前日のフルロードコピーを毎日上書きします。

D. AWS Glue を使用して、データウェアハウステーブルのフルコピーを毎日 Amazon S3 にロードします。前日のフルロードコピーを毎日上書きします。

回答: A

説明:
AWS Database Migration Service (AWS DMS) のフルロードと CDC ジョブを使用して、オンプレミスのデータウェアハウスから Amazon S3 に単調に増加するデータ列を含むテーブルをロードします。

146 / 204

146.

No.146
ある会社が新しい分析チーム用のデータレイクを構築しています。この会社は、ストレージに Amazon S3 を使用し、クエリ分析に Amazon Athena を使用しています。Amazon S3 にあるすべてのデータは、Apache Parquet 形式です。
この会社は、会社のデータセンターでソースシステムとして新しい Oracle データベースを実行しています。この会社の Oracle データベースには 70 個のテーブルがあります。すべてのテーブルには主キーがあります。ソースシステムでデータが時々変更されることがあります。この会社は、テーブルを毎日データレイクに取り込むことを望んでいます。
この要件を最も少ない労力で満たすソリューションはどれですか?

A. Amazon EMR で Apache Sqoop ジョブを作成し、Oracle データベースからデータを読み取ります。Sqoop ジョブを設定して、データを Parquet 形式で Amazon S3 に書き込みます。

B. Oracle データベースへの AWS Glue 接続を作成します。AWS Glue ブックマークジョブを作成して、データを段階的に取り込み、データを Parquet 形式で Amazon S3 に書き込みます。

C. 継続的なレプリケーション用の AWS Database Migration Service (AWS DMS) タスクを作成します。Oracle データベースをソースとして設定します。Amazon S3 をターゲットとして設定します。データを Parquet 形式で書き込むようにタスクを設定します。

D. Amazon RDS に Oracle データベースを作成します。AWS Database Migration Service (AWS DMS) を使用して、オンプレミスの Oracle データベースを Amazon RDS に移行します。テーブルにトリガーを設定して、AWS Lambda 関数を呼び出し、変更されたレコードを Parquet 形式で Amazon S3 に書き込みます。

回答: C

説明:

オプション C - S3 をターゲットとして使用し、ファイルを Parquet 形式に設定できます https://docs.aws.amazon.com/dms/latest/userguide/CHAP_Target.S3.html

147 / 204

147.

No.147
運送会社は、地理位置情報レコードを取得して車両の動きを追跡したいと考えています。レコードのサイズは 10 バイトです。会社は 1 秒あたり最大 10,000 件のレコードを受信します。ネットワークの状態が不安定なため、数分のデータ転送遅延は許容されます。
運送会社は、Amazon Kinesis Data Streams を使用して地理位置情報データを取り込むことを希望しています。会社は、Kinesis Data Streams にデータを送信するための信頼性の高いメカニズムを必要としています。会社は、Kinesis シャードのスループット効率を最大化する必要があります。
どのソリューションが最も運用効率の高い方法でこれらの要件を満たしますか?

A. Kinesis Agent

B. Kinesis Producer Library (KPL)

C. Amazon Kinesis Data Firehose

D. Kinesis SDK

回答: B

説明:
KPL は、複数のレコードを自動的にバッチ処理して 1 つのペイロードに集約してから、Kinesis Data Streams に送信します。これにより、送信されるレコードの数が減り、シャードのスループット使用が最適化されます。

148 / 204

148.

No.148
投資会社は、継続的に増加する半構造化データの量を管理し、そこから洞察を引き出す必要があります。
データエンジニアは、半構造化データの重複を排除し、重複しているレコードを削除し、重複しているレコードの一般的なスペルミスを削除する必要があります。
どのソリューションが、運用上のオーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. AWS Glue の FindMatches 機能を使用して重複レコードを削除します。

B. Amazon Athena の Windows 以外の機能を使用して重複レコードを削除します。

C. Amazon Neptune ML と Apache Gremlin スクリプトを使用して重複レコードを削除します。

D. Amazon DynamoDB のグローバルテーブル機能を使用して重複データを防ぎます。

回答: A

説明:

オプション A - 他のオプションは愚かで、ほとんど意味がありません

149 / 204

149.

No.149
ある会社が、製品を自動的に再注文するための在庫管理システムと在庫再注文システムを構築しています。どちらのシステムも Amazon Kinesis Data Streams を使用しています。在庫管理システムは、Amazon Kinesis Producer Library (KPL) を使用してデータをストリームに公開します。在庫再発注システムは、Amazon Kinesis Client Library (KCL) を使用してストリームからデータを消費します。会社は、必要に応じてストリームをスケールアップおよびスケールダウンするように構成します。
会社がシステムを本番環境にデプロイする前に、在庫再発注システムが重複データを受信したことを発見しました。
再発注システムが重複データを受信した原因として考えられる要因は何ですか? (2 つ選択してください)。

A. プロデューサーでネットワーク関連のタイムアウトが発生しました。

B. ストリームの IteratorAgeMilliseconds メトリックの値が高すぎました。

C. シャード、レコードプロセッサ、またはその両方の数が変更されました。

D. AggregationEnabled 構成プロパティが true に設定されていました。

E. max_records 構成プロパティが高すぎる数値に設定されていました。

回答: A、C

説明:
https://docs.aws.amazon.com/streams/latest/dev/kinesis-record-processor-duplicates.html
コンシューマーはネットワークタイムアウトにより重複を追加する場合があります。
プロデューサーはシャードおよびレコードプロセッサ関連の変更により重複を消費する場合があります。

150 / 204

150.

No.150
e コマース会社では、AWS でホストされている複数の運用システムにまたがる複雑な注文処理プロセスを運用しています。各運用システムには、最新の処理状態がキャプチャされる Java データベース接続 (JDBC) 準拠のリレーショナルデータベースがあります。
この会社は、運用チームがフルフィルメントプロセス全体にわたって 1 時間ごとに注文を追跡できるようにする必要があります。
開発オーバーヘッドが最も少ないソリューションはどれですか?

A. AWS Glue を使用して、運用システムから Amazon Redshift への取り込みパイプラインを構築します。Amazon QuickSight で注文を追跡するダッシュボードを構築します。

B. AWS Glue を使用して、運用システムから Amazon DynamoD への取り込みパイプラインを構築します。Amazon QuickSight で注文を追跡するダッシュボードを構築します。

C. AWS Database Migration Service (AWS DMS) を使用して、運用システムで変更されたレコードをキャプチャします。ソースデータベースとは異なる AWS リージョンの Amazon DynamoDB テーブルに変更を公開します。注文を追跡する Grafana ダッシュボードを構築します。

D. AWS Database Migration Service (AWS DMS) を使用して、運用システムで変更されたレコードをキャプチャします。ソースデータベースとは異なる AWS リージョンの Amazon DynamoDB テーブルに変更を公開します。注文を追跡する Amazon QuickSight ダッシュボードを構築します。

回答: A

説明:
DynamoDB はリレーショナルデータベースをサポートするように設計されていません。ただし、Redshift はサポートされています。

https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/build-an-etl-service-pipeline-to-load-data-incrementally-from-amazon-s3-to-amazon-redshift-using-aws-glue.html

151 / 204

151.

No.151
データエンジニアは、Amazon Neptune を使用してグラフアプリケーションを開発する必要があります。
エンジニアはグラフアプリケーションを開発するためにどのプログラミング言語を使用する必要がありますか? (2 つ選択してください)

A. Gremlin

B. SQL

C. ANSI SQL

D. SPARQL

E. Spark SQL

回答: A、D

説明:
https://docs.aws.amazon.com/neptune/latest/userguide/access-graph-queries.html

152 / 204

152.

No.152
モバイルゲーム会社がゲームアプリからデータを取得したいと考えています。会社は、そのデータを 3 人の社内データコンシューマーに提供したいと考えています。データレコードのサイズは約 20 KB です。
会社は、ゲームアプリを実行する各デバイスから最適なスループットを実現したいと考えています。さらに、会社はデータストリームを処理するアプリケーションを開発したいと考えています。ストリーム処理アプリケーションには、社内コンシューマーごとに専用のスループットが必要です。
これらの要件を満たすソリューションはどれですか?

A. モバイルアプリを構成して、PutRecords API オペレーションを呼び出して Amazon Kinesis Data Streams にデータを送信します。各社内コンシューマーのストリームで拡張ファンアウト機能を使用します。

B. PutRecordBatch API オペレーションを呼び出して Amazon Kinesis Data Firehose にデータを送信するようにモバイルアプリを設定します。AWS サポートケースを送信して、会社の AWS アカウントの専用スループットをオンにします。各社内コンシューマーがストリームにアクセスできるようにします。

C. Amazon Kinesis Producer Library (KPL) を使用して Amazon Kinesis Data Firehose にデータを送信するようにモバイルアプリを設定します。各社内コンシューマーのストリームで拡張ファンアウト機能を使用します。

D. PutRecords API オペレーションを呼び出して Amazon Kinesis Data Streams にデータを送信するようにモバイルアプリを設定します。Amazon EC2 インスタンスで各社内コンシューマーのストリーム処理アプリケーションをホストします。EC2 インスタンスの自動スケーリングを設定します。

回答: A

説明:
A が最適ですが、各コンシューマーの SHARD になるはずだったと思います。
B - 意味がわかりません
C - 私の知る限り、Firehose には拡張ファンアウトがありません
D - KDS で拡張ファンアウトを使用しないため、専用スループットがありません

153 / 204

153.

No.153
小売会社では、Amazon Redshift データウェアハウスと Amazon S3 バケットを使用しています。同社は、小売注文データを毎日 S3 バケットに取り込みます。
同社は、すべての注文データを S3 バケット内の単一のパスに保存します。データには 100 を超える列があります。同社は、毎日 30 を超える CSV 形式のファイルを生成するサードパーティアプリケーションから注文データを取り込みます。各 CSV ファイルのサイズは 50 ～ 70 MB です。
同社は、Amazon Redshift Spectrum を使用して、列のセットを選択するクエリを実行します。ユーザーは、毎日の注文に基づいてメトリクスを集計します。最近、ユーザーから、クエリのパフォーマンスが低下したという報告がありました。データエンジニアは、クエリのパフォーマンスの問題を解決する必要があります。
どの手順の組み合わせが、開発の労力を最小限に抑えてこの要件を満たしますか? (2 つ選択してください)。

A. サードパーティアプリケーションを構成して、列形式でファイルを作成します。

B. 複数の毎日の CSV ファイルを 1 日ごとに 1 つのファイルに変換する AWS Glue ETL ジョブを開発します。

C. 注文日に基づいて S3 バケット内の注文データをパーティション分割します。

D. サードパーティアプリケーションを設定して、ファイルを JSON 形式で作成します。

E. JSON データを Amazon Redshift テーブルの SUPER 型列にロードします。

回答: A、C

説明:
https://docs.aws.amazon.com/redshift/latest/dg/r_SUPER_type.html

154 / 204

154.

No.154
ある会社が顧客レコードを Amazon S3 に保存しています。会社は、各レコードが作成されてから 7 年間、顧客レコードデータを削除または変更してはなりません。ルートユーザーにも、データを削除または変更する権限が付与されてはなりません。
データエンジニアは、S3 オブジェクトロックを使用してデータを保護したいと考えています。
これらの要件を満たすソリューションはどれですか?

A. S3 バケットでガバナンスモードを有効にします。デフォルトの保持期間として 7 年を使用します。

B. S3 バケットでコンプライアンスモードを有効にします。デフォルトの保持期間は 7 年です。

C. S3 バケット内の個々のオブジェクトに法的保留を設定します。保持期間を 7 年に設定します。

D. S3 バケット内の個々のオブジェクトの保持期間を 7 年に設定します。

回答: B

説明:
「コンプライアンスモードでは、保護されたオブジェクトバージョンは、AWS アカウントのルートユーザーを含むどのユーザーも上書きまたは削除できません。コンプライアンスモードでオブジェクトがロックされると、その保持モードを変更したり、保持期間を短縮したりすることはできません。コンプライアンスモードは、保持期間中にオブジェクトバージョンを上書きまたは削除できないようにするのに役立ちます。」

https://aws.amazon.com/s3/features/object-lock/

155 / 204

155.

No.155
データエンジニアは、既存のテーブル old_table と同じスキーマを持つ新しい空のテーブルを Amazon Athena に作成する必要があります。
この要件を満たすためにデータエンジニアが使用すべき SQL ステートメントはどれですか。

A. CREATE TABLE new_table AS SELECT * FROM old_tables;

B. INSERT INTO new_table SELECT * FROM old_table;

C. CREATE TABLE new_table (LIKE old_table);

D. CREATE TABLE new_table AS (SELECT * FROM old_table) WITH NO DATA;

回答: D

説明:
AS 句を使用すると、SELECT ステートメントに基づいて新しいテーブルのスキーマを定義できます。

最後の WITH NO DATA 句は、データをコピーせずにテーブル構造を作成するように Athena に明示的に指示します。

詳細については、このドキュメントの「既存のテーブルの空のコピーを作成する」セクションを参照してください - https://docs.aws.amazon.com/athena/latest/ug/ctas-examples.html

156 / 204

156.

No.156
データエンジニアは、既存の Athena テーブル cities_world のデータのサブセットに基づいて Amazon Athena テーブルを作成する必要があります。cities_world テーブルには、世界中の都市が含まれています。データエンジニアは、cities_world の米国にある都市のみを含む、cities_us という新しいテーブルを作成する必要があります。
この要件を満たすために、データエンジニアはどの SQL ステートメントを使用する必要がありますか?

A. INSERT INTO cities_usa (city,state) SELECT city, state FROM cities_world WHERE country=’usa’;

B. MOVE city, state FROM cities_world TO cities_usa WHERE country=’usa’;

C. INSERT INTO cities_usa SELECT city, state FROM cities_world WHERE country=’usa’;

D. UPDATE cities_usa SET (city, state) = (SELECT city, state FROM cities_world WHERE country=’usa’);

回答: A

説明:
INSERT INTO cities_usa (city,state)
SELECT city,state
FROM cities_world
WHERE country='usa'

157 / 204

157.

★No.157
ある会社が、中央ガバナンスアカウントを持つデータメッシュを実装しています。会社は、ガバナンスアカウント内のすべてのデータをカタログ化する必要があります。ガバナンスアカウントは、AWS Lake Formation を使用して、データを一元的に共有し、アクセス権限を付与します。
会社は、Amazon Redshift Serverless テーブルのグループを含む新しいデータ製品を作成しました。データエンジニアは、データ製品をマーケティングチームと共有する必要があります。マーケティングチームは、列のサブセットのみにアクセスできる必要があります。データエンジニアは、同じデータ製品をコンプライアンスチームと共有する必要があります。コンプライアンスチームは、マーケティングチームがアクセスする必要がある列とは異なるサブセットにアクセスできる必要があります。
これらの要件を満たすために、データエンジニアが実行する必要がある手順の組み合わせはどれですか? (2 つ選択してください)。

A. 共有する必要があるテーブルのビューを作成します。必要な列のみを含めます。

B. 共有する必要があるテーブルを含む Amazon Redshift データ共有を作成します。

C. マーケティングチームのアカウントに Amazon Redshift マネージド VPC エンドポイントを作成します。マーケティングチームにビューへのアクセス権を付与します。

D. ガバナンスアカウントの Lake Formation カタログに Amazon Redshift データ共有を共有します。

E. マーケティングチームのアカウントの Amazon Redshift Serverless ワークグループに Amazon Redshift データ共有を共有します。

158 / 204

158.

No.158
ある会社には Amazon S3 にデータレイクがあります。会社は AWS Glue を使用してデータをカタログ化し、AWS Glue Studio を使用してデータの抽出、変換、ロード (ETL) パイプラインを実装しています。
会社は、パイプラインが実行されるたびにデータ品質の問題がチェックされるようにする必要があります。データエンジニアは、既存のパイプラインを強化して、定義済みのしきい値に基づいてデータ品質ルールを評価する必要があります。
どのソリューションが、最小限の実装労力でこれらの要件を満たしますか?

A. 各 Glue ETL ジョブに、SQL クエリで定義された新しい変換を追加します。 SQL クエリを使用して、評価する必要があるデータ品質ルールを含むルールセットを実装します。

B. 各 Glue ETL ジョブに新しい Evaluate Data Quality 変換を追加します。データ品質定義言語 (DQDL) を使用して、評価する必要があるデータ品質ルールを含むルールセットを実装します。

C. 各 Glue ETL ジョブに新しいカスタム変換を追加します。PyDeequ ライブラリを使用して、評価する必要があるデータ品質ルールを含むルールセットを実装します。

D. 各 Glue ETL ジョブに新しいカスタム変換を追加します。Great Expectations ライブラリを使用して、評価する必要があるデータ品質ルールを含むルールセットを実装します。

回答: B

説明:
https://docs.aws.amazon.com/glue/latest/dg/tutorial-data-quality.html

AWS Glue Data Quality は、データ品質定義言語 (DQDL) を使用してデータ品質ルールを定義します。

159 / 204

159.

No.159
ある会社には、マイクロサービスアーキテクチャを使用するアプリケーションがあります。この会社は、Amazon Elastic Kubernetes Services (Amazon EKS) クラスターでアプリケーションをホストしています。
この会社は、アプリケーション用の堅牢なモニタリングシステムを設定したいと考えています。この会社は、EKS クラスターとアプリケーションからのログを分析する必要があります。この会社は、クラスターのログをアプリケーションのトレースと相関させて、アプリケーションリクエストフロー全体の障害点を特定する必要があります。
どのステップの組み合わせが、開発の労力を最小限に抑えながらこれらの要件を満たすでしょうか (2 つ選択してください)。

A. FluentBit を使用してログを収集します。OpenTelemetry を使用してトレースを収集します。

B. Amazon CloudWatch を使用してログを収集します。Amazon Kinesis を使用してトレースを収集します。

C. Amazon CloudWatch を使用してログを収集します。Amazon Managed Streaming for Apache Kafka (Amazon MSK) を使用してトレースを収集します。

D. Amazon OpenSearch を使用してログとトレースを相関させます。

E. AWS Glue を使用してログとトレースを関連付けます。

回答: A、D

説明:
https://aws.amazon.com/blogs/big-data/part-1-microservice-observability-with-amazon-opensearch-service-trace-and-log-correlation/

160 / 204

160.

No.160
ある会社には、Amazon DynamoDB テーブルにデータを保存するゲームアプリケーションがあります。データエンジニアは、ゲームデータを Amazon OpenSearch Service クラスターに取り込む必要があります。データの更新はほぼリアルタイムで実行する必要があります。
これらの要件を満たすソリューションはどれですか?

A. AWS Step Functions を使用して、Amazon DynamoDB テーブルから Amazon S3 バケットにデータを定期的にエクスポートします。AWS Lambda 関数を使用して、データを Amazon OpenSearch Service にロードします。

B. AWS Glue ジョブを設定して、ソースを Amazon DynamoDB、宛先を Amazon OpenSearch Service に設定し、ほぼリアルタイムでデータを転送します。

C. Amazon DynamoDB Streams を使用してテーブルの変更をキャプチャします。AWS Lambda 関数を使用して、Amazon OpenSearch Service でデータを処理および更新します。

D. カスタム OpenSearch プラグインを使用して、Amazon DynamoDB テーブルからデータを同期します。

回答: C

説明:
https://docs.aws.amazon.com/opensearch-service/latest/developerguide/configure-client-ddb.html

DynamoDB は、アイテムレベルの変更データキャプチャレコードのストリーミングを *ほぼリアルタイム* でサポートします

161 / 204

161.

No.161
ある会社では、データウェアハウスサービスとして Amazon Redshift を使用しています。データエンジニアは物理データモデルを設計する必要があります。
データエンジニアは、サイズが拡大している非正規化テーブルに遭遇しました。テーブルには、分散キーとして使用するのに適した列がありません。
データエンジニアは、メンテナンスのオーバーヘッドを最小限に抑えながらこれらの要件を満たすために、どの分散スタイルを使用すればよいですか?

A. ALL 分散

B. EVEN 分散

C. AUTO 分散

D. KEY 分散

回答: C

説明:
AUTO 分散では、Amazon Redshift はテーブルデータのサイズに基づいて最適な分散スタイルを割り当てます。たとえば、AUTO 分散スタイルが指定されている場合、Amazon Redshift は最初に ALL 分散スタイルを小さなテーブルに割り当てます。テーブルが大きくなると、Amazon Redshift は分散スタイルを KEY に変更し、プライマリキー (または複合プライマリキーの列) を分散キーとして選択する場合があります。テーブルが大きくなり、どの列も分散キーとして適さない場合、Amazon Redshift は分散スタイルを EVEN に変更します。分散スタイルの変更はバックグラウンドで行われ、ユーザークエリへの影響は最小限に抑えられます。

162 / 204

162.

No.162
小売企業がグローバルに事業を拡大しています。この企業は、財務レポートの為替レートを正確に計算するために Amazon QuickSight を使用する必要があります。この企業には、グローバル通貨の値と為替レートを含むデータセットの分析に基づくビジュアルを含む既存のダッシュボードがあります。
データエンジニアは、為替レートが小数点以下 4 桁の精度で計算されるようにする必要があります。計算は事前に計算されている必要があります。データエンジニアは、結果を QuickSight の超高速並列インメモリ計算エンジン (SPICE) で実現する必要があります。
これらの要件を満たすソリューションはどれですか?

A. データセットで計算フィールドを定義して作成します。

B. 分析で計算フィールドを定義して作成します。

C. ビジュアルで計算フィールドを定義して作成します。

D. ダッシュボードで計算フィールドを定義して作成します。

回答: A

説明:
https://docs.aws.amazon.com/quicksight/latest/user/adding-a-calculated-field-analysis.html

163 / 204

163.

★No.163
ある会社には 3 つの子会社があります。各子会社は異なるデータウェアハウスソリューションを使用しています。最初の子会社は Amazon Redshift でデータウェアハウスをホストしています。2 番目の子会社は AWS で Teradata Vantage を使用しています。3 番目の子会社は Google BigQuery を使用しています。
会社はすべてのデータを中央の Amazon S3 データレイクに集約したいと考えています。会社はテーブル形式として Apache Iceberg を使用したいと考えています。
データエンジニアは、すべてのデータソースに接続し、各ソースエンジンを使用して変換を実行し、データを結合して Iceberg にデータを書き込むための新しいパイプラインを構築する必要があります。
どのソリューションが、最小限の運用労力でこれらの要件を満たしますか?

A. ネイティブの Amazon Redshift、Teradata、および BigQuery コネクタを使用して、AWS Glue でパイプラインを構築します。ネイティブの AWS Glue 変換を使用してデータを結合します。データレイクの Iceberg テーブルで Merge 操作を実行します。

B. Amazon Redshift、Teradata、BigQuery 用の Amazon Athena フェデレーテッドクエリコネクタを使用して、Athena でパイプラインを構築します。すべてのデータソースから読み取り、データを結合し、データレイクの Iceberg テーブルで Merge 操作を実行する SQL クエリを記述します。

C. ネイティブの Amazon Redshift コネクタ、Teradata 用の Java Database Connectivity (JDBC) コネクタ、およびオープンソースの Apache Spark BigQuery コネクタを使用して、Amazon EMR でパイプラインを構築します。PySpark でコードを記述してデータを結合します。データレイクの Iceberg テーブルで Merge 操作を実行します。

D. Amazon Appflow のネイティブの Amazon Redshift、Teradata、BigQuery コネクタを使用して、Amazon S3 および AWS Glue Data Catalog にデータを書き込みます。Amazon Athena を使用してデータを結合します。データレイクの Iceberg テーブルで Merge 操作を実行します。

164 / 204

164.

No.164
ある会社がデータストリーム処理アプリケーションを構築しています。アプリケーションは Amazon Elastic Kubernetes Service (Amazon EKS) クラスターで実行されます。アプリケーションは処理されたデータを Amazon DynamoDB テーブルに保存します。
会社では、EKS クラスター内のアプリケーションコンテナが DynamoDB テーブルに安全にアクセスできるようにする必要があります。会社は、コンテナに AWS 認証情報を埋め込むことを望んでいません。
これらの要件を満たすソリューションはどれですか?

A. AWS 認証情報を Amazon S3 バケットに保存します。認証情報を取得するために、EKS コンテナに S3 バケットへのアクセスを許可します。

B. EKS ワーカーノードに IAM ロールをアタッチし、IAM ロールに DynamoD へのアクセスを許可します。IAM ロールを使用して、IAM ロールサービスアカウント (IRSA) 機能を設定します。

C. DynamoDB テーブルにアクセスするためのアクセスキーを持つ IAM ユーザーを作成します。EKS コンテナで環境変数を使用して、IAM ユーザーのアクセスキーデータを保存します。

D. DynamoDB テーブルにアクセスするためのアクセスキーを持つ IAM ユーザーを作成します。EKS ダスターノードのボリュームにマウントされている Kubernetes シークレットを使用して、ユーザーのアクセスキーデータを保存します。

回答: B

説明:
https://docs.aws.amazon.com/eks/latest/userguide/create-node-role.html
https://docs.aws.amazon.com/eks/latest/userguide/iam-roles-for-service-accounts.html

165 / 204

165.

No.165
データエンジニアは、新しいデータプロデューサーを AWS にオンボードする必要があります。データプロデューサーは、データ製品を AWS に移行する必要があります。
データプロデューサーは、ビジネスアプリケーションをサポートする多くのデータパイプラインを維持しています。各パイプラインには、サービスアカウントとそれに対応する認証情報が必要です。データエンジニアは、データプロデューサーのオンプレミスデータセンターから AWS への安全な接続を確立する必要があります。データエンジニアは、オンプレミスデータセンターから AWS にデータを転送するためにパブリックインターネットを使用してはなりません。
これらの要件を満たすソリューションはどれですか?

A. 新しいデータプロデューサーに、アプリケーションのコードベースを保存するために Amazon Elastic Container Service (Amazon ECS) に Amazon Machine Images (AMI) を作成するように指示します。オンプレミスデータセンターへの接続のみを許可するパブリックサブネットにセキュリティグループを作成します。

B. オンプレミスデータセンターへの AWS Direct Connect 接続を作成します。サービスアカウントの認証情報を AWS Secrets Manager に保存します。

C. パブリックサブネットにセキュリティグループを作成します。データプロデューサーに対応する CIDR ブロックからの接続のみを許可するようにセキュリティグループを構成します。有効期限が 1 日の署名済み URL を含む Amazon S3 バケットを作成します。

D. オンプレミスのデータセンターへの AWS Direct Connect 接続を作成します。アプリケーションキーを AWS Secrets Manager に保存します。有効期限が 1 日の署名済み URL を含む Amazon S3 バケットを作成します。

回答: B

説明:
Direct Connect + Secret Manager
コスト制約のない安全な接続には、常に Direct Connect を検討してください。

166 / 204

166.

★No.166
データエンジニアは、Amazon S3 バケットに保存されているデータ用に AWS Glue データカタログを構成しました。データエンジニアは、増分更新を受信するようにデータカタログを構成する必要があります。
データエンジニアは、S3 バケットのイベント通知を設定し、S3 イベントを受信するための Amazon Simple Queue Service (Amazon SQS) キューを作成します。
データエンジニアは、これらの要件を最小の運用オーバーヘッドで満たすために、どの手順の組み合わせを実行する必要がありますか? (2 つ選択してください。)

A. SQS キューからイベントを消費する S3 イベントベースの AWS Glue クローラーを作成します。

B. 時間ベースのスケジュールを定義して AWS Glue クローラーを実行し、データカタログの増分更新を実行します。

C. AWS Lambda 関数を使用して、SQS キューが受信する S3 イベントに基づいてデータカタログを直接更新します。

D. S3 バケットに変更があった場合に、AWS Glue クローラーを手動で開始してデータカタログの更新を実行します。

E. AWS Step Functions を使用して、SQS キューが受信する S3 イベントに基づいてデータカタログを更新するプロセスを調整します。

167 / 204

167.

No.167
ある会社では、AWS Glue データカタログを使用して、Amazon S3 バケットに毎日アップロードされるデータをインデックス化しています。この会社は、抽出、変換、ロード (ETL) パイプラインで毎日のバッチプロセスを使用して、外部ソースから S3 バケットにデータをアップロードしています。
この会社は、S3 データに関する日次レポートを実行します。日によっては、毎日のデータがすべて S3 バケットにアップロードされる前にレポートを実行します。データエンジニアは、既存の Amazon Simple Notification Service (Amazon SNS) トピックに、不完全なデータを識別するメッセージを送信できる必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこの要件を満たしますか?

A. 日次レポートで使用するソースデータセットのデータ品質チェックを作成します。新しい AWS 管理の Apache Airflow クラスターを作成します。列のデータ型と null 値の存在についてデータ品質クエリを実行する Airflow タスクを使用して、データ品質チェックを実行します。Airflow 有向非巡回グラフ (DAG) を構成して、SNS トピックに不完全なデータセットについてデータエンジニアに通知するメール通知を送信します。

B. 日次レポートで使用するソースデータセットのデータ品質チェックを作成します。新しい Amazon EMR クラスターを作成します。Apache Spark SQL を使用して、列のデータ型と null 値の存在についてデータ品質クエリを実行する Apache Spark ジョブを EMR クラスターに作成します。AWS Step Functions ワークフローを使用して ETL パイプラインを調整します。ワークフローを設定して、データエンジニアに不完全なデータセットについて通知するメール通知を SNS トピックに送信します。

C. 日次レポートで使用するソースデータセットのデータ品質チェックを作成します。AWS Glue ワークフローを使用してデータ品質アクションを作成し、データセットの完全性と一貫性を確認します。データセットが不完全な場合に Amazon EventBridge でイベントを作成するようにデータ品質アクションを設定します。EventBridge を設定して、データエンジニアに不完全なデータセットについて通知するイベントを Amazon SNS トピックに送信します。

D. 列のデータ型と null 値の存在に対してデータ品質クエリを実行する AWS Lambda 関数を作成します。Lambda 関数を実行する AWS Step Functions ワークフローを使用して ETL パイプラインを調整します。Step Functions ワークフローを設定して、データエンジニアに不完全なデータセットについて通知するメール通知を SNS トピックに送信します。

回答: C

説明:
Cは運用オーバーヘッドが最小限です。

https://aws.amazon.com/blogs/big-data/set-up-alerts-and-orchestrate-data-quality-rules-with-aws-glue-data-quality/

168 / 204

168.

No.168
ある会社が、個人を特定できる情報 (PII) を含む顧客データを Amazon Redshift クラスターに保存しています。会社のマーケティング、請求、分析の各チームは、顧客データにアクセスできる必要があります。
マーケティングチームは難読化された請求情報にアクセスできる必要がありますが、顧客の連絡先情報には完全にアクセスできる必要があります。請求チームは、チームが処理する各請求の顧客情報にアクセスできる必要があります。分析チームは、難読化された PII データにのみアクセスできる必要があります。
どのソリューションが、管理オーバーヘッドを最小限に抑えながら、これらのデータアクセス要件を適用しますか?

A. チームごとに個別の Redshift クラスターを作成します。各チームに必要なデータのみをロードします。チームに基づいてクラスターへのアクセスを制限します。

B. データ要件ごとに必要なフィールドを含むビューを作成します。各チームに必要なビューのみにチームアクセスを許可します。

C. チームごとに個別の Amazon Redshift データベースロールを作成します。各チームに個別に適用されるマスキングポリシーを定義します。各チームロールに適切なマスキングポリシーをアタッチします。

D. 顧客データを Amazon S3 バケットに移動します。AWS Lake Formation を使用してデータレイクを作成します。きめ細かなセキュリティ機能を使用して、各チームにデータにアクセスするための適切な権限を付与します。

回答: C

説明:
Redshift には動的データマスキング機能があるため、C が最適なアプローチです:
https://docs.aws.amazon.com/redshift/latest/dg/t_ddm.html

最小限の操作とマスキング情報に一致する唯一の回答です。

169 / 204

169.

No.169
金融会社が最近、モバイルアプリに機能を追加しました。新機能のために、既存の Amazon Managed Streaming for Apache Kafka (Amazon MSK) クラスターに新しいトピックを作成する必要がありました。
会社が新しいトピックを追加してから数日後、Amazon CloudWatch が MSK クラスターの RootDiskUsed メトリクスでアラームを発しました。
会社は CloudWatch アラームにどのように対処する必要がありますか?

A. MSK ブローカーのストレージを拡張します。 MSK クラスターストレージを自動的に拡張するように設定します。

B. Apache ZooKeeper ノードのストレージを拡張します。

C. MSK ブローカーインスタンスをより大きなインスタンスタイプに更新します。MSK クラスターを再起動します。

D. 既存のトピックの Target Volume-in-GiB パラメータを指定します。

回答: A

説明:
https://docs.aws.amazon.com/msk/latest/developerguide/metrics-details.html

「RootDiskUsed」は、ブローカーによって使用されるルートディスクの割合です。ストレージを拡張し、自動スケーリングを有効にするのが最善策のようです。

170 / 204

170.

No.170
データエンジニアは、会社の Amazon S3 バケットと Amazon RDS データベースに基づいてエンタープライズデータカタログを構築する必要があります。データカタログには、カタログ内のデータのストレージ形式のメタデータが含まれている必要があります。
これらの要件を最も少ない労力で満たすソリューションはどれですか?

A. AWS Glue クローラーを使用して S3 バケットと RDS データベースをスキャンし、データカタログを構築します。データスチュワードを使用してデータを検査し、データ形式でデータカタログを更新します。

B. AWS Glue クローラーを使用してデータカタログを構築します。AWS Glue クローラー分類子を使用してデータの形式を認識し、カタログにその形式を保存します。

C. Amazon Macie を使用してデータカタログを構築し、機密データ要素を識別します。Macie からデータ形式情報を収集します。

D. スクリプトを使用してデータ要素をスキャンし、データの形式に基づいてデータ分類を割り当てます。

回答: B

説明:
https://docs.aws.amazon.com/glue/latest/dg/catalog-and-crawler.html

https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html

171 / 204

171.

No.171
ある会社では、四半期ごとにデータレイクのデータを分析して在庫評価を行っています。データエンジニアは、AWS Glue DataBrew を使用して、データ内の顧客に関する個人識別情報 (PII) を検出します。会社のプライバシーポリシーでは、一部のカスタム情報カテゴリを PII と見なしています。ただし、これらのカテゴリは標準の DataBrew データ品質ルールには含まれていません。
データエンジニアは、データレイク内の複数のデータセットにわたってカスタム PII カテゴリをスキャンするために、現在のプロセスを変更する必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. カスタム PII カテゴリのデータを手動で確認します。

B. DataBrew でカスタムデータ品質ルールを実装します。データセット全体にカスタムルールを適用します。

C. カスタム PII カテゴリを検出するためのカスタム Python スクリプトを開発します。DataBrew からスクリプトを呼び出します。

D. 抽出変換中にフィールドから PII 情報を抽出し、データレイクにロード (ETL) 操作を行うための正規表現パターンを実装します。

回答: B

説明:
https://aws.amazon.com/blogs/big-data/enforce-customized-data-quality-rules-in-aws-glue-databrew/

172 / 204

172.

No.172
ある会社は、パートナーから毎日 Amazon S3 バケットにデータファイルを受け取ります。会社は、毎日の AWS Glue 抽出、変換、ロード (ETL) パイプラインを使用して、各データファイルをクリーンアップおよび変換します。ETL パイプラインの出力は、2 番目の S3 バケットの Daily.csv という CSV ファイルに書き込まれます。
場合によっては、毎日のデータファイルが空であったり、必須フィールドの値が欠落していたりすることがあります。ファイルにデータが欠落している場合、会社は前日の CSV ファイルを使用できます。
データエンジニアは、新しい毎日のファイルが完全で有効な場合にのみ、前日のデータファイルが上書きされるようにする必要があります。
最も少ない労力でこれらの要件を満たすソリューションはどれですか?

A. AWS Lambda 関数を呼び出して、ファイルに欠落データがないか確認し、必須フィールドに欠落値を入力します。

B. AWS Glue ETL パイプラインを設定して、AWS Glue Data Quality ルールを使用します。データ品質定義言語 (DQDL) でルールを作成し、必須フィールドの欠落値と空のファイルをチェックします。

C. AWS Glue Studio を使用して ETL パイプラインのコードを変更し、必須フィールドの欠落値を各フィールドの最も一般的な値で入力します。

D. Amazon Athena で SQL クエリを実行して CSV ファイルを読み取り、欠落行を削除します。修正した CSV ファイルを 2 番目の S3 バケットにコピーします。

回答: B

説明:
https://docs.aws.amazon.com/glue/latest/dg/glue-data-quality.html

173 / 204

173.

No.173
マーケティング会社では、Amazon S3 を使用してマーケティングデータを保存しています。この会社は、一部のバケットでバージョン管理を使用しています。この会社は、バケットにデータを読み取ってロードするために、いくつかのジョブを実行します。
ストレージのコストを最適化するために、同社は S3 バケットに存在する不完全なマルチパートアップロードと古いバージョンに関する情報を収集したいと考えています。
これらの要件を、最も少ない運用労力で満たすソリューションはどれですか?

A. AWS CLI を使用して情報を収集します。

B. Amazon S3 インベントリ構成レポートを使用して情報を収集します。

C. Amazon S3 ストレージレンズダッシュボードを使用して情報を収集します。

D. Amazon S3 の AWS 使用状況レポートを使用して情報を収集します。

回答: C

説明:
Amazon S3 ストレージレンズは、S3 ストレージの使用状況とアクティビティの包括的なビューを提供します。これには、不完全なマルチパートアップロード、オブジェクトの古いバージョン、およびその他のストレージ特性に関連するメトリクスと洞察が含まれます。

https://docs.aws.amazon.com/AmazonS3/latest/userguide/storage_lens.html

174 / 204

174.

No.174
あるゲーム会社では、Amazon Kinesis Data Streams を使用してクリックストリームデータを収集しています。同社は Amazon Data Firehose 配信ストリームを使用して、データを JSON 形式で Amazon S3 に保存しています。同社のデータサイエンティストは、Amazon Athena を使用して最新のデータをクエリし、ビジネスインサイトを取得しています。
同社は Athena のコストを削減したいと考えていますが、データパイプラインを再作成することは望んでいません。
どのソリューションが、管理の手間を最小限に抑えてこれらの要件を満たしますか?

A. Firehose の出力形式を Apache Parquet に変更します。カスタム S3 オブジェクト YYYYMMDD プレフィックス式を提供し、大きなバッファサイズを指定します。既存のデータについては、AWS Glue 抽出、変換、ロード (ETL) ジョブを作成します。ETL ジョブを設定して、小さな JSON ファイルを結合し、JSON ファイルを大きな Parquet ファイルに変換し、YYYYMMDD プレフィックスを追加します。ALTER TABLE ADD PARTITION ステートメントを使用して、既存の Athena テーブルのパーティションを反映します。

B. JSON ファイルを結合し、JSON ファイルを Apache Parquet ファイルに変換する Apache Spark ジョブを作成します。Amazon EMR 一時クラスターを毎日起動して Spark ジョブを実行し、別の S3 の場所に新しい Parquet ファイルを作成します。ALTER TABLE SET LOCATION ステートメントを使用して、既存の Athena テーブルに新しい S3 の場所を反映します。

C. Firehose の配信先として Kinesis データストリームを作成します。Amazon Managed Service for Apache Flink (旧称 Amazon Kinesis Data Analytics) を使用して、Kinesis データストリームで Apache Flink を実行します。Flink を使用してデータを集約し、カスタム S3 オブジェクト YYYYMMDD プレフィックスを使用して Apache Parquet 形式で Amazon S3 に保存します。ALTER TABLE ADD PARTITION ステートメントを使用して、既存の Athena テーブルにパーティションを反映します。

D. AWS Lambda 関数を Firehose と統合して、ソースレコードを Apache Parquet に変換し、Amazon S3 に書き込みます。並行して、AWS Glue の抽出、変換、ロード (ETL) ジョブを実行して JSON ファイルを結合し、JSON ファイルを大きな Parquet ファイルに変換します。カスタム S3 オブジェクト YYYYMMDD プレフィックスを作成します。ALTER TABLE ADD PARTITION ステートメントを使用して、既存の Athena テーブルのパーティションを反映します。

回答: A

説明:
JSON がある場合、Firehose は Lambda を必要とせずにそれを変換します。

Firehose の出力形式を Apache Parquet に変更します。カスタム S3 オブジェクト YYYYMMDD プレフィックス式を提供し、大きなバッファサイズを指定します。既存のデータについては、AWS Glue の抽出、変換、ロード (ETL) ジョブを作成します。ETL ジョブを設定して、小さな JSON ファイルを結合し、JSON ファイルを大きな Parquet ファイルに変換し、YYYYMMDD プレフィックスを追加します。ALTER TABLE ADD PARTITION ステートメントを使用して、既存の Athena テーブルのパーティションを反映します。

175 / 204

175.

No.175
ある会社では、既存の Amazon DynamoDB テーブルのコストを管理するためのソリューションが必要です。また、テーブルのサイズを制御する必要もあります。ソリューションは、進行中の読み取りまたは書き込み操作を中断してはなりません。会社は、1 か月後にテーブルからデータを自動的に削除するソリューションを使用したいと考えています。
どのソリューションが、継続的なメンテナンスを最小限に抑えながらこれらの要件を満たしますか?

A. DynamoDB TTL 機能を使用して、タイムスタンプに基づいてデータを自動的に期限切れにします。

B. スケジュールされた Amazon EventBridge ルールを構成して、AWS Lambda 関数を呼び出して、1 か月以上前のデータをチェックします。Lambda 関数を構成して、古いデータを削除します。

C. DynamoDB テーブルでストリームを構成して、AWS Lambda 関数を呼び出します。Lambda 関数を構成して、テーブル内の 1 か月以上前のデータを削除します。

D. AWS Lambda 関数を使用して、DynamoDB テーブルを定期的にスキャンして、1 か月以上前のデータを探します。Lambda 関数を構成して、古いデータを削除します。

回答: A

説明:
https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/TTL.html
DynamoDB TTL は、設定方法に基づいてアイテムを自動的に削除します。

176 / 204

176.

★No.176
ある会社では、Amazon S3 を使用してデータを保存し、Amazon QuickSight を使用して視覚化を作成しています。
この会社には、Hub-Account という AWS アカウントに S3 バケットがあります。S3 バケットは、AWS Key Management Service (AWS KMS) キーによって暗号化されています。この会社の QuickSight インスタンスは、BI-Account という別のアカウントにあります。
この会社は、S3 バケットポリシーを更新して、QuickSight サービスロールにアクセス権を付与します。この会社は、クロスアカウントアクセスを有効にして、QuickSight が S3 バケットとやり取りできるようにしたいと考えています。
この要件を満たす手順の組み合わせはどれですか (2 つ選択してください)。

A. 既存の AWS KMS キーを使用して、QuickSight から S3 バケットへの接続を暗号化します。

B. QuickSight サービスロールがアクセスできるリソースとして S3 バケットを追加します。

C. AWS Resource Access Manager (AWS RAM) を使用して、BI-Account アカウントと S3 バケットを共有します。

D. QuickSight サービスロールに IAM ポリシーを追加して、S3 バケットを暗号化する KMS キーへのアクセス権を QuickSight に付与します。

E. QuickSight サービスロールがアクセスできるリソースとして KMS キーを追加します。

177 / 204

177.

No.177
ある自動車販売会社では、ある地域で販売されている自動車に関するデータを管理しています。この会社は、毎日データを圧縮ファイルとして Amazon S3 にアップロードするベンダーから新車リストに関するデータを受け取ります。圧縮ファイルのサイズは最大 5 KB です。この会社は、データが Amazon S3 にアップロードされるとすぐに最新のリストを確認したいと考えています。
データエンジニアは、ダッシュボードにフィードするために、リストのデータ処理ワークフローを自動化および調整する必要があります。また、データエンジニアは、1 回限りのクエリと分析レポートを実行する機能も提供する必要があります。クエリソリューションはスケーラブルである必要があります。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

A. Amazon EMR クラスターを使用して受信データを処理します。AWS Step Functions を使用してワークフローを調整します。 1 回限りのクエリと分析レポートには Apache Hive を使用します。Amazon OpenSearch Service を使用して、コンピューティング最適化インスタンスにデータを一括取り込みます。ダッシュボードには OpenSearch Service の OpenSearch Dashboards を使用します。

B. プロビジョニングされた Amazon EMR クラスターを使用して、受信データを処理します。AWS Step Functions を使用してワークフローを調整します。1 回限りのクエリと分析レポートには Amazon Athena を使用します。ダッシュボードには Amazon QuickSight を使用します。

C. 受信データの処理には AWS Glue を使用します。ワークフローの調整には AWS Step Functions を使用します。1 回限りのクエリと分析レポートには Amazon Redshift Spectrum を使用します。ダッシュボードには Amazon OpenSearch Service の OpenSearch Dashboards を使用します。

D. 受信データの処理には AWS Glue を使用します。ワークフローの調整には AWS Lambda と S3 イベント通知を使用します。1 回限りのクエリと分析レポートには Amazon Athena を使用します。ダッシュボードには Amazon QuickSight を使用します。

回答: D

説明:
AWS Lambda と S3 イベント通知がワークフローの調整を担当していると説明されている表現はあまり好きではありません。ただし、この場合、AWS Redshift と比較して Athena の方がはるかに適したソリューションであると考えられるため、ある時点でオプション D を選択するのが妥当な選択であると思われます。

178 / 204

178.

No.178
ある会社では、複数の AWS リージョンに AWS リソースがあります。会社が運営する各リージョンには、Amazon EFS ファイルシステムがあります。会社のデータサイエンスチームは、単一のリージョン内でのみ運営しています。データサイエンスチームが扱うデータは、チームのリージョン内にとどまっている必要があります。
データエンジニアは、会社の各リージョン EFS ファイルシステムにあるファイルを処理して、単一のデータセットを作成する必要があります。データエンジニアは、AWS Step Functions ステートマシンを使用して、AWS Lambda 関数をオーケストレーションし、データを処理したいと考えています。
どのソリューションが、最小限の労力でこれらの要件を満たしますか?

A. 各リージョンの EFS ファイルシステムをホストする VPC を、データサイエンスチームのリージョンにある VPC とピアリングします。EFS ファイルのロックを有効にします。データサイエンスチームのリージョンで Lambda 関数を構成して、リージョン固有の各ファイルシステムをマウントします。Lambda 関数を使用してデータを処理します。

B. 各リージョン EFS ファイルシステムを構成して、データサイエンスチームのリージョンにデータをレプリケートします。データサイエンスチームのリージョンで、レプリカファイルシステムをマウントするように Lambda 関数を設定します。Lambda 関数を使用してデータを処理します。

C. 各リージョンに Lambda 関数をデプロイします。リージョン EFS ファイルシステムを Lambda 関数にマウントします。Lambda 関数を使用してデータを処理します。出力をデータサイエンスチームのリージョンの Amazon S3 バケットに保存します。

D. AWS DataSync を使用して、各リージョン EFS ファイルシステムからデータサイエンスチームのリージョンにあるファイルシステムにファイルを転送します。データサイエンスチームのリージョンで Lambda 関数を設定して、同じリージョンにあるファイルシステムをマウントします。Lambda 関数を使用してデータを処理します。

回答: D

説明:
オプション D で AWS DataSync を使用すると、ワークフローをシンプルかつコスト効率よく維持しながら、必要なデータ統合を効率的に実現できます。これは、データのローカリティ要件と一致し、エンジニアリングの労力を削減します。

179 / 204

179.

No.179
ある企業が Amazon EC2 インスタンスでアプリケーションをホストしています。企業は、顧客が管理する AWS インフラストラクチャと安全に通信するために、転送中のデータを暗号化する SSL/TLS 接続を使用する必要があります。
データエンジニアは、デジタル証明書の生成、配布、ローテーションを簡素化するソリューションを実装する必要があります。ソリューションは、SSL/TLS 証明書を自動的に更新してデプロイする必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. EC2 インスタンスに自己管理証明書を保存します。

B. AWS Certificate Manager (ACM) を使用します。

C. AWS Secrets Manager にカスタム自動化スクリプトを実装します。

D. Amazon Elastic Container Service (Amazon ECS) Service Connect を使用します。

回答: B

説明:
ACM は、SSL/TLS 証明書とキーの作成、保存、更新を処理します

https://aws.amazon.com/tw/certificate-manager/

180 / 204

180.

No.180
企業は、顧客データを Amazon S3 バケットに保存します。同社は、AWS KMS キー (SSE-KMS) を使用したサーバー側暗号化を使用してバケットを暗号化しています。データセットには、社会保障番号やアカウントの詳細などの個人識別情報 (PII) が含まれています。
PII としてタグ付けされたデータは、同社が顧客データを分析に使用する前にマスクする必要があります。一部のユーザーは、前処理フェーズ中に PII データに安全にアクセスする必要があります。同社には、エンジニアリングパイプライン全体を通じて PII データをマスクして保護するための、メンテナンスの手間がかからないソリューションが必要です。
これらの要件を満たすソリューションの組み合わせはどれですか (2 つ選択してください)。

A. AWS Glue DataBrew を使用して、分析前に PII データをマスクする抽出、変換、ロード (ETL) タスクを実行します。

B. Amazon GuardDuty を使用して、エンジニアリングパイプラインで使用される PII データのアクセスパターンを監視します。

C. S3 バケットの Amazon Macie 検出ジョブを設定します。

D. AWS Identity and Access Management (IAM) を使用して、アクセス許可を管理し、PII データへのアクセスを制御します。

E. アプリケーションにカスタムスクリプトを記述して、PII データをマスクし、アクセスを制御します。

回答: A、D

説明:
https://aws.amazon.com/tw/blogs/big-data/build-a-data-pipeline-to-automatically-discover-and-mask-pii-data-with-aws-glue-databrew/
A はアクセスのために PII D を見つけてマスクします

181 / 204

181.

No.181
データエンジニアが Amazon EMR クラスターを起動しています。データエンジニアが新しいクラスターにロードする必要があるデータは現在、Amazon S3 バケットにあります。データエンジニアは、保存時と転送時の両方でデータが暗号化されていることを確認する必要があります。
S3 バケット内のデータは、AWS Key Management Service (AWS KMS) キーによって暗号化されています。データエンジニアには、Privacy Enhanced Mail (PEM) ファイルがある Amazon S3 パスがあります。
これらの要件を満たすソリューションはどれですか?

A. Amazon EMR セキュリティ設定を作成します。S3 バケットの保存時の暗号化に適切な AWS KMS キーを指定します。2 番目のセキュリティ設定を作成します。転送中の暗号化に PEM ファイルの Amazon S3 パスを指定します。EMR クラスターを作成し、両方のセキュリティ設定をクラスターにアタッチします。

B. Amazon EMR セキュリティ設定を作成します。S3 バケットのローカルディスク暗号化に適切な AWS KMS キーを指定します。転送中の暗号化に PEM ファイルの Amazon S3 パスを指定します。 EMR クラスターの作成時にセキュリティ設定を使用します。

C. Amazon EMR セキュリティ設定を作成します。S3 バケットの保存時の暗号化に適切な AWS KMS キーを指定します。転送中の暗号化に PEM ファイルの Amazon S3 パスを指定します。EMR クラスターの作成時にセキュリティ設定を使用します。

D. Amazon EMR セキュリティ設定を作成します。S3 バケットの保存時の暗号化に適切な AWS KMS キーを指定します。転送中の暗号化に PEM ファイルの Amazon S3 パスを指定します。EMR クラスターを作成し、セキュリティ設定をクラスターにアタッチします。

回答: C

説明:
https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-specify-security-configuration.html

182 / 204

182.

No.182
小売会社が Amazon Redshift クラスターを使用してリアルタイムの在庫管理をサポートしています。同社は Amazon SageMaker のリアルタイムエンドポイントに ML モデルをデプロイしました。
同社はリアルタイムの在庫推奨を作成したいと考えています。同社はまた、将来の在庫ニーズについても予測したいと考えています。
これらの要件を満たすソリューションはどれですか? (2 つ選択してください)

A. Amazon Redshift ML を使用して在庫に関する推奨事項を生成します。

B. SQL を使用して、予測のためにリモート SageMaker エンドポイントを呼び出します。

C. Amazon Redshift ML を使用して、オフラインモデルトレーニング用に定期的なデータエクスポートをスケジュールします。

D. SageMaker Autopilot を使用して、Amazon Redshift で在庫管理ダッシュボードを作成します。

E. Amazon Redshift をファイルストレージシステムとして使用し、古い在庫管理レポートをアーカイブします。

回答: A、B

説明:
同社はリアルタイムの在庫推奨事項を作成したいと考えています。(A) 推奨事項を選択します。
同社はまた、将来の在庫ニーズについても予測したいと考えています。(B) 予測を選択します。

183 / 204

183.

No.183
ある会社が CSV ファイルを Amazon S3 バケットに保存しています。データエンジニアは CSV ファイルのデータを処理し、処理したデータを新しい S3 バケットに保存する必要があります。
このプロセスでは、列の名前を変更し、特定の列を削除し、各ファイルの 2 行目を無視し、データの最初の行の値に基づいて新しい列を作成し、列の数値で結果をフィルターする必要があります。
どのソリューションが、開発の労力を最小限に抑えてこれらの要件を満たしますか?

A. AWS Glue Python ジョブを使用して CSV ファイルを読み取り、変換します。

B. AWS Glue カスタムクローラーを使用して CSV ファイルを読み取り、変換します。

C. AWS Glue ワークフローを使用して、一連のジョブを構築し、CSV ファイルをクロールして変換します。

D. AWS Glue DataBrew レシピを使用して CSV ファイルを読み取り、変換します。

回答: D

説明:
多かれ少なかれ一般的な操作はすべて、データブリューで使用できます。
https://docs.aws.amazon.com/databrew/latest/dg/recipes.html

184 / 204

184.

No.184
ある会社が Amazon Redshift をデータウェアハウスとして使用しています。データエンコーディングは、データウェアハウスの既存のテーブルに適用されます。データエンジニアは、一部のテーブルに適用されている圧縮エンコーディングがデータに最適ではないことを発見しました。
データエンジニアは、エンコーディングが最適でないテーブルのデータエンコーディングを改善する必要があります。
この要件を満たすソリューションはどれですか?

A. 特定されたテーブルに対して ANALYZE コマンドを実行します。コマンドの出力に基づいて、列の圧縮エンコーディングを手動で更新します。

B. 特定されたテーブルに対して ANALYZE COMPRESSION コマンドを実行します。コマンドの出力に基づいて、列の圧縮エンコーディングを手動で更新します。

C. 特定されたテーブルに対して VACUUM REINDEX コマンドを実行します。

D. 特定されたテーブルに対して VACUUM RECLUSTER コマンドを実行します。

回答: B

説明:
ANALYZE COMPRESSION コマンド: このコマンドは、指定されたテーブルのデータを分析し、各列に最適な圧縮エンコーディングの推奨事項を提供します。現在のエンコーディングを評価し、実際のデータ分布に基づいてより効率的なオプションを提案します。

手動更新: コマンドを実行した後、データエンジニアは推奨された圧縮エンコーディングを手動で適用して、ストレージとクエリのパフォーマンスを最適化できます。

185 / 204

185.

No.185
この会社は大量の顧客レコードを Amazon S3 に保存しています。規制に準拠するために、レコードが作成されてから最初の 30 日間は、新しい顧客レコードにすぐにアクセスできる必要があります。会社は、30 日以上前のレコードにはあまりアクセスしません。
この会社は、Amazon S3 ストレージのコストを最適化する必要があります。
これらの要件を最もコスト効率よく満たすソリューションはどれですか?

A. ライフサイクルポリシーを適用して、30 日後にレコードを S3 標準低頻度アクセス (S3 標準 IA) ストレージに移行します。

B. S3 Intelligent-Tiering ストレージを使用します。

C. 30 日後にレコードを S3 Glacier Deep Archive ストレージに移行します。

D. すべての顧客レコードに S3 Standard-Infrequent Access (S3 Standard-IA) ストレージを使用します。

回答: A

説明:
これは定義が不十分な質問です。最初の 30 日間にデータで何が起きているかは示されていませんが、コスト効率から判断すると B ではないため、A を選択します。

https://docs.aws.amazon.com/AmazonS3/latest/userguide/object-lifecycle-mgmt.html

186 / 204

186.

No.186
データエンジニアは、Amazon QuickSight を使用して、複数の AWS リージョンでの会社の収益を報告するダッシュボードを構築しています。データエンジニアは、ビジュアルに表示されるドリルダウンレベルに関係なく、ダッシュボードにリージョンの合計収益を表示したいと考えています。
これらの要件を満たすソリューションはどれですか?

A. テーブル計算を作成します。

B. 単純な計算フィールドを作成します。

C. レベル認識計算 - 集計 (LAC-A) 関数を作成します。

D. レベル認識計算 - ウィンドウ (LAC-W) 関数を作成します。

回答: C

説明:
https://docs.aws.amazon.com/quicksight/latest/user/level-aware-calculations.html

187 / 204

187.

No.187
小売会社が顧客データを Amazon S3 バケットに保存しています。顧客データの一部には、顧客に関する個人識別情報 (PII) が含まれています。会社は PII データをビジネスパートナーと共有してはなりません。
データエンジニアは、データセット内のオブジェクトをビジネスパートナーが利用できるようにする前に、データセットに PII が含まれているかどうかを判断する必要があります。
最も手動介入が少なくてこの要件を満たすソリューションはどれですか?

A. S3 バケットと S3 オブジェクトを構成して、Amazon Macie へのアクセスを許可します。Macie で自動機密データ検出を使用します。

B. S3 PUT 操作を監視するように AWS CloudTrail を構成します。CloudTrail の証跡を調べて、PII を保存する操作を特定します。

C. S3 オブジェクト内の PII を識別する AWS Lambda 関数を作成します。関数が定期的に実行されるようにスケジュールします。

D. AWS Glue Data Catalog にテーブルを作成します。テーブル内の PII を識別するカスタム SQL クエリを記述します。Amazon Athena を使用してクエリを実行します。

回答: A

説明:

オプション A - Amazon Macie は、自動機密データ検出、分類、保護を目的として設計されています。S3 バケットをスキャンして、機械学習とパターンマッチングを使用して PII を識別および分類できるため、手動でデータを検査したり、カスタム関数を記述したりする必要はありません。
S3 バケットにアクセスするように Macie を設定すると、継続的に監視され、検出されたすべての PII について自動的に警告が表示されるため、手動介入の必要性が大幅に減ります。

188 / 204

188.

No.188
データエンジニアは、データ処理タスクを実行するために、Amazon Athena の既存のテーブルの空のコピーを作成する必要があります。Athena の既存のテーブルには 1,000 行が含まれています。
この要件を満たすクエリはどれですか?

A. CREATE TABLE new_table - LIKE old_table;

B. CREATE TABLE new_table - AS SELECT * FROM old_table - WITH NO DATA;

C. CREATE TABLE new_table - AS SELECT * FROM old_table;

D. CREATE TABLE new_table - as SELECT * FROM old_cable - WHERE 1=1;

回答: B

説明:

オプション B - CTAS から空のテーブルを作成するには、データなしのオプションで B にする必要があります

https://docs.aws.amazon.com/athena/latest/ug/ctas-examples.html#ctas-example-empty-table

189 / 204

189.

No.189
ある会社には Amazon S3 にデータレイクがあります。この会社は複数のアプリケーションの AWS CloudTrail ログを収集しています。この会社はデータレイクにログを保存し、AWS Glue でログをカタログ化し、年に基づいてログをパーティション分割します。この会社は Amazon Athena を使用してログを分析します。
最近、顧客から、Athena テーブルの 1 つに対するクエリでデータが返されなかったという報告がありました。データエンジニアがこの問題を解決する必要があります。
データエンジニアが実行すべきトラブルシューティング手順の組み合わせはどれですか? (2 つ選択してください)

A. Athena が正しい Amazon S3 の場所を指していることを確認します。

B. クエリのタイムアウト期間を延長します。

C. MSCK REPAIR TABLE コマンドを使用します。

D. Athena を再起動します。

E. 問題のある Athena テーブルを削除して再作成します。

回答: A、C

説明:
A. Athena が正しい Amazon S3 の場所を指していることを確認します。

これは、Athena がクエリしているデータソースが S3 内の CloudTrail ログの実際の場所と一致することを確認するための重要な最初のステップです。パスが正しくない場合、Athena はデータを見つけられません。
C. MSCK REPAIR TABLE コマンドを使用します。

データレイクがパーティション分割されている場合、MSCK REPAIR TABLE コマンドを使用すると、Athena のテーブルメタデータを更新できます。このコマンドは、不足しているパーティションをテーブルに追加します。これにより、新しいパーティションが追加されたが Athena に反映されていない場合に、不足しているデータに関連する問題が解決される可能性があります。

190 / 204

190.

No.190
データエンジニアは、AWS で実行される一連の抽出、変換、ロード (ETL) ジョブをオーケストレーションしたいと考えています。ETL ジョブには、Amazon EMR で Apache Spark ジョブを実行し、Salesforce への API 呼び出しを行い、Amazon Redshift にデータをロードする必要があるタスクが含まれています。
ETL ジョブは、失敗と再試行を自動的に処理する必要があります。データエンジニアは、Python を使用してジョブをオーケストレーションする必要があります。
これらの要件を満たすサービスはどれですか?

A. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)

B. AWS Step Functions

C. AWS Glue

D. Amazon EventBridge

回答: A

説明:

オプション A - タスクの失敗を管理するために MWAA と Step Functions の両方を使用できますが、エンジニアは Python を使用してジョブをオーケストレーションしたいため、MWAA の方が適しています。通常、Step Functions は最小限のインフラストラクチャ管理に使用されます。

191 / 204

191.

No.191
データエンジニアは、多くの AWS Lambda 関数が使用するデータフォーマットプロセスを実行するカスタム Python スクリプトを管理しています。データエンジニアが Python スクリプトを変更する必要がある場合、データエンジニアはすべての Lambda 関数を手動で更新する必要があります。
データエンジニアは、Lambda 関数を更新するためのより手動の手間の少ない方法を必要としています。
この要件を満たすソリューションはどれですか?

A. カスタム Python スクリプトを共有 Amazon S3 バケットに保存します。カスタムスクリプトへのポインターを実行コンテキストオブジェクトに保存します。

B. カスタム Python スクリプトを Lambda レイヤーにパッケージ化します。 Lambda レイヤーを Lambda 関数に適用します。

C. カスタム Python スクリプトを共有 Amazon S3 バケットに保存します。環境変数に顧客スクリプトへのポインターを保存します。

D. 各 Lambda 関数に同じエイリアスを割り当てます。関数のエイリアスを指定して、各 Lambda 関数を呼び出します。

回答: B

説明:
Lambda レイヤーを使用すると、複数の Lambda 関数間で共有できる共通コードと依存関係をパッケージ化できます。カスタム Python スクリプトをレイヤーに配置すると、レイヤーを 1 回更新してから、関数コードを直接変更することなく、各 Lambda 関数で使用されるバージョンを更新できます。
このアプローチにより、冗長性が削減され、更新が合理化され、レイヤーを使用するすべての関数が最小限の手作業で最新バージョンのスクリプトにアクセスできるようになります。

192 / 204

192.

No.192
ある会社が顧客データを Amazon S3 バケットに保存しています。会社内の複数のチームが顧客データをダウンストリーム分析に使用したいと考えています。会社は、チームが顧客に関する個人識別情報 (PII) にアクセスできないようにする必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこの要件を満たしますか?

A. Amazon Macie を使用して機密データ検出ジョブを作成し、実行して PII を検出して削除します。

B. S3 Object Lambda を使用してデータにアクセスし、Amazon Comprehend を使用して PII を検出して削除します。

C. Amazon Data Firehose と Amazon Comprehend を使用して PII を検出して削除します。

D. AWS Glue DataBrew ジョブを使用して、PII データを 2 番目の S3 バケットに保存します。元の S3 バケットに残っているデータに対して分析を実行します。

回答: B

説明:

オプション A - A ではありません。Macie は PII のみを検出できます。 Macie は PII を検出できますが、自動的に編集することはできません。

オプション B - S3 Object Lambda と Amazon Comprehend を搭載した事前構築済みの AWS Lambda 関数を使用すると、S3 から取得した PII データをアプリケーションに返す前に保護できます。

193 / 204

193.

No.193
ある会社が処理済みのデータを S3 バケットに保存しています。この会社には厳格なデータアクセスポリシーがあります。この会社は IAM ロールを使用して、社内のチームに S3 バケットへのさまざまなレベルのアクセスを許可しています。
この会社は、ユーザーがデータアクセスポリシーに違反したときに通知を受け取りたいと考えています。各通知には、ポリシーに違反したユーザーのユーザー名が含まれている必要があります。
これらの要件を満たすソリューションはどれですか?

A. AWS Config ルールを使用して、データアクセスポリシー違反を検出します。コンプライアンスアラームを設定します。

B. Amazon CloudWatch メトリクスを使用して、オブジェクトレベルのメトリクスを収集します。CloudWatch アラームを設定します。

C. AWS CloudTrail を使用して、S3 バケットのオブジェクトレベルのイベントを追跡します。イベントを Amazon CloudWatch に転送して、CloudWatch アラームを設定します。

D. Amazon S3 サーバーのアクセスログを使用して、バケットへのアクセスを監視します。アクセスログを Amazon CloudWatch ロググループに転送します。ロググループのメトリックフィルターを使用して、CloudWatch アラームを設定します。

回答: C

説明:

オプション C - API 呼び出しを監視するには、CloutTrial を使用します。とても簡単です。

194 / 204

194.

No.194
ある会社では、サードパーティから取得した顧客データを Amazon Redshift データウェアハウスにロードする必要があります。この会社は、注文データと製品データを同じデータウェアハウスに保存しています。この会社は、結合されたデータセットを使用して、潜在的な新規顧客を特定したいと考えています。
データエンジニアは、ソースデータのフィールドの 1 つに JSON 形式の値が含まれていることに気付きました。
データエンジニアは、最小限の労力で JSON データをデータウェアハウスにロードするにはどうすればよいでしょうか。

A. SUPER データ型を使用して、Amazon Redshift テーブルにデータを保存します。

B. AWS Glue を使用して JSON データをフラット化し、Amazon Redshift テーブルに取り込みます。

C. Amazon S3 を使用して JSON データを保存します。Amazon Athena を使用してデータをクエリします。

D. AWS Lambda 関数を使用して JSON データをフラット化します。データを Amazon S3 に保存します。

回答: A

説明:

オプション A - Amazon Redshift の SUPER データ型を使用すると、データをフラット化または変換することなく、JSON などの半構造化データを Redshift テーブルに直接保存できます。

195 / 204

195.

No.195
ある会社が、MySQL データベースに保存している販売記録を分析したいと考えています。会社は、その記録を Salesforce が特定した販売機会と相関させたいと考えています。
会社は毎日 2 GB の販売記録を受け取ります。会社には 100 GB の特定された販売機会があります。データエンジニアは、販売記録と販売機会を分析して相関させるプロセスを開発する必要があります。このプロセスは毎晩 1 回実行する必要があります。
どのソリューションが、運用オーバーヘッドが最も少なく、これらの要件を満たしますか?

A. Amazon Managed Workflows for Apache Airflow (Amazon MWAA) を使用して、両方のデータセットを取得します。AWS Lambda 関数を使用してデータセットを相関させます。AWS Step Functions を使用してプロセスを調整します。

B. Amazon AppFlow を使用して、Salesforce から販売機会を取得します。AWS Glue を使用して、MySQL データベースから販売記録を取得します。販売記録を販売機会と相関させます。Amazon Managed Workflows for Apache Airflow (Amazon MWAA) を使用してプロセスを調整します。

C. Amazon AppFlow を使用して Salesforce から販売機会を取得します。AWS Glue を使用して MySQL データベースから販売記録を取得します。販売記録と販売機会を関連付けます。AWS Step Functions を使用してプロセスをオーケストレーションします。

D. Amazon AppFlow を使用して Salesforce から販売機会を取得します。Amazon Kinesis Data Streams を使用して MySQL データベースから販売記録を取得します。Amazon Managed Service for Apache Flink を使用してデータセットを関連付けます。AWS Step Functions を使用してプロセスをオーケストレーションします。

回答: C

説明:

オプション C - Salse Force からデータを取得するには App Flow、ETL には Glue、オーケストレーションには Step Functions を使用し、すべてサーバーレスで管理され、オーバーヘッドは最小限です。

196 / 204

196.

No.196
ある会社がサーバーログを Amazon S3 バケットに保存しています。会社はログを 1 年間保持する必要があります。1 年後にはログは必要ありません。
データエンジニアは、1 年以上経過したログを自動的に削除するソリューションを必要としています。
最も少ない運用オーバーヘッドでこれらの要件を満たすソリューションはどれですか?

A. 1 年後にログを削除するように S3 ライフサイクル設定を定義します。

B. 1 年後にログを削除する AWS Lambda 関数を作成します。

C. 1 年後にログを削除するように Amazon EC2 インスタンスで cron ジョブをスケジュールします。

D. 1 年後にログを削除するように AWS Step Functions ステートマシンを構成します。

回答: A

説明:

オプション A - Amazon S3 はライフサイクルポリシーを提供しており、バケットに保存されているオブジェクトの管理を自動化できます。指定した期間よりも古いオブジェクトを自動的に削除するルールを構成できます。

197 / 204

197.

No.197
ある会社が、複数のステップを含む AWS Step Functions のサーバーレスデータ処理ワークフローを設計しています。処理ワークフローは外部 API からデータを取り込み、複数の AWS Lambda 関数を使用してデータを変換し、変換されたデータを Amazon DynamoDB にロードします。
会社では、受信データの内容に基づいて特定の手順を実行するワークフローが必要です。
この要件を満たすには、どの Step Functions 状態タイプを使用する必要がありますか?

A. 並列

B. 選択

C. タスク

D. マップ

回答: B

説明:
選択は条件付きロジックを追加します。つまり、受信データのステータスです。

198 / 204

198.

No.198
データエンジニアが Amazon Athena に cloudtrail_logs というテーブルを作成し、AWS CloudTrail ログをクエリして監査用のデータを準備しました。データエンジニアは、2024 年の初めから発生したエラーをエラーコードとともに表示するクエリを作成する必要があります。クエリは最新の 10 件のエラーを返す必要があります。
これらの要件を満たすクエリはどれですか?

A. select count (*) as TotalEvents, eventname, errorcode, errormessage from cloudtrail_logswhere errorcode is not nulland eventtime >= '2024-01-01T00:00:00Z' group by eventname, errorcode, errormessageorder by TotalEvents desclimit 10;

B. cloudtrail_logs から、TotalEvents、eventname、errorcode、errormessage として count (*) を選択し、eventtime >= '2024-01-01T00:00:00Z' で group by eventname、errorcode、errormessage order by TotalEvents desc limit 10;

C. cloudtrail_logs から、TotalEvents、eventname、errorcode、errormessage として count (*) を選択し、eventtime >= '2024-01-01T00:00:00Z' で group by eventname、errorcode、errormessageorder by eventname asc limit 10;

D. cloudtrail_logs から、TotalEvents、eventname、errorcode、errormessage として count (*) を選択し、errorcode が null ではなく、eventtime >= '2024-01-01T00:00:00Z' で group by eventname、errorcode、errormessagelimit 10;

回答: B

説明:
これは同じではありませんが、重要な点を示しています。降順が正解です。
SELECT *
FROM cloudtrail_logs
WHERE
eventTime >= '2024-01-01'
AND errorCode IS NOT NULL
ORDER BY eventTime DESC
LIMIT 10;

199 / 204

199.

No.199
オンライン小売業者は、複数の配送パートナーを使用して顧客に商品を配送しています。配送パートナーは注文の概要を小売業者に送信します。小売業者は注文の概要を Amazon S3 に保存します。
注文の概要の一部には、顧客に関する個人識別情報 (PII) が含まれています。データエンジニアは注文の概要で PII を検出して、会社が PII を編集できるようにする必要があります。
どのソリューションが、運用オーバーヘッドを最小限に抑えてこれらの要件を満たしますか?

A. Amazon Textract

B. Amazon S3 Storage Lens

C. Amazon Macie

D. Amazon SageMaker Data Wrangler

回答: C

説明:
検出のみ (編集なし) = Macie

AWS の PII --> Macie

200 / 204

200.

No.200
ある会社には、ユーザーがさまざまな IAM ロールを使用してアクセスする Amazon Redshift データウェアハウスがあります。毎日 100 人以上のユーザーがデータウェアハウスにアクセスしています。
会社は、各ユーザーの職務、権限、およびデータの機密性に基づいて、オブジェクトへのユーザーアクセスを制御したいと考えています。
これらの要件を満たすソリューションはどれですか?

A. Amazon Redshift のロールベースのアクセス制御 (RBAC) 機能を使用します。

B. Amazon Redshift の行レベルセキュリティ (RLS) 機能を使用します。

C. Amazon Redshift の列レベルセキュリティ (CLS) 機能を使用します。

D. Amazon Redshift で動的データマスキングポリシーを使用します。

回答: A

説明:
この場合、行レベルまたは列レベルでは不十分です。

可能な回答は A と B のみですが、B では不十分です。

201 / 204

201.

No.201
ある会社では、データガバナンスおよびビジネスカタログソリューションとして Amazon DataZone を使用しています。会社はデータを Amazon S3 データレイクに保存しています。会社は AWS Glue を AWS Glue データカタログとともに使用しています。
データエンジニアは、AWS Glue データ品質スコアを Amazon DataZone ポータルに公開する必要があります。
この要件を満たすソリューションはどれですか?

A. 特定の AWS Glue テーブルに適用されるデータ品質定義言語 (DQDL) ルールを使用してデータ品質ルールセットを作成します。ルールセットが毎日実行されるようにスケジュールします。Amazon DataZone プロジェクトが Amazon Redshift データソースを持つように構成します。データソースのデータ品質設定を有効にします。

B. AWS Glue ETL ジョブが Evaluate Data Quality 変換を使用するように構成します。ジョブ内でデータ品質ルールセットを定義します。Amazon DataZone プロジェクトが AWS Glue データソースを持つように構成します。データソースのデータ品質設定を有効にします。

C. 特定の AWS Glue テーブルに適用されるデータ品質定義言語 (DQDL) ルールを使用してデータ品質ルールセットを作成します。ルールセットが毎日実行されるようにスケジュールします。 Amazon DataZone プロジェクトを AWS Glue データソースを持つように構成します。データソースのデータ品質設定を有効にします。

D. AWS Glue ETL ジョブを Evaluate Data Quality 変換を使用するように構成します。ジョブ内でデータ品質ルールセットを定義します。Amazon DataZone プロジェクトを Amazon Redshift データソースを持つように構成します。データソースのデータ品質設定を有効にします。

回答: C

説明:
データゾーンは、データソースとして Glue を使用するように構成する必要があります。

202 / 204

202.

No.202
ある会社には Amazon Redshift にデータウェアハウスがあります。セキュリティ規制に準拠するために、会社はデータウェアハウスのすべてのユーザーアクティビティと接続アクティビティをログに記録して保存する必要があります。
これらの要件を満たすソリューションはどれですか?

A. Amazon S3 バケットを作成します。Amazon Redshift クラスターのログ記録を有効にします。ログを保存するために、ログ設定で S3 バケットを指定します。

B. Amazon Elastic File System (Amazon EFS) ファイルシステムを作成します。Amazon Redshift クラスターのログ記録を有効にします。EFS ファイルシステムにログを書き込みます。

C. Amazon Aurora MySQL データベースを作成します。Amazon Redshift クラスターのログ記録を有効にします。Aurora MySQL データベースのテーブルにログを書き込みます。

D. Amazon Elastic Block Store (Amazon EBS) ボリュームを作成します。Amazon Redshift クラスターのログ記録を有効にします。EBS ボリュームにログを書き込みます。

回答: A

説明:
ログを保存するための S3 バケット。

203 / 204

203.

No.203
ある企業が、データウェアハウスを Teradata から Amazon Redshift に移行したいと考えています。
どのソリューションが、運用上の労力を最小限に抑えてこの要件を満たしますか?

A. AWS Database Migration Service (AWS DMS) スキーマ変換を使用してスキーマを移行します。AWS DMS を使用してデータを移行します。

B. AWS スキーマ変換ツール (AWS SCT) を使用してスキーマを移行します。AWS Database Migration Service (AWS DMS) を使用してデータを移行します。

C. AWS Database Migration Service (AWS DMS) を使用してデータを移行します。自動スキーマ変換を使用します。

D. Teradata からスキーマ定義を手動でエクスポートします。スキーマを Amazon Redshift データベースに適用します。AWS Database Migration Service (AWS DMS) を使用してデータを移行します。

回答: B

説明:
A はよく似ていますが、AWS DMS のスキーマ変換機能は限られています。スキーマ移行には AWS SCT と組み合わせる方が適しています。

204 / 204

204.

No.204
ある会社では、さまざまな AWS およびサードパーティのデータストアを使用しています。この会社は、すべてのデータを中央データウェアハウスに統合して分析を実行したいと考えています。ユーザーは、分析クエリの応答時間を短縮する必要があります。
この会社は、Amazon QuickSight をダイレクトクエリモードで使用してデータを視覚化します。ユーザーは通常、予測できないスパイクが発生するクエリを毎日数時間実行します。
どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

A. Amazon Redshift Serverless を使用して、すべてのデータを Amazon Redshift マネージドストレージ (RMS) にロードします。

B. Amazon Athena を使用して、すべてのデータを Apache Parquet 形式で Amazon S3 にロードします。

C. Amazon Redshift プロビジョニング済みクラスターを使用して、すべてのデータを Amazon Redshift マネージドストレージ (RMS) にロードします。

D. Amazon Aurora PostgreSQL を使用して、すべてのデータを Aurora にロードします。

回答: A

説明:
Redshift Serverless は、クエリのワークロードに基づいてリソースを自動的にスケールアップまたはスケールダウンします。これにより、手動での容量プロビジョニングとスケーリングが不要になり、運用オーバーヘッドが大幅に削減されます。

サーバーレスは予測不可能な負荷に向いています。

Your score is

■AWS DEA-C01(JP) Q.1-100

/100

AWS DEA-C01(JP) Q.1-100

[Q. 1-100] AWS Certified Data Engineer - Associate は、コアデータ関連の AWS サービスに関するスキルと知識や、データの取り込みと変換、プログラミングの概念を適用しながらのデータパイプラインのオーケストレート、データモデルの設計、データライフサイクルの管理、データ品質の確保といった能力を検証します。

1 / 100

A. AWS Glue セキュリティグループを更新して、Amazon S3 VPC ゲートウェイエンドポイントからの受信トラフィックを許可します。

B. S3 バケットポリシーを設定して、AWS Glue ジョブに S3 バケットへのアクセス許可を明示的に付与します。

C. AWS Glue ジョブコードを確認して、AWS Glue 接続の詳細に完全修飾ドメイン名が含まれていることを確認します。

D. VPC のルートテーブルに、Amazon S3 VPC ゲートウェイエンドポイントの受信ルートと送信ルートが含まれていることを確認します。

回答: D

2 / 100

A. 各国の顧客データ用に個別のテーブルを作成します。アナリストがサービスを提供する国に基づいて、各アナリストにアクセスを提供します。

回答: B

3 / 100

A. API 呼び出しを使用して、AWS Data Exchange からサードパーティのデータセットにアクセスして統合します。

B. API 呼び出しを使用して、AWS DataSync からサードパーティのデータセットにアクセスして統合します。

C. Amazon Kinesis Data Streams を使用して、AWS CodeCommit リポジトリからサードパーティのデータセットにアクセスして統合します。

D. Amazon Kinesis Data Streams を使用して、Amazon Elastic Container Registry (Amazon ECR) からサードパーティのデータセットにアクセスして統合します。

回答: A

4 / 100

A. データストレージに Amazon Aurora を使用します。データ分析には Amazon Redshift プロビジョニング済みクラスターを使用します。

B. データストレージに Amazon S3 を使用します。データ分析には Amazon Athena を使用します。

C. 集中型データガバナンスとアクセス制御には AWS Glue DataBrew を使用します。

D. データストレージに Amazon RDS を使用します。データ分析には Amazon EMR を使用します。

E. 集中型データガバナンスとアクセス制御には AWS Lake Formation を使用します。

回答: B、E

5 / 100

A. 共有 Amazon S3 バケット内の実行コンテキストオブジェクトにカスタム Python スクリプトへのポインターを保存します。

B. カスタム Python スクリプトを Lambda レイヤーにパッケージ化します。Lambda レイヤーを Lambda 関数に適用します。

C. 共有 Amazon S3 バケット内の環境変数にカスタム Python スクリプトへのポインターを保存します。

D. 各 Lambda 関数に同じエイリアスを割り当てます。関数のエイリアスを指定して、各 Lambda 関数を呼び出します。

回答: B

6 / 100

A. AWS Step Functions

B. AWS Glue ワークフロー

C. AWS Glue Studio

D. Apache Airflow 向け Amazon マネージドワークフロー (Amazon MWAA)

回答: B

説明:
Glue ワークフローは、ここでは最も簡単なソリューションです:

https://aws.amazon.com/blogs/big-data/orchestrate-an-etl-pipeline-using-aws-glue-workflows-triggers-and-crawlers-with-custom-classifiers/

https://aws.amazon.com/blogs/big-data/extracting-multidimensional-data-from-microsoft-sql-server-analysis-services-using-aws-glue/

7 / 100

A. Amazon Redshift への WebSocket 接続を確立します。

B. Amazon Redshift Data API を使用します。

C. Amazon Redshift への Java Database Connectivity (JDBC) 接続を設定します。

D. 頻繁にアクセスするデータを Amazon S3 に保存します。Amazon S3 Select を使用してクエリを実行します。

回答: B

8 / 100

C. ユースケースごとに IAM ロールを作成します。ユースケースごとに適切なアクセス許可をロールに割り当てます。ロールを Athena に関連付けます。

回答: B

説明:
https://docs.aws.amazon.com/athena/latest/ug/user-created-workgroups.html

9 / 100

A. Glue ジョブのプロパティで FLEX 実行クラスを選択します。

B. Glue ジョブのプロパティでスポットインスタンスタイプを使用します。

C. Glue ジョブのプロパティで STANDARD 実行クラスを選択します。

D. Glue ジョブのプロパティの GlueVersion フィールドで最新バージョンを選択します。

回答: A

10 / 100

10.

回答: A

説明:
「ユーザーが Amazon S3 バケットにデータをアップロードする場合のみ」は、s3:ObjectCreated:* が必要なため、B と C を除外します。

S3 イベント通知には SNS は必要ないため、A の方が簡単です。

11 / 100

11.

A. データ形式を .csv から JSON 形式に変更します。Snappy 圧縮を適用します。

B. Snappy 圧縮を使用して .csv ファイルを圧縮します。

C. データ形式を .csv から Apache Parquet に変更します。Snappy 圧縮を適用します。

D. gzip 圧縮を使用して .csv ファイルを圧縮します。

回答: C

説明:

12 / 100

12. どのソリューションが、最も低いレイテンシーでこれらの要件を満たしますか?

回答: A

13 / 100

13.

回答: B

説明:

14 / 100

14.

A. 2 番目の Lambda 関数を使用して、Amazon CloudWatch イベントに基づいて最初の Lambda 関数を呼び出します。

B. Amazon Redshift Data API を使用して、イベントを Amazon EventBridge に公開します。 Lambda 関数を呼び出すように EventBridge ルールを設定します。

D. 2 番目の Lambda 関数を使用して、AWS CloudTrail イベントに基づいて最初の Lambda 関数を呼び出します。

回答: B

説明:
https://docs.aws.amazon.com/redshift/latest/mgmt/data-api-monitoring-events.html

15 / 100

15.

A. AWS DataSync

B. AWS Glue

C. AWS Direct Connect

D. Amazon S3 Transfer Acceleration

回答: A

説明:

16 / 100

16.

A. AWS Lambda

B. AWS Database Migration Service (AWS DMS)

C. AWS Direct Connect

D. AWS DataSync

回答: B

説明:
回答を事前にマークする管理者が誰であれ、今すぐ始めましょう。

17 / 100

17.

A. ETL ジョブを 1 時間ごとに実行するように AWS Glue トリガーを構成します。

B. AWS Glue DataBrew を使用して、分析用にデータをクリーンアップして準備します。

C. AWS Lambda 関数を使用して、ETL ジョブを 1 時間ごとにスケジュールして実行します。

D. AWS Glue 接続を使用して、データソースと Amazon Redshift 間の接続を確立します。

E. Redshift Data API を使用して、変換されたデータを Amazon Redshift にロードします。

回答: A、D

説明:

オプション A - ETL ジョブを 1 時間ごとに実行するように AWS Glue トリガーを構成します。

スケーラビリティと統合: Glue トリガーは Glue ETL ジョブとシームレスに連携し、Glue エコシステム内での効率的なスケジュールと実行を保証します。

オプション C - AWS Glue 接続を使用して、データソースと Amazon Redshift 間の接続を確立します。

一元管理: Glue 接続は Glue サービス内で一元管理されるため、接続管理が効率化され、運用オーバーヘッドが削減されます。

18 / 100

18.

A. Redshift Serverless ワークグループのワークロード管理 (WLM) で同時実行スケーリングをオンにします。

B. Redshift クラスターのワークロード管理 (WLM) キューレベルで同時実行スケーリングをオンにします。

C. 新しい Redshift クラスターの作成時に設定で同時実行スケーリングをオンにします。

D. Redshift クラスターの 1 日あたりの使用量クォータの同時実行スケーリングをオンにします。

回答: B

説明:

19 / 100

19.

A. AWS Lambda 関数と Athena Boto3 クライアントの start_query_execution API 呼び出しを使用して、Athena クエリをプログラムで呼び出します。

C. AWS Glue Python シェルジョブと Athena Boto3 クライアントの start_query_execution API 呼び出しを使用して、Athena クエリをプログラムで呼び出します。

E. Amazon Managed Workflows for Apache Airflow (Amazon MWAA) を使用して、AWS Batch で Athena クエリをオーケストレーションします。

回答: A、B

20 / 100

20.

A. AWS Glue

B. Amazon EMR

C. AWS Lambda

D. Amazon Redshift

回答: B

21 / 100

21.

回答: B

説明:
Data Quality はどのようにして PII を難読化しますか?これは Glue Studio で直接実行できます: https://docs.aws.amazon.com/glue/latest/dg/detect-PII.html

22 / 100

22.

A. AWS Glue ワークフロー

B. AWS Step Functions タスク

C. AWS Lambda 関数

D. Amazon Managed Workflows for Apache Airflow (Amazon MWAA) ワークフロー

回答: B

説明:
Glue ワークフローは、クローラーとグルージョブのみをオーケストレーションします。

23 / 100

23.

A. 6 か月後にオブジェクトを S3 One Zone-Infrequent Access (S3 One Zone-IA) に移行します。 2 年後にオブジェクトを S3 Glacier Flexible Retrieval に転送します。

B. 6 か月後にオブジェクトを S3 Standard-Infrequent Access (S3 Standard-IA) に移行します。2 年後にオブジェクトを S3 Glacier Flexible Retrieval に転送します。

C. 6 か月後にオブジェクトを S3 Standard-Infrequent Access (S3 Standard-IA) に移行します。2 年後にオブジェクトを S3 Glacier Deep Archive に転送します。

D. 6 か月後にオブジェクトを S3 One Zone-Infrequent Access (S3 One Zone-IA) に移行します。2 年後にオブジェクトを S3 Glacier Deep Archive に転送します。

回答: C

24 / 100

24.

A. Redshift データ共有を使用して、営業チームの BI クラスターを ETL クラスターのコンシューマーとして設定します。

B. 営業チームの要件に基づいてマテリアライズドビューを作成します。営業チームに ETL クラスターへの直接アクセスを許可します。

C. 営業チームの要件に基づいてデータベースビューを作成します。営業チームに ETL クラスターへの直接アクセスを許可します。

回答: A

25 / 100

25.

B. DynamoDB、Amazon RDS、および Amazon Redshift から Amazon S3 にデータをコピーします。S3 ファイルで Amazon Athena クエリを直接実行します。

C. Amazon Athena Federated Query を使用して、すべてのデータソースからのデータを結合します。

D. Redshift Spectrum を使用して、Redshift から直接 DynamoDB、Amazon RDS、および Amazon S3 のデータをクエリします。

回答: C

26 / 100

26.

A. Hadoop 分散ファイルシステム (HDFS) を永続データストアとして使用します。

B. Amazon S3 を永続データストアとして使用します。

C. コアノードとタスクノードに x86 ベースのインスタンスを使用します。

D. コアノードとタスクノードに Graviton インスタンスを使用します。

E. すべてのプライマリノードにスポットインスタンスを使用します。

回答: B、D

AWS Graviton ベースのインスタンスは、同等の x86 ベースの Amazon EC2 インスタンスよりも最大 20% 安価です: https://aws.amazon.com/ec2/graviton/

27 / 100

27. どのソリューションが、運用オーバーヘッドを最小限に抑えながらこれらの要件を満たしますか?

回答: C

説明:

ここでのキーワードはほぼリアルタイムです。S3 と COPY が関係する場合は、ほぼリアルタイムにはなりません。

回答: C

説明:

ここでのキーワードはほぼリアルタイムです。S3 と COPY が関係する場合は、ほぼリアルタイムにはなりません。

28 / 100

28.

A. S3 バケット内のデータをパーティション分割します。データを年、月、日ごとに整理します。

B. ワーカータイプをスケールアップして、AWS Glue インスタンスのサイズを増やします。

C. AWS Glue スキーマを DynamicFrame スキーマクラスに変換します。

D. AWS Glue ジョブのスケジュール頻度を調整して、ジョブが 1 日に半分の回数実行されるようにします。

E. AWS Glue へのアクセスを許可する IAM ロールを変更して、すべての S3 機能へのアクセスを許可します。

回答: A、B

説明:

29 / 100

29.

A. 並列状態

B. 選択状態

C. マップ状態

D. 待機状態

回答: C

30 / 100

30.

B. AWS Glue の抽出、変換、ロード (ETL) ジョブを作成します。FindMatches 機械学習 (ML) 変換を使用してデータを変換し、データ重複排除を実行します。

回答: B

31 / 100

31.

A. gzip 圧縮を使用して、個々のファイルを 1 GB から 5 GB のサイズに圧縮します。

B. 列指向ストレージファイル形式を使用します。

C. 最も一般的なクエリ述語に基づいてデータをパーティション分割します。

D. データを 10 KB 未満のファイルに分割します。

E. 分割できないファイル形式を使用します。

回答: B、C

https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-external-performance.html

32 / 100

32.

A. DB インスタンスのパブリックアクセス設定をオンにします。

B. DB インスタンスのセキュリティグループを更新して、データベースポートでの Lambda 関数の呼び出しのみを許可します。

C. DB インスタンスが使用するのと同じサブネットで実行されるように Lambda 関数を構成します。

E. プライベートサブネットのネットワーク ACL を更新して、データベースポート経由のアクセスを許可する自己参照ルールを含めます。

回答: C、D

D: 動作し、運用オーバーヘッドが少ないセキュリティグループを再利用します。

33 / 100

33. どのソリューションが、運用オーバーヘッドが最も少なく、これらの要件を満たしますか?

A. Amazon Elastic Container Service (Amazon ECS) クラスターにカスタム Python スクリプトをデプロイします。

B. プロビジョニングされた同時実行性を備えた AWS Lambda Python 関数を作成します。

C. Amazon Elastic Kubernetes Service (Amazon EKS) で API Gateway と統合できるカスタム Python スクリプトをデプロイします。

回答: B

34 / 100

34.

回答: D

35 / 100

35.

A. AWS Lambda 関数を作成して、以前のデータと現在のデータの間の変更を識別します。Lambda 関数を設定して、変更をデータレイクに取り込みます。

B. データを Amazon RDS for MySQL に取り込みます。AWS Database Migration Service (AWS DMS) を使用して、変更されたデータをデータレイクに書き込みます。

回答: C

説明:
https://aws.amazon.com/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/

36 / 100

36.

A. AWS Glue パーティションインデックスを作成します。パーティションフィルタリングを有効にします。

B. ユーザークエリの WHERE 句でデータに共通する列に基づいてデータをバケット化します。

C. S3 バケットプレフィックスに基づいて Athena パーティションプロジェクションを使用します。

D. S3 バケット内のデータを Apache Parquet 形式に変換します。

E. Amazon EMR S3DistCP ユーティリティを使用して、S3 バケット内の小さなオブジェクトを大きなオブジェクトに結合します。

回答: A、C

37 / 100

37.

回答: D

38 / 100

38.

C. 既存の gp2 ボリュームのボリュームタイプを gp3 に変更します。ボリュームサイズ、IOPS、スループットの新しい値を入力します。

D. AWS DataSync を使用して新しい gp3 ボリュームを作成します。元の gp2 ボリュームから新しい gp3 ボリュームにデータを転送します。

回答: C

説明:
https://aws.amazon.com/blogs/storage/migrate-your-amazon-ebs-volumes-from-gp2-to-gp3-and-save-up-to-20-on-costs/

39 / 100

39.

40 / 100

40.

A. STL_USAGE_CONTROL

B. STL_ALERT_EVENT_LOG

C. STL_QUERY_METRICS

D. STL_PLAN_INFO

回答: B

STL_PLAN_INFO は、実行プランに関する詳細情報を提供します。オプティマイザーの統計と警告は、問題のあるクエリプランに関する洞察を提供します。

STL_USAGE_CONTROL はユーザーアクティビティを制限しますが、異常はログに記録しません。

STL_QUERY_METRICS には実行統計がありますが、プラン診断はありません。

41 / 100

41.

A. AWS Glue PySpark ジョブを使用して、ソースデータを .csv 形式でデータレイクに取り込みます。

C. AWS Glue PySpark ジョブを使用して、Apache Avro 形式でソースデータをデータレイクに取り込みます。

回答: D

42 / 100

42.

A. 各リージョンのデータフィルターを使用して、S3 パスをデータの場所として登録します。

B. S3 パスを AWS Lake Formation の場所として登録します。

C. HR 部門の IAM ロールを変更して、各部門のリージョンのデータフィルターを追加します。

D. AWS Lake Formation できめ細かなアクセス制御を有効にします。リージョンごとにデータフィルターを追加します。

回答: B、D

説明:
https://docs.aws.amazon.com/lake-formation/latest/dg/data-filters-about.html
https://docs.aws.amazon.com/lake-formation/latest/dg/access-control-fine-grained.html

43 / 100

43.

回答: B、D

説明:
https://docs.aws.amazon.com/step-functions/latest/dg/procedure-create-iam-role.html
https://docs.aws.amazon.com/step-functions/latest/dg/service-integration-iam-templates.html

44 / 100

44.

回答: C

45 / 100

45.

A. Athena クエリ設定

B. Athena ワークグループ

C. Athena データソース

D. Athena クエリエディター

回答: B

46 / 100

46.

A. AWS Glue クローラーを毎朝実行するようにスケジュールします。

B. AWS Glue CreatePartition API を 1 日に 2 回手動で実行します。

C. Amazon S3 にデータを書き込むコードを使用して、Boto3 AWS Glue create_partition API 呼び出しを呼び出します。

D. AWS Glue コンソールから MSCK REPAIR TABLE コマンドを実行します。

回答: C

47 / 100

47. 運用オーバーヘッドが最も少ない AWS サービスまたは機能はどれですか?

A. Amazon Managed Streaming for Apache Kafka (Amazon MSK)

B. Amazon AppFlow

C. AWS Glue Data Catalog

D. Amazon Kinesis

回答: B

48 / 100

48. FROM sales_data -

WHERE year = 2023 -

GROUP BY product_name -

データエンジニアは、これらの要件を満たすために Athena クエリをどのように変更する必要がありますか?

A. 集計のために、sum(sales_amount) を count(*) に置き換えます。

B. WHERE year = 2023 を WHERE extract(year FROM sales_data) = 2023 に変更します。

C. GROUP BY 句の後に HAVING sum(sales_amount) > 0 を追加します。

D. GROUP BY 句を削除します。

回答: B

49 / 100

49.

B. S3 Select を使用して SQL SELECT ステートメントを記述し、S3 オブジェクトから必要な列を取得します。

C. S3 オブジェクトを消費して必要な列をクエリするための AWS Glue DataBrew プロジェクトを準備します。

D. S3 オブジェクトで AWS Glue クローラーを実行します。Amazon Athena で SQL SELECT ステートメントを使用して、必要な列をクエリします。

回答: B

50 / 100

50.

A. Apache Airflow を使用してマテリアライズドビューを更新します。

B. Amazon Redshift 内で AWS Lambda ユーザー定義関数 (UDF) を使用して、マテリアライズドビューを更新します。

C. Amazon Redshift のクエリエディタ v2 を使用して、マテリアライズドビューを更新します。

D. AWS Glue ワークフローを使用して、マテリアライズドビューを更新します。

回答: C

51 / 100

51.

C. AWS Glue ワークフローを使用して、Lambda 関数を実行してから AWS Glue ジョブを実行します。

回答: A

これにより、Airflow などの独自のワークフローオーケストレーションサーバーを管理および維持する必要がなくなります。

52 / 100

52.

回答: B

53 / 100

53.

A. プロビジョニングされた容量を、ピーク負荷時間帯に現在存在する最大容量まで増やします。

回答: C

54 / 100

54.

回答: B

55 / 100

55.

A. ソートキーを、SQL SELECT ステートメントの WHERE 句で最も頻繁に使用されるデータ列に変更します。

B. 分散キーを、最も大きなディメンションを持つテーブル列に変更します。

C. 予約済みノードを ra3.4xlarge から ra3.16xlarge にアップグレードします。

D. 主キーを、SQL SELECT ステートメントの WHERE 句で最も頻繁に使用されるデータ列に変更します。

回答: B

説明:

56 / 100

56.

回答: A

57 / 100

57.

回答: D

58 / 100

58.

A. Amazon EMR と Apache Ranger を使用します。

B. EMR クラスターで Hive メタストアを使用します。

C. AWS Glue データカタログを使用します。

D. Amazon RDS for MySQL DB インスタンスでメタストアを使用します。

回答: C

59 / 100

59.

回答: D

説明:
オプション D は、運用オーバーヘッドを最小限に抑えながら要件を満たす最適なソリューションです。

ストレージに Amazon S3 を使用し、アクセス制御とデータアクセスに AWS Lake Formation を使用すると、次の利点が得られます。

S3 は、耐久性、可用性、拡張性に優れたデータレイクストレージレイヤーを提供します。

Lake Formation は、列レベルと行レベルまでのきめ細かなアクセス制御を可能にします。

Athena、Redshift Spectrum、EMR とネイティブに統合され、データアクセスが簡素化されます。

フルマネージドサービスにより、自己管理型の Ranger や断片的なソリューションと比較して、管理オーバーヘッドが最小限に抑えられます。

60 / 100

60.

A. パーティション全体のスループットを向上させるために、Amazon S3 のキーの先頭にランダムな文字列を追加します。

B. Athena を使用してデータをクエリするのと同じアカウントにある S3 バケットを使用します。

C. 会社が Athena クエリを実行するのと同じ AWS リージョンにある S3 バケットを使用します。

D. クエリに必要なドキュメントキーのみを取得して、.csv データを JSON 形式に前処理します。

E. 述語に必要なデータブロックのみを取得して、.csv データを Apache Parquet 形式に前処理します。

回答: C、E

説明:
https://docs.aws.amazon.com/athena/latest/ug/performance-tuning.html

61 / 100

61.

A. Amazon RDS のパフォーマンスインサイト機能を使用して、CPU 使用率が高いクエリを特定します。問題のあるクエリを最適化します。

B. データベーススキーマを変更して、追加のテーブルとインデックスを含めます。

C. RDS DB インスタンスを毎週 1 回再起動します。

D. インスタンスサイズを大きくアップグレードします。

E. キャッシュを実装して、データベースクエリの負荷を軽減します。

回答: A、D

62 / 100

62.

A. VACUUM FULL 注文

B. VACUUM DELETE ONLY 注文

C. VACUUM REINDEX 注文

D. VACUUM SORT ONLY 注文

回答: C

63 / 100

63.

A. セルフホスト型 Apache Kafka クラスターを使用してセンサーデータをキャプチャします。クエリ用にデータを Amazon S3 に保存します。

B. AWS Lambda を使用してセンサーデータを処理します。クエリ用にデータを Amazon S3 に保存します。

C. Amazon Kinesis Data Streams を使用してセンサーデータをキャプチャします。クエリ用にデータを Amazon DynamoDB に保存します。

回答: C

64 / 100

64.

回答: A

65 / 100

65.

回答: B、D

66 / 100

66.

A. 1 日後にデータを S3 Glacier Deep Archive ストレージクラスに移動するように Amazon S3 ライフサイクルポリシーを設定します。

B. SQL クエリに Amazon Athena のクエリ結果再利用機能を使用します。

C. BI アプリケーションと Athena の間に Amazon ElastiCache クラスターを追加します。

D. データセット内のファイルの形式を Apache Parquet に変更します。

回答: B

67 / 100

67.

A. すべてのテーブルに EVEN 分散スタイルを使用し続けます。すべてのテーブルに主キーと外部キーを指定します。

B. 大きなテーブルには ALL 分散スタイルを使用します。すべてのテーブルに主キーと外部キーを指定します。

C. ほとんど更新されない小さなテーブルには、ALL 分散スタイルを使用します。すべてのテーブルに主キーと外部キーを指定します。

D. すべてのテーブルに分散キー、ソートキー、パーティションキーの組み合わせを指定します。

回答: C

68 / 100

{
"Door_No": "24",

68. "Street_Name": "AAA street",

"City": "BBB",

"Zip_Code": "111111"
}

最も少ないコーディング作業でこの要件を満たすソリューションはどれですか?

A. AWS Glue DataBrew を使用してファイルを読み取ります。NEST_TO_ARRAY 変換を使用して新しい列を作成します。

B. AWS Glue DataBrew を使用してファイルを読み取ります。NEST_TO_MAP 変換を使用して新しい列を作成します。

C. AWS Glue DataBrew を使用してファイルを読み取ります。PIVOT 変換を使用して新しい列を作成します。

D. Python で Lambda 関数を記述してファイルを読み取ります。Python データディクショナリタイプを使用して新しい列を作成します。

回答: B

説明:
NEST_TO_ARRAY の結果は次のようになります:
[ {"key": "key1", "value": "value1"}, {"key": "key2", "value": "value2"}, {"key": "key3", "value": "value3"}]

一方、NEST_TO_MAP の結果は次のようになります: {
"key1": "value1",
"key2": "value2",
"key3": "value3"
}
したがって、B を使用します。

69 / 100

69.

回答: C

70 / 100

70.

C. S3 Intelligent-Tiering を使用します。Deep Archive アクセス層をアクティブにします。

D. S3 Intelligent-Tiering を使用します。デフォルトのアクセス層を使用します。

回答: D

説明:
C の方がコスト効率は高いですが、「すべてのデータを数ミリ秒以内に取得できる必要がある」ため、D を使用します。

71 / 100

71.

A. 認証情報を AWS Glue ジョブパラメータに保存します。

B. 認証情報を Amazon S3 バケットにある設定ファイルに保存します。

C. AWS Glue ジョブを使用して、Amazon S3 バケットにある設定ファイルから認証情報にアクセスします。

D. 認証情報を AWS Secrets Manager に保存します。

E. 保存された認証情報へのアクセス権を AWS Glue ジョブの IAM ロールに付与します。

回答: D、E

72 / 100

72.

B. Amazon Redshift Serverless を使用して、分析ワークロードを自動的に処理します。

C. AWS CLI を使用して、分析ワークロードを自動的に処理します。

D. AWS CloudFormation テンプレートを使用して、分析ワークロードを自動的に処理します。

回答: B

73 / 100

73.

A. AWS Glue ノートブックで Apache Spark ジョブを作成して実行します。ジョブを構成して、S3 ファイルを読み取り、個別の顧客数を計算します。

C. Amazon EMR Serverless で Apache Spark ジョブを作成して実行し、個別の顧客数を計算します。

D. AWS Glue DataBrew を使用して、COUNT_DISTINCT 集計関数を使用して個別の顧客数を計算するレシピを作成します。

回答: D

74 / 100

74.

A. データを Amazon Kinesis Data Firehose にロードします。データを Amazon Redshift にロードします。

B. Amazon Redshift のストリーミング取り込み機能を使用します。

C. データを Amazon S3 にロードします。COPY コマンドを使用して、データを Amazon Redshift にロードします。

D. Amazon Aurora ゼロ ETL 統合を Amazon Redshift と使用します。

回答: B

説明:

75 / 100

75.

A. QuickSight と Athena の間には接続がありません。

B. Athena テーブルがカタログ化されていません。

C. QuickSight には S3 バケットへのアクセス権がありません。

D. QuickSight には S3 データを復号化するアクセス権がありません。

E. QuickSight に IAM ロールが割り当てられていません。

回答: C、D

説明:
https://docs.aws.amazon.com/quicksight/latest/user/troubleshoot-athena-insufficient-permissions.html

E は不正解です。認証/承認エラーが発生し、権限不足エラーにはなりません。

76 / 100

76.

回答: A

説明:
運用上のオーバーヘッドが最も少ないのは、中間アクションやサービスなしで Athena で直接クエリすることです。

77 / 100

77.

A. データエンジニアの IAM ユーザーに AWSGlueServiceRole マネージドポリシーを追加します。

C. データエンジニアの IAM ユーザーに AmazonSageMakerFullAccess マネージドポリシーを追加します。

回答: B

78 / 100

78.

A. Amazon EMR を使用してスキーマを検出し、データを抽出、変換し、S3 バケットにロードします。Apache Spark でパイプラインを作成します。

B. AWS Glue を使用してスキーマを検出し、データを抽出、変換、S3 バケットにロードします。Apache Spark でパイプラインを作成します。

C. AWS Lambda で PySpark プログラムを作成し、データを抽出、変換、S3 バケットにロードします。

回答: B

説明:
AWS Glue を使用してスキーマを検出し、データを抽出、変換、S3 バケットにロードします。Apache Spark でパイプラインを作成します。

79 / 100

79.

回答: B

80 / 100

80.

A. カスタム Python アプリケーションを作成します。アプリケーションを Amazon Elastic Kubernetes Service (Amazon EKS) クラスターでホストします。

B. PySpark ETL スクリプトを作成します。スクリプトを Amazon EMR クラスターでホストします。

C. AWS Glue PySpark ジョブを作成します。Apache Spark を使用してデータを変換します。

D. AWS Glue Python シェルジョブを作成します。pandas を使用してデータを変換します。

81 / 100

81.

s3://transactions/orders/order_date=2023-01-01
s3://transactions/orders/order_date=2023-01-02

B. MSCK REPAIR TABLE Orders;

C. REPAIR TABLE Orders;

回答: A

82 / 100

82.

A. zip で圧縮された .csv 形式

B. bzip2 で圧縮された JSON 形式

C. Snappy で圧縮された Apache Parquet 形式

D. LZO で圧縮された Apache Avro 形式

回答: C

83 / 100

83.

D. パイプラインを AWS Step Functions ワークフローに変換します。SQL でのデータ品質チェックを Python ベースの AWS Lambda 関数として再作成します。

回答: C

84 / 100

84.

A. Amazon EventBridge

B. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)

C. AWS Step Functions

D. AWS Glue Workflows

回答: C

説明:
Glue Workflows は Glue ジョブのオーケストレーション用です。C はさまざまな AWS サービスとのオーケストレーション用です。

85 / 100

85.

A. すべての ALB アクセスログのスキーマを決定し、パーティションメタデータを AWS Glue データカタログに書き込む AWS Glue ジョブを作成します。

D. Apache Hive を使用してバケット化されたテーブルを作成します。AWS Lambda 関数を使用して、すべての ALB アクセスログを変換します。

回答: B

86 / 100

86.

B. S3 ファイルゲートウェイのファイル転送イベントが成功するたびに AWS Glue ワークフローを開始する Amazon EventBridge イベントを設定します。

D. AWS Glue ワークフローを呼び出す AWS Lambda 関数を設定します。Lambda 関数のトリガーとして、S3 オブジェクトを作成するイベントを設定します。

回答: B

87 / 100

87.

A. Amazon Redshift フェデレーテッドクエリ機能を設定して、PostgreSQL データベースにあるライブトランザクションデータをクエリします。

B. Amazon Redshift Spectrum を設定して、PostgreSQL データベースにあるライブトランザクションデータをクエリします。

E. さまざまなソースからのライブデータ、現在のデータ、履歴データを組み合わせたマテリアライズドビューを Amazon Redshift に作成します。

回答: A

88 / 100

88.

A. パーティションキーを施設 ID からランダムに生成されたキーに変更します。

B. シャードの数を増やします。

C. プロデューサー側でデータをアーカイブします。

D. パーティションキーを施設 ID からキャプチャ日付に変更します。

回答: A

89 / 100

89.

A. EXPLAIN SELECT * FROM sales;

B. EXPLAIN ANALYZE FROM sales;

C. EXPLAIN ANALYZE SELECT * FROM sales;

D. EXPLAIN FROM sales;

回答: C

説明:
EXPLAIN ANALIZE を使用します

https://docs.aws.amazon.com/athena/latest/ug/athena-explain-statement.html

A - 計算コストが含まれていないため、要件を部分的にしか満たしていません。

B - 構文が正しくないため、要件を満たしていません。

C - 実行プランと計算コストの両方を提供することで、要件を完全に満たしています。

D - 構文が正しくないため、要件を満たしていません。

90 / 100

90.

回答: B

91 / 100

91.

A. AWS Lake Formation を設定します。 Lake Formation で、IAM ロール別にユーザーとアプリケーションのセキュリティポリシーベースのルールを定義します。

B. AWS Glue テーブルに IAM リソースベースのポリシーを定義します。同じポリシーを IAM ユーザーグループにアタッチします。

D. AWS Resource Access Manager (AWS RAM) でリソース共有を作成し、IAM ユーザーにアクセスを許可します。

回答: A

92 / 100

92.

A. S3 ファイルのステータスを読み取り、Amazon DynamoDB にステータスを記録する ETL ジョブを作成します。

B. ETL ジョブのジョブブックマークを有効にして、実行後に状態を更新し、以前に処理されたデータを追跡します。

C. ETL ジョブのジョブメトリクスを有効にして、Amazon CloudWatch で処理されたオブジェクトを追跡します。

D. ETL ジョブを設定して、実行ごとに Amazon S3 から処理されたオブジェクトを削除します。

回答: B

説明:
AWS Glue ジョブブックマークは、状態を自動的に追跡することで増分データ処理を処理するように設計されています。

93 / 100

93.

A. フローログを Amazon CloudWatch Logs に発行します。分析には Amazon Athena を使用します。

B. フローログを Amazon CloudWatch Logs に発行します。分析には Amazon OpenSearch Service クラスターを使用します。

C. フローログをテキスト形式で Amazon S3 に発行します。分析には Amazon Athena を使用します。

D. フローログを Apache Parquet 形式で Amazon S3 に発行します。分析には Amazon Athena を使用します。

回答: D

説明:
フローログは、Parquet 形式で S3 に公開できます: https://docs.aws.amazon.com/vpc/latest/userguide/flow-logs-s3.html#flow-logs-s3-path

94 / 100

94.

A. 店舗の場所テーブルの分散スタイルを均等分散から全分散に変更します。

B. 店舗所在地テーブルの分散スタイルを、最も高い次元を持つ列に基づく KEY 分散に変更します。

C. すべてのテーブルのソートキーに store_id という結合列を追加します。

D. Redshift 予約ノードを、同じインスタンスファミリー内のより大きなインスタンスサイズにアップグレードします。

回答: A

95 / 100

95.

A. Select * from Sales where city_name ~ ‘$(San|El)*’;

B. Select * from Sales where city_name ~ ‘^(San|El)*’;

C. Select * from Sales where city_name ~’$(San&El)*’;

D. Select * from Sales where city_name ~ ‘^(San&El)*’;

回答: B

説明:
誰もが参照できる正規表現パターン

96 / 100

96.

A. Amazon CloudWatch を使用して DMS タスクを監視します。CDCIncomingChanges メトリックを調べて、ソースデータベースからの CDC の遅延を特定します。

B. ソースデータベースの論理レプリケーションが postgresql.conf 構成ファイルで構成されていることを確認します。

C. ソースデータベースの DMS エンドポイントに対して Amazon CloudWatch Logs を有効にします。エラーメッセージを確認します。

D. Amazon CloudWatch を使用して DMS タスクを監視します。CDCLatencySource メトリックを調べて、ソースデータベースからの CDC の遅延を特定します。

回答: D

https://docs.aws.amazon.com/dms/latest/userguide/CHAP_Monitoring.html#CHAP_Monitoring.Metrics

97 / 100

97.

回答: C

98 / 100

98.

No.98 ある企業は、Amazon S3 データレイクにあるデータの分析に機械学習 (ML) を使用したいと考えています。この企業には、社内の消費者がレポートを作成できるようにする 2 つのデータ変換要件があります。この企業は、スケジュールされた時間に Amazon S3 に到着する必要があるさまざまな形式の 300 GB のデータに対して毎日変換を実行する必要があります。この企業は、S3 データレイクにある数テラバイトのアーカイブされたデータに対して 1 回限りの変換を実行する必要があります。この企業は、処理を調整するために Amazon Managed Workflows for Apache Airflow (Amazon MWAA) の有向非巡回グラフ (DAG) を使用しています。これらの要件を最もコスト効率よく満たすために、この企業は Amazon MWAA DAG でどのタスクの組み合わせをスケジュールする必要がありますか? (2 つ選択してください)。

B. 毎日受信されるデータについては、Amazon Athena を使用してスキーマをスキャンして識別します。

C. 毎日受信されるデータについては、Amazon Redshift を使用して変換を実行します。

D. 毎日およびアーカイブされたデータについては、Amazon EMR を使用してデータ変換を実行します。

E. アーカイブされたデータについては、Amazon SageMaker を使用してデータ変換を実行します。

回答: A、D

説明:
Glue クローラーはスキーマを識別し、EMR はデータのバッチ処理を実行します。

理由は次のとおりです。

99 / 100

99.

A. AWS Glue ジョブブックマークを使用して、データの正確性と一貫性を追跡します。

B. カスタム AWS Glue データ品質ルールセットを作成して、特定のデータ品質チェックを定義します。

C. 組み込みの AWS Glue データ品質変換を使用して、標準的なデータ品質検証を行います。

D. AWS Glue データカタログを使用して、一元化されたデータスキーマとメタデータリポジトリを維持します。

回答: B

100 / 100

100.

A. データを Amazon Glacier Flexible Retrieval に保管します。Amazon S3 Glacier Select を使用してデータを照会します。

B. データを Amazon S3 に保管します。Amazon S3 Select を使用してデータを照会します。

C. データを Amazon S3 に保管します。Amazon Athena を使用してデータを照会します。

D. データを Amazon Glacier Instant Retrieval に保管します。Amazon Athena を使用してデータを照会します。

Your score is

■AWS DEA-C01(JP) Q.101-204

/104

AWS DEA-C01(JP) Q.101-204

[Q. 101-204] AWS Certified Data Engineer - Associate は、コアデータ関連の AWS サービスに関するスキルと知識や、データの取り込みと変換、プログラミングの概念を適用しながらのデータパイプラインのオーケストレート、データモデルの設計、データライフサイクルの管理、データ品質の確保といった能力を検証します。

回答: C

説明:
これは、クエリエディタ v2 (https://docs.aws.amazon.com/redshift/latest/mgmt/query-editor-v2-schedule-query.html) で実現できます。

1 / 104

A. AWS Lambda 関数を作成して、ストアドプロシージャを実行する cron ジョブをスケジュールします。

B. Amazon EC2 スポットインスタンスで Amazon Redshift データ API を使用して、ストアドプロシージャをスケジュールして実行します。

C. クエリエディタ v2 を使用して、スケジュールに従ってストアドプロシージャを実行します。

D. AWS Glue Python シェルジョブをスケジュールして、ストアドプロシージャを実行します。

2 / 104

A. Amazon Redshift を使用してクリックストリームデータを保存およびクエリします。

B. Amazon Athena を使用してクリックストリームデータをクエリします。

C. Amazon S3 分析を使用してクリックストリームデータをクエリします。

D. QuickSight 直接 SQL クエリを介してクエリデータにアクセスします。

E. QuickSight SPICE (超高速、並列、インメモリ計算エンジン) を介してクエリデータにアクセスします。データセットの毎日の更新を構成します。

回答: B、E

3 / 104

A. AWS Data Exchange

B. Amazon Simple Workflow Service (Amazon SWF)

C. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)

D. AWS Glue

回答: C

4 / 104

4. 運用オーバーヘッドが最も少ないソリューションはどれですか?

A. Amazon Keyspaces (Apache Cassandra 用)

B. Amazon DocumentDB (MongoDB 互換)

C. Amazon DynamoDB

D. Amazon Timestream

回答: C

説明:
1 桁ミリ秒のパフォーマンスを提供する => DynamoDB

5 / 104

A. Lambda 関数実行ロールの信頼ポリシーで、EventBridge が実行ロールを引き受けることができることを確認します。

B. EventBridge が使用する IAM ロールと Lambda 関数のリソースベースのポリシーの両方に必要な権限があることを確認します。

C. Lambda 関数がデプロイされているサブネットがプライベートサブネットとして設定されていることを確認します。

D. EventBridge スキーマが有効であり、イベントマッピング構成が正しいことを確認します。

回答: B

6 / 104

A. AWS KMS キー (SSE-KMS) を使用したサーバー側暗号化と Amazon S3 暗号化クライアントの両方を使用します。

B. AWS KMS キー (DSSE-KMS) を使用したデュアルレイヤーサーバー側暗号化を使用します。

C. ファイルをアップロードする前に、顧客提供のキー (SSE-C) を使用したサーバー側暗号化を使用します。

D. AWS KMS キー (SSE-KMS) を使用したサーバー側暗号化を使用します。

回答: B

説明:
B. AWS KMS キー (DSSE-KMS) を使用したデュアルレイヤーサーバー側暗号化を使用します。

7 / 104

A. クエリ結果の制限を増やします。

B. 既存のワークグループにプロビジョニングされた容量を設定します。

C. フェデレーションクエリを使用します。

D. 既存のワークグループに対して Athena クエリを実行するユーザーを許可します。

回答: B

8 / 104

A. AWS Glue ジョブには、ブックマークが正しく機能するために必要な s3:GetObjectAcl 権限がありません。

B. AWS Glue ジョブの最大同時実行数は 1 に設定されています。

C. データエンジニアが、Glue ジョブに古いバージョンの AWS Glue を誤って指定しました。

D. AWS Glue ジョブに必要なコミットステートメントがありません。

回答: D

9 / 104

A. AWS Lambda

B. Amazon Managed Workflows for Apache Airflow (Amazon MVVAA)

C. AWS Step Functions

D. AWS Glue

回答: B

説明:
企業はオンプレミスで同じツールを使用し、運用オーバーヘッドを最小限に抑えたいと考えているためです。

10 / 104

10.

D. スケジュールされた AWS DataSync タスクを実行して、MySQL データベースからデータを同期します。タスクの宛先として Amazon Redshift を設定します。

回答: B

11 / 104

11.

A. Amazon S3 Select

B. Amazon Redshift Spectrum

C. Amazon Athena

D. Amazon EMR

回答: C

12 / 104

12.

A. eu-west-1 の Account_B に AWS DMS レプリケーションインスタンスを設定します。

B. eu-east-1 の Account_B に AWS DMS レプリケーションインスタンスを設定します。

C. eu-west-1 の新しい AWS アカウントに AWS DMS レプリケーションインスタンスを設定します。

D. eu-east-1 の Account_A に AWS DMS レプリケーションインスタンスを設定します。

回答: A

13 / 104

13.

B. すべてのデータファイルを Amazon Aurora に並列でロードします。AWS Glue ジョブを実行して、データを Amazon Redshift にロードします。

D. データファイルの場所を含むマニフェストファイルを作成します。COPY コマンドを使用して、データを Amazon Redshift にロードします。

回答: D

説明:
https://docs.aws.amazon.com/redshift/latest/dg/c_best-practices-single-copy-command.html

14 / 104

14.

A. Kinesis Data Firehose を使用して .csv ファイルを JSON に変換します。AWS Lambda 関数を使用して、ファイルを Parquet 形式で保存します。

B. Kinesis Data Firehose を使用して .csv ファイルを JSON に変換し、Parquet 形式でファイルを保存します。

C. Kinesis Data Firehose を使用して、.csv ファイルを JSON に変換し、Parquet 形式でファイルを保存する AWS Lambda 関数を呼び出します。

15 / 104

15.

A. Transfer Family サーバーの新しい SSH キーを生成します。古いキーと新しいキーを使用できるようにします。

B. オンプレミスネットワークのセキュリティグループルールを更新して、TLS 1.2 以上を使用する接続のみを許可します。

C. Transfer Family サーバーのセキュリティポリシーを更新して、最小プロトコルバージョンとして TLS 1.2 を指定します。

D. Transfer Family サーバーに SSL 証明書をインストールして、TLS 1.2 を使用してデータ転送を暗号化します。

回答: C

16 / 104

16.

A. Amazon Kinesis Data Streams

B. Amazon Managed Streaming for Apache Kafka (Amazon MSK) プロビジョニング済みクラスター

C. Amazon Kinesis Data Firehose

D. Amazon Managed Streaming for Apache Kafka (Amazon MSK) サーバーレス

回答: D

説明:
これはリフトアンドシフト移行であり、サーバーレスであるため、管理オーバーヘッドが最も少ない

17 / 104

17.

A. ワークフロー

B. トリガー

C. ジョブブックマーク

D. 分類子

回答: C

説明:

18 / 104

18.

A. ソースの各レコードに一意の ID を埋め込むことで、処理中に重複を削除できるようにアプリケーションを設計します。

C. イベントが Kinesis Data Streams に複数回取り込まれないようにデータソースを設計します。

D. Kinesis Data Streams の使用を中止します。代わりに Amazon EMR を使用します。Amazon EMR で Apache Flink と Apache Spark Streaming を使用します。

回答: A

19 / 104

19.

A. S3 バケットを定期的に手動でバックアップします。

B. S3 バケットの S3 バージョニングを有効にします。

C. S3 バケットのレプリケーションを設定します。

D. Amazon S3 Glacier ストレージクラスを使用して、S3 バケット内のデータをアーカイブします。

回答: B

20 / 104

20.

D. Aurora のデータベースアクティビティストリーム機能内に AWS Lambda 関数を作成し、ネットワーク使用量の低下を検出します。

回答: B

21 / 104

21.

回答: B

説明:
DMS はソースとして S3 をサポートしていないため D にはなりませんが、主題に記載されているすべての目標を達成しているため B です。

22 / 104

22.

A. VPC のパブリックサブネットに NAT ゲートウェイを作成します。ネットワークトラフィックを NAT ゲートウェイにルーティングします。

B. Amazon S3 の VPC ゲートウェイエンドポイントを作成します。ネットワークトラフィックを VPC ゲートウェイエンドポイントにルーティングします。

回答: B

説明:

23 / 104

23.

回答: B

24 / 104

24.

A. オブジェクト形式、圧縮タイプ、スキーマが各オブジェクトで同じであることを確認します。

B. オブジェクト形式とスキーマが各オブジェクトで同じであることを確認します。各オブジェクトの圧縮タイプに一貫性を持たせないでください。

D. 各 S3 オブジェクト名のプレフィックスの構造が一貫していることを確認します。

E. すべての S3 オブジェクト名が同様のパターンに従っていることを確認します。

回答: A、D

オブジェクト形式、圧縮タイプ、スキーマ、プレフィックス構造の一貫性を確保する

1. **一貫性のあるオブジェクト形式**:
- S3 バケット内のすべてのオブジェクトが同じ形式 (例: CSV、JSON、Parquet) であることを確認します。

2. **一貫性のある圧縮タイプ**:
- すべてのオブジェクトが同じ圧縮タイプ (例: GZIP、Snappy) を使用していることを確認します。

3. **一貫性のあるスキーマ**:
- すべてのオブジェクトが同じスキーマ (つまり、同じデータ型の同じフィールド) であることを確認します。

25 / 104

25.

A. メッセージの保持期間を延長する

B. 可視性のタイムアウトを延長する。

C. SQS キューにデッドレターキュー (DLQ) をアタッチする。

D. 遅延キューを使用してメッセージの配信を遅延する

E. メッセージ処理時間を短縮する。

26 / 104

26.

A. OpenSearch Service のデータを使用して OpenSearch ダッシュボードを作成します。

回答: A

説明:

27 / 104

27.

A. DELETE FROM materialized_view_name where 1=1

B. TRUNCATE materialized_view_name

C. VACUUM table_name where load_date<=current_date materializedview

D. DELETE FROM materialized_view_name where load_date<=current_date

28 / 104

28.

A. Amazon Kinesis Data Firehose と AWS Lambda 関数を使用してデータを変換し、変換されたデータを OpenSearch Service に配信します。

B. フィルターがあらかじめ組み込まれた Logstash パイプラインを使用してデータを変換し、変換されたデータを OpenSearch Service に配信します。

C. AWS Lambda 関数を使用して Amazon Kinesis Agent を呼び出し、データを変換して変換されたデータを OpenSearch Service に配信します。

D. Kinesis クライアントライブラリ (KCL) を使用してデータを変換し、変換されたデータを OpenSearch Service に配信します。

回答: A

説明:

29 / 104

29.

A. 行レベルのフィルターを設定して、国がカナダの行へのユーザーアクセスを防止します。

B. 国がカナダの住所へのユーザーアクセスを制限する IAM ロールを作成します。

C. 列レベルのフィルターを設定して、国がカナダの行へのユーザーアクセスを防止します。

D. 国がカナダであるすべての行にタグを適用します。タグが「カナダ」に等しいユーザーアクセスを防止します。

回答: A

スケーラビリティ: テーブルに新しいデータが追加されると、フィルターが自動的に適用され、追加の労力は必要ありません。

精度: 国がカナダである行へのアクセスを防止し、他のデータに影響を与えることなく、要件に直接対応します。

30 / 104

30.

A. Redshift クラスターの構成設定で、サードパーティの IdP を ID プロバイダーとして登録します。

B. Amazon Redshift 内からサードパーティの IdP を ID プロバイダーとして登録します。

31 / 104

31.

A. EMR マネージドスケーリングのタスクノードの最大数を 10 に増やします。

B. タスクノードタイプを汎用 EC2 インスタンスからメモリ最適化 EC2 インスタンスに変更します。

C. タスクノードタイプを汎用 Re インスタンスからコンピューティング最適化 EC2 インスタンスに切り替えます。

D. プロビジョニングされた EMR クラスターのスケーリングクールダウン期間を短縮します。

回答: C

32 / 104

32.

C. Apache Spark の DataFrame dropDuplicates() API を使用して重複を排除します。データを Redshift テーブルに書き込みます。

D. AWS Glue ResolveChoice 組み込み変換を使用して、最新のレコードから列の値を選択します。

回答: A

33 / 104

33.

A. 複数の COPY コマンドを使用して、データを Redshift クラスターにロードします。

C. Redshift クラスターノードの数と同じ数の INSERT ステートメントを使用します。各ノードにデータを並列にロードします。

D. 1 つの COPY コマンドを使用して、データを Redshift クラスターにロードします。

回答: D

34 / 104

34.

A. ETL ジョブの一部として Amazon Macie パターンマッチングを使用します。

B. ETL ジョブで AWS Glue PySpark Filter クラスをトレーニングして使用します。

C. テーブルをパーティション化し、ETL ジョブを使用して一意の識別子でデータをパーティション化します。

D. ETL ジョブで AWS Lake Formation FindMatches 変換をトレーニングして使用します。

回答: D

35 / 104

35.

A. AWS Glue クローラー設定を調整して、AWS Glue クローラーが .json ファイルも除外するようにします。

B. Athena コンソールを使用して、Athena クエリが .json ファイルも除外するようにします。

C. .json ファイルを S3 バケット内の別のパスに再配置します。

D. S3 バケットポリシーを使用して、.json ファイルへのアクセスをブロックします。

回答: C

https://docs.aws.amazon.com/athena/latest/ug/troubleshooting-athena.html

36 / 104

36.

A. データエンジニアが S3 バケットの権限を誤って設定しました。Lambda 関数はオブジェクトにアクセスできませんでした。

B. Lambda 関数が古い SDK バージョンを使用しているため、読み取りに失敗しました。

D. Lambda 関数の実行ロールには、S3 オブジェクトを復号化できる KMS キーにアクセスするために必要な権限がありません。

回答: D

37 / 104

37.

B. AWS Glue Data Quality への API 呼び出しを行って編集を行う AWS Lambda 関数を作成します。

D. AWS マネジメントコンソールを使用して、データカタログ内のルールを編集します。

回答: B

説明:
AWS Glue Data Quality への API 呼び出しを行って編集を行う AWS Lambda 関数を作成します。

38 / 104

38.

A. git diff branchB master git commit -m

B. git pull master

C. git rebase master

D. git fetch -b master

回答: C

ブランチ B のコミットを最新のマスターブランチコミットの上に置くことで、線形でクリーンな履歴を維持できます。

このアプローチにより、プルリクエストが最終的にマスターにマージされるときに、マージ競合が発生する可能性が減ります。

プルリクエスト内のすべての変更が関連性があり最新のものになるため、コードレビュープロセスが簡単になります。

39 / 104

39.

A. Select *from Employee where Region ID=’North America’;

B. Select *from Employee where Region ID=’North America’ and Department ID=20;

C. 部門 ID が 20 でリージョン ID が「北米」である従業員から * を選択します。

D. ロール ID が 50 である従業員から * を選択します。

E. リージョン ID が「北米」でロール ID が 50 である従業員から * を選択します。

40 / 104

40.

回答: B

41 / 104

41.

A. YourEnvironmentName-WebServer

B. YourEnvironmentName-Scheduler

C. YourEnvironmentName-DAGProcessing

D. YourEnvironmentName-Task

回答: D

説明:
https://pupuweb.com/amazon-dea-c01-which-apache-airflow-log-type-should-you-use-to-diagnose-workflow-failures-in-amazon-mwaa/

42 / 104

42.

D. 主キーと外部キーのテーブル制約を定義します。

回答: A、C

説明:

43 / 104

43.

A. クエリエディタ v2 を使用して、COPY コマンドをスケジュールし、新しいファイルを Amazon Redshift にロードします。

B. Amazon Aurora と Amazon Redshift 間のゼロ ETL 統合を使用して、新しいファイルを Amazon Redshift にロードします。

C. AWS Glue ジョブブックマークを使用して、新しいファイルを抽出、変換、ロード (ETL) し、Amazon Redshift にロードします。

D. S3 イベント通知を使用して、新しいファイルを Amazon Redshift にロードする AWS Lambda 関数を呼び出します。

回答: D

説明:
アップロード時にトリガーするのが最も速いオプションです。

44 / 104

44.

A. Amazon Kinesis Data Firehose 配信ストリームを設定して、Redshift プロビジョニング済みクラスターテーブルにデータを送信します。

D. Kinesis Data Streams からの Amazon Redshift ストリーミング取り込みを使用して、データをマテリアライズドビューとして表示します。

回答: D

リンク: https://docs.aws.amazon.com/streams/latest/dev/using-other-services-redshift.html

45 / 104

45.

D. AWS Glue を使用して、データウェアハウステーブルのフルコピーを毎日 Amazon S3 にロードします。前日のフルロードコピーを毎日上書きします。

回答: A

46 / 104

46.

回答: C

説明:

オプション C - S3 をターゲットとして使用し、ファイルを Parquet 形式に設定できます https://docs.aws.amazon.com/dms/latest/userguide/CHAP_Target.S3.html

47 / 104

47.

A. Kinesis Agent

B. Kinesis Producer Library (KPL)

C. Amazon Kinesis Data Firehose

D. Kinesis SDK

回答: B

48 / 104

48.

A. AWS Glue の FindMatches 機能を使用して重複レコードを削除します。

B. Amazon Athena の Windows 以外の機能を使用して重複レコードを削除します。

C. Amazon Neptune ML と Apache Gremlin スクリプトを使用して重複レコードを削除します。

D. Amazon DynamoDB のグローバルテーブル機能を使用して重複データを防ぎます。

回答: A

説明:

オプション A - 他のオプションは愚かで、ほとんど意味がありません

49 / 104

49.

A. プロデューサーでネットワーク関連のタイムアウトが発生しました。

B. ストリームの IteratorAgeMilliseconds メトリックの値が高すぎました。

C. シャード、レコードプロセッサ、またはその両方の数が変更されました。

D. AggregationEnabled 構成プロパティが true に設定されていました。

E. max_records 構成プロパティが高すぎる数値に設定されていました。

回答: A、C

50 / 104

50.

回答: A

説明:
DynamoDB はリレーショナルデータベースをサポートするように設計されていません。ただし、Redshift はサポートされています。

https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/build-an-etl-service-pipeline-to-load-data-incrementally-from-amazon-s3-to-amazon-redshift-using-aws-glue.html

51 / 104

51.

A. Gremlin

B. SQL

C. ANSI SQL

D. SPARQL

E. Spark SQL

回答: A、D

説明:
https://docs.aws.amazon.com/neptune/latest/userguide/access-graph-queries.html

52 / 104

52.

回答: A

53 / 104

53.

A. サードパーティアプリケーションを構成して、列形式でファイルを作成します。

B. 複数の毎日の CSV ファイルを 1 日ごとに 1 つのファイルに変換する AWS Glue ETL ジョブを開発します。

C. 注文日に基づいて S3 バケット内の注文データをパーティション分割します。

D. サードパーティアプリケーションを設定して、ファイルを JSON 形式で作成します。

E. JSON データを Amazon Redshift テーブルの SUPER 型列にロードします。

回答: A、C

説明:
https://docs.aws.amazon.com/redshift/latest/dg/r_SUPER_type.html

54 / 104

54.

A. S3 バケットでガバナンスモードを有効にします。デフォルトの保持期間として 7 年を使用します。

B. S3 バケットでコンプライアンスモードを有効にします。デフォルトの保持期間は 7 年です。

C. S3 バケット内の個々のオブジェクトに法的保留を設定します。保持期間を 7 年に設定します。

D. S3 バケット内の個々のオブジェクトの保持期間を 7 年に設定します。

回答: B

https://aws.amazon.com/s3/features/object-lock/

55 / 104

55.

A. CREATE TABLE new_table AS SELECT * FROM old_tables;

B. INSERT INTO new_table SELECT * FROM old_table;

C. CREATE TABLE new_table (LIKE old_table);

D. CREATE TABLE new_table AS (SELECT * FROM old_table) WITH NO DATA;

回答: D

説明:
AS 句を使用すると、SELECT ステートメントに基づいて新しいテーブルのスキーマを定義できます。

最後の WITH NO DATA 句は、データをコピーせずにテーブル構造を作成するように Athena に明示的に指示します。

56 / 104

56.

A. INSERT INTO cities_usa (city,state) SELECT city, state FROM cities_world WHERE country=’usa’;

B. MOVE city, state FROM cities_world TO cities_usa WHERE country=’usa’;

C. INSERT INTO cities_usa SELECT city, state FROM cities_world WHERE country=’usa’;

D. UPDATE cities_usa SET (city, state) = (SELECT city, state FROM cities_world WHERE country=’usa’);

回答: A

説明:
INSERT INTO cities_usa (city,state)
SELECT city,state
FROM cities_world
WHERE country='usa'

57 / 104

57.

A. 共有する必要があるテーブルのビューを作成します。必要な列のみを含めます。

B. 共有する必要があるテーブルを含む Amazon Redshift データ共有を作成します。

D. ガバナンスアカウントの Lake Formation カタログに Amazon Redshift データ共有を共有します。

E. マーケティングチームのアカウントの Amazon Redshift Serverless ワークグループに Amazon Redshift データ共有を共有します。

58 / 104

58.

回答: B

説明:
https://docs.aws.amazon.com/glue/latest/dg/tutorial-data-quality.html

AWS Glue Data Quality は、データ品質定義言語 (DQDL) を使用してデータ品質ルールを定義します。

59 / 104

59.

A. FluentBit を使用してログを収集します。OpenTelemetry を使用してトレースを収集します。

B. Amazon CloudWatch を使用してログを収集します。Amazon Kinesis を使用してトレースを収集します。

C. Amazon CloudWatch を使用してログを収集します。Amazon Managed Streaming for Apache Kafka (Amazon MSK) を使用してトレースを収集します。

D. Amazon OpenSearch を使用してログとトレースを相関させます。

E. AWS Glue を使用してログとトレースを関連付けます。

回答: A、D

説明:
https://aws.amazon.com/blogs/big-data/part-1-microservice-observability-with-amazon-opensearch-service-trace-and-log-correlation/

60 / 104

60.

B. AWS Glue ジョブを設定して、ソースを Amazon DynamoDB、宛先を Amazon OpenSearch Service に設定し、ほぼリアルタイムでデータを転送します。

D. カスタム OpenSearch プラグインを使用して、Amazon DynamoDB テーブルからデータを同期します。

回答: C

説明:
https://docs.aws.amazon.com/opensearch-service/latest/developerguide/configure-client-ddb.html

DynamoDB は、アイテムレベルの変更データキャプチャレコードのストリーミングを *ほぼリアルタイム* でサポートします

61 / 104

61.

A. ALL 分散

B. EVEN 分散

C. AUTO 分散

D. KEY 分散

回答: C

62 / 104

62.

A. データセットで計算フィールドを定義して作成します。

B. 分析で計算フィールドを定義して作成します。

C. ビジュアルで計算フィールドを定義して作成します。

D. ダッシュボードで計算フィールドを定義して作成します。

回答: A

説明:
https://docs.aws.amazon.com/quicksight/latest/user/adding-a-calculated-field-analysis.html

63 / 104

63.

64 / 104

64.

A. AWS 認証情報を Amazon S3 バケットに保存します。認証情報を取得するために、EKS コンテナに S3 バケットへのアクセスを許可します。

回答: B

説明:
https://docs.aws.amazon.com/eks/latest/userguide/create-node-role.html
https://docs.aws.amazon.com/eks/latest/userguide/iam-roles-for-service-accounts.html

65 / 104

65.

B. オンプレミスデータセンターへの AWS Direct Connect 接続を作成します。サービスアカウントの認証情報を AWS Secrets Manager に保存します。

回答: B

説明:
Direct Connect + Secret Manager
コスト制約のない安全な接続には、常に Direct Connect を検討してください。

66 / 104

66.

A. SQS キューからイベントを消費する S3 イベントベースの AWS Glue クローラーを作成します。

B. 時間ベースのスケジュールを定義して AWS Glue クローラーを実行し、データカタログの増分更新を実行します。

C. AWS Lambda 関数を使用して、SQS キューが受信する S3 イベントに基づいてデータカタログを直接更新します。

D. S3 バケットに変更があった場合に、AWS Glue クローラーを手動で開始してデータカタログの更新を実行します。

E. AWS Step Functions を使用して、SQS キューが受信する S3 イベントに基づいてデータカタログを更新するプロセスを調整します。

67 / 104

67.

回答: C

説明:
Cは運用オーバーヘッドが最小限です。

https://aws.amazon.com/blogs/big-data/set-up-alerts-and-orchestrate-data-quality-rules-with-aws-glue-data-quality/

68 / 104

68.

B. データ要件ごとに必要なフィールドを含むビューを作成します。各チームに必要なビューのみにチームアクセスを許可します。

回答: C

説明:
Redshift には動的データマスキング機能があるため、C が最適なアプローチです:
https://docs.aws.amazon.com/redshift/latest/dg/t_ddm.html

最小限の操作とマスキング情報に一致する唯一の回答です。

69 / 104

69.

A. MSK ブローカーのストレージを拡張します。 MSK クラスターストレージを自動的に拡張するように設定します。

B. Apache ZooKeeper ノードのストレージを拡張します。

C. MSK ブローカーインスタンスをより大きなインスタンスタイプに更新します。MSK クラスターを再起動します。

D. 既存のトピックの Target Volume-in-GiB パラメータを指定します。

回答: A

説明:
https://docs.aws.amazon.com/msk/latest/developerguide/metrics-details.html

70 / 104

70.

C. Amazon Macie を使用してデータカタログを構築し、機密データ要素を識別します。Macie からデータ形式情報を収集します。

D. スクリプトを使用してデータ要素をスキャンし、データの形式に基づいてデータ分類を割り当てます。

回答: B

説明:
https://docs.aws.amazon.com/glue/latest/dg/catalog-and-crawler.html

https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html

71 / 104

71.

A. カスタム PII カテゴリのデータを手動で確認します。

B. DataBrew でカスタムデータ品質ルールを実装します。データセット全体にカスタムルールを適用します。

C. カスタム PII カテゴリを検出するためのカスタム Python スクリプトを開発します。DataBrew からスクリプトを呼び出します。

D. 抽出変換中にフィールドから PII 情報を抽出し、データレイクにロード (ETL) 操作を行うための正規表現パターンを実装します。

回答: B

説明:
https://aws.amazon.com/blogs/big-data/enforce-customized-data-quality-rules-in-aws-glue-databrew/

72 / 104

72.

A. AWS Lambda 関数を呼び出して、ファイルに欠落データがないか確認し、必須フィールドに欠落値を入力します。

C. AWS Glue Studio を使用して ETL パイプラインのコードを変更し、必須フィールドの欠落値を各フィールドの最も一般的な値で入力します。

D. Amazon Athena で SQL クエリを実行して CSV ファイルを読み取り、欠落行を削除します。修正した CSV ファイルを 2 番目の S3 バケットにコピーします。

回答: B

説明:
https://docs.aws.amazon.com/glue/latest/dg/glue-data-quality.html

73 / 104

73.

A. AWS CLI を使用して情報を収集します。

B. Amazon S3 インベントリ構成レポートを使用して情報を収集します。

C. Amazon S3 ストレージレンズダッシュボードを使用して情報を収集します。

D. Amazon S3 の AWS 使用状況レポートを使用して情報を収集します。

回答: C

https://docs.aws.amazon.com/AmazonS3/latest/userguide/storage_lens.html

74 / 104

74.

回答: A

説明:
JSON がある場合、Firehose は Lambda を必要とせずにそれを変換します。

75 / 104

75.

A. DynamoDB TTL 機能を使用して、タイムスタンプに基づいてデータを自動的に期限切れにします。

回答: A

説明:
https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/TTL.html
DynamoDB TTL は、設定方法に基づいてアイテムを自動的に削除します。

76 / 104

76.

A. 既存の AWS KMS キーを使用して、QuickSight から S3 バケットへの接続を暗号化します。

B. QuickSight サービスロールがアクセスできるリソースとして S3 バケットを追加します。

C. AWS Resource Access Manager (AWS RAM) を使用して、BI-Account アカウントと S3 バケットを共有します。

D. QuickSight サービスロールに IAM ポリシーを追加して、S3 バケットを暗号化する KMS キーへのアクセス権を QuickSight に付与します。

E. QuickSight サービスロールがアクセスできるリソースとして KMS キーを追加します。

77 / 104

77.

回答: D

78 / 104

78.

回答: D

79 / 104

79.

A. EC2 インスタンスに自己管理証明書を保存します。

B. AWS Certificate Manager (ACM) を使用します。

C. AWS Secrets Manager にカスタム自動化スクリプトを実装します。

D. Amazon Elastic Container Service (Amazon ECS) Service Connect を使用します。

回答: B

説明:
ACM は、SSL/TLS 証明書とキーの作成、保存、更新を処理します

https://aws.amazon.com/tw/certificate-manager/

80 / 104

80.

A. AWS Glue DataBrew を使用して、分析前に PII データをマスクする抽出、変換、ロード (ETL) タスクを実行します。

B. Amazon GuardDuty を使用して、エンジニアリングパイプラインで使用される PII データのアクセスパターンを監視します。

C. S3 バケットの Amazon Macie 検出ジョブを設定します。

D. AWS Identity and Access Management (IAM) を使用して、アクセス許可を管理し、PII データへのアクセスを制御します。

E. アプリケーションにカスタムスクリプトを記述して、PII データをマスクし、アクセスを制御します。

回答: A、D

81 / 104

81.

回答: C

説明:
https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-specify-security-configuration.html

82 / 104

82.

A. Amazon Redshift ML を使用して在庫に関する推奨事項を生成します。

B. SQL を使用して、予測のためにリモート SageMaker エンドポイントを呼び出します。

C. Amazon Redshift ML を使用して、オフラインモデルトレーニング用に定期的なデータエクスポートをスケジュールします。

D. SageMaker Autopilot を使用して、Amazon Redshift で在庫管理ダッシュボードを作成します。

E. Amazon Redshift をファイルストレージシステムとして使用し、古い在庫管理レポートをアーカイブします。

回答: A、B

83 / 104

83.

A. AWS Glue Python ジョブを使用して CSV ファイルを読み取り、変換します。

B. AWS Glue カスタムクローラーを使用して CSV ファイルを読み取り、変換します。

C. AWS Glue ワークフローを使用して、一連のジョブを構築し、CSV ファイルをクロールして変換します。

D. AWS Glue DataBrew レシピを使用して CSV ファイルを読み取り、変換します。

回答: D

説明:
多かれ少なかれ一般的な操作はすべて、データブリューで使用できます。
https://docs.aws.amazon.com/databrew/latest/dg/recipes.html

84 / 104

84.

A. 特定されたテーブルに対して ANALYZE コマンドを実行します。コマンドの出力に基づいて、列の圧縮エンコーディングを手動で更新します。

C. 特定されたテーブルに対して VACUUM REINDEX コマンドを実行します。

D. 特定されたテーブルに対して VACUUM RECLUSTER コマンドを実行します。

回答: B

85 / 104

85.

A. ライフサイクルポリシーを適用して、30 日後にレコードを S3 標準低頻度アクセス (S3 標準 IA) ストレージに移行します。

B. S3 Intelligent-Tiering ストレージを使用します。

C. 30 日後にレコードを S3 Glacier Deep Archive ストレージに移行します。

D. すべての顧客レコードに S3 Standard-Infrequent Access (S3 Standard-IA) ストレージを使用します。

回答: A

https://docs.aws.amazon.com/AmazonS3/latest/userguide/object-lifecycle-mgmt.html

86 / 104

86.

A. テーブル計算を作成します。

B. 単純な計算フィールドを作成します。

C. レベル認識計算 - 集計 (LAC-A) 関数を作成します。

D. レベル認識計算 - ウィンドウ (LAC-W) 関数を作成します。

回答: C

説明:
https://docs.aws.amazon.com/quicksight/latest/user/level-aware-calculations.html

87 / 104

87.

A. S3 バケットと S3 オブジェクトを構成して、Amazon Macie へのアクセスを許可します。Macie で自動機密データ検出を使用します。

B. S3 PUT 操作を監視するように AWS CloudTrail を構成します。CloudTrail の証跡を調べて、PII を保存する操作を特定します。

C. S3 オブジェクト内の PII を識別する AWS Lambda 関数を作成します。関数が定期的に実行されるようにスケジュールします。

回答: A

説明:

88 / 104

88.

A. CREATE TABLE new_table - LIKE old_table;

B. CREATE TABLE new_table - AS SELECT * FROM old_table - WITH NO DATA;

C. CREATE TABLE new_table - AS SELECT * FROM old_table;

D. CREATE TABLE new_table - as SELECT * FROM old_cable - WHERE 1=1;

回答: B

説明:

オプション B - CTAS から空のテーブルを作成するには、データなしのオプションで B にする必要があります

https://docs.aws.amazon.com/athena/latest/ug/ctas-examples.html#ctas-example-empty-table

89 / 104

89.

A. Athena が正しい Amazon S3 の場所を指していることを確認します。

B. クエリのタイムアウト期間を延長します。

C. MSCK REPAIR TABLE コマンドを使用します。

D. Athena を再起動します。

E. 問題のある Athena テーブルを削除して再作成します。

回答: A、C

説明:
A. Athena が正しい Amazon S3 の場所を指していることを確認します。

90 / 104

90.

A. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)

B. AWS Step Functions

C. AWS Glue

D. Amazon EventBridge

回答: A

説明:

91 / 104

91.

B. カスタム Python スクリプトを Lambda レイヤーにパッケージ化します。 Lambda レイヤーを Lambda 関数に適用します。

C. カスタム Python スクリプトを共有 Amazon S3 バケットに保存します。環境変数に顧客スクリプトへのポインターを保存します。

D. 各 Lambda 関数に同じエイリアスを割り当てます。関数のエイリアスを指定して、各 Lambda 関数を呼び出します。

回答: B

92 / 104

92.

A. Amazon Macie を使用して機密データ検出ジョブを作成し、実行して PII を検出して削除します。

B. S3 Object Lambda を使用してデータにアクセスし、Amazon Comprehend を使用して PII を検出して削除します。

C. Amazon Data Firehose と Amazon Comprehend を使用して PII を検出して削除します。

回答: B

説明:

オプション A - A ではありません。Macie は PII のみを検出できます。 Macie は PII を検出できますが、自動的に編集することはできません。

93 / 104

93.

A. AWS Config ルールを使用して、データアクセスポリシー違反を検出します。コンプライアンスアラームを設定します。

B. Amazon CloudWatch メトリクスを使用して、オブジェクトレベルのメトリクスを収集します。CloudWatch アラームを設定します。

回答: C

説明:

オプション C - API 呼び出しを監視するには、CloutTrial を使用します。とても簡単です。

94 / 104

94.

A. SUPER データ型を使用して、Amazon Redshift テーブルにデータを保存します。

B. AWS Glue を使用して JSON データをフラット化し、Amazon Redshift テーブルに取り込みます。

C. Amazon S3 を使用して JSON データを保存します。Amazon Athena を使用してデータをクエリします。

D. AWS Lambda 関数を使用して JSON データをフラット化します。データを Amazon S3 に保存します。

回答: A

説明:

95 / 104

95.

回答: C

説明:

96 / 104

96.

A. 1 年後にログを削除するように S3 ライフサイクル設定を定義します。

B. 1 年後にログを削除する AWS Lambda 関数を作成します。

C. 1 年後にログを削除するように Amazon EC2 インスタンスで cron ジョブをスケジュールします。

D. 1 年後にログを削除するように AWS Step Functions ステートマシンを構成します。

回答: A

説明:

97 / 104

97.

A. 並列

B. 選択

C. タスク

D. マップ

回答: B

説明:
選択は条件付きロジックを追加します。つまり、受信データのステータスです。

98 / 104

98.

回答: B

99 / 104

99.

A. Amazon Textract

B. Amazon S3 Storage Lens

C. Amazon Macie

D. Amazon SageMaker Data Wrangler

回答: C

説明:
検出のみ (編集なし) = Macie

AWS の PII --> Macie

100 / 104

100.

A. Amazon Redshift のロールベースのアクセス制御 (RBAC) 機能を使用します。

B. Amazon Redshift の行レベルセキュリティ (RLS) 機能を使用します。

C. Amazon Redshift の列レベルセキュリティ (CLS) 機能を使用します。

D. Amazon Redshift で動的データマスキングポリシーを使用します。

回答: A

説明:
この場合、行レベルまたは列レベルでは不十分です。

可能な回答は A と B のみですが、B では不十分です。

101 / 104

101.

回答: C

説明:
データゾーンは、データソースとして Glue を使用するように構成する必要があります。

102 / 104

102.

A. Amazon S3 バケットを作成します。Amazon Redshift クラスターのログ記録を有効にします。ログを保存するために、ログ設定で S3 バケットを指定します。

回答: A

説明:
ログを保存するための S3 バケット。

103 / 104

103.

A. AWS Database Migration Service (AWS DMS) スキーマ変換を使用してスキーマを移行します。AWS DMS を使用してデータを移行します。

B. AWS スキーマ変換ツール (AWS SCT) を使用してスキーマを移行します。AWS Database Migration Service (AWS DMS) を使用してデータを移行します。

C. AWS Database Migration Service (AWS DMS) を使用してデータを移行します。自動スキーマ変換を使用します。

回答: B

説明:
A はよく似ていますが、AWS DMS のスキーマ変換機能は限られています。スキーマ移行には AWS SCT と組み合わせる方が適しています。

104 / 104

104.

A. Amazon Redshift Serverless を使用して、すべてのデータを Amazon Redshift マネージドストレージ (RMS) にロードします。

B. Amazon Athena を使用して、すべてのデータを Apache Parquet 形式で Amazon S3 にロードします。

C. Amazon Redshift プロビジョニング済みクラスターを使用して、すべてのデータを Amazon Redshift マネージドストレージ (RMS) にロードします。

D. Amazon Aurora PostgreSQL を使用して、すべてのデータを Aurora にロードします。

回答: A

サーバーレスは予測不可能な負荷に向いています。

Your score is