/80 AWS DEA-C01 AWS Certified Data Engineer - Associate は、コアデータ関連の AWS サービスに関するスキルと知識や、データの取り込みと変換、プログラミングの概念を適用しながらのデータパイプラインのオーケストレート、データモデルの設計、データライフサイクルの管理、データ品質の確保といった能力を検証します。 1 / 80 1. 1. データエンジニアは、Amazon S3 バケットからデータを読み取るように AWS Glue ジョブを設定しています。データ エンジニアは、必要な AWS Glue 接続の詳細と、関連する IAM ロールを設定しました。ただし、データ エンジニアが AWS Glue ジョブを実行しようとすると、Amazon S3 VPC ゲートウェイ エンドポイントに問題があることを示すエラー メッセージを受け取ります。 データ エンジニアはエラーを解決し、AWS Glue ジョブを S3 バケットに接続する必要があります。 この要件を満たすソリューションはどれですか? A. Amazon S3 VPC ゲートウェイ エンドポイントからの受信トラフィックを許可するように、AWS Glue セキュリティ グループを更新します。 B. S3 バケットポリシーを設定して、AWS Glue ジョブに S3 バケットへのアクセス許可を明示的に付与します。 C. AWS Glue ジョブ コードを確認して、AWS Glue 接続の詳細に完全修飾ドメイン名が含まれていることを確認します。 D. VPC のルート テーブルに、Amazon S3 VPC ゲートウェイ エンドポイントの受信ルートと送信ルートが含まれていることを確認します。 AWS Glue 接続用に設定されたサブネットに、Amazon S3 VPC ゲートウェイ エンドポイント、またはサブネットのルート テーブルに NAT ゲートウェイへのルートがあることを確認してください。 https://repost.aws/knowledge-center/glue-s3-endpoint-validation-failed 2 / 80 2. 2, 小売会社は、Amazon S3バケット内に顧客データハブを持っています。多くの国の従業員がデータハブを使用して、全社的な分析をサポートしています。ガバナンスチームは、企業のデータアナリストが、アナリストと同じ国内にいる顧客のデータにのみアクセスできるようにする必要があります。 最小限の運用労力でこれらの要件を満たすソリューションはどれですか? A. 各国の顧客データに対して個別のテーブルを作成します。アナリストがサービスを提供する国に基づいて、各アナリストへのアクセスを提供します。 B. S3 バケットをデータレイクの場所として AWS Lake Formation に登録します。 Lake Formation の行レベルのセキュリティ機能を使用して、企業のアクセス ポリシーを適用します。 C. 顧客がいる国に近いAWSリージョンにデータを移動します。アナリストがサービスを提供する国に基づいて、各アナリストへのアクセスを提供します。 D. データをAmazon Redshiftにロードします。国ごとにビューを作成します。国ごとに個別のIAM ロールを作成して、各国のデータへのアクセスを提供します。アナリストに適切な役割を割り当てます。 B AWS Lake Formation: AWS 上のデータレイクを管理するために特別に設計されており、データへのアクセスを保護および制御する機能を提供します。行レベルのセキュリティ: Lake Formation を使用すると、行レベルのセキュリティを含む、きめ細かいアクセス制御ポリシーを定義できます。つまり、各顧客に関連付けられている国など、特定の条件に基づいてデータへのアクセスを制限するポリシーを適用できます。最小限の運用労力: Lake Formation 内でポリシーを定義すると、オプション A、C、D のように国ごとに個別のテーブルやビューを作成する必要がなく、ポリシーを一元管理して S3 バケット内のデータに適用できます。これにより、運用上のオーバーヘッドと複雑さが軽減されます。 3 / 80 3. 3, あるメディア会社は、ユーザーの行動や好みに基づいて顧客にメディアコンテンツを推奨するシステムを改善したいと考えています。レコメンデーション システムを改善するには、サードパーティのデータセットからのインサイトを自社の既存の分析プラットフォームに組み込む必要があります。 同社は、サードパーティのデータセットを組み込むために必要な労力と時間を最小限に抑えたいと考えています。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. API 呼び出しを使用して、AWS Data Exchange からサードパーティのデータセットにアクセスし、統合します。 B. API 呼び出しを使用して、AWS DataSync からサードパーティのデータセットにアクセスし、統合します。 C. Amazon Kinesis Data Streams を使用して、AWS CodeCommit リポジトリからサードパーティのデータセットにアクセスし、統合します。 D. Amazon Kinesis Data Streams を使用して、Amazon Elastic Container Registry (Amazon ECR) からサードパーティのデータセットにアクセスし、統合します。 A AWS DataSyncは主に、オンプレミスのストレージ システムとAWS ストレージ サービス間、および異なるAWSストレージ サービス間でのデータの移動を簡素化、自動化、高速化するように設計されたデータ転送サービスに使用されます。その主な役割は、サードパーティのデータセットにアクセスすることではなく、大量のデータを効率的に転送することです。対照的に、AWS Data Exchangeは、クラウド内のサードパーティデータを検出してサブスクライブするために特別に設計されており、これらのデータセットへの直接APIアクセスを提供します。これは、最小限のオーバーヘッドでこのデータを推奨システムに統合するという企業のニーズに完全に一致します。 4 / 80 4. 4, 金融会社はデータメッシュを実装したいと考えています。データメッシュは、一元的なデータガバナンス、データ分析、データアクセス制御をサポートする必要があります。同社は、データカタログと抽出、変換、ロード (ETL) オペレーションにAWS Glueを使用することを決定しました。 AWS サービスのどの組み合わせがデータメッシュを実装しますか? (2つお選びください。) A. データストレージには Amazon Aurora を使用します。データ分析には Amazon Redshift でプロビジョニングされたクラスターを使用します。 B. データストレージに Amazon S3 を使用します。データ分析には Amazon Athena を使用します。 C. AWS Glue DataBrew を使用して一元的なデータガバナンスとアクセス制御を実現します。 D. データストレージには Amazon RDS を使用します。データ分析には Amazon EMR を使用します。 E. AWS Lake Formation を使用して、一元的なデータガバナンスとアクセス制御を実現します。 BE 答えは B と E です。データ メッシュの実装では、データのストレージと分析に Amazon S3 と Athena を使用し、一元的なデータ ガバナンスとアクセス制御に AWS Lake Formation を使用します。 AWS Glue と組み合わせると、データを効率的に管理できます。 5 / 80 5. 5, データエンジニアは、多くの AWS Lambda 関数が使用するデータフォーマット プロセスを実行するカスタム Python スクリプトを管理します。データ エンジニアが Python スクリプトを変更する必要がある場合、データ エンジニアはすべての Lambda 関数を手動で更新する必要があります。 データ エンジニアは、Lambda 関数を更新するためにあまり手動ではない方法を必要としています。 この要件を満たすソリューションはどれですか? A. 共有 Amazon S3 バケット内の実行コンテキスト オブジェクトにカスタム Python スクリプトへのポインターを保存します。 B. カスタム Python スクリプトを Lambda レイヤーにパッケージ化します。 Lambda レイヤーを Lambda 関数に適用します。 C. 共有 Amazon S3 バケットの環境変数にカスタム Python スクリプトへのポインターを保存します。 D. 各 Lambda 関数に同じエイリアスを割り当てます。関数のエイリアスを指定して、reach Lambda 関数を呼び出します。 B B. カスタム Python スクリプトを Lambda レイヤーにパッケージ化します。 Lambda レイヤーを Lambda 関数に適用します。説明: Lambda レイヤーを使用すると、複数の Lambda 関数にわたる共有コードと依存関係を一元管理できます。カスタム Python スクリプトを Lambda レイヤーにパッケージ化すると、スクリプトに変更が加えられるたびにレイヤーを更新するだけで済み、そのレイヤーを使用するすべての Lambda 関数が更新を自動的に継承します。このアプローチにより、手作業が軽減され、機能間の一貫性が確保されます。 6 / 80 6. 6, ある企業は、AWS Glue で抽出、変換、ロード (ETL) データ パイプラインを作成しました。データ エンジニアは、Microsoft SQL Server 内のテーブルをクロールする必要があります。データ エンジニアは、クロールの出力を抽出、変換し、Amazon S3 バケットにロードする必要があります。データ エンジニアは、データ パイプラインを調整する必要もあります。 これらの要件を最もコスト効率よく満たす AWS のサービスまたは機能はどれですか? A. AWS Step Functions B. AWS Glue ワークフロー C. AWS Glue Studio D. Amazon Managed Workflows for Apache Airflow (Amazon MWAA) B CRAWLING と ETL は Glue ワークフローの主な機能であり、MS SQL がサポートされています。 https://docs.aws.amazon.com/glue/latest/dg/crawler-data-stores.html 7 / 80 7. 7, 金融サービス会社は、Amazon Redshift に財務データを保存しています。データ エンジニアは、Web ベースの取引アプリケーションをサポートするために財務データに対してリアルタイム クエリを実行したいと考えています。データ エンジニアは、取引アプリケーション内からクエリを実行したいと考えています。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. Amazon Redshift への WebSocket 接続を確立します。 B. Amazon Redshift Data API を使用します。 C. Amazon Redshift への Java Database Connectivity (JDBC) 接続をセットアップします。 D. 頻繁にアクセスされるデータを Amazon S3 に保存します。 Amazon S3 Select を使用してクエリを実行します。 B B. Amazon Redshift データ API を使用します。説明: Amazon Redshift Data API は、Amazon Redshift に対してクエリを実行するために JDBC または ODBC ドライバーを使用する代わりとなる軽量の HTTPS ベースの API です。これにより、接続やドライバーを管理することなく、アプリケーション内から直接 SQL クエリを実行できるようになります。これにより、WebSocket または JDBC 接続を管理および維持する必要がなくなるため、運用上のオーバーヘッドが軽減されます。 https://aws.amazon.com/de/blogs/big-data/using-the-amazon-redshift-data-api-to-interact-with-amazon-redshift-clusters/#:~:text=The%20Amazon%20Redshift%20Data%20API%20is%20not%20a%20replacement%20forsupported%20by%20the%20AWS%20SDK 8 / 80 8. 8, ある企業は、Amazon S3 内のデータに対するワンタイムクエリに Amazon Athena を使用しています。同社にはいくつかのユースケースがあります。企業は、同じ AWS アカウント内のユーザー、チーム、アプリケーション間のクエリプロセスとクエリ履歴へのアクセスを分離するための権限制御を実装する必要があります。 これらの要件を満たすソリューションはどれですか? A. ユースケースごとに S3 バケットを作成します。適切な個々の IAM ユーザーに権限を付与する S3 バケット ポリシーを作成します。 S3 バケットポリシーを S3 バケットに適用します。 B. ユースケースごとに Athena ワークグループを作成します。ワークグループにタグを適用します。タグを使用してワークグループに適切な権限を適用する IAM ポリシーを作成します。 C. ユースケースごとに IAM ロールを作成します。ユースケースごとに適切な権限をロールに割り当てます。役割を Athena に関連付けます。 D. ユースケースごとに適切な個々の IAM ユーザーにアクセス許可を付与する AWS Glue Data Catalog リソース ポリシーを作成します。 Athena が使用する特定のテーブルにリソース ポリシーを適用します。 B B. ユースケースごとに Athena ワークグループを作成します。ワークグループにタグを適用します。タグを使用してワークグループに適切な権限を適用する IAM ポリシーを作成します。説明: Athena ワークグループを使用すると、さまざまなワークロード、ユーザー、権限を分離して管理できます。ユースケースごとに個別のワークグループを作成することで、クエリ履歴へのアクセスを制御し、権限を管理し、ワークロードごとに個別にリソース使用量制限を適用できます。ワークグループにタグを適用すると、ユースケースに基づいてワークグループを分類および整理できるため、ポリシー管理が簡素化されます。 https://docs.aws.amazon.com/athena/latest/ug/user-created-workgroups.html 9 / 80 9. 9, データエンジニアは、一連の AWS Glue ジョブを毎日実行するワークフローをスケジュールする必要があります。データ エンジニアは、Glue ジョブを特定の時間に実行または終了する必要はありません。 Glue ジョブを最もコスト効率の高い方法で実行できるソリューションはどれですか? A. Glue ジョブのプロパティで FLEX 実行クラスを選択します。 B. Glue ジョブのプロパティでスポット インスタンス タイプを使用します。 C. Glue ジョブのプロパティで STANDARD 実行クラスを選択します。 D. Glue ジョブのプロパティの GlueVersion フィールドで最新バージョンを選択します。 A A. Glue ジョブのプロパティで FLEX 実行クラスを選択します。説明: AWS Glue の FLEX 実行クラスを使用すると、ジョブが Glue サービス内のアイドルリソースを使用できるようになり、STANDARD 実行クラスと比較してコストを大幅に削減できます。 FLEX を使用すると、リソースが利用可能なときに Glue ジョブが実行されます。これは、特定の時間枠内に完了する必要のないジョブにとってはコスト効率の高いアプローチです。 10 / 80 10. 10, データ エンジニアは、データの形式を .csv から Apache Parquet に変換する AWS Lambda 関数を作成する必要があります。 Lambda 関数は、ユーザーが .csv ファイルを Amazon S3 バケットにアップロードする場合にのみ実行する必要があります。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. イベントタイプが s3:ObjectCreated:* である S3 イベント通知を作成します。フィルター ルールを使用して、サフィックスに .csv が含まれる場合にのみ通知を生成します。 Lambda 関数の Amazon リソースネーム (ARN) をイベント通知の宛先として設定します。 B. タグが .csv に設定されているオブジェクトに対して、イベント タイプが s3:ObjectTagging:* である S3 イベント通知を作成します。 Lambda 関数の Amazon リソースネーム (ARN) をイベント通知の宛先として設定します。 C. イベントタイプが s3:* の S3 イベント通知を作成します。フィルター ルールを使用して、サフィックスに .csv が含まれる場合にのみ通知を生成します。 Lambda 関数の Amazon リソースネーム (ARN) をイベント通知の宛先として設定します。 D. イベントタイプが s3:ObjectCreated:* である S3 イベント通知を作成します。フィルター ルールを使用して、サフィックスに .csv が含まれる場合にのみ通知を生成します。 Amazon Simple Notice Service (Amazon SNS) トピックをイベント通知の宛先として設定します。 Lambda 関数を SNS トピックにサブスクライブします。 A A. イベントタイプが s3:ObjectCreated:* である S3 イベント通知を作成します。フィルター ルールを使用して、サフィックスに .csv が含まれる場合にのみ通知を生成します。 Lambda 関数の Amazon リソースネーム (ARN) をイベント通知の宛先として設定します。説明: このソリューションは、.csv ファイルが S3 バケットにアップロードされた場合にのみ Lambda 関数を直接トリガーし、Lambda 関数の不要な呼び出しを最小限に抑えます。特定のイベントタイプ (s3:ObjectCreated:*) とフィルタールールを使用して、関連するイベントに対してのみ Lambda 関数が呼び出されるようにします。さらに、Amazon SNS などの追加サービスを必要とせずに Lambda 関数を直接呼び出すため、運用オーバーヘッドが削減されます。 11 / 80 11. 11, データエンジニアは、Amazon Athena クエリをより速く完了する必要があります。データ エンジニアは、Athena クエリで使用されるすべてのファイルが現在非圧縮の .csv 形式で保存されていることに気づきました。データ エンジニアは、ユーザーがほとんどのクエリを特定の列を選択して実行していることにも気づきました。 Athena クエリのパフォーマンスを最も高速化できるソリューションはどれですか? A. データ形式を .csv から JSON 形式に変更します。 Snappy 圧縮を適用します。 B. Snappy 圧縮を使用して .csv ファイルを圧縮します。 C. データ形式を .csv から Apache Parquet に変更します。 Snappy 圧縮を適用します。 D. gzip 圧縮を使用して .csv ファイルを圧縮します。 C C. データ形式を .csv から Apache Parquet に変更します。 Snappy 圧縮を適用します。 説明: Apache Parquet は、分析クエリ用に最適化された列指向ストレージ形式です。列のプルーニングと述語のプッシュダウンの最適化が可能になるため、特にクエリに特定の列の選択が含まれる場合、クエリのパフォーマンスが非常に効率的になります。 12 / 80 12. 12, 製造会社は工場現場からセンサー データを収集し、業務効率を監視し、向上させています。同社は、Amazon Kinesis Data Streams を使用して、センサーが収集したデータをデータ ストリームに公開します。次に、Amazon Kinesis Data Firehose がデータを Amazon S3 バケットに書き込みます。 同社は、製造施設の大型スクリーンに業務効率のリアルタイム ビューを表示する必要があります。 これらの要件を最も低い遅延で満たすソリューションはどれですか? A. Amazon Managed Service for Apache Flink (以前は Amazon Kinesis Data Analytics として知られていました) を使用してセンサーデータを処理します。 Apache Flink のコネクタを使用して、Amazon Timestream データベースにデータを書き込みます。 Timestream データベースをソースとして使用して、Grafana ダッシュボードを作成します。 B. 新しいオブジェクトが作成されたときに AWS Lambda 関数に通知を送信するように S3 バケットを設定します。 Lambda 関数を使用してデータを Amazon Aurora に公開します。 Aurora をソースとして使用して、Amazon QuickSight ダッシュボードを作成します。 C. Amazon Managed Service for Apache Flink (以前は Amazon Kinesis Data Analytics として知られていました) を使用してセンサーデータを処理します。新しい Data Firehose 配信ストリームを作成して、データを Amazon Timestream データベースに直接公開します。 Timestream データベースをソースとして使用して、Amazon QuickSight ダッシュボードを作成します。 D. AWS Glue ブックマークを使用して、S3 バケットからセンサー データをリアルタイムで読み取ります。データを Amazon Timestream データベースに公開します。 Timestream データベースをソースとして使用して、Grafana ダッシュボードを作成します。 A A. - **センサー データの処理**: リアルタイム データ処理のためのフルマネージド サービスである Apache Flink 用 Amazon マネージド サービスを利用します。このサービスはセンサー データを処理するために使用されます。これには、受信データ ストリームのリアルタイム分析または変換が含まれる可能性があります。 - **Amazon Timestream への Apache Flink のコネクタ**: Apache Flink のコネクタを統合して、処理されたデータをフルマネージドの時系列データベースである Amazon Timestream に書き込みます。 Timestream は、IoT と時系列データ用に最適化されています。 - **Grafana ダッシュボードのソースとしての Timestream データベース**: Timestream に保存されたデータは、Grafana ダッシュボードを作成するためのデータ ソースとして機能します。 Grafana は、時系列データを視覚化する人気のオープンソース分析および監視プラットフォームです。 https://aws.amazon.com/blogs/database/near-real-time-processing-with-amazon-kinesis-amazon-timestream-and-grafana/ 13 / 80 13. 13, ある企業は、投資ポートフォリオの財務実績の毎日の記録を .csv 形式で Amazon S3 バケットに保存しています。データ エンジニアは、AWS Glue クローラーを使用して S3 データをクロールします。 データ エンジニアは、AWS Glue データ カタログで S3 データに毎日アクセスできるようにする必要があります。 これらの要件を満たすソリューションはどれですか? A. AmazonS3FullAccess ポリシーを含む IAM ロールを作成します。ロールをクローラーに関連付けます。クローラーのデータ ストアとしてソース データの S3 バケット パスを指定します。クローラーを実行する毎日のスケジュールを作成します。出力先を既存の S3 バケット内の新しいパスに設定します。 B. AWSGlueServiceRole ポリシーを含む IAM ロールを作成します。ロールをクローラーに関連付けます。クローラーのデータ ストアとしてソース データの S3 バケット パスを指定します。クローラーを実行する毎日のスケジュールを作成します。出力のデータベース名を指定します。 C. AmazonS3FullAccess ポリシーを含む IAM ロールを作成します。ロールをクローラーに関連付けます。クローラーのデータ ストアとしてソース データの S3 バケット パスを指定します。クローラーを毎日実行するためにデータ処理ユニット (DPU) を割り当てます。出力のデータベース名を指定します。 D. AWSGlueServiceRole ポリシーを含む IAM ロールを作成します。ロールをクローラーに関連付けます。クローラーのデータ ストアとしてソース データの S3 バケット パスを指定します。クローラーを毎日実行するためにデータ処理ユニット (DPU) を割り当てます。出力先を既存の S3 バケット内の新しいパスに設定します。 B A、C は完全な S3 アクセスを必要としないため、間違っています。 D は不正解です。DPU をプロビジョニングする必要はなく、宛先は S3 バケットではなくデータベースである必要があります。 B. AWSGlueServiceRole ポリシーを含む IAM ロールを作成します。ロールをクローラーに関連付けます。クローラーのデータ ストアとしてソース データの S3 バケット パスを指定します。クローラーを実行する毎日のスケジュールを作成します。出力のデータベース名を指定します。説明: オプション B は、AWS Glue で使用するように設計された AWSGlueServiceRole ポリシーを使用して、必要なアクセス許可を持つ IAM ロールを正しく設定します。ソース データの S3 バケット パスをクローラのデータ ストアとして指定し、クローラを実行する日次スケジュールを作成します。さらに、出力のデータベース名を指定して、クロールされたデータが AWS Glue データ カタログに適切にカタログ化されるようにします。 14 / 80 14. 14, ある企業は、毎日の終わりに、毎日のトランザクション データを Amazon Redshift テーブルにロードします。同社は、どのテーブルがロードされ、どのテーブルをまだロードする必要があるかを追跡できるようにしたいと考えています。 データ エンジニアは、Redshift テーブルの負荷ステータスを Amazon DynamoDB テーブルに保存したいと考えています。データ エンジニアは、負荷ステータスの詳細を DynamoDB に公開する AWS Lambda 関数を作成します。 データエンジニアは Lambda 関数を呼び出して負荷ステータスを DynamoDB テーブルに書き込むにはどうすればよいでしょうか? A. 2 番目の Lambda 関数を使用して、Amazon CloudWatch イベントに基づいて最初の Lambda 関数を呼び出します。 B. Amazon Redshift Data API を使用してイベントを Amazon EventBridge に発行します。 Lambda 関数を呼び出すように EventBridge ルールを設定します。 C. Amazon Redshift Data API を使用して、Amazon Simple Queue Service (Amazon SQS) キューにメッセージをパブリッシュします。 Lambda 関数を呼び出すように SQS キューを設定します。 D. 2 番目の Lambda 関数を使用して、AWS CloudTrail イベントに基づいて最初の Lambda 関数を呼び出します。 B データエンジニアが Lambda 関数を呼び出して負荷ステータスを DynamoDB テーブルに書き込む最も適切な方法は次のとおりです。 B. Amazon Redshift Data API を使用してイベントを Amazon EventBridge に発行します。 Lambda 関数を呼び出すように EventBridge ルールを設定します。説明: オプション B は、Amazon Redshift Data API を利用して Amazon EventBridge にイベントを発行します。Amazon EventBridge は、AWS のサービス全体でイベントを処理するためのサーバーレスイベントバスサービスを提供します。 Redshift Data API によって発行されたイベントに応答して Lambda 関数を呼び出すように EventBridge ルールを設定することで、データ エンジニアは、Amazon Redshift に新しいトランザクション データがロードされるたびに Lambda 関数がトリガーされるようにできます。このアプローチは、追加の Lambda 関数やサービスに依存せずに、テーブルの負荷ステータスを追跡するための簡単でスケーラブルなソリューションを提供します。 15 / 80 15. 15, データ エンジニアは、5 TB のデータをオンプレミスのデータセンターから Amazon S3 バケットに安全に転送する必要があります。データの約 5% が毎日変更されます。データの更新は定期的に S3 バケットに反映される必要があります。データには複数の形式のファイルが含まれています。データ エンジニアは転送プロセスを自動化し、プロセスが定期的に実行されるようにスケジュールを設定する必要があります。 データエンジニアが運用上最も効率的な方法でデータを転送するには、どの AWS サービスを使用する必要がありますか? A. AWS DataSync B. AWS Glue C. AWS Direct Connect D. Amazon S3 Transfer Acceleration A A. AWS DataSync 説明: AWS DataSync は、オンプレミスのストレージと Amazon S3、EFS、または FSx for Windows ファイル サーバー間での大量のデータのオンライン移動を簡素化し、高速化するマネージド データ転送サービスです。 DataSync は、大規模なデータセットを効率的かつ増分的かつ信頼性高く転送できるように最適化されており、毎日の更新で 5 TB のデータを転送するのに適しています。 16 / 80 16. 16, ある企業は、オンプレミスの Microsoft SQL Server データベースを使用して金融取引データを保存しています。同社は毎月月末にトランザクション データをオンプレミスのデータベースから AWS に移行します。同社は、オンプレミスのデータベースから Amazon RDS for SQL Server データベースにデータを移行するコストが最近増加していることに気づきました。 同社は、データを AWS に移行するためのコスト効率の高いソリューションを必要としています。このソリューションでは、データベースにアクセスするアプリケーションのダウンタウンを最小限に抑える必要があります。 これらの要件を満たすために企業はどの AWS サービスを使用する必要がありますか? A. AWS Lambda B. AWS Database Migration Service (AWS DMS) C. AWS Direct Connect D. AWS Data Sync B B. AWS Database Migration Service (AWS DMS) 説明: AWS Database Migration Service (DMS) は、ダウンタイムやアプリケーションの中断を最小限に抑えて、オンプレミスのデータベースを含むさまざまなソースから AWS にデータを移行するように特別に設計されています。同種の移行 (例: SQL Server から SQL Server) だけでなく、異種の移行 (例: SQL Server から Amazon RDS for SQL Server) もサポートします。 17 / 80 17. 17, データ エンジニアは、AWS Glue の抽出、変換、読み込み (ETL) ジョブを使用して、AWS 上にデータ パイプラインを構築しています。データエンジニアは、分析のために Amazon RDS および MongoDB からのデータを処理し、変換を実行し、変換されたデータを Amazon Redshift にロードする必要があります。データの更新は 1 時間ごとに行われる必要があります。 運用上のオーバーヘッドを最小限に抑えながらこれらの要件を満たすタスクの組み合わせはどれですか? (2つお選びください。) A. ETL ジョブを 1 時間ごとに実行するように AWS Glue トリガーを設定します。 B. AWS Glue DataBrew を使用して、分析用にデータをクリーンアップして準備します。 C. AWS Lambda 関数を使用して、ETL ジョブを 1 時間ごとにスケジュールして実行します。 D. AWS Glue 接続を使用して、データ ソースと Amazon Redshift 間の接続を確立します。 E. Redshift Data API を使用して、変換されたデータを Amazon Redshift にロードします。 AD AWS Glue トリガーは、ETL ジョブをスケジュールするためのシンプルで統合された方法を提供します。これらのトリガーを 1 時間ごとに実行するように構成することで、データ エンジニアは、外部のスケジュール ツールやカスタム スクリプトを必要とせずに、データの処理と更新が必要に応じて確実に行われるようにすることができます。このアプローチは AWS Glue と直接統合されており、複雑さと運用オーバーヘッドが軽減されます。 AWS Glue は、Amazon RDS や MongoDB などのさまざまなデータソースへの接続をサポートします。 AWS Glue 接続を使用すると、データ エンジニアはこれらのデータ ソースと Amazon Redshift の間の接続を簡単に設定および管理できます。この方法では、データソース統合に AWS Glue の組み込み機能を利用するため、運用の複雑さが最小限に抑えられ、ソースから宛先 (Amazon Redshift) までのシームレスなデータフローが保証されます。 18 / 80 18. 18, ある企業は、RA3 ノード上で実行される Amazon Redshift クラスターを使用しています。同社は、需要に合わせて読み取りおよび書き込み容量を拡張したいと考えています。データ エンジニアは、同時実行スケーリングを有効にするソリューションを特定する必要があります。 この要件を満たすソリューションはどれですか? A. Redshift Serverless ワークグループのワークロード管理 (WLM) で同時実行スケーリングを有効にします。 B. Redshift クラスターのワークロード管理 (WLM) キュー レベルで同時実行スケーリングをオンにします。 C. 新しい Redshift クラスターの作成中に、設定で同時実行スケーリングをオンにします。 D. Redshift クラスターの 1 日あたりの使用量クォータの同時実行スケーリングをオンにします。 B B. Redshift クラスターのワークロード管理 (WLM) キュー レベルで同時実行スケーリングをオンにします。説明: Amazon Redshift の同時実行スケーリングにより、クラスターはワークロードの需要に応じてコンピューティングリソースを自動的に追加および削除できます。ワークロード管理 (WLM) キュー レベルで同時実行スケーリングを有効にすると、クエリ ワークロードに基づいて同時実行スケーリングの恩恵を受けるキューを指定できます。 https://docs.aws.amazon.com/redshift/latest/dg/concurrency-scaling-queues.html 19 / 80 19. 19, データエンジニアは、毎日実行される一連の Amazon Athena クエリを調整する必要があります。各クエリは 15 分以上実行される場合があります。 これらの要件を最もコスト効率よく満たす手順の組み合わせはどれですか? (2つお選びください。) A. AWS Lambda 関数と Athena Boto3 クライアントの start_query_execution API 呼び出しを使用して、Athena クエリをプログラム的に呼び出します。 B. AWS Step Functions ワークフローを作成し、2 つの状態を追加します。 Lambda 関数の前に最初の状態を追加します。 2 番目の状態を待機状態として設定し、Athena Boto3 get_query_execution API 呼び出しを使用して Athena クエリが終了したかどうかを定期的に確認します。現在のクエリの実行が終了したときに次のクエリを呼び出すようにワークフローを構成します。 C. AWS Glue Python シェル ジョブと Athena Boto3 クライアントの start_query_execution API 呼び出しを使用して、Athena クエリをプログラム的に呼び出します。 D. AWS Glue Python シェル スクリプトを使用して、現在の Athena クエリの実行が正常に終了したかどうかを判断するために 5 分ごとにチェックするスリープ タイマーを実行します。現在のクエリの実行が終了したときに次のクエリを呼び出すように Python シェル スクリプトを構成します。 E. Amazon Managed Workflows for Apache Airflow (Amazon MWAA) を使用して、AWS Batch で Athena クエリを調整します。 BE B https://docs.aws.amazon.com/step-functions/latest/dg/sample-athena-query.html E https://aws.amazon.com/blogs/big-data/orchestrate-amazon-emr-serverless-spark-jobs-with-amazon-mwaa-and-data-validation-using-amazon-athena/ 20 / 80 20. 20, ある企業はオンプレミスのワークロードを AWS に移行しています。会社は全体的な運用オーバーヘッドを削減したいと考えています。同社はサーバーレスのオプションも検討したいと考えている。 同社の現在のワークロードは、Apache Pig、Apache Oozie、Apache Spark、Apache Hbase、および Apache Flink を使用しています。オンプレミスのワークロードは、ペタバイト単位のデータを数秒で処理します。企業は、AWS への移行後も同等以上のパフォーマンスを維持する必要があります。 これらの要件を満たす抽出、変換、ロード (ETL) サービスはどれですか? A. AWS Glue B. Amazon EMR C. AWS Lambda D. Amazon Redshift A A. AWS Glue: AWS Glue は、アマゾン ウェブ サービス (AWS) が提供するフルマネージドの抽出、変換、ロード (ETL) サービスです。 B. Amazon EMR: Amazon Elastic MapReduce (EMR) は、AWS が提供するクラウドベースのビッグデータ プラットフォームです。ユーザーは、Apache Hadoop、Apache Spark、Apache Hive、Apache HBase などの一般的なフレームワークを使用して、大量のデータを処理および分析できます。 https://docs.aws.amazon.com/emr/index.html https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-best-practices.html https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-manage.html https://docs.aws.amazon.com/emr/latest/DeveloperGuide/emr-developer-guide.html 21 / 80 21. 21, データエンジニアは、AWS のサービスを使用してデータセットを Amazon S3 データレイクに取り込む必要があります。データ エンジニアはデータセットのプロファイリングを行い、データセットに個人を特定できる情報 (PII) が含まれていることを発見します。データ エンジニアは、データセットをプロファイリングし、PII を難読化するソリューションを実装する必要があります。 最小限の運用労力でこの要件を満たすソリューションはどれですか? A. Amazon Kinesis Data Firehose 配信ストリームを使用してデータセットを処理します。 PII を識別するための AWS Lambda 変換関数を作成します。 AWS SDK を使用して PII を難読化します。 S3 データレイクを配信ストリームのターゲットとして設定します。 B. AWS Glue Studio の Detect PII 変換を使用して PII を識別します。 PII を難読化します。 AWS Step Functions ステートマシンを使用してデータパイプラインを調整し、データを S3 データレイクに取り込みます。 C. AWS Glue Studio の Detect PII 変換を使用して PII を識別します。 AWS Glue Data Quality でルールを作成して、PII を難読化します。 AWS Step Functions ステートマシンを使用してデータパイプラインを調整し、データを S3 データレイクに取り込みます。 D. データセットを Amazon DynamoDB に取り込みます。 DynamoDB テーブル内の PII を識別して難読化し、データを変換する AWS Lambda 関数を作成します。同じ Lambda 関数を使用して、データを S3 データレイクに取り込みます。 C C. AWS Glue Studio の Detect PII 変換を使用して PII を識別します。 AWS Glue Data Quality でルールを作成して、PII を難読化します。 AWS Step Functions ステートマシンを使用してデータ パイプラインを調整し、データを S3 データ レイクに取り込む 22 / 80 22. 22, ある企業は、社内の運用データベースから Amazon S3 ベースのデータレイクにデータを取り込む複数の抽出、変換、ロード (ETL) ワークフローを維持しています。 ETL ワークフローは、AWS Glue と Amazon EMR を使用してデータを処理します。 同社は、既存のアーキテクチャを改善して、自動化されたオーケストレーションを提供し、手作業を最小限に抑えたいと考えています。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. AWS Glue ワークフロー B. AWS Step Functions タスク C. AWS Lambda 関数 D. Amazon Managed Workflows for Apache Airflow (Amazon MWAA) ワークフロー B StepFunction を使用する方法があります。 https://aws.amazon.com/blogs/big-data/orchestrate-amazon-emr-serverless-jobs-with-aws-step-functions/ 23 / 80 23. 23, ある企業は現在、S3 標準ストレージ クラスを使用して、すべてのデータを Amazon S3 に保存しています。 データ エンジニアはデータ アクセス パターンを調査して傾向を特定しました。最初の 6 か月間、ほとんどのデータ ファイルは毎日数回アクセスされます。 6 か月から 2 年の間、ほとんどのデータ ファイルは毎月 1 回か 2 回アクセスされます。 2 年後、データ ファイルにアクセスされるのは年に 1 回か 2 回だけになります。 データ エンジニアは、S3 ライフサイクル ポリシーを使用して、新しいデータ ストレージ ルールを開発する必要があります。新しいストレージ ソリューションは、引き続き高可用性を提供する必要があります。 最もコスト効率の高い方法でこれらの要件を満たすソリューションはどれですか? A. 6 か月後にオブジェクトを S3 1 ゾーン - 低頻度アクセス (S3 1 ゾーン - IA) に移行します。 2 年後にオブジェクトを S3 Glacier Flexible Retrieval に転送します。 B. 6 か月後にオブジェクトを S3 標準 - 低頻度アクセス (S3 標準 - IA) に移行します。 2 年後にオブジェクトを S3 Glacier Flexible Retrieval に転送します。 C. 6 か月後にオブジェクトを S3 標準 - 低頻度アクセス (S3 標準 - IA) に移行します。 2 年後にオブジェクトを S3 Glacier Deep Archive に転送します。 D. 6 か月後にオブジェクトを S3 1 ゾーン - 低頻度アクセス (S3 1 ゾーン - IA) に移行します。 2 年後にオブジェクトを S3 Glacier Deep Archive に転送します。 C 質問には「最も費用対効果の高い方法」について言及されています。 C は最もコスト効率が高く、依然として可用性が高くなります。この要件は、取得時間の要件を示すものではありません。 24 / 80 24. 24, ある企業は、重要な分析タスクをサポートするための抽出、変換、ロード (ETL) 操作に使用する Amazon Redshift でプロビジョニングされたクラスターを維持しています。社内の営業チームは、ビジネス インテリジェンス (BI) タスクに使用する Redshift クラスターを維持しています。 最近、営業チームは、毎週の概要分析タスクを実行できるように、ETL Redshift クラスター内のデータへのアクセスをリクエストしました。営業チームは、ETL クラスターのデータを営業チームの BI クラスター内のデータと結合する必要があります。 同社は、重要な分析タスクを中断することなく ETL クラスター データを営業チームと共有するソリューションを必要としています。ソリューションでは、ETL クラスターのコンピューティング リソースの使用量を最小限に抑える必要があります。 これらの要件を満たすソリューションはどれですか? A. Redshift データ共有を使用して、営業チームの BI クラスターを ETL クラスターのコンシューマーとしてセットアップします。 B. 営業チームの要件に基づいてマテリアライズド ビューを作成します。営業チームに ETL クラスターへの直接アクセスを許可します。 C. 営業チームの要件に基づいてデータベース ビューを作成します。営業チームに ETL クラスターへの直接アクセスを許可します。 D. データのコピーを毎週 ETL クラスターから Amazon S3 バケットにアンロードします。 ETL クラスターのコンテンツに基づいて Amazon Redshift Spectrum テーブルを作成します。 A Redshift クラスター間でデータを共有し、重要な分析タスクを中断したり、ETL クラスターのコンピューティング リソースの使用量を最小限に抑えたりすることなく、ETL クラスター データを営業チームと共有するという要件を満たすには、Redshift データ共有が最適です。 https://docs.aws.amazon.com/redshift/latest/dg/data_sharing_intro.html "さまざまな種類のビジネスクリティカルなワークロードのサポート – 複数のビジネス インテリジェンス (BI) クラスターまたは分析クラスターとデータを共有する中央の抽出、変換、ロード (ETL) クラスターを使用します。このアプローチでは、個々のワークロードの読み取りワークロードの分離とチャージバックが提供され、ワークロード固有の価格とパフォーマンスの要件に応じて、個々のワークロードのコンピューティングを調整できます。 25 / 80 25. 25, データ エンジニアは、複数のソースからのデータを結合して、1 回限りの分析ジョブを実行する必要があります。データは、Amazon DynamoDB、Amazon RDS、Amazon Redshift、および Amazon S3 に保存されます。 この要件を最もコスト効率よく満たすソリューションはどれですか? A. Amazon EMR プロビジョニングされたクラスターを使用して、すべてのソースから読み取ります。 Apache Spark を使用してデータを結合し、分析を実行します。 B. DynamoDB、Amazon RDS、Amazon Redshift から Amazon S3 にデータをコピーします。 S3 ファイルに対して Amazon Athena クエリを直接実行します。 C. Amazon Athena Federated Query を使用して、すべてのデータソースからのデータを結合します。 D. Redshift Spectrum を使用して、DynamoDB、Amazon RDS、Amazon S3 のデータを Redshift から直接クエリします。 C Federated Query が一般的であるため、C を選択します。さらに、S3 にリソースを追加/複製する必要はありません。しかし、Athena は S3 に対してより最適化されているため、これは難しい問題であると考えられます。私の意見では、データを S3 に集中させた方がデータ ガバナンスが容易になるなど、考慮すべきトレードオフがさらに増える可能性があるためです。 26 / 80 26. 26, ある企業は、Apache Spark ジョブを実行するプロビジョニングされた Amazon EMR クラスターを使用してビッグデータ分析を実行することを計画しています。同社は高い信頼性を求めています。ビッグデータチームは、Amazon EMR でコストが最適化され、長時間実行されるワークロードを実行するためのベストプラクティスに従う必要があります。チームは会社の現在のパフォーマンスレベルを維持するソリューションを見つけなければなりません。 これらの要件を最もコスト効率よく満たすリソースの組み合わせはどれですか? (2つお選びください。) A. Hadoop 分散ファイル システム (HDFS) を永続データ ストアとして使用します。 B. Amazon S3 を永続的なデータ ストアとして使用します。 C. コア ノードとタスク ノードに x86 ベースのインスタンスを使用します。 D. コア ノードとタスク ノードに Graviton インスタンスを使用します。 E. すべてのプライマリ ノードにスポット インスタンスを使用します。 AD A. - AWS では、スケーラビリティ、耐久性、費用対効果の点から、Amazon S3 を Amazon EMR の永続データストアとして使用することをお勧めします。 HDFS にデータを保存するには、追加のインフラストラクチャの管理と維持が必要となり、Amazon S3 を使用する場合と比較して、ストレージ、管理、スケーラビリティの点でコストが高くなる可能性があります。 AWS のドキュメントでは、コストの最適化と効率化のために Amazon EMR を Amazon S3 と統合する利点が強調されています。 D. - Graviton インスタンスは特定のシナリオではコスト削減につながる可能性がありますが、特定のワークロード要件や互換性のあるソフトウェアの可用性によっては、常に最もコスト効率の高いオプションであるとは限りません。 x86 ベースのインスタンスは、より幅広いソフトウェアやフレームワークでサポートされることが多く、場合によってはパフォーマンスと互換性が向上する可能性があります。さらに、インスタンスのタイプと価格に関する AWS のドキュメントを参照すると、x86 ベースのインスタンスと比較した Graviton インスタンスの費用対効果についての洞察が得られます。 27 / 80 27. 27, ある企業は、リアルタイム分析機能を実装したいと考えています。同社は、Amazon Kinesis Data Streams と Amazon Redshift を使用して、毎秒数ギガバイトの速度でストリーミング データを取り込み、処理したいと考えています。同社は、既存のビジネス インテリジェンス (BI) および分析ツールを使用して、ほぼリアルタイムの洞察を導き出したいと考えています。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. Kinesis Data Streams を使用して、Amazon S3 にデータをステージングします。 COPY コマンドを使用して Amazon S3 から Amazon Redshift にデータを直接ロードし、データをリアルタイム分析にすぐに使用できるようにします。 B. SQL クエリを使用して、Kinesis Data Streams からデータにアクセスします。マテリアライズド ビューをストリーム上に直接作成します。マテリアライズド ビューを定期的に更新して、最新のストリーム データをクエリします。 C. Amazon Redshift で外部スキーマを作成し、Kinesis Data Streams から Amazon Redshift オブジェクトにデータをマッピングします。マテリアライズド ビューを作成してストリームからデータを読み取ります。マテリアライズド ビューを自動更新に設定します。 D. Kinesis Data Streams を Amazon Kinesis Data Firehose に接続します。 Kinesis Data Firehose を使用して、Amazon S3 にデータをステージングします。 COPY コマンドを使用して、Amazon S3 から Amazon Redshift のテーブルにデータをロードします。 C Kinesis Data Stream の Redshift 外部スキーマで自動更新を備えたマテリアライズドビューを直接使用すると、既存の BI ツールを使用してほぼリアルタイムの洞察を得る最も合理化された効率的なアプローチが提供されます。 https://aws.amazon.com/blogs/big-data/real-time-analytics-with-amazon-redshift-streaming-ingestion/ 28 / 80 28. 28, ある企業は、Amazon QuickSight ダッシュボードを使用して、自社のアプリケーションの 1 つの使用状況を監視しています。同社は AWS Glue ジョブを使用してダッシュボードのデータを処理します。同社はデータを単一の Amazon S3 バケットに保存します。同社は毎日新しいデータを追加しています。 データ エンジニアは、ダッシュボードのクエリが時間の経過とともに遅くなっていることに気づきました。データ エンジニアは、クエリの速度低下の根本原因は、長時間実行されている AWS Glue ジョブであると判断しました。 AWS Glue ジョブのパフォーマンスを向上させるためにデータ エンジニアはどのようなアクションを実行する必要がありますか? (2つお選びください。) A. S3 バケット内のデータをパーティション分割します。データを年、月、日ごとに整理します。 B. ワーカータイプをスケールアップして、AWS Glue インスタンスのサイズを増やします。 C. AWS Glue スキーマを DynamicFrame スキーマ クラスに変換します。 D. AWS Glue ジョブのスケジュール頻度を調整して、ジョブが毎日半分の回数実行されるようにします。 E. AWS Glue へのアクセスを許可する IAM ロールを変更して、すべての S3 機能へのアクセスを許可します。 AB A. S3 バケット内のデータをパーティション分割します。データを年、月、日ごとに整理します。 • Amazon S3 でデータをパーティショニングすると、クエリのパフォーマンスが大幅に向上します。データを年、月、日ごとに整理することで、AWS Glue と Amazon QuickSight はデータの関連するパーティションのみをスキャンできるため、読み取りおよび処理されるデータの量が削減されます。このアプローチは、クエリが特定の時間範囲を対象とすることが多い時系列データに特に効果的です。 B. ワーカータイプをスケールアップして、AWS Glue インスタンスのサイズを増やします。 • ワーカータイプをスケールアップすると、より多くの計算リソースが AWS Glue ジョブに提供され、データをより速く処理できるようになります。これは、大規模なデータセットや複雑な変換を扱う場合に特に有益です。スケールアップによるパフォーマンスの向上とコストへの影響を監視することが重要です。 29 / 80 29. 29, データ エンジニアは、AWS Step Functions を使用してオーケストレーション ワークフローを設計する必要があります。ワークフローは、大規模なデータ ファイルのコレクションを並列処理し、各ファイルに特定の変換を適用する必要があります。 これらの要件を満たすために、データ エンジニアはどの Step Functions ステートを使用する必要がありますか? A. 並列状態 B. 選択状態 C. マップの状態 D. 待機状態 C C が正解です。マップの状態は、説明されている要件に合わせて正確に設計されています。これにより、項目のコレクションを反復処理して、各項目を個別に処理できます。 Map 状態は反復を自動的に管理し、各項目に対して指定された変換を並列実行できるため、大規模なデータ ファイルのコレクションの並列処理に最適です。 30 / 80 30. 30, ある企業は、レガシー アプリケーションを Amazon S3 ベースのデータレイクに移行しています。データ エンジニアは、レガシー アプリケーションに関連付けられたデータをレビューしました。データ エンジニアは、レガシー データに重複した情報が含まれていることを発見しました。 データ エンジニアは、レガシー アプリケーション データから重複情報を特定して削除する必要があります。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. Python でカスタムの抽出、変換、ロード (ETL) ジョブを作成します。 Pandas ライブラリをインポートして DataFrame.drop_duplicates() 関数を使用し、データ重複排除を実行します。 B. AWS Glue の抽出、変換、ロード (ETL) ジョブを作成します。 FindMatches 機械学習 (ML) 変換を使用してデータを変換し、データ重複排除を実行します。 C. Python でカスタムの抽出、変換、ロード (ETL) ジョブを作成します。 Python 重複排除ライブラリをインポートします。データ重複排除を実行するには、重複排除ライブラリを使用します。 D. AWS Glue の抽出、変換、ロード (ETL) ジョブを作成します。 Python 重複排除ライブラリをインポートします。データ重複排除を実行するには、重複排除ライブラリを使用します。 B 「一致の検索」 ソース データ内の重複レコードを検索します。サンプル データセットにラベルを付けてどの行を示すかによって、この機械学習変換を学習します。 match. 機械学習変換は、サンプルのラベル付きデータを教えれば教えるほど、どの行が一致するかを学習します。 https://docs.aws.amazon.com/glue/latest/dg/machine-learning.html 31 / 80 31. 31, ある企業が分析ソリューションを構築しています。このソリューションでは、データ レイク ストレージとして Amazon S3 を使用し、データ ウェアハウスとして Amazon Redshift を使用します。同社は、Amazon Redshift Spectrum を使用して、Amazon S3 内のデータをクエリしたいと考えています。 どのアクションが最速のクエリを提供しますか? (2つお選びください。) A. gzip 圧縮を使用して、個々のファイルを 1 GB ~ 5 GB のサイズに圧縮します。 B. カラムナ型ストレージ ファイル形式を使用します。 C. 最も一般的なクエリ述語に基づいてデータを分割します。 D. データを 10 KB 未満のファイルに分割します。 E. 分割できないファイル形式を使用します。 BC B. カラムナ型ストレージ ファイル形式を使用する: これは優れたアプローチです。 Redshift Spectrum では、Parquet や ORC などの列指向ストレージ形式を使用することを強くお勧めします。データを列に保存することで、Spectrum がクエリに必要な列のみをスキャンできるようになり、クエリのパフォーマンスが大幅に向上し、スキャンされるデータ量が削減されます。 C. 最も一般的なクエリ述語に基づいてデータを分割する: 一般的に使用されるクエリ述語 (日付、地域など) に基づいて S3 内のデータを分割すると、Redshift Spectrum は特定のクエリに無関係なデータの大部分をスキップできます。これにより、特に大規模なデータセットの場合、大幅なパフォーマンスの向上につながる可能性があります。 32 / 80 32. 32, ある企業は Amazon RDS を使用してトランザクション データを保存します。同社は、プライベート サブネットで RDS DB インスタンスを実行しています。開発者は、DB インスタンスでデータを挿入、更新、または削除するためのデフォルト設定で AWS Lambda 関数を作成しました。 開発者は、パブリック インターネットを使用せずに DB インスタンスにプライベートに接続できる機能を Lambda 関数に与える必要があります。 操作上のオーバーヘッドを最小限に抑えてこの要件を満たす手順の組み合わせはどれですか? (2つお選びください。) A. DB インスタンスのパブリック アクセス設定をオンにします。 B. DB インスタンスのセキュリティグループを更新して、データベースポートでの Lambda 関数の呼び出しのみを許可します。 C. DB インスタンスが使用するのと同じサブネット内で実行されるように Lambda 関数を設定します。 D. 同じセキュリティグループを Lambda 関数と DB インスタンスにアタッチします。データベース ポートを介したアクセスを許可する自己参照ルールを含めます。 E. プライベート サブネットのネットワーク ACL を更新して、データベース ポートを介したアクセスを許可する自己参照ルールを含めます。 CD このソリューションは、DB インスタンスのセキュリティ グループの受信ルールのみを変更しますが、Lambda 関数のセキュリティ グループの送信ルールは変更しません。さらに、このソリューションでは Lambda 関数から DB インスタンスへのプライベート接続が容易にならないため、Lambda 関数は引き続きパブリック インターネットを使用して DB インスタンスにアクセスする必要があります。したがって、このオプションは要件を満たしていません。 33 / 80 33. 33, ある会社には、Amazon API Gateway を使用して REST API を呼び出すフロントエンド React.JS ウェブサイトがあります。 API は Web サイトの機能を実行します。データ エンジニアは、API ゲートウェイを通じて時々呼び出すことができる Python スクリプトを作成する必要があります。コードは結果を API Gateway に返す必要があります。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. カスタム Python スクリプトを Amazon Elastic Container Service (Amazon ECS) クラスターにデプロイします。 B. プロビジョニングされた同時実行性を備えた AWS Lambda Python 関数を作成します。 C. Amazon Elastic Kubernetes Service (Amazon EKS) 上の API Gateway と統合できるカスタム Python スクリプトをデプロイします。 D. AWS Lambda 関数を作成します。モックイベントを使用して 5 分ごとに Lambda 関数を呼び出すように Amazon EventBridge ルールをスケジュールして、関数がウォームであることを確認します。 B Amazon API Gateway を使用して、Lambda 関数の HTTP エンドポイントを備えた Web API を作成できます。 API Gateway は、HTTP リクエストを Lambda 関数にルーティングする Web API を作成および文書化するためのツールを提供します。認証と認可の制御を使用して API へのアクセスを保護できます。 API は、インターネット経由でトラフィックを処理することも、VPC 内でのみアクセスできるようにすることもできます。 https://docs.aws.amazon.com/lambda/latest/dg/services-apigateway.html 34 / 80 34. 34, ある企業には、企業のワークロードを実行する本番環境の AWS アカウントがあります。同社のセキュリティ チームは、実稼働 AWS アカウントからのセキュリティ ログを保存および分析するために、セキュリティ AWS アカウントを作成しました。実稼働 AWS アカウントのセキュリティ ログは、Amazon CloudWatch Logs に保存されます。 この企業は、Amazon Kinesis Data Streams を使用してセキュリティ ログをセキュリティ AWS アカウントに配信する必要があります。 これらの要件を満たすソリューションはどれですか? A. 本番環境の AWS アカウントに宛先データ ストリームを作成します。セキュリティ AWS アカウントで、本番 AWS アカウントの Kinesis Data Streams に対するクロスアカウント権限を持つ IAM ロールを作成します。 B. セキュリティ AWS アカウントに宛先データ ストリームを作成します。 IAM ロールと信頼ポリシーを作成して、CloudWatch Logs にデータをストリームに入れる権限を付与します。セキュリティ AWS アカウントにサブスクリプション フィルターを作成します。 C. 運用環境の AWS アカウントに宛先データ ストリームを作成します。本番環境の AWS アカウントで、セキュリティ AWS アカウントの Kinesis Data Streams に対するクロスアカウント権限を持つ IAM ロールを作成します。 D. セキュリティ AWS アカウントに宛先データ ストリームを作成します。 IAM ロールと信頼ポリシーを作成して、CloudWatch Logs にデータをストリームに入れる権限を付与します。本番環境の AWS アカウントにサブスクリプションフィルターを作成します。 D クロスアカウント配信: セキュリティアカウントの Kinesis Data Streams により、指定されたセキュリティ重視の環境にログが確実に存在します。 CloudWatch Logs の統合: CloudWatch Logs にレコードを Kinesis Data Stream に入れる権限を付与すると、本番アカウントからの合理化された安全なデータフローが直接確立されます。フィルタリング制御: 運用アカウントのサブスクリプション フィルタは、どのログ イベントがセキュリティ アカウントに送信されるかを正確に制御します。 35 / 80 35. 35, ある企業は Amazon S3 を使用して、半構造化データをトランザクション データ レイクに保存します。データ ファイルの中には小さいものもありますが、数十テラバイトのデータ ファイルもあります。 データ エンジニアは、変更データ キャプチャ (CDC) 操作を実行して、データ ソースから変更されたデータを識別する必要があります。データ ソースは完全なスナップショットを JSON ファイルとして毎日送信し、変更されたデータをデータ レイクに取り込みます。 変更されたデータを最もコスト効率よくキャプチャできるソリューションはどれですか? A. AWS Lambda 関数を作成して、以前のデータと現在のデータの間の変更を特定します。変更をデータレイクに取り込むように Lambda 関数を設定します。 B. データを Amazon RDS for MySQL に取り込みます。 AWS Database Migration Service (AWS DMS) を使用して、変更されたデータをデータレイクに書き込みます。 C. オープンソース データ レイク形式を使用してデータ ソースを S3 データ レイクとマージし、新しいデータを挿入し、既存のデータを更新します。 D. Aurora Serverless を実行する Amazon Aurora MySQL DB インスタンスにデータを取り込みます。AWS Database Migration Service (AWS DMS) を使用して、変更されたデータをデータレイクに書き込みます。 C AWS サービスを使用するため、オプション A が最良の選択のように見えますが、Delta/Iceberg API を使用する方が、Lambda でカスタム コードを記述するよりも簡単だと思います。 https://aws.amazon.com/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/ 36 / 80 36. 36, データエンジニアは、Amazon S3 バケット内のデータに対して Amazon Athena クエリを実行します。 Athena クエリは、メタデータ テーブルとして AWS Glue データ カタログを使用します。 データ エンジニアは、Athena クエリ プランでパフォーマンスのボトルネックが発生していることに気づきました。データ エンジニアは、パフォーマンスのボトルネックの原因が S3 バケット内にある多数のパーティションであると判断しました。データ エンジニアは、パフォーマンスのボトルネックを解決し、Athena クエリの計画時間を短縮する必要があります。 これらの要件を満たすソリューションはどれですか? (2つお選びください。) A. AWS Glue パーティションインデックスを作成します。パーティションフィルタリングを有効にします。 B. ユーザー クエリの WHERE句でデータに共通する列に基づいてデータをバケット化します。 C. S3 バケットプレフィックスに基づいて Athena パーティション プロジェクションを使用します。 D. S3 バケット内のデータを Apache Parquet 形式に変換します。 E. Amazon EMR S3DistCP ユーティリティを使用して、S3 バケット内の小さなオブジェクトを大きなオブジェクトに結合します。 AC パーティション プロジェクションを使用したパーティション処理の最適化 パーティション情報の処理は、次の場合に Athena クエリのボトルネックになる可能性があります。非常に多くのパーティションがあり、AWS Glue パーティションのインデックス作成を使用していません。 Athena でパーティション プロジェクションを使用すると、高度にパーティション分割されたテーブルのクエリ処理を高速化し、パーティション管理を自動化できます。パーティション プロジェクションを使用すると、メタストアからパーティション情報を取得するのではなく、パーティション情報を計算してパーティションをクエリできるため、このオーバーヘッドを最小限に抑えることができます。これにより、パーティションのメタデータを AWS Glue テーブルに追加する必要がなくなります。 https://aws.amazon.com/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/ 37 / 80 37. 37, データ エンジニアは、AWS へのリアルタイム ストリーミング データの取り込みを管理する必要があります。データ エンジニアは、最大 30 分の時間枠で時間ベースの集計を使用して、受信ストリーミング データに対してリアルタイム分析を実行したいと考えています。データ エンジニアは、耐障害性の高いソリューションを必要としています。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. ビジネスロジックと分析ロジックの両方を含む AWS Lambda 関数を使用して、Amazon Kinesis Data Streams のデータに対して最大 30 分の時間枠で時間ベースの集計を実行します。 B. Amazon Managed Service for Apache Flink (以前は Amazon Kinesis Data Analytics として知られていました) を使用し、複数の種類の集計を使用して重複を含む可能性のあるデータを分析します。 C. ビジネスロジックと分析ロジックの両方を含む AWS Lambda 関数を使用して、イベントのタイムスタンプに基づいて最大 30 分のタンブリングウィンドウの集計を実行します。 D. Amazon Managed Service for Apache Flink (以前は Amazon Kinesis Data Analytics として知られていました) を使用して、複数の種類の集計を使用してデータを分析し、最大 30 分の時間枠で時間ベースの分析を実行します。 D 30 分間にわたる時間ベースの分析のための Apache Flink の Amazon マネージド サービス: このオプションは、最大 30 分間の時間枠で時間ベースの分析を実行するための Apache Flink の Amazon マネージド サービスの使用を正しく識別します。 Apache Flink は、このようなシナリオの処理に熟達しており、複雑なイベント処理、時間枠での集計、長期にわたる状態の維持の機能を提供します。このオプションは、サービスの管理された性質により、高いフォールト トレランスと最小限の運用オーバーヘッドを提供します。 38 / 80 38. 38, ある企業は、Amazon Elastic Block Store (Amazon EBS) 汎用 SSD ストレージを gp2 から gp3 にアップグレードすることを計画しています。同社は、アップグレードされたストレージへの移行中にデータ損失を引き起こす Amazon EC2 インスタンスの中断を防ぎたいと考えています。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. gp2 ボリュームのスナップショットを作成します。スナップショットから新しい gp3 ボリュームを作成します。新しい gp3 ボリュームを EC2 インスタンスに接続します。 B. 新しい gp3 ボリュームを作成します。データを新しい gp3 ボリュームに徐々に転送します。転送が完了したら、新しい gp3 ボリュームを EC2 インスタンスにマウントして、gp2 ボリュームを置き換えます。 C. 既存の gp2 ボリュームのボリューム タイプを gp3 に変更します。ボリューム サイズ、IOPS、およびスループットの新しい値を入力します。 D. AWS DataSync を使用して、新しい gp3 ボリュームを作成します。元の gp2 ボリュームから新しい gp3 ボリュームにデータを転送します。 C GiorgioGss のリンクの「AWS マネジメント コンソールを使用して Amazon EBS ボリュームを変更するには」セクションを確認します。Amazon EBS Elastic Volumes を使用すると、ボリュームをデタッチしたりインスタンスを再起動したり (変更の要件) せずに、ボリューム タイプを gp2 から gp3 に変更できます。これは、変更中にアプリケーションが中断されないことを意味します。 39 / 80 39. 39, ある企業は、Microsoft SQL Server を実行する Amazon EC2 インスタンスから、Microsoft SQL Server DB インスタンス用の Amazon RDS にデータベース サーバーを移行しています。会社の分析チームは、移行が完了するまで毎日大規模なデータ要素をエクスポートする必要があります。データ要素は、複数のテーブルにわたる SQL 結合の結果です。データは Apache Parquet 形式である必要があります。分析チームはデータを Amazon S3 に保存する必要があります。 最も運用効率の高い方法でこれらの要件を満たすソリューションはどれですか? A. EC2 インスタンスベースの SQL Server データベースに、必要なデータ要素を含むビューを作成します。ビューからデータを直接選択し、そのデータを Parquet 形式で S3 バケットに転送する AWS Glue ジョブを作成します。 AWS Glue ジョブを毎日実行するようにスケジュールします。 B. EC2 インスタンスベースの SQL Server データベースから必要なデータ要素を選択する SQL クエリを毎日実行するように SQL Server エージェントをスケジュールします。出力 .csv オブジェクトを S3 バケットに送信するようにクエリを設定します。 AWS Lambda 関数を呼び出して出力形式を .csv から Parquet に変換する S3 イベントを作成します。 C. SQL クエリを使用して、必要なデータ要素を含むビューを EC2 インスタンスベースの SQL Server データベースに作成します。 AWS Glue クローラーを作成して実行し、ビューを読み取ります。データを取得し、そのデータを Parquet 形式で S3 バケットに転送する AWS Glue ジョブを作成します。 AWS Glue ジョブを毎日実行するようにスケジュールします。 D. Java Database Connectivity (JDBC) を使用して EC2 インスタンスベースのデータベースにクエリを実行する AWS Lambda 関数を作成します。必要なデータを取得し、そのデータを Parquet 形式に変換し、S3 バケットに転送するように Lambda 関数を設定します。 Amazon EventBridge を使用して、Lambda 関数が毎日実行されるようにスケジュールします。 C SQL ビューの活用: ソース データベースにビューを作成すると、データ抽出プロセスが簡素化され、SQL ロジックが一元化されます。 Glue クローラーの効率: Glue クローラーを使用して、ビューのメタデータを自動的に検出してカタログ化することで、手動セットアップが削減されます。 ETL 用の Glue ジョブ: 専用の Glue ジョブは、(Parquet への) データ変換と S3 へのロードに適しています。 Glue ジョブには、組み込みのスケジュール機能が備わっています。運用効率: このアプローチではカスタムコードを最小限に抑え、データの移動とカタログ化にネイティブの AWS サービスを活用します。 40 / 80 40. 40, データ エンジニアリング チームは、運用レポートに Amazon Redshift データ ウェアハウスを使用しています。チームは、長時間実行されるクエリによって生じる可能性のあるパフォーマンスの問題を防ぎたいと考えています。データ エンジニアは、クエリ オプティマイザーがパフォーマンスの問題を示す可能性のある条件を特定したときに、異常を記録するために Amazon Redshift のシステム テーブルを選択する必要があります。 この要件を満たすためにデータ エンジニアはどのテーブル ビューを使用する必要がありますか? A. STL_USAGE_CONTROL B. STL_ALERT_EVENT_LOG C. STL_QUERY_METRICS D. STL_PLAN_INFO B クエリまたはユーザー定義のパフォーマンスしきい値に関連するアラート/通知を記録します。これにより、潜在的なパフォーマンスの問題に関するオプティマイザー アラートがキャプチャされます。 STL_PLAN_INFO は、実行計画に関する詳細情報を提供します。オプティマイザーの統計と警告により、問題のあるクエリ プランについての洞察が得られます。 STL_USAGE_CONTROL はユーザーのアクティビティを制限しますが、異常はログに記録しません。 STL_QUERY_METRICS には実行統計がありますが、プラン診断はありません。アラートを有効にし、STL_ALERT_EVENT_LOG および STL_PLAN_INFO をチェックすることにより、データ エンジニアは、オプティマイザによって問題があるとフラグが付けられたクエリを、パフォーマンスが低下する前に検出し、トラブルシューティングすることができます。これは、潜在的な長時間実行クエリを捕捉するという要件を満たします。 41 / 80 41. 41, データエンジニアは、.csv 形式の構造化データのソースを Amazon S3 データレイクに取り込む必要があります。 .csv ファイルには 15 列が含まれています。データアナリストは、データセットの 1 つまたは 2 つの列に対して Amazon Athena クエリを実行する必要があります。データ アナリストがファイル全体をクエリすることはほとんどありません。 これらの要件を最もコスト効率よく満たすソリューションはどれですか? A. AWS Glue PySpark ジョブを使用して、ソースデータを .csv 形式でデータレイクに取り込みます。 B. .csv 構造化データソースから読み取る AWS Glue の抽出、変換、ロード (ETL) ジョブを作成します。データを JSON 形式でデータ レイクに取り込むジョブを構成します。 C. AWS Glue PySpark ジョブを使用して、ソース データを Apache Avro 形式でデータレイクに取り込みます。 D. .csv 構造化データ ソースから読み取る AWS Glue の抽出、変換、ロード (ETL) ジョブを作成します。データを Apache Parquet 形式でデータ レイクに書き込むようにジョブを構成します。 D 最もコスト効率が高い=parquet 42 / 80 42. 42, ある会社は、異なる AWS リージョンに 5 つのオフィスを持っています。各オフィスには独自の IAM ロールを使用する独自の人事 (HR) 部門があります。同社は、Amazon S3 ストレージをベースとしたデータレイクに従業員の記録を保存しています。 データ エンジニアリング チームは、レコードへのアクセスを制限する必要があります。各人事部門は、その人事部門の地域内の従業員のレコードのみにアクセスできる必要があります。 運用上のオーバーヘッドを最小限に抑えてこの要件を満たすために、データ エンジニアリング チームはどの手順の組み合わせを実行する必要がありますか? (2つお選びください。) A. 各リージョンのデータ フィルターを使用して、S3 パスをデータの場所として登録します。 B. S3 パスを AWS Lake Formation の場所として登録します。 C. 人事部門の IAM ロールを変更して、各部門の地域のデータ フィルターを追加します。 D. AWS Lake Formation できめ細かいアクセス制御を有効にする。各リージョンにデータ フィルターを追加します。 E. リージョンごとに個別の S3 バケットを作成します。 S3 アクセスを許可するように IAM ポリシーを構成します。地域に基づいてアクセスを制限します。 BD https://docs.aws.amazon.com/lake-formation/latest/dg/data-filters-about.html https://docs.aws.amazon.com/lake-formation/latest/dg/access-control-fine-grained.html 43 / 80 43. 43, ある企業は AWS Step Functions を使用してデータ パイプラインを調整します。パイプラインは、データソースからデータを取り込み、Amazon S3 バケットにデータを保存する Amazon EMR ジョブで構成されます。パイプラインには、データを Amazon Redshift にロードする EMR ジョブも含まれています。 同社のクラウド インフラストラクチャ チームは、Step Functions ステート マシンを手動で構築しました。クラウド インフラストラクチャ チームは、EMR ジョブをサポートするために EMR クラスターを VPC 内に起動しました。ただし、デプロイされた Step Functions ステート マシンは EMR ジョブを実行できません。 Step Functions ステート マシンが EMR ジョブを実行できない理由を特定するには、企業はどの手順の組み合わせを実行する必要がありますか? (2つお選びください。) A. AWS CloudFormation を使用して、Step Functions ステートマシンのデプロイを自動化します。 EMR ジョブが失敗したときにステート マシンを一時停止するステップを作成します。人間のユーザーが電子メール メッセージを通じて承認を送信するのを待機するステップを構成します。さらに分析できるよう、電子メール メッセージに EMR タスクの詳細を含めます。 B. Step Functions ステート マシン コードに、EMR ジョブの作成と実行に必要なすべての IAM 権限があることを確認します。 Step Functions ステート マシン コードに、EMR ジョブが使用する Amazon S3 バケットにアクセスするための IAM 権限も含まれていることを確認します。 Access Analyzer for S3 を使用して、S3 アクセス プロパティを確認します。 C. 新しく作成された EMR クラスターの Amazon CloudWatch のエントリを確認します。 EKS で Amazon EMR を使用するように AWS Step Functions ステートマシンのコードを変更します。 Amazon Elastic Kubernetes Service (Amazon EKS) の組み込みを反映するように、Step Functions ステートマシン コードの IAM アクセス ポリシーとセキュリティ グループ設定を変更します。 D. VPC のフロー ログをクエリします。 EMR クラスターから発信されたトラフィックがデータ プロバイダーに正常に到達できるかどうかを確認します。 Amazon EMR クラスターにアタッチされているセキュリティグループが、通知されたポートでのデータソースサーバーへの接続を許可しているかどうかを確認します。 E. 企業が EMR ジョブ用に構成した再試行シナリオを確認します。各 EMR タスク間の間隔の秒数を増やします。各フォールバック状態に、各決定状態に適切なキャッチがあることを検証します。エラーメッセージを保存するように Amazon Simple Notice Service (Amazon SNS) トピックを設定します。 BD E は、失敗の理由を特定するためのオプションではありません。 https://docs.aws.amazon.com/step-functions/latest/dg/procedure-create-iam-role.html https://docs.aws.amazon.com/step-functions/latest/dg/service-integration-iam-templates.html 44 / 80 44. 44, ある会社は、Amazon EC2 インスタンス上で実行されるアプリケーションを開発しています。現在、アプリケーションが生成するデータは一時的なものです。ただし、企業は EC2 インスタンスが終了した場合でもデータを保持する必要があります。 データ エンジニアは、Amazon Machine Image (AMI) から新しい EC2 インスタンスを起動し、データを保存するようにインスタンスを構成する必要があります。 この要件を満たすソリューションはどれですか? A. アプリケーション データを含む EC2 インスタンス ストア ボリュームを基盤とする AMI を使用して、新しい EC2 インスタンスを起動します。デフォルト設定を EC2 インスタンスに適用します。 B. アプリケーション データを含むルート Amazon Elastic Block Store (Amazon EBS) ボリュームを基盤とする AMI を使用して、新しい EC2 インスタンスを起動します。デフォルト設定を EC2 インスタンスに適用します。 C. EC2 インスタンス ストア ボリュームを基盤とする AMI を使用して、新しい EC2 インスタンスを起動します。 Amazon Elastic Block Store (Amazon EBS) ボリュームをアタッチして、アプリケーション データを含めます。デフォルト設定を EC2 インスタンスに適用します。 D. Amazon Elastic Block Store (Amazon EBS) ボリュームによってサポートされる AMI を使用して、新しい EC2 インスタンスを起動します。追加の EC2 インスタンス ストア ボリュームをアタッチして、アプリケーション データを含めます。デフォルト設定を EC2 インスタンスに適用します。 C 追加の EBS ボリュームをアタッチする必要があります。 インスタンスが終了するとき、アタッチされている各 EBS ボリュームの DeleteOnTermination 属性の値によって、ボリュームを保持するか削除するかが決まります。デフォルトでは、ルート ボリュームの DeleteOnTermination 属性は True に設定されます。 https://repost.aws/knowledge-center/deleteontermination-ebs 45 / 80 45. 45, ある企業は、Amazon Athena を使用して、Create Table As Select (CTAS) を使用して抽出、変換、ロード (ETL) タスクの SQL クエリを実行します。企業は分析を生成するために SQL ではなく Apache Spark を使用する必要があります。 どのソリューションにより、企業は Spark を使用して Athena にアクセスできるようになりますか? A. Athena クエリ設定 B. Athena ワークグループ C. Athena データソース D. Athena クエリエディター B Amazon Athena で Apache Spark を使用するには、Spark エンジンを使用する Amazon Athena ワークグループを作成します。 https://docs.aws.amazon.com/athena/latest/ug/notebooks-spark-getting-started.html 46 / 80 46. 46, 企業は、データレイクに使用する Amazon S3 ストレージを分割する必要があります。パーティショニングでは、s3://bucket/prefix/year=2023/month=01/day=01 形式の S3 オブジェクト キーのパスが使用されます。 データエンジニアは、企業が新しいパーティションをバケットに追加するときに、AWS Glue データカタログが S3 ストレージと同期していることを確認する必要があります。 これらの要件を最小の遅延で満たすソリューションはどれですか? A. AWS Glue クローラーを毎朝実行するようにスケジュールします。 B. AWS Glue CreatePartition API を毎日 2 回手動で実行します。 C. Amazon S3 にデータを書き込むコードを使用して、Boto3 AWS Glue create_partition API 呼び出しを呼び出します。 D. AWS Glue コンソールから MSCK REPAIR TABLE コマンドを実行します。 C Amazon S3 にデータを書き込むコードを使用して、Boto3 AWS Glue create_partition API 呼び出しを呼び出します。このアプローチにより、新しいデータが S3 に書き込まれるとすぐにデータ カタログが更新され、新しいパーティションを反映する際の待ち時間が最小限に抑えられます。 47 / 80 47. 47, メディア企業は、サービスとしてのソフトウェア (SaaS) アプリケーションを使用して、サードパーティのツールを使用してデータを収集します。会社はデータを Amazon S3 バケットに保存する必要があります。同社は、Amazon Redshift を使用してデータに基づいた分析を実行します。 運用上のオーバーヘッドを最小限に抑えながら、これらの要件を満たす AWS のサービスまたは機能はどれですか? A. Apache Kafka 用の Amazon マネージド ストリーミング (Amazon MSK) B. Amazon アプリフロー C. AWS Glue データカタログ D. アマゾンキネシス B Amazon AppFlow は、データを安全に転送できるようにするフルマネージド統合サービスですSalesforce、Marketo、Slack、ServiceNow などの Software as a Service (SaaS) アプリケーションと、Amazon S3 や Amazon Redshift などの AWS サービスの間を、わずか数クリックで接続できます。 SaaS アプリケーションから取得した生データを Amazon S3 に保存し、AWS Glue データ カタログと統合してメタデータをカタログ化して保存できます。 https://d1.awsstatic.com/solutions/guidance/architecture-diagrams/integrating-third-party-saas-data-using-amazon-appflow.pdf 48 / 80 48, データエンジニアは、Amazon Athena を使用して、Amazon S3 内の販売データを分析しています。データ エンジニアは、sales_data という名前のテーブルからいくつかの製品の 2023 年の売上高を取得するクエリを作成します。ただし、クエリは sales_data テーブルにあるすべての製品の結果を返すわけではありません。データ エンジニアは、問題を解決するためにクエリのトラブルシューティングを行う必要があります。 データ エンジニアの元のクエリは次のとおりです。 SELECT product_name, sum(sales_amount) 48. FROM sales_data - WHERE year = 2023 - GROUP BY product_name - データ エンジニアは、これらの要件を満たすために Athena クエリをどのように変更する必要がありますか? A. 集計の sum(sales_amount) を count(*) に置き換えます。 B. WHERE year = 2023 を WHERE extract(year FROM sales_data) = 2023 に変更します。 C. GROUP BY 句の後に HAVING sum(sales_amount) > 0 を追加します。 D. GROUP BY 句を削除します。 C GROUP BY 句の後に HAVING sum(sales_amount) > 0 を追加します。売上ゼロの製品: 元のクエリには、2023 年の売上高がゼロの製品が含まれていない可能性があります。この変更により、グループ化された結果がフィルタリングされ、売上がプラスの製品のみが表示されるようになります。他のオプションでは核心的な問題に対処できない理由: A. 集計の sum(sales_amount) を count(*) に置き換えます。これは、製品の販売トランザクションの数を示しますが、収益を生み出したかどうかは示しません。これでは商品不足の問題は解決しません。 B. WHERE year = 2023 を WHERE extract(year FROM sales_data) = 2023 に変更します。 year 列がすでに整数型である場合、これは元の WHERE 句と機能的に同等です。不足している製品は修正されません。 D. GROUP BY 句を削除します。これでは、製品の内訳なしで 2023 年のすべての売上が集計されるため、必要な粒度が失われます。 49 / 80 49. 49, データ エンジニアには、Amazon S3 バケット内の Apache Parquet 形式のオブジェクトからデータを読み取る 1 回限りのタスクがあります。データ エンジニアは、データの 1 つの列のみをクエリする必要があります。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. S3 バケットから pandas データフレームにデータをロードするように AWS Lambda 関数を設定します。データフレームに SQL SELECT ステートメントを記述して、必要な列をクエリします。 B. S3 Select を使用して SQL SELECT ステートメントを作成し、S3 オブジェクトから必要な列を取得します。 C. S3 オブジェクトを使用し、必要な列をクエリするために AWS Glue DataBrew プロジェクトを準備します。 D. S3 オブジェクトで AWS Glue クローラーを実行します。 Amazon Athena で SQL SELECT ステートメントを使用して、必要な列をクエリします。 B S3 Select を使用すると、単純な SQL 式を使用して、S3 に保存されているオブジェクトからデータのサブセットを取得できます。 Parquet 形式のオブジェクトを直接操作できます。 https://docs.aws.amazon.com/AmazonS3/latest/userguide/storage-inventory-athena-query.html 50 / 80 50. 50, ある企業はデータ ウェアハウスに Amazon Redshift を使用しています。企業は、Amazon Redshift マテリアライズド ビューの更新スケジュールを自動化する必要があります。 最小限の労力でこの要件を満たすソリューションはどれですか? A. Apache Airflow を使用してマテリアライズド ビューを更新します。 B. Amazon Redshift 内で AWS Lambda ユーザー定義関数 (UDF) を使用して、マテリアライズド ビューを更新します。 C. Amazon Redshift のクエリエディター v2 を使用して、マテリアライズド ビューを更新します。 D. AWS Glue ワークフローを使用してマテリアライズドビューを更新します。 C Amazon Redshift は、マテリアライズドビューが自動リフレッシュオプションを使用して作成された場合、または自動リフレッシュオプションを使用するように変更された場合に、ベーステーブルの最新データでマテリアライズドビューを自動的にリフレッシュできます。 https://docs.aws.amazon.com/redshift/latest/dg/materialized-view-refresh.html 51 / 80 51. 51, データ エンジニアは、1 つの AWS Lambda 関数と 1 つの AWS Glue ジョブで構成されるデータ パイプラインを調整する必要があります。ソリューションは AWS のサービスと統合する必要があります。 最小限の管理オーバーヘッドでこれらの要件を満たすソリューションはどれですか? A. ステートマシンを含む AWS Step Functions ワークフローを使用します。 Lambda 関数を実行してから AWS Glue ジョブを実行するようにステートマシンを設定します。 B. Amazon EC2 インスタンスにデプロイされた Apache Airflow ワークフローを使用します。最初のタスクが Lambda 関数を呼び出し、2 番目のタスクが AWS Glue ジョブを呼び出す有向非巡回グラフ (DAG) を定義します。 C. AWS Glue ワークフローを使用して、Lambda 関数を実行してから、AWS Glue ジョブを実行します。 D. Amazon Elastic Kubernetes Service (Amazon EKS) にデプロイされた Apache Airflow ワークフローを使用します。最初のタスクが Lambda 関数を呼び出し、2 番目のタスクが AWS Glue ジョブを呼び出す有向非巡回グラフ (DAG) を定義します。 A AWS Step Functions を使用するオプション A は、最小限の管理オーバーヘッドで要件を満たす最適なソリューションです。 Step Functions は、Lambda や Glue などの AWS サービスと簡単に統合できるように設計されており、ワークフローを調整するためのマネージド型のローコード アプローチを提供します。これにより、他のオプションと比べてセットアップがより簡単になり、継続的な管理が少なくなります。 52 / 80 52. 52, 企業は、AWS クラウドで実行されるデータ ソースのデータ カタログとメタデータ管理をセットアップする必要があります。同社は、データ カタログを使用して、一連のデータ ストア内にあるすべてのオブジェクトのメタデータを管理します。データ ストアには、Amazon RDS や Amazon Redshift などの構造化ソースが含まれます。データ ストアには、Amazon S3 に保存されている JSON ファイルや .xml ファイルなどの半構造化ソースも含まれています。 同社は、データ カタログを定期的に更新するソリューションを必要としています。このソリューションでは、ソース メタデータへの変更も検出する必要があります。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. Amazon Aurora をデータカタログとして使用します。データカタログに接続する AWS Lambda 関数を作成します。複数のソースからメタデータ情報を収集し、Aurora データカタログを更新するように Lambda 関数を設定します。 Lambda 関数が定期的に実行されるようにスケジュールを設定します。 B. AWS Glue データカタログを中央メタデータリポジトリとして使用します。 AWS Glue クローラーを使用して複数のデータストアに接続し、メタデータの変更でデータカタログを更新します。クローラーを定期的に実行してメタデータ カタログを更新するようにスケジュールします。 C. Amazon DynamoDB をデータカタログとして使用します。データカタログに接続する AWS Lambda 関数を作成します。複数のソースからメタデータ情報を収集し、DynamoDB データカタログを更新するように Lambda 関数を設定します。 Lambda 関数が定期的に実行されるようにスケジュールを設定します。 D. AWS Glue データカタログを中央メタデータリポジトリとして使用します。 Amazon RDS および Amazon Redshift ソースのスキーマを抽出し、データ カタログを構築します。 Amazon S3 内のデータに対して AWS Glue クローラーを使用して、スキーマを推論し、データ カタログを自動的に更新します。 B AWS Glue クローラーと AWS Glue データカタログを使用することで、最小限の運用オーバーヘッドで要件を満たす最適なソリューションです。これは、広範な手動構成やカスタムコーディングを必要とせずに、さまざまな AWS データストアにわたる構造化データと半構造化データの両方をカタログ化するためのフルマネージドの統合ソリューションを提供します。 53 / 80 53. 53, ある企業は、プロビジョニングキャパシティーモードで動作する Amazon DynamoDB テーブルにアプリケーションからのデータを保存します。アプリケーションのワークロードには、定期的なスケジュールで予測可能なスループット負荷があります。毎週月曜日の早朝には活動が直ちに増加します。週末の間、アプリケーションの使用率は非常に低くなります。 企業は、使用のピーク時にアプリケーションが一貫して動作することを保証する必要があります。 最もコスト効率の高い方法でこれらの要件を満たすソリューションはどれですか? A. プロビジョニングされた容量を、負荷のピーク時に現在存在する最大容量まで増やします。 B. テーブルを 2 つのテーブルに分割します。元のテーブルのプロビジョニングされた容量の半分を各テーブルにプロビジョニングします。クエリを両方のテーブルに均等に分散します。 C. AWS Application Auto Scaling を使用して、ピーク使用時間に合わせてより高いプロビジョニング容量をスケジュールします。オフピーク時に容量を減らすようにスケジュールを設定します。 D. 容量モードをプロビジョニングからオンデマンドに変更します。テーブルの負荷に基づいてスケールアップおよびスケールダウンするようにテーブルを構成します。 C AWS Application Auto Scaling を使用して、ピーク使用時間にはより多くのプロビジョニング容量をスケジュールし、オフピーク時間にはより少ない容量をスケジュールするもので、説明したシナリオにとって最もコスト効率の高いソリューションです。これにより、企業は DynamoDB の容量コストを実際の使用パターンに合わせて調整し、必要な場合にのみスケールアップし、使用量が少ない期間にはスケールダウンすることができます。 54 / 80 54. 54, ある企業は、オンプレミスの Apache Hadoop クラスターを Amazon EMR に移行することを計画しています。この企業は、データ カタログを永続ストレージ ソリューションに移行する必要もあります。 同社は現在、Hadoop クラスター上のオンプレミスの Apache Hive メタストアにデータ カタログを保存しています。この会社は、データ カタログを移行するためにサーバーレス ソリューションを必要としています。 これらの要件を最もコスト効率よく満たすソリューションはどれですか? A. AWS Database Migration Service (AWS DMS) を使用して、Hive メタストアを Amazon S3 に移行します。 Amazon S3 をスキャンしてデータカタログを生成するように AWS Glue データカタログを設定します。 B. Amazon EMR で Hive メタストアを設定します。既存のオンプレミスの Hive メタストアを Amazon EMR に移行します。 AWS Glue データカタログを使用して、会社のデータカタログを外部データカタログとして保存します。 C. Amazon EMR で外部 Hive メタストアを設定します。既存のオンプレミスの Hive メタストアを Amazon EMR に移行します。 Amazon Aurora MySQL を使用して会社のデータカタログを保存します。 D. Amazon EMR で新しい Hive メタストアを設定します。既存のオンプレミスの Hive メタストアを Amazon EMR に移行します。新しいメタストアを会社のデータ カタログとして使用します。 B サーバーレスでコスト効率が高い: AWS Glue データカタログはサーバーレスのメタデータリポジトリを提供し、運用オーバーヘッドを削減し、コスト効率を高めます。外部データ カタログとして使用すると、追加のデータベース インフラストラクチャを管理する必要がなくなります。シームレスな移行: 既存の Hive メタストアを Amazon EMR に移行すると、現在の Hadoop セットアップとの互換性が確保されます。 EMR は Hadoop ワークロードを実行し、このプロセスを容易にするように設計されています。柔軟性: AWS Glue の外部データカタログは、柔軟性と懸念事項の分離を提供します。メタストアは引き続き Hadoop ワークロードに対して EMR によって管理されますが、Glue はより広範な AWS データ ソースに対して一元化されたカタログを提供します。 55 / 80 55. 55, ある企業は、Amazon Redshift でプロビジョニングされたクラスターをデータベースとして使用しています。 Redshift クラスターには 5 つの予約済み ra3.4xlarge ノードがあり、キー配布を使用します。 データ エンジニアは、ノードの 1 つで CPU 負荷が 90% を超えることが頻繁にあることに気づきました。ノード上で実行される SQL クエリはキューに入れられます。他の 4 つのノードは、通常、毎日の操作中に CPU 負荷が 15% 未満になります。 データ エンジニアは、現在の計算ノード数を維持したいと考えています。データ エンジニアは、5 つのコンピューティング ノードすべてにわたって負荷をより均等に分散したいとも考えています。 これらの要件を満たすソリューションはどれですか? A. SQL SELECT ステートメントの WHERE 句で最も頻繁に使用されるデータ列にソート キーを変更します。 B. 分散キーを最大の次元を持つテーブル列に変更します。 C. 予約ノードを ra3.4xlarge から ra3.16xlarge にアップグレードします。 D. 主キーを、SQL SELECT ステートメントの WHERE 句で最も頻繁に使用されるデータ列に変更します。 B (分散キーを変更する) は、5 つのコンピューティング ノードすべてにわたって負荷をより均等に分散するための最も効果的なソリューションです。クエリ パターンとデータの特性に合わせて適切な分散キーを選択すると、データとワークロードがより均一に分散されるため、あるノードが過剰に利用され、他のノードが十分に活用されていないという可能性が低くなります。 https://docs.aws.amazon.com/redshift/latest/dg/t_Distributing_data.html 56 / 80 56. 56, セキュリティ会社は、JSON 形式の IoT データを Amazon S3 バケットに保存します。企業が IoT デバイスをアップグレードすると、データ構造が変更される可能性があります。同社は、IoT データを含むデータ カタログを作成したいと考えています。会社の分析部門は、データ カタログを使用してデータのインデックスを作成します。 これらの要件を最もコスト効率よく満たすソリューションはどれですか? A. AWS Glue データカタログを作成します。 AWS Glue スキーマ レジストリを設定します。新しい AWS Glue ワークロードを作成して、分析部門が Amazon Redshift Serverless に使用するデータの取り込みを調整します。 B. Amazon Redshift でプロビジョニングされたクラスターを作成します。分析部門が Amazon S3 内のデータを調査できるように、Amazon Redshift Spectrum データベースを作成します。 Redshift ストアドプロシージャを作成して、データを Amazon Redshift にロードします。 C. Amazon Athena ワークグループを作成します。 Athena を通じて Apache Spark を使用して、Amazon S3 にあるデータを探索します。 Athena ワークグループのスキーマとテーブルを分析部門に提供します。 D. AWS Glue データカタログを作成します。 AWS Glue スキーマ レジストリを設定します。 Amazon Redshift Data API を使用して、AWS Lambda ユーザー定義関数 (UDF) を作成します。 AWS Step Functions ジョブを作成して、分析部門が Amazon Redshift Serverless に使用するデータの取り込みを調整します。 A AWS Glue スキーマ レジストリを設定します。新しい AWS Glue ワークロードを作成して、分析部門が Amazon Redshift Serverless に使用するデータの取り込みを調整します。オプション C (Amazon Athena および Apache Spark) は、アドホックなクエリと探索には適していますが、Athena は複雑なデータ変換ではなくインタラクティブなクエリ向けに設計されているため、分析部門の継続的なデータ分析のニーズには最適な選択ではない可能性があります。 57 / 80 57. 57, ある企業は、トランザクションに関する詳細を Amazon S3 バケットに保存します。会社は、S3 バケットへのすべての書き込みを、同じ AWS リージョン内の別の S3 バケットに記録したいと考えています。 最小限の運用労力でこの要件を満たすソリューションはどれですか? A. AWS Lambda 関数を呼び出すために、トランザクション S3 バケット上のすべてのアクティビティに対して S3 イベント通知ルールを設定します。イベントを Amazon Kinesis Data Firehose に書き込むように Lambda 関数をプログラムします。イベントをログ S3 バケットに書き込むように Kinesis Data Firehose を設定します。 B. AWS CloudTraiL で管理イベントの証跡を作成します。トランザクション S3 バケットからデータを受信するように証跡を構成します。空のプレフィックスと書き込み専用イベントを指定します。ログ S3 バケットを宛先バケットとして指定します。 C. AWS Lambda 関数を呼び出すために、トランザクション S3 バケット上のすべてのアクティビティに対して S3 イベント通知ルールを設定します。イベントをログ S3 バケットに書き込むように Lambda 関数をプログラムします。 D. AWS CloudTraiL でデータ イベントの証跡を作成します。トランザクション S3 バケットからデータを受信するように証跡を構成します。空のプレフィックスと書き込み専用イベントを指定します。ログ S3 バケットを宛先バケットとして指定します。 D AWS CloudTrail でデータ イベントの証跡を作成する、最小限の操作で要件を満たす最適なソリューションです。努力。必要なアクティビティを別の S3 バケットに直接ログに記録し、Lambda 関数や Kinesis Data Firehose ストリームなどの追加リソースの開発やメンテナンスは必要ありません。 https://docs.aws.amazon.com/AmazonS3/latest/userguide/logging-with-S3.html 58 / 80 58. 58, データエンジニアは、ユーザーが Amazon EMR および Amazon Athena クエリを通じてアクセスする中央メタデータ リポジトリを維持する必要があります。リポジトリは、多くのテーブルのスキーマとプロパティを提供する必要があります。メタデータの一部は Apache Hive に保存されます。データ エンジニアは、メタデータを Hive から中央メタデータ リポジトリにインポートする必要があります。 最小限の開発労力でこれらの要件を満たすソリューションはどれですか? A. Amazon EMR と Apache Ranger を使用します。 B. EMR クラスターで Hive メタストアを使用します。 C. AWS Glue データカタログを使用する。 D. Amazon RDS for MySQL DB インスタンスでメタストアを使用する。 C AWS Glue データ カタログを使用します。最小限の開発労力で要件を満たす最適なソリューション。 AWS Glue データカタログは、EMR や Athena などのさまざまな AWS サービスと統合できる中央メタデータ リポジトリとして設計されており、Hive 互換性が組み込まれたメタデータ管理のためのマネージドでスケーラブルなソリューションを提供します。 https://aws.amazon.com/blogs/big-data/metadata-classification-lineage-and-discovery-using-apache-atlas-on-amazon-emr/ 59 / 80 59. 59, 企業は AWS にデータレイクを構築する必要があります。企業は、行レベルのデータ アクセスと列レベルのデータ アクセスを特定のチームに提供する必要があります。チームは、Amazon Athena、Amazon Redshift Spectrum、および Amazon EMR の Apache Hive を使用してデータにアクセスします。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. データレイクストレージには Amazon S3 を使用します。 S3 アクセス ポリシーを使用して、行と列ごとにデータ アクセスを制限します。 Amazon S3 経由でデータ アクセスを提供します。 B. データレイクストレージに Amazon S3 を使用します。 Amazon EMR 経由で Apache Ranger を使用して、行と列ごとにデータ アクセスを制限します。 Apache Pig を使用してデータ アクセスを提供します。 C. データレイクストレージに Amazon Redshift を使用する。 Redshift セキュリティ ポリシーを使用して、行と列ごとにデータ アクセスを制限します。 Apache Spark および Amazon Athena フェデレーテッド クエリを使用してデータ アクセスを提供します。 D. データレイクストレージに Amazon S3 を使用します。 AWS Lake Formation を使用して、行と列ごとにデータ アクセスを制限します。 AWS Lake Formation を通じてデータ アクセスを提供します。 D データレイクストレージに Amazon S3 を使用し、アクセス制御に AWS Lake Formation を使用する、最も適切なソリューションです。行レベルおよび列レベルのアクセス制御の要件を満たし、Amazon Athena、Amazon Redshift Spectrum、EMR 上の Apache Hive と適切に統合され、他のオプションと比較して運用オーバーヘッドが低くなります。 https://docs.aws.amazon.com/lake-formation/latest/dg/cbac-tutorial.html 60 / 80 60. 60, 航空会社は、分析のために飛行活動に関する指標を収集しています。同社は、定時出発を増やすために分析からどのように洞察が得られるかを示す概念実証 (POC) テストを実施しています。 POC テストでは、.csv 形式のメトリクスを含む Amazon S3 のオブジェクトを使用します。 POC テストでは、Amazon Athena を使用してデータをクエリします。データは S3 バケット内で日付ごとにパーティション化されます。 データ量が増加するにつれて、同社はストレージ ソリューションを最適化してクエリのパフォーマンスを向上させたいと考えています。 これらの要件を満たすソリューションの組み合わせはどれですか? (2つお選びください。) A. Amazon S3 のキーの先頭にランダム化された文字列を追加して、パーティション全体のスループットを向上させます。 B. Athena を使用してデータをクエリするのと同じアカウント内の S3 バケットを使用します。 C. 会社が Athena クエリを実行するのと同じ AWS リージョンにある S3 バケットを使用します。 D. クエリに必要なドキュメント キーのみを取得して、.csv データを JSON 形式に前処理します。 E. 述語に必要なデータ ブロックのみをフェッチして、.csv データを Apache Parquet 形式に前処理します。 CE https://docs.aws.amazon.com/athena/latest/ug/performance-tuning.html 61 / 80 61. 61, ある企業は、重要なアプリケーションのデータベースとして Amazon RDS for MySQL を使用しています。データベースのワークロードはほとんどが書き込みであり、読み取りは少数です。 データ エンジニアは、DB インスタンスの CPU 使用率が非常に高いことに気づきました。 CPU 使用率が高いため、アプリケーションの速度が低下しています。データ エンジニアは、DB インスタンスの CPU 使用率を削減する必要があります。 この要件を満たすためにデータ エンジニアはどのようなアクションを実行する必要がありますか? (2つお選びください。) A. Amazon RDS の Performance Insights 機能を使用して、CPU 使用率が高いクエリを特定します。問題のあるクエリを最適化します。 B. データベース スキーマを変更して、追加のテーブルとインデックスを含めます。 C. RDS DB インスタンスを毎週 1 回再起動します。 D. より大きなインスタンス サイズにアップグレードします。 E. キャッシュを実装してデータベース クエリの負荷を軽減します。 AD A および D ほとんどが書き込みで少数の読み取りが行われるワークロードでは、読み取りの多いワークロードに比べて、キャッシュによる CPU 使用率の削減効果は低くなります。 https://repost.aws/knowledge-center/rds-aurora-postgresql-high-cpu 62 / 80 62. 62, ある企業は、Orders という名前の Amazon Redshift テーブルを 6 か月間使用しました。同社はテーブルの更新と削除を毎週実行します。このテーブルには、AWS リージョンを含む列にインターリーブされたソートキーがあります。 会社は、ストレージ容量が不足しないようにディスク容量を再利用したいと考えています。同社はソートキー列も分析したいと考えています。 これらの要件を満たす Amazon Redshift コマンドはどれですか? A. VACUUM FULL 注文 B. VACUUM DELETE のみの注文 C. VACUUM REINDEX 注文 D. VACUUM ソートのみの注文 C スペースの再利用: 更新および削除後、Redshift テーブルは削除されたデータ ブロックを保持し、スペースを占有する可能性があります。 VACUUM REINDEX コマンド: 削除された行によって占有されていたスペースを再利用します。ソートキー列のインデックスを再構築します。ソートキーの分析: ソートキー列には AWS リージョンが含まれているため、この列のインデックスを再構築すると、リージョンに従ってデータをクラスタリングするのに役立ちます。このクラスタリングにより、リージョンごとにフィルタリングまたはグループ化するクエリのパフォーマンスが向上します。 63 / 80 63. 63, 製造会社はセンサーからデータを収集したいと考えています。データ エンジニアは、センサー データをほぼリアルタイムで取り込むソリューションを実装する必要があります。 ソリューションでは、データを永続的なデータ ストアに保存する必要があります。ソリューションでは、データをネストされた JSON 形式で保存する必要があります。企業は、10 ミリ秒未満の遅延でデータ ストアからクエリを実行できる必要があります。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. セルフホスト型 Apache Kafka クラスターを使用してセンサー データをキャプチャします。クエリのためにデータを Amazon S3 に保存します。 B. AWS Lambda を使用してセンサーデータを処理します。クエリのためにデータを Amazon S3 に保存します。 C. Amazon Kinesis Data Streams を使用してセンサーデータをキャプチャします。クエリのためにデータを Amazon DynamoDB に保存します。 D. Amazon Simple Queue Service (Amazon SQS) を使用して、受信センサー データをバッファーします。 AWS Glue を使用して、クエリのためにデータを Amazon RDS に保存します。 C 最小限の運用オーバーヘッドで要件を満たす最適なソリューションです。 Amazon Kinesis Data Streams を使用してリアルタイムのセンサーデータを取り込みます。 ネストされた JSON データを Amazon DynamoDB に保存して、低レイテンシーのクエリを実行します。 オプション C の主な利点は次のとおりです。 Kinesis Dataストリームは自動スケーリングと永続性によりリアルタイムのデータ取り込みを完全に管理します DynamoDB はクエリに対して 1 桁のミリ秒のレイテンシを提供します DynamoDB はネストされた JSON データ モデルをネイティブにサポートします フルマネージド サービスにより運用オーバーヘッドが最小限に抑えられます 対照的に: オプション A では Kafka クラスターの管理が必要です オプション B は Lambda を使用します。永続的なストレージを提供しない オプション D では、SQS、Glue、RDS を統合する必要があり、複雑さが生じます。 64 / 80 64. 64, 企業は、Amazon S3 内のデータレイクにデータを保存します。同社がデータ レイクに保存する一部のデータには、個人を特定できる情報 (PII) が含まれています。複数のユーザー グループが生データにアクセスする必要があります。企業は、ユーザー グループが必要な PII のみにアクセスできるようにする必要があります。 最小限の労力でこれらの要件を満たすソリューションはどれですか? A. Amazon Athena を使用してデータをクエリします。 AWS Lake Formation をセットアップし、データフィルターを作成して、企業の IAM ロールのアクセスレベルを確立します。各ユーザーを、ユーザーの PII アクセス要件に一致する IAM ロールに割り当てます。 B. Amazon QuickSight を使用してデータにアクセスします。 QuickSight の列レベルのセキュリティ機能を使用して、ユーザーが Amazon Athena を使用して Amazon S3 から取得できる PII を制限します。ユーザーの PII アクセス要件に基づいて QuickSight アクセス レベルを定義します。 C. バックグラウンドで Athena クエリを実行してデータにアクセスするカスタム クエリ ビルダー UI を構築します。 Amazon Cognito でユーザーグループを作成します。ユーザーの PII アクセス要件に基づいて、ユーザー グループにアクセス レベルを割り当てます。 D. さまざまなレベルのきめ細かいアクセス権を持つ IAM ロールを作成します。 IAM ロールを IAM ユーザー グループに割り当てます。 ID ベースのポリシーを使用して、列レベルでユーザー グループにアクセス レベルを割り当てます。 A Amazon Athena を使用してデータをクエリし、データフィルターを使用して AWS Lake Formation を設定することで、同社はユーザーグループが必要な個人識別情報 (PII) のみにアクセスできるようにすることができます。クエリ用の Athena とアクセス制御用の Lake Formation を組み合わせることで、PII アクセス要件を効果的かつ安全に管理するための包括的なソリューションが提供されます。 65 / 80 65. 65, データエンジニアは、10 個のソースシステムからのデータを処理して、Amazon Redshift データベース内の 10 個のテーブルにロードする抽出、変換、ロード (ETL) パイプラインを構築する必要があります。すべてのソース システムは .csv、JSON、または Apache Parquet ファイルを 15 分ごとに生成します。ソース システムはすべて、ファイルを 1 つの Amazon S3 バケットに配信します。ファイル サイズの範囲は 10 MB ~ 20 GB です。 ETL パイプラインは、データ スキーマが変更されても正しく機能する必要があります。 これらの要件を満たすデータ パイプライン ソリューションはどれですか? (2つお選びください。) A. Amazon EventBridge ルールを使用して、AWS Glue ジョブを 15 分ごとに実行します。データを処理して Amazon Redshift テーブルにロードするように AWS Glue ジョブを設定します。 B. Amazon EventBridge ルールを使用して、AWS Glue ワークフロー ジョブを 15 分ごとに呼び出します。 AWS Glue クローラーを実行し、クローラーの実行が正常に終了したときに AWS Glue ジョブを実行するオンデマンド トリガーを備えた AWS Glue ワークフローを設定します。データを処理して Amazon Redshift テーブルにロードするように AWS Glue ジョブを設定します。 C. ファイルが S3 バケットにロードされるときに AWS Glue クローラーを呼び出すように AWS Lambda 関数を設定します。データを処理して Amazon Redshift テーブルにロードするように AWS Glue ジョブを設定します。 AWS Glue ジョブを実行する 2 番目の Lambda 関数を作成します。 AWS Glue クローラーの実行が正常に終了したときに 2 番目の Lambda 関数を呼び出す Amazon EventBridge ルールを作成します。 D. ファイルが S3 バケットにロードされるときに AWS Glue ワークフローを呼び出すように AWS Lambda 関数を設定します。 AWS Glue クローラーを実行し、クローラーの実行が正常に終了したときに AWS Glue ジョブを実行するオンデマンド トリガーを備えた AWS Glue ワークフローを設定します。データを処理して Amazon Redshift テーブルにロードするように AWS Glue ジョブを設定します。 E. ファイルが S3 バケットにロードされるときに AWS Glue ジョブを呼び出すように AWS Lambda 関数を設定します。 S3 バケットから Apache Spark DataFrame にファイルを読み取るように AWS Glue ジョブを設定します。 DataFrame のより小さなパーティションを Amazon Kinesis Data Firehose 配信ストリームに配置するように AWS Glue ジョブを設定します。データを Amazon Redshift テーブルにロードするように配信ストリームを設定します。 BD オプション B: AWS Glue ワークフロージョブを使用した Amazon EventBridge ルール (15 分ごと) - 合理化されたプロセス、自動スケジュール、およびスキーマ変更を処理する機能。オプション D: ファイルのロード時に AWS Lambda で AWS Glue ワークフローを呼び出す - ファイル到着への応答性とスキーマ変更への適応性のためですが、オプション B よりも若干複雑です。 66 / 80 66. 66, ある金融会社は、Amazon Athena を使用してペタバイト規模のデータセットに対してオンデマンド SQL クエリを実行し、ビジネス インテリジェンス (BI) アプリケーションをサポートしたいと考えています。営業時間外に実行される AWS Glue ジョブは、毎日 1 回データセットを更新します。 BI アプリケーションの標準データ更新頻度は、企業ポリシーに準拠するために 1 時間です。 データエンジニアは、追加のインフラストラクチャコストを追加することなく、企業での Amazon Athena の使用コストを最適化したいと考えています。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. 1 日後にデータを S3 Glacier Deep Archive ストレージ クラスに移動するように Amazon S3 ライフサイクル ポリシーを設定します。 B. SQL クエリに Amazon Athena のクエリ結果の再利用機能を使用します。 C. BI アプリケーションと Athena の間に Amazon ElastiCache クラスターを追加します。 D. データセット内のファイルの形式を Apache Parquet に変更します。 B Amazon Athena のクエリ結果の再利用機能を使用します。これにより、Athena の組み込み機能を利用して冗長なデータ スキャンが削減され、クエリ コストが削減されます。 https://docs.aws.amazon.com/athena/latest/ug/performance-tuning.html 67 / 80 67. 67, 企業のデータ エンジニアは、テーブル SQL クエリのパフォーマンスを最適化する必要があります。同社はデータを Amazon Redshift クラスターに保存しています。データ エンジニアは予算の制約のため、クラスターのサイズを増やすことができません。 同社はデータを複数のテーブルに保存し、EVEN 分散スタイルを使用してデータをロードします。一部のテーブルのサイズは数百ギガバイトです。他のテーブルのサイズは 10 MB 未満です。 これらの要件を満たすソリューションはどれですか? A. すべてのテーブルに対して EVEN 分散スタイルを使用し続けます。すべてのテーブルの主キーと外部キーを指定します。 B. 大きなテーブルには ALL 分散スタイルを使用します。すべてのテーブルの主キーと外部キーを指定します。 C. めったに更新されない小さなテーブルには、ALL 分散スタイルを使用します。すべてのテーブルの主キーと外部キーを指定します。 D. すべてのテーブルの分散キー、ソートキー、パーティションキーの組み合わせを指定します。 C めったに更新されない小さなテーブルには ALL 分散スタイルを使用します。このアプローチは、これらの小さなテーブルに関係する結合のパフォーマンスを最適化し、Redshift データ ウェアハウスにおける一般的なベスト プラクティスです。大きなテーブルの場合は、EVEN 分散スタイルを維持するか、KEY ベースの分散 (共通の結合列がある場合) を検討する方が適切な場合があります。 68 / 80 68. 68, 企業は、物理的な住所データを含む .csv ファイルを受け取ります。データは、Door_No、Street_Name、City、および Zip_Code という名前を持つ列にあります。会社は、これらの値を次の形式で保存するための単一の列を作成したいと考えています。 最小限のコーディング作業でこの要件を満たすソリューションはどれですか? A. AWS Glue DataBrew を使用してファイルを読み取ります。 NEST_TO_ARRAY 変換を使用して新しい列を作成します。 B. AWS Glue DataBrew を使用してファイルを読み取ります。 NEST_TO_MAP 変換を使用して新しい列を作成します。 C. AWS Glue DataBrew を使用してファイルを読み取ります。 PIVOT 変換を使用して新しい列を作成します。 D. ファイルを読み取るための Lambda 関数を Python で作成します。 Python データ ディクショナリ タイプを使用して新しい列を作成します。 B AWS Glue DataBrew は、大規模なコーディングを必要とせずにデータを簡単に変換できる視覚的なデータ準備ツールです。 DataBrew の NEST_TO_MAP 変換を使用すると、列を JSON マップに変換でき、住所データに必要な JSON 形式と一致します。 69 / 80 69. 69, 企業は、顧客の機密情報を含む通話ログを Amazon S3 オブジェクトとして受け取ります。企業は暗号化を使用して S3 オブジェクトを保護する必要があります。また、企業は、特定の従業員のみがアクセスできる暗号化キーを使用する必要があります。 最小限の労力でこれらの要件を満たすソリューションはどれですか? A. AWS CloudHSM クラスターを使用して暗号化キーを保存します。 Amazon S3 に書き込むプロセスを設定して、CloudHSM を呼び出してオブジェクトを暗号化および復号化します。 CloudHSM クラスターへのアクセスを制限する IAM ポリシーをデプロイします。 B. 顧客提供のキー (SSE-C) を使用したサーバー側暗号化を使用して、顧客情報を含むオブジェクトを暗号化します。オブジェクトを暗号化するキーへのアクセスを制限します。 C. AWS KMS キー (SSE-KMS) を使用したサーバー側暗号化を使用して、顧客情報を含むオブジェクトを暗号化します。オブジェクトを暗号化する KMS キーへのアクセスを制限する IAM ポリシーを構成します。 D. Amazon S3 管理キー (SSE-S3) を使用したサーバー側暗号化を使用して、顧客情報を含むオブジェクトを暗号化します。オブジェクトを暗号化する Amazon S3 管理キーへのアクセスを制限する IAM ポリシーを設定します。 C AWS KMS キー (SSE-KMS) を使用したサーバー側暗号化を使用して、顧客情報を含むオブジェクトを暗号化します。オブジェクトを暗号化する KMS キーへのアクセスを制限する IAM ポリシーを構成します。 AWS KMS (SSE-KMS) を使用したサーバー側の暗号化は、AWS Key Management Service (KMS) によるきめ細かいアクセス制御を可能にしながら、S3 オブジェクトに強力な暗号化を提供します。 SSE-KMS を使用すると、IAM ポリシーを使用して暗号化キーへのアクセスを制御し、特定の従業員のみが暗号化キーにアクセスできるようにすることができます。このソリューションは、AWS のマネージド暗号化サービス (SSE-KMS) を活用し、S3 とシームレスに統合するため、最小限の労力で済みます。さらに、KMS キーへのアクセスを制限するように IAM ポリシーを簡単に構成できるため、暗号化キーにアクセスできるユーザーを詳細に制御できます。 70 / 80 70. 70, ある企業は、S3 標準ストレージ クラスの数千の Amazon S3 バケットにペタバイトのデータを保存しています。このデータは、予測不可能で変動するデータ アクセス パターンを持つ分析ワークロードをサポートします。 同社は数カ月間、一部のデータにアクセスしていません。ただし、企業はミリ秒以内にすべてのデータを取得できなければなりません。会社は S3 ストレージのコストを最適化する必要があります。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. S3 Storage Lens の標準メトリクスを使用して、よりコストが最適化されたストレージ クラスにオブジェクトを移動するタイミングを決定します。 S3 バケットの S3 ライフサイクル ポリシーを作成して、コストが最適化されたストレージ クラスにオブジェクトを移動します。ストレージ コストを最適化するために、今後も S3 ライフサイクル ポリシーを改良し続けます。 B. S3 Storage Lens アクティビティ メトリックを使用して、企業がアクセス頻度の低い S3 バケットを特定します。データの古さに基づいて、オブジェクトを S3 Standard から S3 Standard-Infrequent Access (S3 Standard-IA) および S3 Glacier ストレージ クラスに移動するように S3 ライフサイクル ルールを構成します。 C. S3 Intelligent-Tieringを使用する。ディープ アーカイブ アクセス階層をアクティブ化します。 D. S3 Intelligent-Tieringを使用します。デフォルトのアクセス層を使用します。 D S3 Intelligent-Tieringのデフォルトのアクセス階層は次のとおりです。 1. アクセスが 30 日未満: 頻繁なアクセス階層 2. 30 ~ 90 日間アクセスされない: 低頻度アクセス階層 3. 90 日を超えてアクセスされない: アーカイブインスタントアクセス層 他の層では、アクティベーションが必要な取得時間が長くなります。 https://docs.aws.amazon.com/AmazonS3/latest/userguide/intelligent-tiering-overview.html 71 / 80 71. 71, セキュリティレビュー中に、ある企業は AWS Glue ジョブの脆弱性を特定しました。同社は、Amazon Redshift クラスターにアクセスするための認証情報がジョブ スクリプトにハードコーディングされていることを発見しました。 データエンジニアは、AWS Glue ジョブのセキュリティ脆弱性を修正する必要があります。ソリューションでは、資格情報を安全に保存する必要があります。 これらの要件を満たすために、データ エンジニアはどの手順の組み合わせを実行する必要がありますか? (2つお選びください。) A. 認証情報を AWS Glue ジョブパラメータに保存します。 B. Amazon S3 バケット内の設定ファイルに認証情報を保存します。 C. AWS Glue ジョブを使用して、Amazon S3 バケット内の設定ファイルから認証情報にアクセスします。 D. 認証情報を AWS Secrets Manager に保存します。 E. AWS Glue ジョブの IAM ロールに、保存された認証情報へのアクセスを付与します。 DE D. 認証情報を AWS Secrets Manager に保存する: AWS Secrets Manager は、独自のインフラストラクチャを運用するための先行投資や継続的なメンテナンス費用を必要とせずに、アプリケーション、サービス、IT リソースへのアクセスを保護するのに役立つサービスです。これは、認証情報を安全に保存および取得するために特別に設計されているため、Redshift クラスターの認証情報を処理するのに適切な選択肢です。 E. AWS Glue ジョブに保存された認証情報への IAM ロールアクセスを付与する: AWS Glue の IAM ロールにより、ジョブは AWS Secrets Manager の認証情報にアクセスするために必要なアクセス許可を持つロールを引き受けることができます。この方法では、資格情報をスクリプトまたは構成ファイルに直接埋め込むことが回避され、資格情報の一元管理が可能になります。 72 / 80 72. 72, データエンジニアは Amazon Redshift を使用して、リソースを大量に消費する分析プロセスを毎月 1 回実行しています。データ エンジニアは毎月、新しい Redshift でプロビジョニングされたクラスターを作成します。データ エンジニアは、分析プロセスが毎月完了した後、Redshift でプロビジョニングされたクラスターを削除します。データ エンジニアは毎月クラスターを削除する前に、バックアップ データをクラスターから Amazon S3 バケットにアンロードします。 データ エンジニアは、データ エンジニアがインフラストラクチャを手動で管理する必要のない、毎月の分析プロセスを実行するためのソリューションを必要としています。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. Amazon Step Functions を使用して、分析プロセスが完了したら Redshift クラスターを一時停止し、クラスターを再開して毎月新しいプロセスを実行します。 B. Amazon Redshift Serverless を使用して、分析ワークロードを自動的に処理します。 C. AWS CLI を使用して、分析ワークロードを自動的に処理します。 D. AWS CloudFormation テンプレートを使用して、分析ワークロードを自動的に処理します。 B フルマネージド、サーバーレス: Redshift Serverlessにより、クラスターを手動で作成、管理、削除する必要がなくなります。ワークロードに基づいてリソースを自動的にスケールし、運用オーバーヘッドを大幅に削減します。頻度の低いワークロードに対する費用対効果の高い: 分析プロセスは月に 1 回だけ実行されるため、Redshift Serverless の従量制モデルはダウンタイム中のコストを最小限に抑えるのに最適です。シームレスな S3 統合: Redshift Serverlessは、バックアップおよび復元操作のために S3 とネイティブに統合し、既存のプロセスとの互換性を確保します。 73 / 80 73. 73, 企業は、.xls 形式の顧客データを含むファイルを毎日受け取ります。同社はファイルを Amazon S3 に保存します。日次ファイルのサイズは約 2 GB です。 データ エンジニアは、顧客の名を含むファイル内の列と顧客の姓を含む列を連結します。データ エンジニアは、ファイル内の個別の顧客の数を判断する必要があります。 最小限の運用労力でこの要件を満たすソリューションはどれですか? A. AWS Glue ノートブックで Apache Spark ジョブを作成して実行します。 S3 ファイルを読み取り、個別の顧客の数を計算するようにジョブを構成します。 B. AWS Glue クローラーを作成して、S3 ファイルの AWS Glue データカタログを作成します。 Amazon Athena から SQL クエリを実行して、個別の顧客の数を計算します C. Amazon EMR Serverlessで Apache Spark ジョブを作成して実行し、個別の顧客の数を計算します。 D. AWS Glue DataBrew を使用して、COUNT_DISTINCT 集計関数を使用して個別の顧客の数を計算するレシピを作成します。 D AWS Glue DataBrew: AWS Glue DataBrew は、データエンジニアやデータアナリストがコードを書かずにデータをクリーンアップおよび正規化できるようにする視覚的なデータ準備ツールです。 DataBrew を使用すると、データ エンジニアは顧客の姓名を連結したレシピを作成し、COUNT_DISTINCT 関数を使用できます。これには複雑なコードは必要なく、DataBrew ユーザー インターフェイスを通じて実行できるため、運用労力が軽減されます。 74 / 80 74. 74, ヘルスケア企業は、Amazon Kinesis Data Streams を使用して、ウェアラブルデバイス、病院の設備、患者記録からリアルタイムの健康データをストリーミングします。 データ エンジニアは、ストリーミング データを処理するソリューションを見つける必要があります。データ エンジニアは、Amazon Redshift Serverless ウェアハウスにデータを保存する必要があります。このソリューションは、ストリーミング データと前日のデータのほぼリアルタイムの分析をサポートする必要があります。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. Amazon Kinesis Data Firehose にデータをロードします。データを Amazon Redshift にロードします。 B. Amazon Redshift のストリーミング取り込み機能を使用します。 C. データを Amazon S3 にロードします。 COPY コマンドを使用して、データを Amazon Redshift にロードします。 D. Amazon Aurora ゼロ ETL と Amazon Redshift の統合を使用します。 B Amazon Redshift のストリーミング インジェスト機能を使用する: Amazon Redshift は最近ストリーミング データ インジェストを導入し、Redshift がデータを直接消費できるようにしました。 Kinesis Data Streams からほぼリアルタイムで。この機能は、中間のステップやサービスの必要性を排除することでアーキテクチャを簡素化し、特にほぼリアルタイムの分析をサポートするように設計されています。 https://docs.aws.amazon.com/redshift/latest/dg/materialized-view-streaming-ingestion.html 75 / 80 75. 75, データエンジニアは、Amazon S3 バケットに保存されているデータに対する Amazon Athena クエリに基づく Amazon QuickSight ダッシュボードを使用する必要があります。データ エンジニアが QuickSight ダッシュボードに接続すると、権限が不十分であることを示すエラー メッセージが表示されます。 アクセス許可関連のエラーはどのような要因によって引き起こされる可能性がありますか? (2つお選びください。) A. QuickSight と Athena の間には接続がありません。 B. Athena テーブルはカタログ化されていません。 C. QuickSight は S3 バケットにアクセスできません。 D. QuickSight には S3 データを復号化するためのアクセス権がありません。 E. QuickSight に割り当てられた IAM ロールはありません。 CD 権限関連のエラーを引き起こす可能性が最も高い 2 つの要因は次のとおりです。 C. QuickSight は S3 バケットにアクセスできません。 S3 バケットのデータにアクセスするには、QuickSight に明示的な S3 権限が必要です。これは通常、QuickSight サービスに関連付けられた IAM ロールを通じて処理されます。 D. QuickSight には S3 データを復号化するためのアクセス権がありません。 S3 内のデータが暗号化されている場合 (例: KMS を使用)、QuickSight は関連する KMS キーを使用してデータを復号化するために必要なアクセス許可を持っている必要があります。他のオプションが主な原因である可能性が低い理由を分析してみましょう。 E. QuickSight に割り当てられた IAM ロールがありません。 QuickSight には、全体的な機能のために IAM ロールが必要です。ロールが欠落していると、特定のデータ アクセス エラーではなく、より広範なサービス障害が発生する可能性があります。 76 / 80 76. 76, ある企業は、データセットを JSON 形式と .csv 形式で Amazon S3 バケットに保存します。同社は、Amazon RDS for Microsoft SQL Server データベース、プロビジョニングキャパシティーモードの Amazon DynamoDB テーブル、および Amazon Redshift クラスターを備えています。データ エンジニアリング チームは、データ サイエンティストが SQL に似た構文を使用してすべてのデータ ソースをクエリできるようにするソリューションを開発する必要があります。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. AWS Glue を使用してデータ ソースをクロールします。メタデータを AWS Glue データ カタログに保存します。 Amazon Athena を使用してデータをクエリします。構造化データ ソースには SQL を使用します。 JSON 形式で保存されたデータには PartiQL を使用します。 B. AWS Glue を使用してデータ ソースをクロールします。メタデータを AWS Glue データ カタログに保存します。 Redshift Spectrum を使用してデータをクエリします。構造化データ ソースには SQL を使用します。 JSON 形式で保存されたデータには PartiQL を使用します。 C. AWS Glue を使用してデータ ソースをクロールします。メタデータを AWS Glue データ カタログに保存します。 AWS Glue ジョブを使用して、JSON 形式のデータを Apache Parquet または .csv 形式に変換します。変換されたデータを S3 バケットに保存します。 Amazon Athena を使用して、S3 バケットの元のデータと変換されたデータをクエリします。 D. AWS Lake Formation を使用してデータレイクを作成します。 Lake Formation ジョブを使用して、すべてのデータ ソースのデータを Apache Parquet 形式に変換します。変換されたデータを S3 バケットに保存します。 Amazon Athena または Redshift Spectrum を使用してデータをクエリします。 A Athena による統合クエリ: Athena は、従来のデータベースだけでなく、S3 の JSON や CSV などのさまざまなデータ ソースをクエリするための SQL のようなインターフェイスを提供します。 PartiQL サポート: Athena の PartiQL 拡張機能を使用すると、半構造化された JSON データを直接クエリできるため、別のクエリ エンジンが必要なくなります。サーバーレスとマネージド: AWS Glue と Athena はどちらもサーバーレスなので、データ エンジニアのインフラストラクチャ管理が最小限に抑えられます。不必要な変換なし: JSON データの変換を回避することで、パイプラインが簡素化され、運用オーバーヘッドが削減されます。 B. Redshift Spectrum: Spectrum は外部データをクエリできますが、主に Redshift データ ウェアハウス拡張機能を目的としています。これにより、RDS および DynamoDB データ ソースがさらに複雑になります。 77 / 80 77. 77, データエンジニアは、AWS Glue インタラクティブセッションを使用して機械学習 (ML) モデル用のデータを準備するように Amazon SageMaker Studio を設定しています。 データ エンジニアが SageMaker Studio を使用してデータを準備しようとすると、アクセス拒否エラーが発生します。 SageMaker Studio にアクセスするには、エンジニアはどの変更を行う必要がありますか? A. AWS Glue Service Role 管理ポリシーをデータ エンジニアの IAM ユーザーに追加します。 B. 信頼ポリシーに AWS Glue および SageMaker サービス プリンシパルの sts:AssumeRole アクションを含むポリシーをデータ エンジニアの IAM ユーザーに追加します。 C. AmazonSageMakerFullAccess 管理ポリシーをデータエンジニアの IAM ユーザーに追加します。 D. 信頼ポリシー内の AWS Glue および SageMaker サービス プリンシパルに対する sts:AddAssociation アクションを許可するポリシーをデータ エンジニアの IAM ユーザーに追加します。 C SageMaker のアクセス許可: AmazonSageMakerFullAccess 管理ポリシーは、SageMaker Studio や AWS Glue などの他の AWS サービスと対話する機能など、Amazon SageMaker の機能を使用するための広範なアクセス許可を提供します。最小特権: このポリシーはかなり寛容ですが、即時アクセスの問題に対する最も直接的な解決策です。エラーを解決した後、より詳細なアプローチのために権限を調整できます。 78 / 80 78. 78, ある企業では、SAP HANA、Microsoft SQL Server、MongoDB、Apache Kafka、Amazon DynamoDB などのデータ ソースから毎日約 1 TB のデータを抽出しています。一部のデータ ソースには、未定義のデータ スキーマまたは変更されるデータ スキーマが含まれています。 データ エンジニアは、これらのデータ ソースのスキーマを検出できるソリューションを実装する必要があります。ソリューションでは、データを抽出、変換し、Amazon S3 バケットにロードする必要があります。同社には、データ作成後 15 分以内にデータを S3 バケットにロードするというService Level Agreement (SLA) があります。 運用オーバーヘッドを最小限に抑えながらこれらの要件を満たすソリューションはどれですか? A. Amazon EMR を使用してスキーマを検出し、データを抽出、変換し、S3 バケットにロードします。 Apache Spark でパイプラインを作成します。 B. AWS Glue を使用してスキーマを検出し、データを抽出、変換し、S3 バケットにロードします。 Apache Spark でパイプラインを作成します。 C. AWS Lambda で PySpark プログラムを作成し、データを抽出、変換し、S3 バケットにロードします。 D. Amazon Redshift でストアド プロシージャを作成し、スキーマを検出し、データを抽出、変換し、Redshift Spectrum テーブルにロードします。 Amazon S3 からテーブルにアクセスします。 B 操作上のオーバーヘッドが最も少ないオプションは B です。 79 / 80 79. 79, ある企業には、Amazon S3 バケットに保存されているデータセットを使用する複数のアプリケーションがあります。同社は、個人を特定できる情報 (PII) を含むデータセットを生成する e コマース アプリケーションを持っています。会社には、PII へのアクセスを必要としない内部分析アプリケーションがあります。 規制を遵守するために、企業は PII を不必要に共有してはなりません。データ エンジニアは、データセットにアクセスする各アプリケーションのニーズに基づいて、PII を動的に編集するソリューションを実装する必要があります。 運用上のオーバーヘッドを最小限に抑えながら要件を満たすソリューションはどれですか? A. S3 バケット ポリシーを作成して、各アプリケーションが持つアクセスを制限します。データセットの複数のコピーを作成します。各データセットのコピーに、コピーにアクセスするアプリケーションのニーズに応じた適切なレベルのリダクションを与えます。 B. S3 Object Lambda エンドポイントを作成します。 S3 Object Lambda エンドポイントを使用して、S3 バケットからデータを読み取ります。 S3 Object Lambda 関数内に編集ロジックを実装して、データにアクセスする各アプリケーションのニーズに基づいて PII を動的に編集します。 C. AWS Glue を使用して、各アプリケーションのデータを変換します。データセットの複数のコピーを作成します。各データセットのコピーに、コピーにアクセスするアプリケーションのニーズに応じた適切なレベルのリダクションを与えます。 D. カスタム承認者を持つ API Gateway エンドポイントを作成します。 API Gateway エンドポイントを使用して、S3 バケットからデータを読み取ります。 REST API 呼び出しを開始し、データにアクセスする各アプリケーションのニーズに基づいて PII を動的に編集します。 B Amazon S3 Object Lambda を使用すると、S3 GET リクエストに独自のコードを追加して、アプリケーションに返されるデータを変更および処理できます。たとえば、S3 オブジェクト Lambda を使用して、S3 から取得したデータから個人を特定できる情報 (PII) を動的に編集できます。これにより、データのコピーを複数作成して管理することなく、さまざまなアプリケーションのニーズに基づいて機密情報へのアクセスを制御できるようになります。 80 / 80 80. 80, データ エンジニアは、抽出、変換、読み込み (ETL) ジョブを構築する必要があります。 ETL ジョブは、ユーザーが Amazon S3 バケットにアップロードする毎日の受信 .csv ファイルを処理します。各 S3 オブジェクトのサイズは 100 MB 未満です。 これらの要件を最もコスト効率よく満たすソリューションはどれですか? A. カスタム Python アプリケーションを作成します。 Amazon Elastic Kubernetes Service (Amazon EKS) クラスターでアプリケーションをホストします。 B. PySpark ETL スクリプトを作成します。 Amazon EMR クラスターでスクリプトをホストします。 C. AWS Glue PySpark ジョブを作成します。 Apache Spark を使用してデータを変換します。 D. AWS Glue Python シェル ジョブを作成します。pandasを使用してデータを変換します。 D オプション D: AWS Glue Python シェル ジョブを作成し、pandasを使用してデータを変換するのは、説明されているシナリオにとって最もコスト効率の高いソリューションです。 AWS Glue の Python シェル ジョブは、小規模な ETL タスク、特にそれぞれ 100 MB 未満の .csv ファイルを扱う場合に適しています。 Python の強力で効率的なデータ操作ライブラリである pandas を使用すると、この種のファイルを処理および変換するための理想的なツールになります。このアプローチにより、Amazon EKS や EMR などのより複雑なソリューションに関連するオーバーヘッドと追加コストが回避されます。これらのソリューションは一般に、大規模で複雑なデータ処理タスクにより適しています。毎日受信する小さなサイズの .csv ファイルを処理するという要件を考慮すると、このソリューションは最小限のリソースで必要な機能を提供し、費用対効果の目標にうまく適合します。 Your score is 0% Restart quiz