AWS DEA-C01 中文 - AWS練習問題集

AWS Certified Data Engineer – Associate 可验证与核心数据相关的 AWS 服务方面的技能和知识，摄取和转换数据、在应用编程概念时编排数据管道、设计数据模型、管理数据生命周期和确保数据质量的能力。

■AWS DEA-C01 中文 All

/204

AWS DEA-C01(CN) All

1 / 204

No.1
数据工程师正在配置 AWS Glue 作业以从 Amazon S3 存储桶读取数据。数据工程师已设置必要的 AWS Glue 连接详细信息和关联的 IAM 角色。但是，当数据工程师尝试运行 AWS Glue 作业时，数据工程师收到一条错误消息，表明 Amazon S3 VPC 网关端点存在问题。
数据工程师必须解决错误并将 AWS Glue 作业连接到 S3 存储桶。
哪种解决方案可以满足此要求？

A. 更新 AWS Glue 安全组以允许来自 Amazon S3 VPC 网关端点的入站流量。

B. 配置 S3 存储桶策略以明确授予 AWS Glue 作业访问 S3 存储桶的权限。

C. 查看 AWS Glue 作业代码以确保 AWS Glue 连接详细信息包含完全限定域名。

D. 验证 VPC 的路由表是否包含 Amazon S3 VPC 网关端点的入站和出站路由。

答案：D

说明：
A - 错误 - AWS Glue - 是无服务器服务，因此没有任何安全组
B - 错误 - 因为我们在 VPC 上出错，而不是在 S3 本身上出错
C - 错误 - 因为使用 S3 - 我们始终只有存储桶的 FQDN

2 / 204

No.2
一家零售公司在 Amazon S3 存储桶中有一个客户数据中心。来自许多国家的员工使用数据中心来支持全公司的分析。治理团队必须确保公司的数据分析师只能访问与分析师位于同一国家/地区的客户的数据。
哪种解决方案可以以最少的运营工作量满足这些要求？

A. 为每个国家/地区的客户数据创建一个单独的表。根据分析师服务的国家/地区向每位分析师提供访问权限。

B. 将 S3 存储桶注册为 AWS Lake Formation 中的数据湖位置。使用 Lake Formation 行级安全功能来执行公司的访问策略。

C. 将数据移动到靠近客户所在国家/地区的 AWS 区域。根据分析师服务的国家/地区向每位分析师提供访问权限。

D. 将数据加载到 Amazon Redshift 中。为每个国家/地区创建一个视图。为每个国家/地区创建单独的 IAM 角色，以提供对每个国家/地区数据的访问权限。为分析师分配适当的角色。

答案：B

说明：
AWS Lake Formation：它专为管理 AWS 上的数据湖而设计，提供保护和控制数据访问的功能。
行级安全性：使用 Lake Formation，您可以定义细粒度的访问控制策略，包括行级安全性。这意味着您可以实施策略以根据特定条件（例如与每个客户关联的国家/地区）限制对数据的访问。
最少的运营工作量：在 Lake Formation 中定义策略后，可以集中管理它们并将其应用于 S3 存储桶中的数据，而无需为每个国家/地区创建单独的表或视图，如选项 A、C 和 D 中所示。这减少了运营开销和复杂性。

3 / 204

No.3
一家媒体公司希望改进一个根据用户行为和偏好向客户推荐媒体内容的系统。为了改进推荐系统，该公司需要将来自第三方数据集的见解整合到公司现有的分析平台中。
该公司希望尽量减少整合第三方数据集所需的工作量和时间。
哪种解决方案能够以最少的运营开销满足这些要求？

A. 使用 API 调用访问和集成来自 AWS Data Exchange 的第三方数据集。

B. 使用 API 调用访问和集成来自 AWS DataSync 的第三方数据集。

C. 使用 Amazon Kinesis Data Streams 访问和集成来自 AWS CodeCommit 存储库的第三方数据集。

D. 使用 Amazon Kinesis Data Streams 访问和集成来自 Amazon Elastic Container Registry (Amazon ECR) 的第三方数据集。

答案：A

说明：
AWS DataSync 主要用于数据传输服务，旨在简化、自动化和加速本地存储系统和 AWS 存储服务之间以及不同 AWS 存储服务之间的数据移动。其主要作用不是访问第三方数据集，而是高效传输大量数据。
相比之下，AWS Data Exchange 专为发现和订阅云中的第三方数据而设计，提供对这些数据集的直接 API 访问，这与公司以最小的开销将这些数据集成到推荐系统中的需求完全一致。

4 / 204

No.4
一家金融公司想要实现数据网格。数据网格必须支持集中式数据治理、数据分析和数据访问控制。该公司已决定使用 AWS Glue 进行数据目录和提取、转换和加载 (ETL) 操作。
哪种 AWS 服务组合将实现数据网格？（选择两个。）

A. 使用 Amazon Aurora 进行数据存储。使用 Amazon Redshift 预置集群进行数据分析。

B. 使用 Amazon S3 进行数据存储。使用 Amazon Athena 进行数据分析。

C. 使用 AWS Glue DataBrew 进行集中数据治理和访问控制。

D. 使用 Amazon RDS 进行数据存储。使用 Amazon EMR 进行数据分析。

E. 使用 AWS Lake Formation 进行集中数据治理和访问控制。

说明：
答案是 B 和 E。
数据网格实施使用 Amazon S3 和 Athena 进行数据存储和分析，使用 AWS Lake Formation 进行集中数据治理和访问控制。与 AWS Glue 结合使用时，您可以高效地管理数据。

5 / 204

No.5
数据工程师维护自定义 Python 脚本，这些脚本执行许多 AWS Lambda 函数使用的数据格式化过程。当数据工程师需要修改 Python 脚本时，数据工程师必须手动更新所有 Lambda 函数。
数据工程师需要一种不太手动的方式来更新 Lambda 函数。
哪种解决方案可以满足此要求？

A. 将指向自定义 Python 脚本的指针存储在共享 Amazon S3 存储桶中的执行上下文对象中。

B. 将自定义 Python 脚本打包到 Lambda 层中。将 Lambda 层应用于 Lambda 函数。

C. 将指向自定义 Python 脚本的指针存储在共享 Amazon S3 存储桶中的环境变量中。

D. 为每个 Lambda 函数分配相同的别名。通过指定函数的别名来调用 Lambda 函数。

答案：B

说明：
B. 将自定义 Python 脚本打包到 Lambda 层中。将 Lambda 层应用于 Lambda 函数。
Lambda 层允许您集中管理多个 Lambda 函数之间的共享代码和依赖关系。通过将自定义 Python 脚本打包到 Lambda 层中，您只需在脚本发生更改时更新该层，并且使用该层的所有 Lambda 函数将自动继承更新。这种方法减少了手动工作量并确保了函数之间的一致性。

集中代码管理：Lambda 层允许您在单个 Lambda 函数代码之外的中心位置存储和管理自定义 Python 脚本。这样就无需手动更新每个 Lambda 函数中的脚本。
可重复使用的代码：层提供了一种在多个 Lambda 函数之间共享代码的方法。对层代码所做的任何更改都会自动反映在使用该层的所有函数中，从而简化更新。
减少部署大小：通过将核心功能分成层，您可以使单个 Lambda 函数代码集中且更小。这减少了部署包大小并可能缩短了 Lambda 执行时间。

6 / 204

No.6
一家公司在 AWS Glue 中创建了一个提取、转换和加载 (ETL) 数据管道。数据工程师必须抓取 Microsoft SQL Server 中的表。数据工程师需要提取、转换抓取的输出并将其加载到 Amazon S3 存储桶中。数据工程师还必须协调数据管道。
哪种 AWS 服务或功能能够以最具成本效益的方式满足这些要求？

A. AWS Step Functions

B. AWS Glue 工作流

C. AWS Glue Studio

D. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)

答案：B

说明：
Glue 工作流是这里最简单的解决方案：

https://aws.amazon.com/blogs/big-data/orchestrate-an-etl-pipeline-using-aws-glue-workflows-triggers-and-crawlers-with-custom-classifiers/

https://aws.amazon.com/blogs/big-data/extracting-multiDimension-data-from-microsoft-sql-server-analysis-services-using-aws-glue/

A. AWS Step Functions：
它是使用来自不同 AWS 服务的步骤来编排工作流的不错选择，但需要额外的开发才能连接到 Microsoft SQL Server。

B. AWS Glue 工作流：
这是最好且最有利可图的选择。 AWS Glue 专为 AWS 上的 ETL 设计，可通过连接器直接与 Microsoft SQL Server 等数据源集成。这样可以更轻松地进行配置，并避免需要进行额外的开发。
C. AWS Glue Studio：
它是 AWS Glue 的可视化界面，可以轻松创建和管理 ETL 作业。但是，底层功能来自 AWS Glue (B) 工作流。
D. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)：
这是一个可行的选择，但通常比 AWS Glue Workflows 等原生 AWS 服务更昂贵。此外，它需要一些 Airflow 经验来进行设置和维护。

7 / 204

No.7
一家金融服务公司将财务数据存储在 Amazon Redshift 中。数据工程师希望对财务数据运行实时查询以支持基于 Web 的交易应用程序。数据工程师希望在交易应用程序内运行查询。
哪种解决方案能够以最少的运营开销满足这些要求？

A. 建立与 Amazon Redshift 的 WebSocket 连接。

B. 使用 Amazon Redshift 数据 API。

C. 设置与 Amazon Redshift 的 Java 数据库连接 (JDBC) 连接。

D. 将经常访问的数据存储在 Amazon S3 中。使用 Amazon S3 Select 运行查询。

答案：B

说明：
Amazon Redshift 数据 API 是一种轻量级的基于 HTTPS 的 API，它提供了一种使用 JDBC 或 ODBC 驱动程序对 Amazon Redshift 运行查询的替代方案。它允许您直接从应用程序内执行 SQL 查询，而无需管理连接或驱动程序。这减少了运营开销，因为无需管理和维护 WebSocket 或 JDBC 连接。

8 / 204

No.8
一家公司使用 Amazon Athena 对 Amazon S3 中的数据进行一次性查询。该公司有多个用例。该公司必须实施权限控制，以将查询流程和对查询历史记录的访问分离到同一 AWS 账户中的用户、团队和应用程序之间。
哪种解决方案可以满足这些要求？

A. 为每个用例创建一个 S3 存储桶。创建一个 S3 存储桶策略，向适当的单个 IAM 用户授予权限。将 S3 存储桶策略应用于 S3 存储桶。

B. 为每个用例创建一个 Athena 工作组。将标签应用于工作组。创建一个使用标签将适当权限应用于工作组的 IAM 策略。

C. 为每个用例创建一个 IAM 角色。为每个用例向角色分配适当的权限。将角色与 Athena 关联。

D. 创建一个 AWS Glue 数据目录资源策略，为每个用例向适当的单个 IAM 用户授予权限。将资源策略应用于 Athena 使用的特定表。

答案：B

说明：
https://docs.aws.amazon.com/athena/latest/ug/user-created-workgroups.html

Athena 工作组允许您隔离和管理不同的工作负载、用户和权限。通过为每个用例创建单独的工作组，您可以控制对查询历史记录的访问、管理权限并为每个工作负载单独实施资源使用限制。将标签应用于工作组允许您根据用例对其进行分类和组织，从而简化策略管理。

9 / 204

No.9
数据工程师需要安排一个工作流，每天运行一组 AWS Glue 作业。数据工程师不需要 Glue 作业在特定时间运行或完成。
哪种解决方案将以最具成本效益的方式运行 Glue 作业？

A. 在 Glue 作业属性中选择 FLEX 执行类。

B. 在 Glue 作业属性中使用 Spot 实例类型。

C. 在 Glue 作业属性中选择 STANDARD 执行类。

D. 在 Glue 作业属性中的 GlueVersion 字段中选择最新版本。

答案：A

说明：
与标准执行类相比，FLEX 执行类利用 AWS 基础设施中的闲置容量以折扣价运行 Glue 作业。由于数据工程师没有特定的时间限制，因此利用闲置容量是节省成本的理想选择。
今天的日期是一个复选框，用于节省容量，这意味着我们不知道什么时候会完成，建议增加超时时间。

10 / 204

10.

No.10
数据工程师需要创建一个 AWS Lambda 函数，将数据格式从 .csv 转换为 Apache Parquet。仅当用户将 .csv 文件上传到 Amazon S3 存储桶时，Lambda 函数才必须运行。
哪种解决方案可以以最少的运营开销满足这些要求？

A. 创建事件类型为 s3:ObjectCreated:* 的 S3 事件通知。使用过滤规则仅在后缀包含 .csv 时生成通知。将 Lambda 函数的 Amazon 资源名称 (ARN) 设置为事件通知的目标。

B. 为标签设置为 .csv 的对象创建事件类型为 s3:ObjectTagging:* 的 S3 事件通知。将 Lambda 函数的 Amazon 资源名称 (ARN) 设置为事件通知的目标。

C. 创建事件类型为 s3:* 的 S3 事件通知。使用过滤规则，仅在后缀包含 .csv 时生成通知。将 Lambda 函数的 Amazon 资源名称 (ARN) 设置为事件通知的目标。

D. 创建事件类型为 s3:ObjectCreated:* 的 S3 事件通知。使用过滤规则，仅在后缀包含 .csv 时生成通知。将 Amazon Simple Notification Service (Amazon SNS) 主题设置为事件通知的目标。将 Lambda 函数订阅到 SNS 主题。

答案：A

说明：
“仅当用户将数据上传到 Amazon S3 存储桶时”，排除 B 和 C，因为我们需要 s3:ObjectCreated:*

S3 事件通知不需要 SNS，因此 A 更简单。

此解决方案仅在 .csv 文件上传到 S3 存储桶时直接触发 Lambda 函数，从而最大限度地减少不必要的 Lambda 函数调用。它使用特定事件类型 (s3:ObjectCreated:*) 和过滤规则来确保仅针对相关事件调用 Lambda 函数。此外，它直接调用 Lambda 函数，而无需 Amazon SNS 等其他服务，从而降低了运营开销。

11 / 204

11.

No.11
数据工程师需要更快地完成 Amazon Athena 查询。数据工程师注意到 Athena 查询使用的所有文件当前都以未压缩的 .csv 格式存储。数据工程师还注意到用户通过选择特定列来执行大多数查询。
哪种解决方案将最大程度地提高 Athena 查询性能？

A. 将数据格式从 .csv 更改为 JSON 格式。应用 Snappy 压缩。

B. 使用 Snappy 压缩压缩 .csv 文件。

C. 将数据格式从 .csv 更改为 Apache Parquet。应用 Snappy 压缩。

D. 使用 gzip 压缩压缩 .csv 文件。

答案：C

说明：

选项 C - Apache Parquet 是一种针对分析查询优化的列式存储格式。它对查询性能非常有效，尤其是当查询涉及选择特定列时，因为它允许列修剪和谓词下推优化。

12 / 204

12.

No.12
一家制造公司从其工厂车间收集传感器数据，以监控和提高运营效率。该公司使用 Amazon Kinesis Data Streams 将传感器收集的数据发布到数据流。然后，Amazon Kinesis Data Firehose 将数据写入 Amazon S3 存储桶。
该公司需要在制造工厂的大屏幕上显示运营效率的实时视图。
哪种解决方案可以以最低的延迟满足这些要求？

A. 使用 Amazon Managed Service for Apache Flink（以前称为 Amazon Kinesis Data Analytics）来处理传感器数据。使用 Apache Flink 的连接器将数据写入 Amazon Timestream 数据库。使用 Timestream 数据库作为源来创建 Grafana 仪表板。

B. 配置 S3 存储桶以在创建任何新对象时向 AWS Lambda 函数发送通知。使用 Lambda 函数将数据发布到 Amazon Aurora。使用 Aurora 作为源来创建 Amazon QuickSight 仪表板。

C. 使用 Amazon Managed Service for Apache Flink（以前称为 Amazon Kinesis Data Analytics）处理传感器数据。创建新的 Data Firehose 传输流以将数据直接发布到 Amazon Timestream 数据库。使用 Timestream 数据库作为源来创建 Amazon QuickSight 仪表板。

D. 使用 AWS Glue 书签实时从 S3 存储桶读取传感器数据。将数据发布到 Amazon Timestream 数据库。使用 Timestream 数据库作为源来创建 Grafana 仪表板。

答案：A

说明：
https://aws.amazon.com/blogs/database/near-real-time-processing-with-amazon-kinesis-amazon-timestream-and-grafana/
实时 -> 没有 Quicksight。使用书签实时读取传感器数据就像地球平坦理论一样愚蠢。A 就是这样。

13 / 204

13.

No.13
一家公司将投资组合的财务表现的每日记录以 .csv 格式存储在 Amazon S3 存储桶中。数据工程师使用 AWS Glue 爬虫程序来爬取 S3 数据。
数据工程师必须使 S3 数据在 AWS Glue 数据目录中每天可访问。
哪种解决方案可以满足这些要求？

A. 创建包含 AmazonS3FullAccess 策略的 IAM 角色。将角色与爬虫程序关联。将源数据的 S3 存储桶路径指定为爬虫程序的数据存储。创建每日计划以运行爬虫程序。将输出目标配置为现有 S3 存储桶中的新路径。

B. 创建包含 AWSGlueServiceRole 策略的 IAM 角色。将角色与爬虫程序关联。将源数据的 S3 存储桶路径指定为爬虫程序的数据存储。创建每日计划以运行爬虫程序。为输出指定数据库名称。

C. 创建包含 AmazonS3FullAccess 策略的 IAM 角色。将角色与爬虫关联。将源数据的 S3 存储桶路径指定为爬虫的数据存储。分配数据处理单元 (DPU) 以每天运行爬虫。为输出指定数据库名称。

D. 创建包含 AWSGlueServiceRole 策略的 IAM 角色。将角色与爬虫关联。将源数据的 S3 存储桶路径指定为爬虫的数据存储。分配数据处理单元 (DPU) 以每天运行爬虫。将输出目标配置为现有 S3 存储桶中的新路径。

答案：B

说明：

选项 B - 选项 B 使用 AWSGlueServiceRole 策略正确设置了具有必要权限的 IAM 角色，该策略专为与 AWS Glue 一起使用而设计。它将源数据的 S3 存储桶路径指定为爬虫的数据存储，并创建每日计划来运行爬虫。此外，它还为输出指定了一个数据库名称，确保抓取的数据在 AWS Glue 数据目录中正确编目。
Glue 爬虫是无服务器的。分配 DPU 是我决定选择选项 B 的地方。

14 / 204

14.

No.14
一家公司每天结束时将每天的交易数据加载到 Amazon Redshift 表中。该公司希望能够跟踪哪些表已加载以及哪些表仍需加载。
一位数据工程师希望将 Redshift 表的加载状态存储在 Amazon DynamoDB 表中。数据工程师创建了一个 AWS Lambda 函数，将加载状态的详细信息发布到 DynamoDB。
数据工程师应如何调用 Lambda 函数将加载状态写入 DynamoDB 表？

A. 使用第二个 Lambda 函数根据 Amazon CloudWatch 事件调用第一个 Lambda 函数。

B. 使用 Amazon Redshift 数据 API 将事件发布到 Amazon EventBridge。配置 EventBridge 规则以调用 Lambda 函数。

C. 使用 Amazon Redshift 数据 API 将消息发布到 Amazon Simple Queue Service (Amazon SQS) 队列。配置 SQS 队列以调用 Lambda 函数。

D. 使用第二个 Lambda 函数根据 AWS CloudTrail 事件调用第一个 Lambda 函数。

答案：B

说明：
https://docs.aws.amazon.com/redshift/latest/mgmt/data-api-monitoring-events.html

选项 B 利用 Amazon Redshift Data API 将事件发布到 Amazon EventBridge，后者提供无服务器事件总线服务来处理跨 AWS 服务的事件。通过配置 EventBridge 规则以响应 Redshift Data API 发布的事件来调用 Lambda 函数，数据工程师可以确保每当 Amazon Redshift 中有新的事务数据加载时都会触发 Lambda 函数。此方法提供了一种简单且可扩展的解决方案来跟踪表加载状态，而无需依赖其他 Lambda 函数或服务。

15 / 204

15.

No.15
数据工程师需要安全地将 5 TB 的数据从本地数据中心传输到 Amazon S3 存储桶。大约 5% 的数据每天都会发生变化。需要定期将数据更新扩散到 S3 存储桶中。数据包括多种格式的文件。数据工程师需要自动化传输过程，并且必须安排该过程定期运行。
数据工程师应使用哪种 AWS 服务以最高效的方式传输数据？

A. AWS DataSync

B. AWS Glue

C. AWS Direct Connect

D. Amazon S3 传输加速

答案：A

说明：

选项 A - AWS DataSync 是一种托管数据传输服务，可简化和加速在本地存储和 Amazon S3、EFS 或 FSx for Windows File Server 之间在线移动大量数据。DataSync 针对高效、增量和可靠的大型数据集传输进行了优化，使其适合传输 5 TB 的数据并每天进行更新。

16 / 204

16.

No.16
一家公司使用本地 Microsoft SQL Server 数据库来存储财务交易数据。该公司在每个月底将交易数据从本地数据库迁移到 AWS。该公司注意到，最近将数据从本地数据库迁移到 Amazon RDS for SQL Server 数据库的成本有所增加。
该公司需要一个经济高效的解决方案来将数据迁移到 AWS。该解决方案必须尽量减少访问数据库的应用程序的停机时间。
公司应该使用哪种 AWS 服务来满足这些要求？

A. AWS Lambda

B. AWS 数据库迁移服务 (AWS DMS)

C. AWS Direct Connect

D. AWS DataSync

答案：B

说明：
无论谁是预先标记答案的管理员，现在是时候开始了。

AWS 数据库迁移服务 (DMS) 专门用于将数据从各种来源（包括本地数据库）迁移到 AWS，同时尽量减少应用程序的停机时间和中断。它支持同构迁移（例如，从 SQL Server 到 SQL Server）以及异构迁移（例如，从 SQL Server 到 Amazon RDS for SQL Server）。

17 / 204

17.

No.17
数据工程师正在使用 AWS Glue 提取、转换和加载 (ETL) 作业在 AWS 上构建数据管道。数据工程师需要处理来自 Amazon RDS 和 MongoDB 的数据，执行转换，并将转换后的数据加载到 Amazon Redshift 中进行分析。数据更新必须每小时进行一次。
哪种任务组合可以满足这些要求且运营开销最少？（选择两个。）

A. 配置 AWS Glue 触发器以每小时运行一次 ETL 作业。

B. 使用 AWS Glue DataBrew 清理和准备数据以进行分析。

C. 使用 AWS Lambda 函数每小时安排和运行一次 ETL 作业。

D. 使用 AWS Glue 连接在数据源和 Amazon Redshift 之间建立连接。

E. 使用 Redshift 数据 API 将转换后的数据加载到 Amazon Redshift 中。

答案：A、D

说明：

选项 A - 配置 AWS Glue 触发器以每小时运行一次 ETL 作业。

降低代码复杂性：Glue 触发器无需编写自定义代码来安排 ETL 作业。这简化了管道并降低了维护开销。

可扩展性和集成性：Glue 触发器与 Glue ETL 作业无缝协作，确保在 Glue 生态系统内高效调度和执行。

选项 C - 使用 AWS Glue 连接在数据源和 Amazon Redshift 之间建立连接。

预构建连接器：Glue 连接为各种数据源（如 RDS 和 Redshift）提供预构建连接器。这消除了手动配置的需要，并简化了 ETL 作业中的数据源访问。

集中管理：Glue 连接在 Glue 服务中进行集中管理，简化了连接管理并降低了运营开销。

AWS Glue 触发器提供了一种简单而集成的方式来安排 ETL 作业。通过将这些触发器配置为每小时运行一次，数据工程师可以确保数据处理和更新按要求进行，而无需外部调度工具或自定义脚本。此方法直接与 AWS Glue 集成，降低了复杂性和运营开销。
AWS Glue 支持与各种数据源的连接，包括 Amazon RDS 和 MongoDB。通过使用 AWS Glue 连接，数据工程师可以轻松配置和管理这些数据源与 Amazon Redshift 之间的连接。此方法利用 AWS Glue 的内置数据源集成功能，从而最大限度地降低操作复杂性并确保从源到目标（Amazon Redshift）的无缝数据流。

18 / 204

18.

No.18
一家公司使用在 RA3 节点上运行的 Amazon Redshift 集群。该公司希望扩展读写容量以满足需求。数据工程师需要确定一个可以启用并发扩展的解决方案。
哪种解决方案可以满足此要求？

A. 在 Redshift Serverless 工作组的工作负载管理 (WLM) 中启用并发扩展。

B. 在 Redshift 集群中的工作负载管理 (WLM) 队列级别启用并发扩展。

C. 在创建任何新的 Redshift 集群期间在设置中启用并发扩展。

D. 为 Redshift 集群的每日使用配额启用并发扩展。

答案：B

说明：

选项 B - Amazon Redshift 中的并发扩展允许集群根据工作负载需求自动添加和删除计算资源。在工作负载管理 (WLM) 队列级别启用并发扩展允许您根据查询工作负载指定哪些队列可以从并发扩展中受益。

19 / 204

19.

No.19
数据工程师必须编排一系列每天运行的 Amazon Athena 查询。每个查询可以运行超过 15 分钟。
哪种步骤组合最经济高效地满足这些要求？（选择两个。）

A. 使用 AWS Lambda 函数和 Athena Boto3 客户端 start_query_execution API 调用以编程方式调用 Athena 查询。

B. 创建 AWS Step Functions 工作流并添加两个状态。在 Lambda 函数之前添加第一个状态。将第二个状态配置为等待状态，以定期检查 Athena 查询是否已使用 Athena Boto3 get_query_execution API 调用完成。配置工作流以在当前查询运行完成后调用下一个查询。

C. 使用 AWS Glue Python shell 作业和 Athena Boto3 客户端 start_query_execution API 调用以编程方式调用 Athena 查询。

D. 使用 AWS Glue Python shell 脚本运行睡眠计时器，每 5 分钟检查一次以确定当前 Athena 查询是否已成功运行完毕。配置 Python shell 脚本以在当前查询运行完毕后调用下一个查询。

E. 使用 Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 在 AWS Batch 中编排 Athena 查询。

答案：A、B

说明：
AWS Lambda 可有效用于触发 Athena 查询。通过使用 Athena Boto3 客户端中的 start_query_execution API，您可以以编程方式启动 Athena 查询。Lambda 函数具有成本效益，因为它们根据使用的计算时间收费，并且代码未运行时不收费。但是，Lambda 的最大执行超时时间为 15 分钟，这意味着它不适合长时间运行的操作，但可用于触发或启动查询。
AWS Step Functions 可以在工作流中编排多个 AWS 服务。通过使用等待状态，工作流可以定期检查 Athena 查询的状态，并在查询完成后继续执行下一步。与连续运行 Lambda 函数相比，这种方法更具可扩展性和可靠性，因为 Step Functions 可以更好地处理长时间运行的流程，并可以维护工作流中每个步骤的状态。

20 / 204

20.

No.20
一家公司正在将本地工作负载迁移到 AWS。该公司希望降低总体运营开销。该公司还希望探索无服务器选项。
该公司当前的工作负载使用 Apache Pig、Apache Oozie、Apache Spark、Apache Hbase 和 Apache Flink。本地工作负载在几秒钟内处理 PB 级数据。迁移到 AWS 后，公司必须保持类似或更好的性能。
哪种提取、转换和加载 (ETL) 服务可以满足这些要求？

A. AWS Glue

B. Amazon EMR

C. AWS Lambda

D. Amazon Redshift

答案：B

说明：
Glue 就像 EMR 更漂亮但更弱的兄弟。因此，当涉及到 PB 级时，让 EMR 完成工作，让 Glue 远离行动。

21 / 204

21.

No.21
数据工程师必须使用 AWS 服务将数据集导入 Amazon S3 数据湖。数据工程师对数据集进行分析，并发现数据集包含个人身份信息 (PII)。数据工程师必须实施解决方案来分析数据集并混淆 PII。
哪种解决方案能够以最少的运营工作量满足此要求？

A. 使用 Amazon Kinesis Data Firehose 交付流来处理数据集。创建 AWS Lambda 转换函数来识别 PII。使用 AWS SDK 混淆 PII。将 S3 数据湖设置为交付流的目标。

B. 使用 AWS Glue Studio 中的 Detect PII 转换来识别 PII。混淆 PII。使用 AWS Step Functions 状态机来编排数据管道以将数据导入 S3 数据湖。

C. 使用 AWS Glue Studio 中的 Detect PII 转换来识别 PII。在 AWS Glue Data Quality 中创建规则以混淆 PII。使用 AWS Step Functions 状态机来编排数据管道以将数据导入 S3 数据湖。

D. 将数据集导入 Amazon DynamoDB。创建 AWS Lambda 函数以识别和混淆 DynamoDB 表中的 PII 并转换数据。使用相同的 Lambda 函数将数据导入 S3 数据湖。

答案：B

说明：
Data Quality 如何混淆 PII？您可以直接在 Glue Studio 中执行此操作：https://docs.aws.amazon.com/glue/latest/dg/detect-PII.html

选项 C 涉及在 AWS Glue Data Quality 中创建规则的额外步骤和复杂性，与直接使用 AWS Glue Studio 的功能相比，这增加了更多的操作工作量。

22 / 204

22.

No.22
一家公司维护多个提取、转换和加载 (ETL) 工作流，这些工作流将数据从公司的运营数据库提取到基于 Amazon S3 的数据湖中。ETL 工作流使用 AWS Glue 和 Amazon EMR 来处理数据。
该公司希望改进现有架构以提供自动编排并尽量减少手动工作量。
哪种解决方案能够以最少的运营开销满足这些要求？

A. AWS Glue 工作流

B. AWS Step Functions 任务

C. AWS Lambda 函数

D. Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 工作流

答案：B

说明：
Glue Workflow 仅编排爬虫和粘合作业。

对我来说是 B，因为我没有发现 Glue 如何触发/编排 OOTB 的 EMR 流程的可能性。
但是使用 StepFunction 有一种方法：https://aws.amazon.com/blogs/big-data/orchestrate-amazon-emr-serverless-jobs-with-aws-step-functions/

23 / 204

23.

No.23
一家公司目前使用 S3 标准存储类将其所有数据存储在 Amazon S3 中。
一位数据工程师检查了数据访问模式以确定趋势。在前 6 个月内，大多数数据文件每天都会被访问几次。在 6 个月到 2 年之间，大多数数据文件每月被访问一两次。2 年后，数据文件每年只被访问一两次。
数据工程师需要使用 S3 生命周期策略来制定新的数据存储规则。新的存储解决方案必须继续提供高可用性。
哪种解决方案将以最具成本效益的方式满足这些要求？

A. 6 个月后将对象转换为 S3 单区-不频繁访问 (S3 单区-IA)。2 年后将对象转移到 S3 Glacier 灵活检索。

B. 6 个月后将对象转换为 S3 标准-不频繁访问 (S3 标准-IA)。2 年后将对象转移到 S3 Glacier 灵活检索。

C. 6 个月后将对象转换为 S3 Standard-Infrequent Access (S3 Standard-IA)。2 年后将对象传输到 S3 Glacier Deep Archive。

D. 6 个月后将对象转换为 S3 One Zone-Infrequent Access (S3 One Zone-IA)。2 年后将对象传输到 S3 Glacier Deep Archive。

答案：C

说明：
灵活检索的成本将高于深度存档。如果记录每年只需要检索一两次，这并不意味着它们需要立即可用。

24 / 204

24.

No.24
一家公司维护一个 Amazon Redshift 预置集群，该公司使用该集群进行提取、转换和加载 (ETL) 操作以支持关键分析任务。公司内的销售团队维护一个 Redshift 集群，销售团队使用该集群进行商业智能 (BI) 任务。
销售团队最近请求访问 ETL Redshift 集群中的数据，以便团队可以执行每周摘要分析任务。销售团队需要将 ETL 集群中的数据与销售团队的 BI 集群中的数据合并。
公司需要一个解决方案，该解决方案可以在不中断关键分析任务的情况下与销售团队共享 ETL 集群数据。该解决方案必须最大限度地减少 ETL 集群计算资源的使用。
哪种解决方案可以满足这些要求？

A. 使用 Redshift 数据共享将销售团队 BI 集群设置为 ETL 集群的消费者。

B. 根据销售团队的要求创建物化视图。授予销售团队对 ETL 集群的直接访问权限。

C. 根据销售团队的要求创建数据库视图。授予销售团队对 ETL 集群的直接访问权限。

D. 每周将数据副本从 ETL 集群卸载到 Amazon S3 存储桶。根据 ETL 集群的内容创建 Amazon Redshift Spectrum 表。

答案：A

说明：
A：redshift 数据共享：
https://docs.aws.amazon.com/redshift/latest/dg/data_sharing_intro.html
通过数据共享，您可以安全轻松地在 Amazon Redshift 集群之间共享实时数据。
B：物化视图仅在 1 个 redshift 集群内，跨不同的表。

25 / 204

25.

No.25
数据工程师需要连接来自多个来源的数据以执行一次性分析作业。数据存储在 Amazon DynamoDB、Amazon RDS、Amazon Redshift 和 Amazon S3 中。
哪种解决方案最经济高效地满足此要求？

A. 使用 Amazon EMR 预置的集群从所有来源读取。使用 Apache Spark 连接数据并执行分析。

B. 将数据从 DynamoDB、Amazon RDS 和 Amazon Redshift 复制到 Amazon S3。直接在 S3 文件上运行 Amazon Athena 查询。

C. 使用 Amazon Athena 联合查询连接来自所有数据源的数据。

D. 使用 Redshift Spectrum 直接从 Redshift 查询 DynamoDB、Amazon RDS 和 Amazon S3 中的数据。

答案：C

说明：
我会选择 C，因为联合查询是此目的的典型做法。此外，我们不需要在 S3 中添加/复制资源。但我认为，由于 Athena 针对 S3 进行了更优化，因此这可以被视为一个棘手的问题，因为需要考虑更多权衡，例如，如果数据集中在 S3 中，数据治理会更容易。

无服务器处理：Athena 是一种无服务器查询服务，这意味着您只需为运行的查询付费。这消除了像在 EMR 集群中那样配置和管理计算资源的需要，
使其成为一次性作业的理想选择。
联合查询功能：Athena 联合查询允许您直接从 DynamoDB、RDS、Redshift 和 S3 等各种来源查询数据，而无需物理移动数据。这消除了数据移动成本并简化了分析过程。
降低大型数据集的成本：与将数据复制到 S3（对于大型数据集而言，成本可能很高）相比，Athena 联合查询避免了不必要的数据移动，从而降低了总体成本。

26 / 204

26.

No.26
一家公司计划使用运行 Apache Spark 作业的预配置 Amazon EMR 集群来执行大数据分析。该公司要求高可靠性。大数据团队必须遵循在 Amazon EMR 上运行成本优化和长期运行的工作负载的最佳实践。团队必须找到能够维持公司当前绩效水平的解决方案。
哪种资源组合能够以最具成本效益的方式满足这些要求？（选择两个。）

A. 使用 Hadoop 分布式文件系统 (HDFS) 作为持久数据存储。

B. 使用 Amazon S3 作为持久数据存储。

C. 对核心节点和任务节点使用基于 x86 的实例。

D. 对核心节点和任务节点使用 Graviton 实例。

E. 对所有主节点使用 Spot 实例。

答案：B、D

说明：
不建议将 HDFS 用于持久存储，因为一旦终止集群，所有 HDFS 数据都会丢失。此外，长期运行的工作负载会很快填满磁盘空间。因此，S3 是最佳选择，因为它具有高可用性、耐用性和可扩展性。

基于 AWS Graviton 的实例成本比同类基于 x86 的 Amazon
EC2 实例低 20%：https://aws.amazon.com/ec2/graviton/

27 / 204

27.

No.27
一家公司希望实现实时分析功能。该公司希望使用 Amazon Kinesis Data Streams 和 Amazon Redshift 以每秒几 GB 的速度提取和处理流数据。该公司希望通过使用现有的商业智能 (BI) 和分析工具获得近乎实时的洞察。
哪种解决方案可以以最少的运营开销满足这些要求？

A. 使用 Kinesis Data Streams 在 Amazon S3 中暂存数据。使用 COPY 命令将数据从 Amazon S3 直接加载到 Amazon Redshift 中，以使数据立即可用于实时分析。

B. 使用 SQL 查询访问来自 Kinesis Data Streams 的数据。直接在流顶部创建物化视图。定期刷新物化视图以查询最新的流数据。

C. 在 Amazon Redshift 中创建外部模式，将 Kinesis Data Streams 中的数据映射到 Amazon Redshift 对象。创建物化视图以从流中读取数据。将物化视图设置为自动刷新。

D. 将 Kinesis Data Streams 连接到 Amazon Kinesis Data Firehose。使用 Kinesis Data Firehose 将数据暂存到 Amazon S3 中。使用 COPY 命令将数据从 Amazon S3 加载到 Amazon Redshift 中的表中。

答案：C

说明：

选项 C - 它可以提供近乎实时的洞察分析。请参阅 AWS 的文章 - https://aws.amazon.com/blogs/big-data/real-time-analytics-with-amazon-redshift-streaming-ingestion/

这里的关键词是近乎实时。如果它涉及 S3 和 COPY，它就不会接近实时。

28 / 204

28.

No.28
一家公司使用 Amazon QuickSight 仪表板来监控公司某个应用程序的使用情况。该公司使用 AWS Glue 作业来处理仪表板的数据。该公司将数据存储在单个 Amazon S3 存储桶中。该公司每天都会添加新数据。
一位数据工程师发现仪表板查询随着时间的推移变得越来越慢。数据工程师确定查询变慢的根本原因是长时间运行的 AWS Glue 作业。
数据工程师应采取哪些措施来提高 AWS Glue 作业的性能？（选择两个。）

A. 对 S3 存储桶中的数据进行分区。按年、月和日组织数据。

B. 通过扩展工作程序类型来增加 AWS Glue 实例大小。

C. 将 AWS Glue 架构转换为 DynamicFrame 架构类。

D. 调整 AWS Glue 作业调度频率，使作业每天运行的次数减半。

E. 修改授予 AWS Glue 访问权限的 IAM 角色以授予对所有 S3 功能的访问权限。

答案：A、B

说明：

选项 A - 在 Amazon S3 中对数据进行分区可以显著提高查询性能。通过按年、月和日组织数据，AWS Glue 和 Amazon QuickSight 可以仅扫描相关的数据分区，从而减少读取和处理的数据量。这种方法对于时间序列数据特别有效，因为查询通常针对特定的时间范围。

选项 B - 扩展工作器类型可以为 AWS Glue 作业提供更多计算资源，使它们能够更快地处理数据。这在处理大型数据集或复杂转换时尤其有益。监控扩展的性能改进和成本影响非常重要。

29 / 204

29.

No.29
数据工程师需要使用 AWS Step Functions 设计编排工作流。工作流必须并行处理大量数据文件并对每个文件应用特定转换。
数据工程师应使用哪种 Step Functions 状态来满足这些要求？

A. 并行状态

B. 选择状态

C. 映射状态

D. 等待状态

答案：C

说明：
为了满足并行处理大量数据文件并对每个文件应用特定转换的要求，数据工程师应使用 AWS Step Functions 中的 Map 状态。
Map 状态专门用于为集合或数组中的每个元素并行运行一组任务。每个元素（在本例中为每个数据文件）都独立且并行地处理，从而使工作流能够利用并行处理。

30 / 204

30.

No.30
一家公司正在将旧版应用程序迁移到基于 Amazon S3 的数据湖。数据工程师审查了与旧版应用程序相关的数据。数据工程师发现遗留数据包含一些重复信息。
数据工程师必须识别并删除遗留应用程序数据中的重复信息。
哪种解决方案能够以最少的运营开销满足这些要求？

A. 用 Python 编写自定义提取、转换和加载 (ETL) 作业。通过导入 Pandas 库使用 DataFrame.drop_duplicates() 函数执行数据重复数据删除。

B. 编写 AWS Glue 提取、转换和加载 (ETL) 作业。使用 FindMatches 机器学习 (ML) 转换转换数据以执行数据重复数据删除。

C. 用 Python 编写自定义提取、转换和加载 (ETL) 作业。导入 Python 重复数据删除库。使用重复数据删除库执行数据重复数据删除。

D. 编写 AWS Glue 提取、转换和加载 (ETL) 作业。导入 Python 重复数据删除库。使用重复数据删除库执行数据重复数据删除。

答案：B

说明：
选项 B，使用 FindMatches ML 转换编写 AWS Glue ETL 作业，很可能以最少的运营开销满足要求。此解决方案利用托管服务 (AWS Glue) 并结合专为重复数据删除设计的内置 ML 转换，从而最大限度地减少了手动设置、维护和机器学习专业知识的需求。

31 / 204

31.

No.31
一家公司正在构建分析解决方案。该解决方案使用 Amazon S3 进行数据湖存储，使用 Amazon Redshift 进行数据仓库存储。该公司希望使用 Amazon Redshift Spectrum 查询 Amazon S3 中的数据。
哪些操作将提供最快的查询？（选择两个。）

A. 使用 gzip 压缩将单个文件压缩为 1 GB 到 5 GB 之间的大小。

B. 使用列式存储文件格式。

C. 根据最常见的查询谓词对数据进行分区。

D. 将数据拆分为小于 10 KB 的文件。

E. 使用不可拆分的文件格式。

答案：B、C

说明：
B. 使用列式存储文件格式：这是一种非常好的方法。强烈建议将 Parquet 和 ORC 等列式存储格式用于 Redshift Spectrum。它们将数据存储在列中，这使得 Spectrum 可以仅扫描查询所需的列，从而显著提高查询性能并减少扫描的数据量。

C. 根据最常用的查询谓词对数据进行分区：根据常用的查询谓词（如日期、区域等）对 S3 中的数据进行分区，允许 Redshift Spectrum 跳过与特定查询无关的大量数据。这可以带来显着的性能改进，尤其是对于大型数据集。

https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-external-performance.html

32 / 204

32.

No.32
一家公司使用 Amazon RDS 存储交易数据。该公司在私有子网中运行 RDS DB 实例。开发人员编写了一个 AWS Lambda 函数，使用默认设置来插入、更新或删除 DB 实例中的数据。
开发人员需要让 Lambda 函数能够私下连接到 DB 实例，而无需使用公共互联网。
哪种步骤组合可以满足此要求且运营开销最少？（选择两个。）

A. 为 DB 实例打开公共访问设置。

B. 更新 DB 实例的安全组以仅允许在数据库端口上调用 Lambda 函数。

C. 将 Lambda 函数配置为在 DB 实例使用的同一子网中运行。

D. 将同一安全组附加到 Lambda 函数和 DB 实例。包括允许通过数据库端口访问的自引用规则。

E. 更新私有子网的网络 ACL 以包括允许通过数据库端口访问的自引用规则。

答案：C、D

说明：
此解决方案仅修改数据库实例安全组的入站规则，但不会修改 Lambda 函数安全组的出站规则。此外，此解决方案不便于从 Lambda 函数到数据库实例的私有连接，因此，Lambda 函数仍需要使用公共互联网来访问数据库实例。因此，此选项不满足要求。

B：需要更新安全组。除了 lambda 函数之外，可能还有其他应用程序需要访问数据库
D：它可以工作并重用安全组，从而减少运营开销

33 / 204

33.

No.33
一家公司有一个前端 ReactJS 网站，该网站使用 Amazon API Gateway 调用 REST API。这些 API 执行网站的功能。数据工程师需要编写一个 Python 脚本，该脚本可以偶尔通过 API Gateway 调用。代码必须将结果返回到 API Gateway。
哪种解决方案可以以最少的运营开销满足这些要求？

A. 在 Amazon Elastic Container Service (Amazon ECS) 集群上部署自定义 Python 脚本。

B. 创建具有预置并发性的 AWS Lambda Python 函数。

C. 部署可与 Amazon Elastic Kubernetes Service (Amazon EKS) 上的 API Gateway 集成的自定义 Python 脚本。

D. 创建 AWS Lambda 函数。通过安排 Amazon EventBridge 规则使用模拟事件每 5 分钟调用一次 Lambda 函数，确保函数处于热状态。

答案：B

说明：
B 和 D 都可以。不过，既然它表示最低运营开销，那么就保持简单。那么 B。
AWS Lambda 函数可以轻松与 Amazon API Gateway 集成以创建 RESTful API。此集成允许 API Gateway 在 API 端点被命中时直接调用 Lambda 函数。

34 / 204

34.

No.34
一家公司有一个运行公司工作负载的生产 AWS 账户。该公司的安全团队创建了一个安全 AWS 账户来存储和分析来自生产 AWS 账户的安全日志。生产 AWS 账户中的安全日志存储在 Amazon CloudWatch Logs 中。
公司需要使用 Amazon Kinesis Data Streams 将安全日志传送到安全 AWS 账户。
哪种解决方案可以满足这些要求？

A. 在生产 AWS 账户中创建目标数据流。在安全 AWS 账户中，创建一个 IAM 角色，该角色对生产 AWS 账户中的 Kinesis Data Streams 具有跨账户权限。

B. 在安全 AWS 账户中创建目标数据流。创建一个 IAM 角色和一个信任策略，以授予 CloudWatch Logs 将数据放入流中的权限。在安全 AWS 账户中创建订阅过滤器。

C. 在生产 AWS 账户中创建目标数据流。在生产 AWS 账户中，创建一个 IAM 角色，该角色对安全 AWS 账户中的 Kinesis Data Streams 具有跨账户权限。

D. 在安全 AWS 账户中创建目标数据流。创建一个 IAM 角色和一个信任策略，以授予 CloudWatch Logs 将数据放入流中的权限。在生产 AWS 账户中创建订阅过滤器。

答案：D

说明：
跨账户交付：安全账户中的 Kinesis Data Streams 确保日志驻留在指定的以安全为中心的环境中。
CloudWatch Logs 集成：授予 CloudWatch Logs 将记录放入 Kinesis Data Stream 的权限可直接建立从生产账户的简化且安全的数据流。
过滤控制：生产账户中的订阅过滤器可精确控制将哪些日志事件发送到安全账户。

35 / 204

35.

No.35
一家公司使用 Amazon S3 将半结构化数据存储在事务性数据湖中。一些数据文件很小，但其他数据文件有数十 TB。
数据工程师必须执行变更数据捕获 (CDC) 操作以识别来自数据源的更改数据。数据源每天以 JSON 文件的形式发送完整快照，并将更改的数据提取到数据湖中。
哪种解决方案将以最具成本效益的方式捕获更改的数据？

A. 创建 AWS Lambda 函数来识别先前数据和当前数据之间的变化。配置 Lambda 函数以将更改提取到数据湖中。

B. 将数据提取到 Amazon RDS for MySQL。使用 AWS 数据库迁移服务 (AWS DMS) 将更改的数据写入数据湖。

C. 使用开源数据湖格式将数据源与 S3 数据湖合并以插入新数据并更新现有数据。

D. 将数据导入运行 Aurora Serverless 的 Amazon Aurora MySQL DB 实例。使用 AWS 数据库迁移服务 (AWS DMS) 将更改的数据写入数据湖。

答案：C

说明：
https://aws.amazon.com/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/

这是一个棘手的问题。虽然选项 A 似乎是最佳选择，因为它使用 AWS 服务，但我认为使用 Delta/Iceberg API 比在 Lambda 上编写自定义代码更容易。

36 / 204

36.

No.36
数据工程师对 Amazon S3 存储桶中的数据运行 Amazon Athena 查询。Athena 查询使用 AWS Glue 数据目录作为元数据表。
数据工程师注意到 Athena 查询计划遇到了性能瓶颈。数据工程师确定性能瓶颈的原因是 S3 存储桶中的分区数量过多。数据工程师必须解决性能瓶颈并减少 Athena 查询规划时间。
哪些解决方案可以满足这些要求？（选择两个。）

A. 创建 AWS Glue 分区索引。启用分区筛选。

B. 根据用户查询的 WHERE 子句中数据共有的列对数据进行存储。

C. 使用基于 S3 存储桶前缀的 Athena 分区投影。

D. 将 S3 存储桶中的数据转换为 Apache Parquet 格式。

E. 使用 Amazon EMR S3DistCP 实用程序将 S3 存储桶中的较小对象合并为较大对象。

答案：A，C

说明：
https://aws.amazon.com/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/
使用分区投影优化分区处理
当您拥有大量分区且未使用 AWS Glue 分区索引时，处理分区信息可能会成为 Athena 查询的瓶颈。您可以在 Athena 中使用分区投影来加快高度分区表的查询处理并自动执行分区管理。分区投影允许您通过计算分区信息而不是从元存储中检索分区信息来查询分区，从而有助于最大限度地减少这种开销。它消除了将分区的元数据添加到 AWS Glue 表的需要。

37 / 204

37.

No.37
数据工程师必须管理将实时流数据提取到 AWS。数据工程师希望通过在长达 30 分钟的窗口内使用基于时间的聚合对传入的流数据执行实时分析。数据工程师需要一种具有高度容错性的解决方案。
哪种解决方案能够以最少的运营开销满足这些要求？

A. 使用包含业务和分析逻辑的 AWS Lambda 函数，在长达 30 分钟的窗口期内对 Amazon Kinesis Data Streams 中的数据执行基于时间的聚合。

B. 使用 Amazon Managed Service for Apache Flink（以前称为 Amazon Kinesis Data Analytics）通过使用多种类型的聚合来分析可能偶尔包含重复项的数据。

C. 使用包含业务和分析逻辑的 AWS Lambda 函数，根据事件时间戳对长达 30 分钟的滚动窗口执行聚合。

D. 使用 Amazon Managed Service for Apache Flink（以前称为 Amazon Kinesis Data Analytics）通过使用多种类型的聚合来分析数据，在长达 30 分钟的窗口期内执行基于时间的分析。

答案：D

说明：
Amazon Managed Service for Apache Flink 用于 30 分钟内基于时间的分析：此选项正确识别了 Amazon Managed Service for Apache Flink 用于在长达 30 分钟的窗口内执行基于时间的分析的用途。Apache Flink 擅长处理此类场景，提供复杂事件处理、时间窗口聚合和随时间维护状态的功能。由于服务的托管性质，此选项将提供高容错能力和最小的运营开销。

38 / 204

38.

No.38
一家公司计划将其 Amazon Elastic Block Store (Amazon EBS) 通用 SSD 存储从 gp2 升级到 gp3。该公司希望防止其 Amazon EC2 实例发生任何中断，因为这些中断会导致在迁移到升级后的存储期间丢失数据。
哪种解决方案可以以最少的运营开销满足这些要求？

A. 创建 gp2 卷的快照。从快照创建新的 gp3 卷。将新的 gp3 卷附加到 EC2 实例。

B. 创建新的 gp3 卷。逐步将数据传输到新的 gp3 卷。传输完成后，将新的 gp3 卷安装到 EC2 实例以替换 gp2 卷。

C. 将现有 gp2 卷的卷类型更改为 gp3。输入卷大小、IOPS 和吞吐量的新值。

D. 使用 AWS DataSync 创建新的 gp3 卷。将数据从原始 gp2 卷传输到新的 gp3 卷。

答案：C

说明：
https://aws.amazon.com/blogs/storage/migrate-your-amazon-ebs-volumes-from-gp2-to-gp3-and-save-up-to-20-on-costs/

查看 GiorgioGss 链接中“使用 AWS 管理控制台修改 Amazon EBS 卷”部分
Amazon EBS Elastic Volumes 使您可以将卷类型从 gp2 修改为 gp3，而无需分离卷或重新启动实例（修改要求），这意味着在修改期间不会中断您的应用程序。

39 / 204

39.

★No.39
一家公司正在将其数据库服务器从运行 Microsoft SQL Server 的 Amazon EC2 实例迁移到 Amazon RDS for Microsoft SQL Server DB 实例。该公司的分析团队必须每天导出大量数据元素，直到迁移完成。数据元素是跨多个表的 SQL 连接的结果。数据必须采用 Apache Parquet 格式。分析团队必须将数据存储在 Amazon S3 中。
哪种解决方案能够以最高效的方式满足这些要求？

A. 在基于 EC2 实例的 SQL Server 数据库中创建包含所需数据元素的视图。创建一个 AWS Glue 作业，该作业直接从视图中选择数据并将 Parquet 格式的数据传输到 S3 存储桶。安排 AWS Glue 作业每天运行。

B. 安排 SQL Server Agent 运行每日 SQL 查询，该查询从基于 EC2 实例的 SQL Server 数据库中选择所需的数据元素。配置查询以将输出 .csv 对象定向到 S3 存储桶。创建一个 S3 事件，该事件调用 AWS Lambda 函数将输出格式从 .csv 转换为 Parquet。

C. 使用 SQL 查询在基于 EC2 实例的 SQL Server 数据库中创建包含所需数据元素的视图。创建并运行 AWS Glue 爬虫以读取视图。创建一个 AWS Glue 作业，该作业检索数据并将数据以 Parquet 格式传输到 S3 存储桶。安排 AWS Glue 作业每天运行。

D. 创建一个 AWS Lambda 函数，该函数使用 Java 数据库连接 (JDBC) 查询基于 EC2 实例的数据库。配置 Lambda 函数以检索所需数据，将数据转换为 Parquet 格式，并将数据传输到 S3 存储桶。使用 Amazon EventBridge 安排 Lambda 函数每天运行。

40 / 204

40.

No.40
数据工程团队正在使用 Amazon Redshift 数据仓库进行运营报告。团队希望防止长时间运行的查询可能导致的性能问题。当查询优化器识别出可能表明性能问题的条件时，数据工程师必须选择 Amazon Redshift 中的系统表来记录异常。
数据工程师应该使用哪些表视图来满足此要求？

A. STL_USAGE_CONTROL

B. STL_ALERT_EVENT_LOG

C. STL_QUERY_METRICS

D. STL_PLAN_INFO

答案：B

说明：
STL_ALERT_EVENT_LOG 记录与查询或用户定义的性能阈值相关的任何警报/通知。这将捕获有关潜在性能问题的优化器警报。

STL_PLAN_INFO 提供有关执行计划的详细信息。优化器统计信息和警告可深入了解有问题的查询计划。

STL_USAGE_CONTROL 限制用户活动，但不记录异常。

STL_QUERY_METRICS 具有执行统计信息，但没有计划诊断。

通过启用警报并检查 STL_ALERT_EVENT_LOG 和 STL_PLAN_INFO，数据工程师可以在优化器标记为有问题的查询影响性能之前最好地检测和排除它们。这满足了捕获潜在的长时间运行查询的要求。

41 / 204

41.

No.41
数据工程师必须将 .csv 格式的结构化数据源导入 Amazon S3 数据湖。.csv 文件包含 15 列。数据分析师需要对数据集的一两列运行 Amazon Athena 查询。数据分析师很少查询整个文件。
哪种解决方案能够以最具成本效益的方式满足这些要求？

A. 使用 AWS Glue PySpark 作业将源数据以 .csv 格式导入数据湖。

B. 创建 AWS Glue 提取、转换和加载 (ETL) 作业以从 .csv 结构化数据源读取。配置作业以将数据以 JSON 格式导入数据湖。

C. 使用 AWS Glue PySpark 作业以 Apache Avro 格式将源数据导入数据湖。

D. 创建 AWS Glue 提取、转换和加载 (ETL) 作业以从 .csv 结构化数据源读取。配置作业以 Apache Parquet 格式将数据写入数据湖。

答案：D

说明：
Athena 针对查询以 Parquet 格式存储的数据进行了优化。它可以有效地扫描特定查询所需的列，
从而减少处理的数据量。对于主要关注一列或两列的数据分析师来说，这意味着查询执行时间更快，查询成本更低

42 / 204

42.

No.42
一家公司在不同的 AWS 区域设有五个办事处。每个办事处都有自己的人力资源 (HR) 部门，使用唯一的 IAM 角色。该公司将员工记录存储在基于 Amazon S3 存储的数据湖中。
数据工程团队需要限制对记录的访问。每个人力资源部门都应该能够访问人力资源部门所在区域内员工的记录。
数据工程团队应采取哪些步骤组合来以最少的运营开销满足此要求？（选择两个。）

A. 使用每个区域的数据过滤器将 S3 路径注册为数据位置。

B. 将 S3 路径注册为 AWS Lake Formation 位置。

C. 修改人力资源部门的 IAM 角色，为每个部门的区域添加数据过滤器。

D. 在 AWS Lake Formation 中启用细粒度访问控制。为每个区域添加数据过滤器。

E. 为每个区域创建一个单独的 S3 存储桶。配置 IAM 策略以允许 S3 访问。根据区域限制访问。

答案：B、D

说明：
https://docs.aws.amazon.com/lake-formation/latest/dg/data-filters-about.html
https://docs.aws.amazon.com/lake-formation/latest/dg/access-control-fine-grained.html

将 S3 路径注册为 AWS Lake Formation 位置是利用 Lake Formation 的数据治理和访问控制功能的第一步。这允许数据工程团队集中管理和控制存储在 S3 数据湖中的数据。
在 AWS Lake Formation 中启用细粒度访问控制并为每个区域添加数据过滤器是实现所需访问控制的关键步骤。Lake Formation 中的数据过滤器允许您根据特定条件或属性（例如本例中的区域）定义行级和列级访问策略。

43 / 204

43.

No.43
一家公司使用 AWS Step Functions 来编排数据管道。管道由 Amazon EMR 作业组成，这些作业从数据源提取数据并将数据存储在 Amazon S3 存储桶中。管道还包括将数据加载到 Amazon Redshift 的 EMR 作业。
该公司的云基础设施团队手动构建了一个 Step Functions 状态机。云基础设施团队将 EMR 集群启动到 VPC 中以支持 EMR 作业。但是，部署的 Step Functions 状态机无法运行 EMR 作业。
公司应采取哪些步骤组合来确定 Step Functions 状态机无法运行 EMR 作业的原因？（选择两个。）

A. 使用 AWS CloudFormation 自动化 Step Functions 状态机部署。创建一个步骤以在 EMR 作业失败期间暂停状态机。配置该步骤以等待人类用户通过电子邮件发送批准。在电子邮件中包含 EMR 任务的详细信息以供进一步分析。

B. 验证 Step Functions 状态机代码是否具有创建和运行 EMR 作业所需的所有 IAM 权限。验证 Step Functions 状态机代码是否还包括访问 EMR 作业使用的 Amazon S3 存储桶的 IAM 权限。使用 Access Analyzer for S3 检查 S3 访问属性。

C. 检查 Amazon CloudWatch 中新创建的 EMR 集群的条目。更改 AWS Step Functions 状态机代码以在 EKS 上使用 Amazon EMR。更改 IAM 访问策略和 Step Functions 状态机代码的安全组配置以反映包含 Amazon Elastic Kubernetes Service (Amazon EKS)。

D. 查询 VPC 的流日志。确定来自 EMR 集群的流量是否可以成功到达数据提供程序。确定可能附加到 Amazon EMR 集群的任何安全组是否允许连接到通知端口上的数据源服务器。

E. 检查公司为 EMR 作业配置的重试场景。增加每个 EMR 任务之间的间隔秒数。验证每个回退状态是否具有针对每个决策状态的适当捕获。配置 Amazon Simple Notification Service (Amazon SNS) 主题以存储错误消息。

答案：B、D

说明：
https://docs.aws.amazon.com/step-functions/latest/dg/procedure-create-iam-role.html
https://docs.aws.amazon.com/step-functions/latest/dg/service-integration-iam-templates.html

当然是权限，我们需要查看流量是否在任何跳跃处被阻止，因为他们提到 EMR 在 vpc 中，所以……流日志

44 / 204

44.

No.44
一家公司正在开发一款在 Amazon EC2 实例上运行的应用程序。目前，该应用程序生成的数据是临时的。但是，即使 EC2 实例终止，公司也需要保留数据。
数据工程师必须从 Amazon 系统映像 (AMI) 启动新的 EC2 实例并配置实例以保存数据。
哪种解决方案可以满足此要求？

A. 使用由包含应用程序数据的 EC2 实例存储卷支持的 AMI 启动新的 EC2 实例。将默认设置应用于 EC2 实例。

B. 使用由包含应用程序数据的根 Amazon Elastic Block Store (Amazon EBS) 卷支持的 AMI 启动新的 EC2 实例。将默认设置应用于 EC2 实例。

C. 使用由 EC2 实例存储卷支持的 AMI 启动新的 EC2 实例。附加 Amazon Elastic Block Store (Amazon EBS) 卷以包含应用程序数据。将默认设置应用于 EC2 实例。

D. 使用由 Amazon Elastic Block Store (Amazon EBS) 卷支持的 AMI 启动新的 EC2 实例。附加额外的 EC2 实例存储卷以包含应用程序数据。将默认设置应用于 EC2 实例。

答案：C

说明：
您需要附加一个额外的 EBS 卷。
当实例终止时，每个附加 EBS 卷的 DeleteOnTermination 属性值决定是保留还是删除该卷。默认情况下，根卷的 DeleteOnTermination 属性设置为 True。
参考：https://repost.aws/knowledge-center/deleteontermination-ebs

45 / 204

45.

No.45
一家公司使用 Amazon Athena 通过使用 Create Table As Select (CTAS) 运行 SQL 查询以进行提取、转换和加载 (ETL) 任务。该公司必须使用 Apache Spark 而不是 SQL 来生成分析。
哪种解决方案能让公司使用 Spark 访问 Athena？

A. Athena 查询设置

B. Athena 工作组

C. Athena 数据源

D. Athena 查询编辑器

答案：B

说明：
https://docs.aws.amazon.com/athena/latest/ug/notebooks-spark-getting-started.html
“要在 Amazon Athena 中使用 Apache Spark，您需要创建一个使用 Spark 引擎的 Amazon Athena 工作组。”
是 B，不是 C。
工作组用于组织、控制和监控查询。
数据源是使 Spark 能够通过 Athena 查询数据的机制。它允许 Spark 与 Athena 交互。
问题重点是如何在 Athena 中启用 Apache Spark 来生成分析，而不是使用 SQL。因此，您必须创建一个启用 Spark 的工作组。

46 / 204

46.

No.46
一家公司需要对公司用于数据湖的 Amazon S3 存储进行分区。分区将使用以下格式的 S3 对象键路径：s3://bucket/prefix/year=2023/month=01/day=01。
当公司向存储桶添加新分区时，数据工程师必须确保 AWS Glue 数据目录与 S3 存储同步。
哪种解决方案可以以最低的延迟满足这些要求？

A. 安排 AWS Glue 爬虫程序每天早上运行。

B. 每天手动运行 AWS Glue CreatePartition API 两次。

C. 使用将数据写入 Amazon S3 的代码来调用 Boto3 AWS Glue create_partition API 调用。

D. 从 AWS Glue 控制台运行 MSCK REPAIR TABLE 命令。

答案：C

说明：
使用将数据写入 Amazon S3 的代码来调用 Boto3 AWS Glue create_partition API 调用。此方法可确保在将新数据写入 S3 后立即更新数据目录，从而以最小的延迟反映新分区。

47 / 204

47.

No.47
一家媒体公司使用软件即服务 (SaaS) 应用程序通过第三方工具收集数据。该公司需要将数据存储在 Amazon S3 存储桶中。该公司将使用 Amazon Redshift 根据数据执行分析。
哪种 AWS 服务或功能能够以最少的运营开销满足这些要求？

A. Amazon Managed Streaming for Apache Kafka (Amazon MSK)

B. Amazon AppFlow

C. AWS Glue 数据目录

D. Amazon Kinesis

答案：B

说明：
媒体公司可以利用完全托管的服务，以最低的运营开销简化从第三方 SaaS 应用程序将数据提取到 Amazon S3 存储桶的过程。此外，AppFlow 可以与 Amazon Redshift 集成，使公司能够将提取的数据直接加载到其分析环境中以进行进一步处理和分析。

48 / 204

No.48
一位数据工程师正在使用 Amazon Athena 分析 Amazon S3 中的销售数据。数据工程师编写查询以从名为 sales_data 的表中检索多种产品 2023 年的销售额。但是，查询不会返回 sales_data 表中所有产品的结果。数据工程师需要对查询进行故障排除以解决该问题。
数据工程师的原始查询如下：
SELECT product_name, sum(sales_amount)

48. FROM sales_data -

WHERE year = 2023 -

GROUP BY product_name -
数据工程师应如何修改 Athena 查询以满足这些要求？

A. 将聚合的 sum(sales_amount) 替换为 count(*)。

B. 将 WHERE year = 2023 更改为 WHERE extract(year FROM sales_data) = 2023。

C. 在 GROUP BY 子句后添加 HAVING sum(sales_amount) > 0。

D. 删除 GROUP BY 子句。

答案：B

说明：
“SELECT product_name, sum(sales_amount)
FROM sales_data
WHERE extract(year FROM sales_date) = 2023
GROUP BY product_name;”
A. 这会将查询更改为计算行数而不是对销售额求和。
C. 这会过滤掉销售额为零的产品。
D. 删除 GROUP BY 子句将导致对所有销售额进行一次求和，而不按 product_name 分组。

49 / 204

49.

No.49
数据工程师有一项一次性任务，即从 Amazon S3 存储桶中采用 Apache Parquet 格式的对象中读取数据。数据工程师只需要查询一列数据。
哪种解决方案可以以最少的运营开销满足这些要求？

A. 配置 AWS Lambda 函数以将数据从 S3 存储桶加载到 pandas 数据框中。在数据框上编写 SQL SELECT 语句以查询所需的列。

B. 使用 S3 Select 编写 SQL SELECT 语句以从 S3 对象中检索所需的列。

C. 准备一个 AWS Glue DataBrew 项目来使用 S3 对象并查询所需的列。

D. 在 S3 对象上运行 AWS Glue 爬虫。在 Amazon Athena 中使用 SQL SELECT 语句查询所需的列。

答案：B

说明：
https://docs.aws.amazon.com/AmazonS3/latest/userguide/storage-inventory-athena-query.html
S3 Select 允许您使用简单的 SQL 表达式从存储在 S3 中的对象中检索数据子集。它能够直接处理 Parquet 格式的对象。

50 / 204

50.

No.50
一家公司将 Amazon Redshift 用于其数据仓库。该公司必须自动执行 Amazon Redshift 物化视图的刷新计划。
哪种解决方案能够以最少的努力满足此要求？

A. 使用 Apache Airflow 刷新物化视图。

B. 使用 Amazon Redshift 中的 AWS Lambda 用户定义函数 (UDF) 刷新物化视图。

C. 使用 Amazon Redshift 中的查询编辑器 v2 刷新物化视图。

D. 使用 AWS Glue 工作流刷新物化视图。

答案：C

说明：
我们可以使用查询编辑器 V2 中的查询调度程序来安排刷新。
公司可以以最小的努力自动执行物化视图的刷新计划。这种方法利用了 Amazon Redshift 的内置功能，减少了对其他服务、配置或自定义代码的需求。它符合使用最简单、最直接的解决方案来满足要求、最大限度地降低运营开销和复杂性的原则。

51 / 204

51.

No.51
数据工程师必须编排由一个 AWS Lambda 函数和一个 AWS Glue 作业组成的数据管道。该解决方案必须与 AWS 服务集成。
哪种解决方案能够以最少的管理开销满足这些要求？

A. 使用包含状态机的 AWS Step Functions 工作流。配置状态机以运行 Lambda 函数，然后运行 AWS Glue 作业。

B. 使用部署在 Amazon EC2 实例上的 Apache Airflow 工作流。定义一个有向无环图 (DAG)，其中第一个任务是调用 Lambda 函数，第二个任务是调用 AWS Glue 作业。

C. 使用 AWS Glue 工作流运行 Lambda 函数，然后运行 AWS Glue 作业。

D. 使用部署在 Amazon Elastic Kubernetes Service (Amazon EKS) 上的 Apache Airflow 工作流。定义一个有向无环图 (DAG)，其中第一个任务是调用 Lambda 函数，第二个任务是调用 AWS Glue 作业。

答案：A

说明：
Step Functions 是一种用于构建无服务器工作流的托管服务。您可以定义一个状态机来协调执行顺序。
这样就无需管理和维护自己的工作流编排服务器（如 Airflow）。

52 / 204

52.

No.52
一家公司需要为在 AWS 云中运行的数据源设置数据目录和元数据管理。该公司将使用数据目录来维护一组数据存储中的所有对象的元数据。数据存储包括结构化源，例如 Amazon RDS 和 Amazon Redshift。数据存储还包括半结构化源，例如存储在 Amazon S3 中的 JSON 文件和 .xml 文件。
该公司需要一个定期更新数据目录的解决方案。该解决方案还必须检测源元数据的更改。
哪种解决方案能够以最少的运营开销满足这些要求？

A. 使用 Amazon Aurora 作为数据目录。创建将连接到数据目录的 AWS Lambda 函数。配置 Lambda 函数以从多个来源收集元数据信息并更新 Aurora 数据目录。安排 Lambda 函数定期运行。

B. 使用 AWS Glue 数据目录作为中央元数据存储库。使用 AWS Glue 爬虫连接到多个数据存储并使用元数据更改更新数据目录。安排爬虫定期运行以更新元数据目录。

C. 使用 Amazon DynamoDB 作为数据目录。创建将连接到数据目录的 AWS Lambda 函数。配置 Lambda 函数以从多个来源收集元数据信息并更新 DynamoDB 数据目录。安排 Lambda 函数定期运行。

D. 使用 AWS Glue 数据目录作为中央元数据存储库。提取 Amazon RDS 和 Amazon Redshift 源的架构并构建数据目录。使用 AWS Glue 爬虫对 Amazon S3 中的数据进行推断架构并自动更新数据目录。

答案：B

说明：
AWS Glue 数据目录是一种专门构建的、完全托管的服务，旨在作为数据源的中央元数据存储库。它提供了跨各种来源的数据的统一视图，包括结构化数据库（如 Amazon RDS 和 Amazon Redshift）和半结构化数据格式（如 Amazon S3 中的 JSON 和 XML 文件）。

53 / 204

53.

No.53
一家公司将来自应用程序的数据存储在以预置容量模式运行的 Amazon DynamoDB 表中。应用程序的工作负载定期具有可预测的吞吐量负载。每周一，清晨活动会立即增加。应用程序在周末的使用率非常低。
公司必须确保应用程序在高峰使用时间始终如一地运行。
哪种解决方案将以最具成本效益的方式满足这些要求？

A. 将预置容量增加到峰值负载期间当前存在的最大容量。

B. 将表分成两个表。为每个表预置原始表的一半预置容量。在两个表中均匀分布查询。

C. 使用 AWS Application Auto Scaling 为高峰使用时间安排更高的预置容量。在非高峰时间安排较低的容量。

D. 将容量模式从预置更改为按需。将表配置为根据表上的负载进行扩展和缩减。

答案：C

说明：
使用 AWS Application Auto Scaling 为高峰使用时间安排更高的预置容量，在非高峰时间安排较低的容量，是所述场景最具成本效益的解决方案。它允许公司将 DynamoDB 容量成本与实际使用模式保持一致，仅在需要时扩展，在低使用率期间缩减。

54 / 204

54.

No.54
一家公司正计划将本地 Apache Hadoop 集群迁移到 Amazon EMR。该公司还需要将数据目录迁移到持久存储解决方案中。
该公司目前将数据目录存储在 Hadoop 集群上的本地 Apache Hive 元存储中。该公司需要无服务器解决方案来迁移数据目录。
哪种解决方案能够以最具成本效益的方式满足这些要求？

A. 使用 AWS 数据库迁移服务 (AWS DMS) 将 Hive 元存储迁移到 Amazon S3。配置 AWS Glue 数据目录以扫描 Amazon S3 以生成数据目录。

B. 在 Amazon EMR 中配置 Hive 元存储。将现有的本地 Hive 元存储迁移到 Amazon EMR。使用 AWS Glue 数据目录将公司的数据目录存储为外部数据目录。

C. 在 Amazon EMR 中配置外部 Hive 元存储。将现有的本地 Hive 元存储迁移到 Amazon EMR。使用 Amazon Aurora MySQL 存储公司的数据目录。

D. 在 Amazon EMR 中配置新的 Hive 元存储。将现有的本地 Hive 元存储迁移到 Amazon EMR。使用新的元存储作为公司的数据目录。

答案：B

说明：
https://aws.amazon.com/blogs/big-data/migrate-and-deploy-your-apache-hive-metastore-on-amazon-emr/ 选项 B 可能是最合适的。将 Hive 元存储迁移到 Amazon EMR 并使用 AWS Glue 数据目录作为外部目录可以在利用 AWS 的可扩展和托管服务（如 EMR 和 Glue 数据目录）与确保从本地设置顺利过渡之间取得平衡。这种方法利用了 AWS Glue 数据目录的无服务器特性，最大限度地减少了运营开销，并且与管理数据库服务器相比，可能降低了成本。

55 / 204

55.

No.55
一家公司使用 Amazon Redshift 配置集群作为其数据库。Redshift 集群有五个预留的 ra3.4xlarge 节点并使用密钥分配。
一位数据工程师注意到其中一个节点的 CPU 负载经常超过 90%。在该节点上运行的 SQL 查询已排队。其他四个节点在日常操作期间的 CPU 负载通常低于 15%。
数据工程师希望保持当前的计算节点数量。数据工程师还希望在所有五个计算节点之间更均匀地平衡负载。
哪种解决方案可以满足这些要求？

A. 将排序键更改为 SQL SELECT 语句的 WHERE 子句中最常用的数据列。

B. 将分配键更改为具有最大维度的表列。

C. 将预留节点从 ra3.4xlarge 升级到 ra3.16xlarge。

D. 将主键更改为 SQL SELECT 语句的 WHERE 子句中最常用的数据列。

答案：B

说明：
https://docs.aws.amazon.com/redshift/latest/dg/t_Distributing_data.html
选项 B，更改分配键，是更均匀地平衡所有五个计算节点负载的最有效解决方案。选择与查询模式和数据特征相符的适当分配键可以使数据和工作负载分布更均匀，从而降低一个节点被过度利用而其他节点利用不足的可能性。

56 / 204

56.

No.56
一家安全公司将 JSON 格式的 IoT 数据存储在 Amazon S3 存储桶中。当公司升级 IoT 设备时，数据结构可能会发生变化。该公司希望创建一个包含 IoT 数据的数据目录。公司的分析部门将使用数据目录来索引数据。
哪种解决方案能够以最具成本效益的方式满足这些要求？

A. 创建 AWS Glue 数据目录。配置 AWS Glue 架构注册表。创建新的 AWS Glue 工作负载以协调分析部门将使用到 Amazon Redshift Serverless 中的数据的提取。

B. 创建 Amazon Redshift 预配置集群。为分析部门创建 Amazon Redshift Spectrum 数据库以探索 Amazon S3 中的数据。创建 Redshift 存储过程以将数据加载到 Amazon Redshift 中。

C. 创建 Amazon Athena 工作组。通过 Athena 使用 Apache Spark 探索 Amazon S3 中的数据。向分析部门提供 Athena 工作组架构和表。

D. 创建 AWS Glue 数据目录。配置 AWS Glue 架构注册表。使用 Amazon Redshift 数据 API 创建 AWS Lambda 用户定义函数 (UDF)。创建 AWS Step Functions 作业来协调分析部门将使用到 Amazon Redshift Serverless 中的数据提取。

答案：A

说明：
选项 A，使用 Glue 架构注册表创建 AWS Glue 数据目录并使用 AWS Glue 协调将数据提取到 Amazon Redshift Serverless，似乎是最具成本效益和最合适的解决方案。它提供了一种无服务器方法来管理 IoT 数据不断发展的数据模式，并有效地支持数据分析需求，而无需管理预配置的数据库集群或复杂的编排设置的开销。

57 / 204

57.

No.57
一家公司将有关交易的详细信息存储在 Amazon S3 存储桶中。该公司希望将所有对 S3 存储桶的写入记录到同一 AWS 区域的另一个 S3 存储桶中。
哪种解决方案可以以最少的运营工作量满足此要求？

A. 为交易 S3 存储桶上的所有活动配置 S3 事件通知规则，以调用 AWS Lambda 函数。对 Lambda 函数进行编程，以将事件写入 Amazon Kinesis Data Firehose。配置 Kinesis Data Firehose，以将事件写入日志 S3 存储桶。

B. 在 AWS CloudTraiL 中创建管理事件跟踪。配置跟踪以从交易 S3 存储桶接收数据。指定空前缀和只写事件。将日志 S3 存储桶指定为目标存储桶。

C. 为交易 S3 存储桶上的所有活动配置 S3 事件通知规则，以调用 AWS Lambda 函数。对 Lambda 函数进行编程，以将事件写入日志 S3 存储桶。

D. 在 AWS CloudTraiL 中创建数据事件跟踪。配置跟踪以从交易 S3 存储桶接收数据。指定空前缀和只写事件。将日志 S3 存储桶指定为目标存储桶。

答案：D

说明：
https://docs.aws.amazon.com/AmazonS3/latest/userguide/logging-with-S3.html
选项 D，在 AWS CloudTrail 中创建数据事件跟踪，是满足需求且操作工作量最少的最佳解决方案。它直接将所需活动记录到另一个 S3 存储桶中，不涉及开发和维护 Lambda 函数或 Kinesis Data Firehose 流等其他资源。

58 / 204

58.

No.58
数据工程师需要维护一个中央元数据存储库，用户可以通过 Amazon EMR 和 Amazon Athena 查询访问该存储库。存储库需要提供许多表的架构和属性。一些元数据存储在 Apache Hive 中。数据工程师需要将元数据从 Hive 导入中央元数据存储库。
哪种解决方案能够以最少的开发工作量满足这些要求？

A. 使用 Amazon EMR 和 Apache Ranger。

B. 在 EMR 集群上使用 Hive 元存储。

C. 使用 AWS Glue 数据目录。

D. 在 Amazon RDS for MySQL DB 实例上使用元存储。

答案：C

说明：
https://aws.amazon.com/blogs/big-data/metadata-classification-lineage-and-discovery-using-apache-atlas-on-amazon-emr/
选项 C，使用 AWS Glue 数据目录，是满足要求的最佳解决方案，开发工作量最少。 AWS Glue 数据目录旨在成为一个中央元数据存储库，可以与包括 EMR 和 Athena 在内的各种 AWS 服务集成，为元数据管理提供托管且可扩展的解决方案，并具有内置的 Hive 兼容性。

59 / 204

59.

No.59
一家公司需要在 AWS 中构建一个数据湖。该公司必须为特定团队提供行级数据访问和列级数据访问。团队将使用 Amazon Athena、Amazon Redshift Spectrum 和 Amazon EMR 中的 Apache Hive 访问数据。
哪种解决方案能够以最低的运营开销满足这些要求？

A. 使用 Amazon S3 进行数据湖存储。使用 S3 访问策略按行和列限制数据访问。通过 Amazon S3 提供数据访问。

B. 使用 Amazon S3 进行数据湖存储。通过 Amazon EMR 使用 Apache Ranger 按行和列限制数据访问。使用 Apache Pig 提供数据访问。

C. 使用 Amazon Redshift 进行数据湖存储。使用 Redshift 安全策略按行和列限制数据访问。使用 Apache Spark 和 Amazon Athena 联合查询提供数据访问。

D. 使用 Amazon S3 进行数据湖存储。使用 AWS Lake Formation 按行和列限制数据访问。通过 AWS Lake Formation 提供数据访问。

答案：D

说明：
选项 D 是满足要求且运营开销最少的最佳解决方案。

使用 Amazon S3 进行存储，使用 AWS Lake Formation 进行访问控制和数据访问具有以下优势：

S3 提供高度耐用、可用且可扩展的数据湖存储层
Lake Formation 支持细粒度的访问控制，细到列和行级别
与 Athena、Redshift Spectrum 和 EMR 本地集成，简化数据访问
与自我管理的 Ranger 或零碎解决方案相比，完全托管的服务可最大限度地减少管理开销。

60 / 204

60.

No.60
一家航空公司正在收集有关飞行活动的指标以供分析。该公司正在进行概念验证 (POC) 测试，以展示分析如何提供洞察力，公司可以利用这些洞察力来增加准时出发率。
POC 测试使用 Amazon S3 中包含 .csv 格式指标的对象。 POC 测试使用 Amazon Athena 查询数据。数据按日期在 S3 存储桶中分区。
随着数据量的增加，公司希望优化存储解决方案以提高查询性能。
哪种解决方案组合可以满足这些要求？（选择两个。）

A. 在 Amazon S3 中的键开头添加一个随机字符串，以获得更多跨分区吞吐量。

B. 使用与使用 Athena 查询数据的同一账户中的 S3 存储桶。

C. 使用与公司运行 Athena 查询的同一 AWS 区域中的 S3 存储桶。

D. 通过仅获取查询所需的文档键，将 .csv 数据预处理为 JSON 格式。

E. 通过仅获取谓词所需的数据块，将 .csv 数据预处理为 Apache Parquet 格式。

答案：C、E

说明：
https://docs.aws.amazon.com/athena/latest/ug/performance-tuning.html

61 / 204

61.

No.61
一家公司使用 Amazon RDS for MySQL 作为关键应用程序的数据库。数据库工作负载主要是写入，读取次数较少。
数据工程师注意到数据库实例的 CPU 利用率非常高。高 CPU 利用率正在减慢应用程序的速度。数据工程师必须降低数据库实例的 CPU 利用率。
数据工程师应采取哪些措施来满足此要求？（选择两个。）

A. 使用 Amazon RDS 的 Performance Insights 功能来识别具有高 CPU 利用率的查询。优化有问题的查询。

B. 修改数据库架构以包含其他表和索引。

C. 每周重新启动一次 RDS DB 实例。

D. 升级到更大的实例大小。

E. 实施缓存以减少数据库查询负载。

62 / 204

62.

No.62
一家公司已使用名为 Orders 的 Amazon Redshift 表 6 个月。该公司每周对该表执行更新和删除。该表在包含 AWS 区域的列上具有交错排序键。
该公司希望回收磁盘空间，以便公司不会耗尽存储空间。该公司还希望分析排序键列。
哪个 Amazon Redshift 命令可以满足这些要求？

A. VACUUM FULL 订单

B. VACUUM DELETE ONLY 订单

C. VACUUM REINDEX 订单

D. VACUUM SORT ONLY 订单

答案：C

说明：
https://docs.aws.amazon.com/redshift/latest/dg/r_VACUUM_command.html
“完全清理不会对交错表执行重新索引。要对交错表执行重新索引，然后进行完全清理，请使用 VACUUM REINDEX 选项。”
A - “完全清理不会对交错表执行重新索引。”- 来自上述文档
B- “DELETE ONLY 清理操作不会对表数据进行排序。”- 来自上述文档
D - “不回收已删除行释放的空间。”- 来自上述文档

63 / 204

63.

No.63
一家制造公司希望从传感器收集数据。数据工程师需要实施一种解决方案，以近乎实时的方式提取传感器数据。
该解决方案必须将数据存储到持久数据存储中。该解决方案必须以嵌套 JSON 格式存储数据。公司必须能够以小于 10 毫秒的延迟从数据存储中查询。
哪种解决方案能够以最少的运营开销满足这些要求？

A. 使用自托管 Apache Kafka 集群捕获传感器数据。将数据存储在 Amazon S3 中以供查询。

B. 使用 AWS Lambda 处理传感器数据。将数据存储在 Amazon S3 中以供查询。

C. 使用 Amazon Kinesis Data Streams 捕获传感器数据。将数据存储在 Amazon DynamoDB 中以供查询。

D. 使用 Amazon Simple Queue Service (Amazon SQS) 缓冲传入的传感器数据。使用 AWS Glue 将数据存储在 Amazon RDS 中以供查询。

答案：C

说明：
Amazon Kinesis Data Streams 是一种完全托管的服务，允许无缝集成各种数据源，包括 IoT 传感器。通过使用 Kinesis Data Streams 作为提取机制，公司可以避免设置和管理 Apache Kafka 集群或其他数据提取管道的开销。
更准确地说，
Kinesis Data streams = 实时
Kinesis Data Firehose = 近实时

64 / 204

64.

No.64
一家公司将数据存储在 Amazon S3 中的数据湖中。公司存储在数据湖中的一些数据包含个人身份信息 (PII)。多个用户组需要访问原始数据。公司必须确保用户组只能访问他们需要的 PII。
哪种解决方案可以以最少的努力满足这些要求？

A. 使用 Amazon Athena 查询数据。设置 AWS Lake Formation 并创建数据过滤器以建立公司 IAM 角色的访问级别。将每个用户分配给与用户的 PII 访问要求相匹配的 IAM 角色。

B. 使用 Amazon QuickSight 访问数据。使用 QuickSight 中的列级安全功能来限制用户可以使用 Amazon Athena 从 Amazon S3 检索的 PII。根据用户的 PII 访问要求定义 QuickSight 访问级别。

C. 构建自定义查询生成器 UI，该 UI 将在后台运行 Athena 查询以访问数据。在 Amazon Cognito 中创建用户组。根据用户的 PII 访问要求为用户组分配访问级别。

D. 创建具有不同精细访问级别的 IAM 角色。将 IAM 角色分配给 IAM 用户组。使用基于身份的策略在列级别为用户组分配访问级别。

答案：A

说明：
使用 Amazon Athena 查询数据并使用数据过滤器设置 AWS Lake Formation，公司可以确保用户组只能访问他们需要的个人身份信息 (PII)。用于查询的 Athena 与用于访问控制的 Lake Formation 的结合提供了有效、安全地管理 PII 访问要求的全面解决方案。

65 / 204

65.

No.65
数据工程师必须构建提取、转换和加载 (ETL) 管道，以处理来自 10 个源系统的数据并将其加载到 Amazon Redshift 数据库中的 10 个表中。所有源系统每 15 分钟生成一次 .csv、JSON 或 Apache Parquet 文件。源系统都将文件传送到一个 Amazon S3 存储桶中。文件大小从 10 MB 到 20 GB 不等。尽管数据架构发生变化，ETL 管道仍必须正常运行。
哪些数据管道解决方案可以满足这些要求？（选择两个。）

A. 使用 Amazon EventBridge 规则每 15 分钟运行一次 AWS Glue 作业。配置 AWS Glue 作业以处理数据并将其加载到 Amazon Redshift 表中。

B. 使用 Amazon EventBridge 规则每 15 分钟调用一次 AWS Glue 工作流作业。配置 AWS Glue 工作流以拥有一个按需触发器，该触发器运行 AWS Glue 爬虫程序，然后在爬虫程序成功完成运行时运行 AWS Glue 作业。配置 AWS Glue 作业以处理数据并将数据加载到 Amazon Redshift 表中。

C. 配置 AWS Lambda 函数以在文件加载到 S3 存储桶时调用 AWS Glue 爬虫程序。配置 AWS Glue 作业以处理数据并将数据加载到 Amazon Redshift 表中。创建第二个 Lambda 函数以运行 AWS Glue 作业。创建 Amazon EventBridge 规则以在 AWS Glue 爬虫程序成功完成运行时调用第二个 Lambda 函数。

D. 配置 AWS Lambda 函数以在文件加载到 S3 存储桶时调用 AWS Glue 工作流。配置 AWS Glue 工作流以拥有一个按需触发器，该触发器运行 AWS Glue 爬虫程序，然后在爬虫程序成功完成运行时运行 AWS Glue 作业。配置 AWS Glue 作业以处理数据并将数据加载到 Amazon Redshift 表中。

E. 配置 AWS Lambda 函数，在文件加载到 S3 存储桶时调用 AWS Glue 作业。配置 AWS Glue 作业以将文件从 S3 存储桶读入 Apache Spark DataFrame。配置 AWS Glue 作业以将 DataFrame 的较小分区放入 Amazon Kinesis Data Firehose 传输流中。配置传输流以将数据加载到 Amazon Redshift 表中。

答案：B、D

说明：
选项 B：Amazon EventBridge 规则与 AWS Glue 工作流作业每 15 分钟一次 - 因为它简化了流程、自动调度和处理架构更改的能力。

选项 D：AWS Lambda 在文件加载时调用 AWS Glue 工作流 - 因为它对文件到达的响应能力和对架构更改的适应性，尽管它比选项 B 稍微复杂一些。

66 / 204

66.

No.66
一家金融公司希望使用 Amazon Athena 在 PB 级数据集上运行按需 SQL 查询，以支持商业智能 (BI) 应用程序。在非工作时间运行的 AWS Glue 作业每天更新一次数据集。BI 应用程序的标准数据刷新频率为 1 小时，以符合公司政策。
一位数据工程师希望在不增加任何额外基础设施成本的情况下优化公司对 Amazon Athena 的使用成本。
哪种解决方案可以以最低的运营开销满足这些要求？

A. 配置 Amazon S3 生命周期策略，以在 1 天后将数据移动到 S3 Glacier Deep Archive 存储类。

B. 使用 Amazon Athena 的查询结果重用功能进行 SQL 查询。

C. 在 BI 应用程序和 Athena 之间添加 Amazon ElastiCache 集群。

D. 将数据集中的文件格式更改为 Apache Parquet。

答案：B

说明：
https://docs.aws.amazon.com/athena/latest/ug/performance-tuning.html
使用 Amazon Athena 的查询结果重用功能。这利用了 Athena 的内置功能来减少冗余数据扫描，从而降低查询成本。

67 / 204

67.

No.67
一家公司的数据工程师需要优化表 SQL 查询的性能。该公司将数据存储在 Amazon Redshift 集群中。由于预算限制，数据工程师无法增加集群的大小。
该公司将数据存储在多个表中，并使用 EVEN 分配样式加载数据。一些表的大小为数百 GB。其他表的大小不到 10 MB。
哪种解决方案可以满足这些要求？

A. 继续对所有表使用 EVEN 分配样式。为所有表指定主键和外键。

B. 对大型表使用 ALL 分配样式。为所有表指定主键和外键。

C. 对很少更新的小表使用 ALL 分布样式。为所有表指定主键和外键。

D. 为所有表指定分布、排序和分区键的组合。

答案：C

说明：
对很少更新的小表使用 ALL 分布样式。这种方法优化了涉及这些较小表的连接性能，是 Redshift 数据仓库中的常见最佳实践。对于较大的表，保持 EVEN 分布样式或考虑基于 KEY 的分布（如果有公共连接列）可能更合适。

68 / 204

No.68
一家公司收到包含物理地址数据的 .csv 文件。数据位于具有以下名称的列中：Door_No、Street_Name、City 和 Zip_Code。该公司希望创建一个列来存储这些值，格式如下：

{
"Door_No": "24",
"Street_Name": "AAA street",
"City": "BBB",
"Zip_Code": "111111"
}

68. 哪种解决方案能够以最少的编码工作量满足此要求？

A. 使用 AWS Glue DataBrew 读取文件。使用 NEST_TO_ARRAY 转换创建新列。

B. 使用 AWS Glue DataBrew 读取文件。使用 NEST_TO_MAP 转换创建新列。

C. 使用 AWS Glue DataBrew 读取文件。使用 PIVOT 转换创建新列。

D. 用 Python 编写 Lambda 函数来读取文件。使用 Python 数据字典类型创建新列。

答案：B

说明：
NEST_TO_ARRAY 将导致：

[ {"key": "key1", "value": "value1"}, {"key": "key2", "value": "value2"}, {"key": "key3", "value": "value3"}]

while NEST_TO_MAP results: {
"key1": "value1",
"key2": "value2",
"key3": "value3"
}

因此选择 B。

69 / 204

69.

No.69
一家公司将通话记录作为包含敏感客户信息的 Amazon S3 对象接收。该公司必须使用加密来保护 S3 对象。该公司还必须使用只有特定员工才能访问的加密密钥。
哪种解决方案能够以最少的努力满足这些要求？

A. 使用 AWS CloudHSM 集群存储加密密钥。配置写入 Amazon S3 的过程以调用 CloudHSM 来加密和解密对象。部署限制对 CloudHSM 集群访问的 IAM 策略。

B. 使用带有客户提供的密钥 (SSE-C) 的服务器端加密来加密包含客户信息的对象。限制对加密对象的密钥的访问。

C. 使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密来加密包含客户信息的对象。配置限制对加密对象的 KMS 密钥的访问的 IAM 策略。

D. 使用带有 Amazon S3 托管密钥 (SSE-S3) 的服务器端加密来加密包含客户信息的对象。配置 IAM 策略以限制对加密对象的 Amazon S3 托管密钥的访问。

答案：C

说明：
使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密来加密包含客户信息的对象。配置 IAM 策略以限制对加密对象的 KMS 密钥的访问。

使用 AWS KMS (SSE-KMS) 的服务器端加密为 S3 对象提供强加密，同时允许通过 AWS 密钥管理服务 (KMS) 进行细粒度的访问控制。使用 SSE-KMS，您可以使用 IAM 策略控制对加密密钥的访问，确保只有特定员工才能访问它们。

此解决方案几乎不需要任何工作，因为它利用了 AWS 的托管加密服务 (SSE-KMS) 并与 S3 无缝集成。此外，可以轻松配置 IAM 策略以限制对 KMS 密钥的访问，从而对谁可以访问加密密钥提供精细控制。

70 / 204

70.

No.70
一家公司将数 PB 的数据存储在 S3 标准存储类中的数千个 Amazon S3 存储桶中。这些数据支持具有不可预测和可变数据访问模式的分析工作负载。
该公司几个月都没有访问某些数据。但是，该公司必须能够在几毫秒内检索所有数据。该公司需要优化 S3 存储成本。
哪种解决方案可以以最少的运营开销满足这些要求？

A. 使用 S3 Storage Lens 标准指标来确定何时将对象移动到成本优化程度更高的存储类。为 S3 存储桶创建 S3 生命周期策略，以将对象移动到成本优化的存储类。将来继续完善 S3 生命周期策略以优化存储成本。

B. 使用 S3 Storage Lens 活动指标来识别公司不经常访问的 S3 存储桶。配置 S3 生命周期规则，根据数据的使用年限将对象从 S3 标准移动到 S3 标准-不频繁访问 (S3 标准-IA) 和 S3 Glacier 存储类。

C. 使用 S3 智能分层。激活 Deep Archive 访问层。

D. 使用 S3 智能分层。使用默认访问层。

答案：D

说明：
虽然 C 更具成本效益，但由于“必须能够在几毫秒内检索所有数据”，因此将选择 D。

Amazon S3 Glacier Deep Archive 存储类专为长期数据存档而设计，其中数据检索时间灵活。它不提供毫秒级的检索时间。相反，从 S3 Glacier Deep Archive 检索数据通常需要 12 小时或更长时间。对于毫秒级的检索时间，您可以使用 S3 标准、S3 标准-IA 或 S3 单区-IA 存储类，这些存储类专为低延迟的频繁或不频繁访问而设计。

71 / 204

71.

No.71
在安全审查期间，一家公司发现了 AWS Glue 作业中的漏洞。该公司发现访问 Amazon Redshift 集群的凭证已硬编码在作业脚本中。
数据工程师必须修复 AWS Glue 作业中的安全漏洞。解决方案必须安全地存储凭证。
数据工程师应采取哪些步骤组合来满足这些要求？（选择两个。）

A. 将凭证存储在 AWS Glue 作业参数中。

B. 将凭证存储在 Amazon S3 存储桶中的配置文件中。

C. 使用 AWS Glue 作业从 Amazon S3 存储桶中的配置文件访问凭证。

D. 将凭证存储在 AWS Secrets Manager 中。

E. 授予 AWS Glue 作业 IAM 角色对存储凭证的访问权限。

答案：D，E

说明：
D 是因为这是 AWS 保护凭据的最佳实践，而 E 是因为将凭据放入机密后，您将需要访问权限。

D. 将凭据存储在 AWS Secrets Manager 中：AWS Secrets Manager 是一种服务，可帮助您保护对应用程序、服务和 IT 资源的访问，而无需前期投资和运营自己的基础设施的持续维护成本。它专为安全地存储和检索凭据而设计，因此，它是处理 Redshift 集群凭据的合适选择。

E. 授予 AWS Glue 作业 IAM 角色对存储凭据的访问权限：AWS Glue 的 IAM 角色将允许该作业承担具有访问 AWS Secrets Manager 中凭据所需权限的角色。此方法避免将凭据直接嵌入脚本或配置文件中，并允许集中管理凭据。

72 / 204

72.

No.72
数据工程师每月使用 Amazon Redshift 运行一次资源密集型分析流程。每个月，数据工程师都会创建一个新的 Redshift 预置集群。数据工程师会在每月分析流程完成后删除 Redshift 预置集群。在数据工程师每月删除集群之前，数据工程师会将集群中的备份数据卸载到 Amazon S3 存储桶中。
数据工程师需要一个解决方案来运行每月的分析流程，而不需要数据工程师手动管理基础设施。
哪种解决方案能够以最少的运营开销满足这些要求？

A. 使用 Amazon Step Functions 在分析流程完成时暂停 Redshift 集群，并恢复集群以每月运行新流程。

B. 使用 Amazon Redshift Serverless 自动处理分析工作负载。

C. 使用 AWS CLI 自动处理分析工作负载。

D. 使用 AWS CloudFormation 模板自动处理分析工作负载。

答案：B

说明：
完全托管、无服务器：Redshift Serverless 无需手动创建、管理或删除集群。它会根据工作负载自动扩展资源，从而显著降低运营开销。
对于不频繁的工作负载具有成本效益：由于分析流程每月仅运行一次，因此 Redshift Serverless 的按使用付费模式非常适合在停机期间最大限度地降低成本。
无缝 S3 集成：Redshift Serverless 与 S3 本机集成以进行备份和恢复操作，确保与现有流程兼容。

73 / 204

73.

No.73
一家公司收到一份包含 .xls 格式的客户数据的每日文件。该公司将该文件存储在 Amazon S3 中。每日文件的大小约为 2 GB。
数据工程师将文件中包含客户名字的列和包含客户姓氏的列连接起来。数据工程师需要确定文件中不同客户的数量。
哪种解决方案可以以最少的运营工作量满足此要求？

A. 在 AWS Glue 笔记本中创建并运行 Apache Spark 作业。配置作业以读取 S3 文件并计算不同客户的数量。

B. 创建 AWS Glue 爬虫程序以创建 S3 文件的 AWS Glue 数据目录。从 Amazon Athena 运行 SQL 查询以计算不同客户的数量。

C. 在 Amazon EMR Serverless 中创建并运行 Apache Spark 作业以计算不同客户的数量。

D. 使用 AWS Glue DataBrew 创建使用 COUNT_DISTINCT 聚合函数计算不同客户数量的配方。

答案：D

说明：
AWS Glue DataBrew：AWS Glue DataBrew 是一种可视化数据准备工具，允许数据工程师和数据分析师清理和规范化数据而无需编写代码。使用 DataBrew，数据工程师可以创建一个包含客户名字和姓氏连接的配方，然后使用 COUNT_DISTINCT 函数。这不需要复杂的代码，可以通过 DataBrew 用户界面执行，从而减少操作工作量。

74 / 204

74.

No.74
一家医疗保健公司使用 Amazon Kinesis Data Streams 从可穿戴设备、医院设备和患者记录中传输实时健康数据。
数据工程师需要找到一种解决方案来处理流数据。数据工程师需要将数据存储在 Amazon Redshift 无服务器仓库中。该解决方案必须支持对流数据和前一天的数据进行近乎实时的分析。
哪种解决方案能够以最少的运营开销满足这些要求？

A. 将数据加载到 Amazon Kinesis Data Firehose 中。将数据加载到 Amazon Redshift 中。

B. 使用 Amazon Redshift 的流式提取功能。

C. 将数据加载到 Amazon S3 中。使用 COPY 命令将数据加载到 Amazon Redshift 中。

D. 使用 Amazon Aurora 零 ETL 与 Amazon Redshift 的集成。

答案：B

说明：
https://docs.aws.amazon.com/redshift/latest/dg/materialized-view-streaming-ingestion.html
使用 Amazon Redshift 的流式提取功能：Amazon Redshift 最近推出了流式数据提取功能，允许 Redshift 近乎实时地直接从 Kinesis Data Streams 使用数据。此功能通过消除中间步骤或服务的需求简化了架构，并且专门设计用于支持近乎实时的分析。由于该功能集成在 Redshift 中，因此运营开销极小。

75 / 204

75.

No.75
数据工程师需要使用基于 Amazon Athena 对存储在 Amazon S3 存储桶中的数据的查询的 Amazon QuickSight 仪表板。当数据工程师连接到 QuickSight 仪表板时，数据工程师会收到一条错误消息，指示权限不足。
哪些因素可能导致与权限相关的错误？（选择两个。）

A. QuickSight 和 Athena 之间没有联系。

B. Athena 表未编入目录。

C. QuickSight 无权访问 S3 存储桶。

D. QuickSight 无权解密 S3 数据。

E. 没有为 QuickSight 分配 IAM 角色。

答案：C、D

说明：
https://docs.aws.amazon.com/quicksight/latest/user/troubleshoot-athena-insufficient-permissions.html

E 不正确，因为它会导致身份验证/授权错误，而不是权限不足错误。

C. QuickSight 无权访问 S3 存储桶：Amazon QuickSight 需要具有访问数据所在的 S3 存储桶所需的权限。如果 QuickSight 缺乏从 S3 存储桶读取数据的权限，则会导致指示权限不足的错误。

D. QuickSight 无权解密 S3 数据：如果 S3 中的数据已加密，QuickSight 需要权限才能使用必要的密钥解密数据。如果无法访问解密密钥（通常由 AWS 密钥管理服务 (KMS) 管理），QuickSight 就无法读取加密数据并会出现错误。

76 / 204

76.

No.76
一家公司将 JSON 格式和 .csv 格式的数据集存储在 Amazon S3 存储桶中。该公司拥有适用于 Microsoft SQL Server 数据库的 Amazon RDS、处于预置容量模式的 Amazon DynamoDB 表以及 Amazon Redshift 集群。数据工程团队必须开发一种解决方案，使数据科学家能够使用类似于 SQL 的语法查询所有数据源。
哪种解决方案能够以最少的运营开销满足这些要求？

A. 使用 AWS Glue 抓取数据源。将元数据存储在 AWS Glue 数据目录中。使用 Amazon Athena 查询数据。使用 SQL 来处理结构化数据源。使用 PartiQL 来处理以 JSON 格式存储的数据。

B. 使用 AWS Glue 抓取数据源。将元数据存储在 AWS Glue 数据目录中。使用 Redshift Spectrum 来查询数据。使用 SQL 来处理结构化数据源。使用 PartiQL 来处理以 JSON 格式存储的数据。

C. 使用 AWS Glue 抓取数据源。将元数据存储在 AWS Glue 数据目录中。使用 AWS Glue 作业将 JSON 格式的数据转换为 Apache Parquet 或 .csv 格式。将转换后的数据存储在 S3 存储桶中。使用 Amazon Athena 从 S3 存储桶中查询原始数据和转换后的数据。

D. 使用 AWS Lake Formation 创建数据湖。使用 Lake Formation 作业将来自所有数据源的数据转换为 Apache Parquet 格式。将转换后的数据存储在 S3 存储桶中。使用 Amazon Athena 或 Redshift Spectrum 查询数据。

答案：A

说明：
最低运营开销？直接使用 Athena 查询，无需任何中间操作或服务。

A. 使用 Athena 进行统一查询：Athena 提供类似 SQL 的界面来查询各种数据源，包括 S3 中的 JSON 和 CSV，以及传统数据库。
PartiQL 支持：Athena 的 PartiQL 扩展允许直接查询半结构化 JSON 数据，无需单独的查询引擎。
无服务器和托管：AWS Glue 和 Athena 都是无服务器的，可最大限度地减少数据工程师的基础设施管理。
无需不必要的转换：避免 JSON 数据的转换可简化管道并降低运营开销。
B. Redshift Spectrum：虽然 Spectrum 可以查询外部数据，但它主要用于 Redshift 数据仓库扩展。它增加了 RDS 和 DynamoDB 数据源的复杂性。

77 / 204

77.

No.77
数据工程师正在配置 Amazon SageMaker Studio 以使用 AWS Glue 交互式会话为机器学习 (ML) 模型准备数据。
当数据工程师尝试使用 SageMaker Studio 准备数据时，数据工程师收到访问被拒绝错误。
工程师应该进行哪些更改才能访问 SageMaker Studio？

A. 将 AWSGlueServiceRole 托管策略添加到数据工程师的 IAM 用户。

B. 向数据工程师的 IAM 用户添加一项策略，该策略包括信任策略中针对 AWS Glue 和 SageMaker 服务主体的 sts:AssumeRole 操作。

C. 向数据工程师的 IAM 用户添加 AmazonSageMakerFullAccess 托管策略。

D. 向数据工程师的 IAM 用户添加一项策略，允许信任策略中针对 AWS Glue 和 SageMaker 服务主体的 sts:AddAssociation 操作。

答案：B

说明：
我将选择 B，因为即使使用 AmazonSageMakerFullAccess，访问也可能被拒绝。
请参见此处：https://stackoverflow.com/questions/64709871/aws-sagemaker-studio-createdomain-access-error

78 / 204

78.

No.78
一家公司每天从 SAP HANA、Microsoft SQL Server、MongoDB、Apache Kafka 和 Amazon DynamoDB 等数据源中提取大约 1 TB 的数据。一些数据源具有未定义的数据模式或会发生变化的数据模式。
数据工程师必须实施可以检测这些数据源模式的解决方案。该解决方案必须提取、转换数据并将其加载到 Amazon S3 存储桶中。该公司有一个服务级别协议 (SLA)，要求在数据创建后 15 分钟内将数据加载到 S3 存储桶中。
哪种解决方案可以以最少的运营开销满足这些要求？

A. 使用 Amazon EMR 检测模式并提取、转换数据并将其加载到 S3 存储桶中。在 Apache Spark 中创建管道。

B. 使用 AWS Glue 检测模式并提取、转换数据并将其加载到 S3 存储桶中。在 Apache Spark 中创建管道。

C. 在 AWS Lambda 中创建一个 PySpark 程序，以提取、转换和加载数据到 S3 存储桶中。

D. 在 Amazon Redshift 中创建一个存储过程，以检测架构并提取、转换和加载数据到 Redshift Spectrum 表中。从 Amazon S3 访问表。

答案：B

说明：
使用 AWS Glue 检测架构并提取、转换和加载数据到 S3 存储桶中。在 Apache Spark 中创建一个管道。

79 / 204

79.

No.79
一家公司有多个使用存储在 Amazon S3 存储桶中的数据集的应用程序。该公司有一个电子商务应用程序，它生成一个包含个人身份信息 (PII) 的数据集。该公司有一个内部分析应用程序，不需要访问 PII。
为了遵守法规，公司不得不必要地共享 PII。数据工程师需要根据访问数据集的每个应用程序的需求，实施一个动态编辑 PII 的解决方案。
哪种解决方案能够以最少的运营开销满足要求？

A. 创建 S3 存储桶策略以限制每个应用程序的访问权限。创建数据集的多个副本。为每个数据集副本提供适当的编辑级别，以满足访问副本的应用程序的需求。

B. 创建 S3 对象 Lambda 端点。使用 S3 对象 Lambda 端点从 S3 存储桶读取数据。在 S3 对象 Lambda 函数中实现编辑逻辑，以根据访问数据的每个应用程序的需求动态编辑 PII。

C. 使用 AWS Glue 为每个应用程序转换数据。创建数据集的多个副本。为每个数据集副本提供适当的编辑级别，以满足访问副本的应用程序的需求。

D. 创建具有自定义授权者的 API 网关端点。使用 API 网关端点从 S3 存储桶读取数据。发起 REST API 调用，以根据访问数据的每个应用程序的需求动态编辑 PII。

答案：B

说明：
Amazon S3 Object Lambda 允许您将自己的代码添加到 S3 GET 请求中，以在数据返回到应用程序时对其进行修改和处理。例如，您可以使用 S3 Object Lambda 从 S3 检索的数据中动态编辑个人身份信息 (PII)。这将允许您根据不同应用程序的需求控制对敏感信息的访问，而无需创建和管理数据的多个副本。

80 / 204

80.

★No.80
数据工程师需要构建提取、转换和加载 (ETL) 作业。ETL 作业将处理用户上传到 Amazon S3 存储桶的每日传入 .csv 文件。每个 S3 对象的大小小于 100 MB。
哪种解决方案最经济高效地满足这些要求？

A. 编写自定义 Python 应用程序。在 Amazon Elastic Kubernetes Service (Amazon EKS) 集群上托管应用程序。

B. 编写 PySpark ETL 脚本。在 Amazon EMR 集群上托管脚本。

C. 编写 AWS Glue PySpark 作业。使用 Apache Spark 转换数据。

D. 编写 AWS Glue Python shell 作业。使用 pandas 转换数据。

81 / 204

81.

No.81
数据工程师使用名为 Orders 的 AWS Glue 爬虫创建 AWS Glue 数据目录表。数据工程师想要添加以下新分区：

s3://transactions/orders/order_date=2023-01-01
s3://transactions/orders/order_date=2023-01-02

数据工程师必须编辑元数据以将新分区包含在表中，而无需扫描表位置中的所有文件夹和文件。
数据工程师应在 Amazon Athena 中使用哪种数据定义语言 (DDL) 语句？

A. ALTER TABLE Orders ADD PARTITION(order_date=’2023-01-01’) LOCATION ‘s3://transactions/orders/order_date=2023-01-01’; 修改表订单添加分区（order_date=’2023-01-02’）位置‘s3://transactions/orders/order_date=2023-01-02’；

B. MSCK 修复表订单；

C. 修复表订单；

D. 修改表订单修改分区（order_date=’2023-01-01’）位置‘s3://transactions/orders/2023-01-01’；修改表订单修改分区（order_date=’2023-01-02’）位置‘s3://transactions/orders/2023-01-02’；

答案：A

说明：
为什么其他选项不正确：
选项 B：MSCK REPAIR TABLE 命令：此命令用于通过扫描指定位置的所有文件来修复表的分区。如果您知道要添加的特定分区，则此方法效率不高，因为它将扫描整个表位置。
选项 C：REPAIR TABLE 命令：这不是有效的 Athena DDL 命令。
选项 D：ALTER TABLE 命令 MODIFY PARTITION：此命令用于修改现有分区的位置，而不是添加新分区。它不适用于添加新分区。

82 / 204

82.

No.82
一家公司在 Amazon S3 中存储了 10 到 15 TB 未压缩的 .csv 文件。该公司正在评估 Amazon Athena 作为一次性查询引擎。
该公司希望转换数据以优化查询运行时间和存储成本。
哪种文件格式和压缩解决方案可以满足 Athena 查询的这些要求？

A. 使用 zip 压缩的 .csv 格式

B. 使用 bzip2 压缩的 JSON 格式

C. 使用 Snappy 压缩的 Apache Parquet 格式

D. 使用 LZO 压缩的 Apache Avro 格式

答案：C

说明：
Parquet 提供高效的列式存储，使 Athena 能够仅读取查询所需的数据，从而减少扫描时间并提高查询性能。
Snappy 压缩在压缩速度和效率之间实现了良好的平衡，降低了存储成本，而不会显著影响查询时间。

83 / 204

83.

No.83
一家公司使用 Apache Airflow 来协调公司当前的本地数据管道。该公司在管道中运行 SQL 数据质量检查任务。该公司希望将管道迁移到 AWS 并使用 AWS 托管服务。
哪种解决方案可以以最少的重构量满足这些要求？

A. 在距离公司使用 Airflow 的位置最近的 AWS 区域中设置 AWS Outposts。将服务器迁移到 Outposts 托管的 Amazon EC2 实例中。更新管道以与 Outposts 托管的 EC2 实例交互，而不是与本地管道交互。

B. 创建自定义 Amazon 系统映像 (AMI)，其中包含 Airflow 应用程序和公司需要迁移的代码。使用自定义 AMI 部署 Amazon EC2 实例。更新网络连接以与新部署的 EC2 实例交互。

C. 将现有的 Airflow 编排配置迁移到 Amazon Managed Workflows for Apache Airflow (Amazon MWAA)。在提取期间创建数据质量检查，以使用 Airflow 中的 SQL 任务验证数据质量。

D. 将管道转换为 AWS Step Functions 工作流。在 SQL 中重新创建数据质量检查作为基于 Python 的 AWS Lambda 函数。

答案：C

说明：
Amazon MWAA 是用于运行 Apache Airflow 的托管服务。它允许以最少的更改迁移现有的 Airflow 配置。数据质量检查可以继续在 Airflow 中作为 SQL 任务实现，类似于当前设置。

84 / 204

84.

No.84
一家公司使用 Amazon EMR 作为提取、转换和加载 (ETL) 管道来转换来自多个来源的数据。数据工程师必须协调管道以最大限度地提高性能。
哪种 AWS 服务能够以最经济的方式满足此要求？

A. Amazon EventBridge

B. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)

C. AWS Step Functions

D. AWS Glue Workflows

答案：C

说明：
Glue Workflows 用于 Glue 作业编排。C 用于与不同 AWS 服务进行编排。

85 / 204

85.

No.85
一家在线零售公司将应用程序负载均衡器 (ALB) 访问日志存储在 Amazon S3 存储桶中。该公司希望使用 Amazon Athena 查询日志以分析流量模式。
数据工程师在 Athena 中创建未分区表。随着数据量逐渐增加，查询的响应时间也会增加。数据工程师希望提高 Athena 中的查询性能。
哪种解决方案能够以最少的运营工作量满足这些要求？

A. 创建一个 AWS Glue 作业，确定所有 ALB 访问日志的架构并将分区元数据写入 AWS Glue 数据目录。

B. 创建一个 AWS Glue 爬虫，其中包含一个分类器，该分类器确定所有 ALB 访问日志的架构并将分区元数据写入 AWS Glue 数据目录。

C. 创建一个 AWS Lambda 函数来转换所有 ALB 访问日志。将结果以 Apache Parquet 格式保存到 Amazon S3。对元数据进行分区。使用 Athena 查询转换后的数据。

D. 使用 Apache Hive 创建存储桶表。使用 AWS Lambda 函数转换所有 ALB 访问日志。

答案：B

说明：
创建 AWS Glue 爬虫（选项 B）是最直接且操作最少的方法，可以自动确定架构、对数据进行分区并保持 AWS Glue 数据目录更新。这可确保优化 Athena 查询，而无需大量手动管理或额外的处理步骤。

86 / 204

86.

No.86
一家公司在 AWS 上拥有一个商业智能平台。该公司使用 AWS Storage Gateway Amazon S3 文件网关将文件从公司的本地环境传输到 Amazon S3 存储桶。
数据工程师需要设置一个流程，该流程将在每次文件传输成功完成时自动启动 AWS Glue 工作流以运行一系列 AWS Glue 作业。
哪种解决方案可以以最少的运营开销满足这些要求？

A. 根据之前成功的文件传输确定文件传输通常何时完成。设置 Amazon EventBridge 计划事件以在一天中的该时间启动 AWS Glue 作业。

B. 设置 Amazon EventBridge 事件，在每次成功的 S3 文件网关文件传输事件后启动 AWS Glue 工作流。

C. 设置按需 AWS Glue 工作流，以便数据工程师可以在每次文件传输完成时启动 AWS Glue 工作流。

D. 设置一个将调用 AWS Glue 工作流的 AWS Lambda 函数。设置一个事件来创建 S3 对象作为 Lambda 函数的触发器。

答案：B

说明：
直接使用 EventBridge 在 S3 事件上触发 AWS Glue 工作流非常简单，并且利用了 AWS 的事件驱动架构，只需要极少的维护。

87 / 204

87.

No.87
一家零售公司使用 Amazon Aurora PostgreSQL 来处理和存储实时交易数据。该公司使用 Amazon Redshift 集群作为数据仓库。
每天早上都会运行提取、转换和加载 (ETL) 作业，以使用来自 PostgreSQL 数据库的新数据更新 Redshift 集群。该公司发展迅速，需要优化 Redshift 集群的成本。
数据工程师需要创建一个解决方案来存档历史数据。数据工程师必须能够运行分析查询，有效地结合来自 PostgreSQL 中的实时交易数据、Redshift 中的当前数据和存档的历史数据。该解决方案必须仅保留 Amazon Redshift 中最近 15 个月的数据以降低成本。
哪种步骤组合可以满足这些要求？（选择两个。）

A. 配置 Amazon Redshift 联合查询功能以查询 PostgreSQL 数据库中的实时交易数据。

B. 配置 Amazon Redshift Spectrum 以查询 PostgreSQL 数据库中的实时交易数据。

C. 安排每月一次的作业，使用 UNLOAD 命令将超过 15 个月的数据复制到 Amazon S3。从 Redshift 集群中删除旧数据。配置 Amazon Redshift Spectrum 以访问 Amazon S3 中的历史数据。

D. 安排每月一次的作业，使用 UNLOAD 命令将超过 15 个月的数据复制到 Amazon S3 Glacier Flexible Retrieval。从 Redshift 集群中删除旧数据。配置 Redshift Spectrum 以访问 S3 Glacier Flexible Retrieval 中的历史数据。

E. 在 Amazon Redshift 中创建一个物化视图，将来自不同来源的实时、当前和历史数据结合起来。

答案：A

说明：
选项 A (A)：配置 Amazon Redshift 联合查询允许 Redshift 直接查询 PostgreSQL 数据库中的实时事务数据，而无需导入它。这可确保您能够高效地访问最新的实时数据。

选项 C (C)：安排每月一次的作业将超过 15 个月的数据复制到 Amazon S3，然后使用 Amazon Redshift Spectrum 访问这些历史数据，这是一种经济高效的存储管理方式。这可确保 Amazon Redshift 中仅保留最近 15 个月的数据，从而降低存储成本。历史数据仍可通过 Redshift Spectrum 访问以进行分析查询。

88 / 204

88.

No.88
一家制造公司在世界各地的设施中拥有许多 IoT 设备。该公司使用 Amazon Kinesis Data Streams 从设备收集数据。数据包括设备 ID、捕获日期、测量类型、测量值和设施 ID。该公司使用设施 ID 作为分区键。
该公司的运营团队最近观察到许多 WriteThroughputExceeded 异常。运营团队发现一些分片使用率很高，但其他分片通常处于空闲状态。
公司应如何解决运营团队观察到的问题？

A. 将分区键从设施 ID 更改为随机生成的键。

B. 增加分片数量。

C. 在生产者端存档数据。

D. 将分区键从设施 ID 更改为捕获日期。

答案：A

说明：
解决分片使用不均衡和 WriteThroughputExceeded 异常问题的最佳解决方案是更均匀地平衡分片之间的负载。这可以通过将分区键更改为确保数据在分片之间更均匀分布的键来有效实现。

89 / 204

89.

No.89
一位数据工程师想要提高 Amazon Athena 中针对销售数据表运行的 SQL 查询的性能。
数据工程师想要了解特定 SQL 语句的执行计划。数据工程师还希望查看 SQL 查询中每个操作的计算成本。
数据工程师需要运行哪个语句才能满足这些要求？

A. EXPLAIN SELECT * FROM sales;

B. EXPLAIN ANALYZE FROM sales;

C. EXPLAIN ANALYZE SELECT * FROM sales;

D. EXPLAIN FROM sales;

答案：C

说明：
使用 EXPLAIN ANALIZE
https://docs.aws.amazon.com/athena/latest/ug/athena-explain-statement.html

A - 仅部分满足要求，因为它不包括计算成本。
B - 语法不正确，不符合要求。
C - 通过提供执行计划和计算成本完全满足要求。
D - 语法不正确，不符合要求。

90 / 204

90.

No.90
一家公司计划在 VPC 内配置日志传输流。该公司将 VPC 流日志配置为发布到 Amazon CloudWatch Logs。该公司需要近乎实时地将流日志发送到 Splunk 进行进一步分析。
哪种解决方案可以以最少的运营开销满足这些要求？

A. 配置 Amazon Kinesis Data Streams 数据流以使用 Splunk 作为目标。创建 CloudWatch Logs 订阅过滤器以将日志事件发送到数据流。

B. 创建 Amazon Kinesis Data Firehose 传输流以使用 Splunk 作为目标。创建 CloudWatch Logs 订阅过滤器以将日志事件发送到传输流。

C. 创建 Amazon Kinesis Data Firehose 传输流以使用 Splunk 作为目标。创建 AWS Lambda 函数以将流日志从 CloudWatch Logs 发送到传输流。

D. 配置 Amazon Kinesis Data Streams 数据流以使用 Splunk 作为目标。创建 AWS Lambda 函数以将流日志从 CloudWatch Logs 发送到数据流。

答案：B

说明：
Kinesis Data Firehose 内置了对 Splunk 作为目标的支持，使集成变得简单。将 CloudWatch Logs 订阅过滤器直接用于 Firehose 可简化数据流，无需额外的 Lambda 函数或自定义集成。

91 / 204

91.

No.91
一家公司在 AWS 上有一个数据湖。数据湖从业务部门提取数据源。该公司使用 Amazon Athena 进行查询。存储层是 Amazon S3，并使用 AWS Glue 数据目录作为元数据存储库。
该公司希望将数据提供给数据科学家和业务分析师。但是，该公司首先需要根据用户角色和职责管理 Athena 的细粒度、列级数据访问。
哪种解决方案可以满足这些要求？

A. 设置 AWS Lake Formation。在 Lake Formation 中按 IAM 角色为用户和应用程序定义基于安全策略的规则。

B. 为 AWS Glue 表定义基于 IAM 资源的策略。将相同的策略附加到 IAM 用户组。

C. 为 AWS Glue 表定义基于 IAM 身份的策略。将相同的策略附加到 IAM 角色。将 IAM 角色与包含用户的 IAM 组关联。

D. 在 AWS Resource Access Manager (AWS RAM) 中创建资源共享以授予 IAM 用户访问权限。

答案：A

说明：
AWS Lake Formation：此服务简化并自动化了保护和管理数据湖的过程。它允许您在数据库、表和列级别定义细粒度的访问控制策略。
基于安全策略的规则：Lake Formation 允许您创建指定哪些用户或角色可以访问特定数据的策略，包括列级访问控制。这使得根据角色和职责管理访问变得更加容易。

92 / 204

92.

No.92
一家公司开发了多个 AWS Glue 提取、转换和加载 (ETL) 作业来验证和转换来自 Amazon S3 的数据。ETL 作业每天一次将数据批量加载到 Amazon RDS for MySQL 中。ETL 作业使用 DynamicFrame 读取 S3 数据。
ETL 作业当前处理 S3 存储桶中的所有数据。但是，该公司希望作业仅处理每日增量数据。
哪种解决方案可以以最少的编码工作量满足此要求？

A. 创建一个读取 S3 文件状态并将状态记录在 Amazon DynamoDB 中的 ETL 作业。

B. 为 ETL 作业启用作业书签以在运行后更新状态，从而跟踪以前处理的数据。

C. 为 ETL 作业启用作业指标以帮助跟踪 Amazon CloudWatch 中已处理的对象。

D. 配置 ETL 作业以在每次运行后从 Amazon S3 中删除已处理的对象。

答案：B

说明：
AWS Glue 作业书签旨在通过自动跟踪状态来处理增量数据处理。

93 / 204

93.

No.93
一家在线零售公司有一个在 VPC 中的 Amazon EC2 实例上运行的应用程序。该公司希望收集 VPC 的流日志并分析网络流量。
哪种解决方案能够以最具成本效益的方式满足这些要求？

A. 将流日志发布到 Amazon CloudWatch Logs。使用 Amazon Athena 进行分析。

B. 将流日志发布到 Amazon CloudWatch Logs。使用 Amazon OpenSearch Service 集群进行分析。

C. 以文本格式将流日志发布到 Amazon S3。使用 Amazon Athena 进行分析。

D. 以 Apache Parquet 格式将流日志发布到 Amazon S3。使用 Amazon Athena 进行分析。

答案：D

说明：
流日志可以以 Parquet 格式发布到 S3：https://docs.aws.amazon.com/vpc/latest/userguide/flow-logs-s3.html#flow-logs-s3-path

94 / 204

94.

No.94
一家零售公司将交易、商店位置和客户信息表存储在四个预留 ra3.4xlarge Amazon Redshift 集群节点中。所有三个表都使用均匀表分布。
该公司每隔几年只更新一次或两次商店位置表。
一位数据工程师注意到 Redshift 队列正在变慢，因为整个商店位置表不断被广播到所有四个计算节点以进行大多数查询。数据工程师希望通过最小化商店位置表的广播来加快查询性能。
哪种解决方案将以最具成本效益的方式满足这些要求？

A. 将商店位置表的分布样式从均匀分布更改为全部分布。

B. 根据具有最高维度的列将商店位置表的分布样式更改为键分布。

C. 将名为 store_id 的连接列添加到所有表的排序键中。

D. 将 Redshift 预留节点升级到同一实例系列中的更大实例大小。

答案：A

说明：
将商店位置表的分布样式更改为全部分布 (A) 是最具成本效益的解决方案。它通过确保整个表在每个节点上都可用来直接解决广播问题，从而显着提高连接性能，而不会产生大量额外成本。

95 / 204

95.

No.95
一家公司有一个数据仓库，其中包含一个名为 Sales 的表。该公司将该表存储在 Amazon Redshift 中。该表包含一个名为 city_name 的列。该公司希望查询该表以查找 city_name 以“San”或“El”开头的所有行。
哪个 SQL 查询可以满足此要求？

A. 从 Sales 中选择 *，其中 city_name ~ ‘$(San|El)*’;

B. 从 Sales 中选择 *，其中 city_name ~ ‘^(San|El)*’;

C. 从 Sales 中选择 *，其中 city_name ~’$(San&El)*’;

D. 从 Sales 中选择 *，其中 city_name ~ ‘^(San&El)*’;

答案：B

说明：
供大家参考的正则表达式模式

. ：匹配任何单个字符。
* ：匹配零个或多个前一个元素。
+ ：匹配一个或多个前一个元素。
[abc] ：匹配任何括起来的字符。
[^abc] ：匹配任何未括起来的字符。
^ ：匹配字符串的开头。
$ ：匹配字符串的结尾。
| ：逻辑或运算符。
(abc) ：匹配“abc”并记住匹配。

96 / 204

96.

No.96
一家公司需要将客户呼叫数据从其本地 PostgreSQL 数据库发送到 AWS，以生成近乎实时的洞察。该解决方案必须从在 PostgreSQL 数据库中运行的操作数据存储中捕获和加载更新。数据不断变化。
数据工程师配置 AWS 数据库迁移服务 (AWS DMS) 持续复制任务。该任务从每个表的 PostgreSQL 源数据库事务日志中近乎实时地读取更改。然后，该任务将数据发送到 Amazon Redshift 集群进行处理。
数据工程师在任务的变更数据捕获 (CDC) 期间发现延迟问题。数据工程师认为 PostgreSQL 源数据库导致了高延迟。
哪种解决方案将确认 PostgreSQL 数据库是高延迟的来源？

A. 使用 Amazon CloudWatch 监控 DMS 任务。检查 CDCIncomingChanges 指标以识别来自源数据库的 CDC 中的延迟。

B. 验证是否在 postgresql.conf 配置文件中配置了源数据库的逻辑复制。

C. 为源数据库的 DMS 终端节点启用 Amazon CloudWatch Logs。检查错误消息。

D. 使用 Amazon CloudWatch 监控 DMS 任务。检查 CDCLatencySource 指标以确定来自源数据库的 CDC 中的延迟。

答案：D

说明：
CDCLatencySource 指标：此指标测量源数据库和 DMS 任务之间的延迟。它显示从源数据库的事务日志读取更改需要多长时间。

https://docs.aws.amazon.com/dms/latest/userguide/CHAP_Monitoring.html#CHAP_Monitoring.Metrics

97 / 204

97.

No.97
实验室使用 IoT 传感器监控项目的湿度、温度和压力。传感器每 10 秒发送 100 KB 数据。下游进程将每 30 秒从 Amazon S3 存储桶读取一次数据。
哪种解决方案将以最小的延迟将数据传送到 S3 存储桶？

A. 使用 Amazon Kinesis Data Streams 和 Amazon Kinesis Data Firehose 将数据传送到 S3 存储桶。使用 Kinesis Data Firehose 的默认缓冲间隔。

B. 使用 Amazon Kinesis Data Streams 将数据传送到 S3 存储桶。将流配置为使用 5 个预配置分片。

C. 使用 Amazon Kinesis Data Streams 并调用 Kinesis Client Library 将数据传送到 S3 存储桶。使用来自应用程序的 5 秒缓冲间隔。

D. 使用 Amazon Managed Service for Apache Flink（以前称为 Amazon Kinesis Data Analytics）和 Amazon Kinesis Data Firehose 将数据传送到 S3 存储桶。使用 Kinesis Data Firehose 的 5 秒缓冲间隔。

答案：C

说明：
C - 此选项通过使用较短的缓冲间隔（5 秒）来确保低延迟。使用 KCL 允许自定义处理逻辑并及时将数据传送到 S3。这使得它成为最小延迟的有力候选者。

D - 虽然此选项提供 5 秒缓冲间隔的低延迟，但它使用 Apache Flink 来完成看似简单的数据提取任务，从而引入了不必要的复杂性。对于给定的用例来说，此选项有点过度，可能会增加不必要的运营开销。

为什么不可能是 A？
https://aws.amazon.com/blogs/big-data/optimize-downstream-data-processing-with-amazon-data-firehose-and-amazon-emr-running-apache-spark/
它使用 Data Firehose + Kinesis Data Streams

98 / 204

98.

No.98
一家公司希望使用机器学习 (ML) 对 Amazon S3 数据湖中的数据进行分析。该公司有两个数据转换要求，这将使公司内的消费者能够创建报告。
该公司必须对 300 GB 的各种格式的数据进行每日转换，这些数据必须在预定的时间到达 Amazon S3。该公司必须对 S3 数据湖中的 TB 级存档数据进行一次性转换。该公司使用 Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 有向无环图 (DAG) 来协调处理。
公司应在 Amazon MWAA DAG 中安排哪种任务组合才能最经济高效地满足这些要求？（选择两个。）

A. 对于每日传入数据，使用 AWS Glue 爬虫扫描和识别模式。

B. 对于每日传入数据，使用 Amazon Athena 扫描和识别模式。

C. 对于每日传入数据，使用 Amazon Redshift 执行转换。

D. 对于每日和存档数据，使用 Amazon EMR 执行数据转换。

E. 对于存档数据，使用 Amazon SageMaker 执行数据转换。

答案：A、D

说明：
Glue 爬虫用于识别模式，EMR 用于对数据进行批处理。

A. 对于每日传入数据，使用 AWS Glue 爬虫扫描和识别模式。
D. 对于每日和存档数据，使用 Amazon EMR 执行数据转换。

原因如下：

A. AWS Glue 爬虫非常适合扫描和识别 S3 中数据的模式。它们对于每日传入数据具有成本效益和效率。
D. Amazon EMR 是一种经济高效的解决方案，可用于执行大规模数据转换。它可以高效处理 300 GB 数据的每日转换和 TB 级存档数据的一次性转换。

99 / 204

99.

No.99
一家零售公司使用 AWS Glue 对包含客户订单信息的数据集进行提取、转换和加载 (ETL) 操作。该公司希望实施特定的验证规则以确保数据的准确性和一致性。
哪种解决方案可以满足这些要求？

A. 使用 AWS Glue 作业书签来跟踪数据的准确性和一致性。

B. 创建自定义 AWS Glue 数据质量规则集来定义特定的数据质量检查。

C. 使用内置的 AWS Glue 数据质量转换进行标准数据质量验证。

D. 使用 AWS Glue 数据目录维护集中式数据架构和元数据存储库。

答案：B

说明：
自定义 AWS Glue 数据质量规则集允许您定义根据您的特定需求量身定制的精确数据质量检查，确保数据符合所需的准确性和一致性标准。这种方法提供了根据您的业务需求实施各种验证规则的灵活性。

100 / 204

100.

★No.100
一家保险公司存储了该公司使用 gzip 压缩的交易数据。
该公司需要查询交易数据以进行偶尔的审计。
哪种解决方案能够以最具成本效益的方式满足这一要求？

A. 将数据存储在 Amazon Glacier Flexible Retrieval 中。使用 Amazon S3 Glacier Select 查询数据。

B. 将数据存储在 Amazon S3 中。使用 Amazon S3 Select 查询数据。

C. 将数据存储在 Amazon S3 中。使用 Amazon Athena 查询数据。

D. 将数据存储在 Amazon Glacier Instant Retrieval 中。使用 Amazon Athena 查询数据。

101 / 204

101.

No.101
一位数据工程师完成了对 Amazon Redshift 存储过程的测试，该过程处理数据并将其插入到非关键任务表中。工程师希望每天自动运行存储过程。
哪种解决方案能够以最具成本效益的方式满足此要求？

A. 创建 AWS Lambda 函数来安排 cron 作业来运行存储过程。

B. 使用 Amazon EC2 Spot 实例中的 Amazon Redshift 数据 API 安排和运行存储过程。

C. 使用查询编辑器 v2 按计划运行存储过程。

D. 安排 AWS Glue Python shell 作业来运行存储过程。

答案：C

说明：
这可以通过查询编辑器 v2 实现（https://docs.aws.amazon.com/redshift/latest/mgmt/query-editor-v2-schedule-query.html）

102 / 204

102.

No.102
一家营销公司收集点击流数据。该公司将点击流数据发送到 Amazon Kinesis Data Firehose，并将点击流数据存储在 Amazon S3 中。该公司希望构建一系列仪表板，供来自多个部门的数百名用户使用。
该公司将使用 Amazon QuickSight 开发仪表板。该公司希望获得一种可扩展并提供有关点击流活动的每日更新的解决方案。
哪种步骤组合能够以最具成本效益的方式满足这些要求？（选择两个。）

A. 使用 Amazon Redshift 存储和查询点击流数据。

B. 使用 Amazon Athena 查询点击流数据

C. 使用 Amazon S3 分析查询点击流数据。

D. 通过 QuickSight 直接 SQL 查询访问查询数据。

E. 通过 QuickSight SPICE（超快速、并行、内存计算引擎）访问查询数据。为数据集配置每日刷新。

答案：B，E

解释：
B. 使用 Amazon Athena 查询点击流数据：Amazon Athena 允许您直接对存储在 Amazon S3 中的数据运行 SQL 查询，而无需复杂的 ETL 流程。它是查询 S3 上大型数据集的经济高效的解决方案。

E. 通过 QuickSight SPICE 访问查询数据：QuickSight SPICE 专为快速内存数据分析而设计，可以扩展以支持许多用户和大型数据集。通过配置每日刷新，您可以确保仪表板使用最新数据更新，同时保持查询性能高且成本低。

103 / 204

103.

No.103
数据工程师正在构建数据编排工作流。数据工程师计划使用混合模型，其中包括一些本地资源和一些云中的资源。数据工程师希望优先考虑可移植性和开源资源。
数据工程师应该在本地环境和基于云的环境中使用哪种服务？

A. AWS 数据交换

B. Amazon 简单工作流服务 (Amazon SWF)

C. Amazon Apache Airflow 托管工作流 (Amazon MWAA)

D. AWS Glue

答案：C

说明：
Amazon MWAA 是 Apache Airflow 的托管服务，它是一种开源工作流自动化工具。Apache Airflow 既可以在本地使用，也可以在云中使用，因此非常适合混合环境。使用 Amazon MWAA 允许数据工程师在云中利用托管服务，同时保持在本地使用相同开源 Airflow 设置的能力，确保跨环境的可移植性和一致性。

104 / 204

104.

No.104
一家游戏公司使用 NoSQL 数据库来存储客户信息。该公司正计划迁移到 AWS。
该公司需要一个完全托管的 AWS 解决方案，该解决方案将处理高在线事务处理 (OLTP) 工作负载，提供个位数毫秒级的性能，并在全球范围内提供高可用性。
哪种解决方案能够以最少的运营开销满足这些要求？

A. Amazon Keyspaces（适用于 Apache Cassandra）

B. Amazon DocumentDB（兼容 MongoDB）

C. Amazon DynamoDB

D. Amazon Timestream

答案：C

说明：
提供个位数毫秒级的性能 => DynamoDB

105 / 204

105.

No.105
数据工程师创建了一个 AWS Lambda 函数，Amazon EventBridge 事件将调用该函数。当数据工程师尝试使用 EventBridge 事件调用 Lambda 函数时，会出现 AccessDeniedException 消息。
数据工程师应如何解决异常？

A. 确保 Lambda 函数执行角色的信任策略允许 EventBridge 承担执行角色。

B. 确保 EventBridge 使用的 IAM 角色和 Lambda 函数的基于资源的策略都具有必要的权限。

C. 确保部署 Lambda 函数的子网配置为私有子网。

D. 确保 EventBridge 架构有效并且事件映射配置正确。

答案：B

说明：
基于 lambda 资源的策略必须允许事件原则调用 lambda 函数。 https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-run-lambda-schedule.html#eb-schedule-create-rule 和 https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-run-lambda-schedule.html#eb-schedule-create-rule Amazon SQS、Amazon SNS、Lambda、CloudWatch Logs 和 EventBridge 总线目标不使用角色，并且必须通过资源策略授予对 EventBridge 的权限。

106 / 204

106.

No.106
一家公司使用基于 Amazon S3 存储桶的数据湖。为了遵守法规，该公司必须对上传到 S3 存储桶的文件应用两层服务器端加密。该公司希望使用 AWS Lambda 函数来应用必要的加密。
哪种解决方案可以满足这些要求？

A. 使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密和 Amazon S3 加密客户端。

B. 使用带有 AWS KMS 密钥 (DSSE-KMS) 的双层服务器端加密。

C. 在上传文件之前使用带有客户提供的密钥 (SSE-C) 的服务器端加密。

D. 使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密。

答案：B

解释：
B. 使用带有 AWS KMS 密钥 (DSSE-KMS) 的双层服务器端加密。

使用 AWS KMS 密钥 (DSSE-KMS) 的双层服务器端加密专门设计用于应用两层加密以满足法规遵从性要求。这可确保存储在 Amazon S3 中的每个对象都经过两次加密，从而提供公司所需的额外安全层。

107 / 204

107.

No.107
数据工程师注意到 Amazon Athena 查询在运行之前被保留在队列中。
数据工程师如何防止查询排队？

A. 增加查询结果限制。

B. 为现有工作组配置预置容量。

C. 使用联合查询。

D. 允许运行 Athena 查询的用户加入现有工作组。

答案：B

说明：
Amazon Athena 中的预置容量允许您为工作组分配专用查询处理容量。这有助于确保您的查询在不被保留在队列中的情况下运行，从而提供更一致和可预测的性能。

108 / 204

108.

No.108
数据工程师需要调试从 Amazon S3 读取并写入 Amazon Redshift 的 AWS Glue 作业。数据工程师为 AWS Glue 作业启用了书签功能。
数据工程师已将 AWS Glue 作业的最大并发数设置为 1。
AWS Glue 作业已成功将输出写入 Amazon Redshift。但是，在 AWS Glue 作业的先前运行期间加载的 Amazon S3 文件正在后续运行中重新处理。
AWS Glue 作业重新处理文件的可能原因是什么？

A. AWS Glue 作业没有书签正常工作所需的 s3:GetObjectAcl 权限。

B. AWS Glue 作业的最大并发数设置为 1。

C. 数据工程师错误地为 Glue 作业指定了旧版本的 AWS Glue。

D. AWS Glue 作业没有必需的提交语句。

答案：D

说明：
AWS Glue 作业脚本中的“提交”语句是绝对必要的，以更新作业书签并正确跟踪已处理的数据，从而防止在再次运行作业时重新处理旧数据；本质上，如果您不包含提交语句，作业将不会记住它停止的位置，并且可能会多次处理数据。有关 job.commit() 的更多信息，请参考此文档 - https://docs.aws.amazon.com/glue/latest/dg/glue-troubleshooting-errors.html#error-job-bookmarks-reprocess-data

109 / 204

109.

No.109
一家电子商务公司希望使用 AWS 将数据管道从本地环境迁移到 AWS 云中。该公司目前在本地环境中使用第三方工具来协调数据提取流程。
该公司希望获得一种不需要公司管理服务器的迁移解决方案。该解决方案必须能够协调 Python 和 Bash 脚本。该解决方案不得要求公司重构任何代码。
哪种解决方案能够以最少的运营开销满足这些要求？

A. AWS Lambda

B. Amazon Managed Workflows for Apache Airflow (Amazon MVVAA)

C. AWS Step Functions

D. AWS Glue

答案：B

解释：
因为公司希望在本地使用相同的工具并减少运营开销。

110 / 204

110.

No.110
一家零售公司将来自产品生命周期管理 (PLM) 应用程序的数据存储在本地 MySQL 数据库中。当发生交易时，PLM 应用程序会频繁更新数据库。
该公司希望近乎实时地从 PLM 应用程序中收集见解。该公司希望将这些见解与其他业务数据集集成，并使用 Amazon Redshift 数据仓库分析组合数据集。
该公司已经在本地基础设施和 AWS 之间建立了 AWS Direct Connect 连接。
哪种解决方案能够以最少的开发工作量满足这些要求？

A. 运行计划的 AWS Glue 提取、转换和加载 (ETL) 作业，以使用 Java 数据库连接 (JDBC) 连接获取 MySQL 数据库更新。将 Amazon Redshift 设置为 ETL 作业的目标。

B. 在 AWS 数据库迁移服务 (AWS DMS) 中运行满载加 CDC 任务，以持续复制 MySQL 数据库更改。将 Amazon Redshift 设置为任务的目标。

C. 使用 Amazon AppFlow SDK 为 MySQL 数据库构建自定义连接器，以持续复制数据库更改。将 Amazon Redshift 设置为连接器的目标。

D. 运行计划的 AWS DataSync 任务以同步 MySQL 数据库中的数据。将 Amazon Redshift 设置为任务的目标。

答案：B

说明：
选项 B (AWS DMS) 最合适，开发工作量最少。 AWS DMS 支持具有 CDC 功能的持续数据复制，非常适合从 MySQL 到 Amazon Redshift 的近乎实时的数据集成。与自定义开发或计划的 ETL 作业相比，它可以处理架构转换并简化设置过程。鉴于现有的 AWS Direct Connect，AWS DMS 可以高效地将 MySQL 更新复制到 Redshift，延迟最小，满足公司对近乎实时的洞察集成的要求。因此，选项 B 是正确的选择。

111 / 204

111.

No.111
一家营销公司使用 Amazon S3 存储点击流数据。该公司每天结束时使用 SQL JOIN 子句查询存储在单独存储桶中的 S3 对象上的数据。
该公司根据对象创建关键绩效指标 (KPI)。该公司需要一个无服务器解决方案，使用户能够通过对数据进行分区来查询数据。该解决方案必须保持数据的原子性、一致性、隔离性和持久性 (ACID) 属性。
哪种解决方案能够以最具成本效益的方式满足这些要求？

A. Amazon S3 Select

B. Amazon Redshift Spectrum

C. Amazon Athena

D. Amazon EMR

答案：C

解释：
无服务器：Amazon Athena 是一种无服务器查询服务，允许您直接对存储在 Amazon S3 中的数据运行 SQL 查询，而无需管理基础设施。
分区：Athena 支持通过分区查询数据，通过限制扫描的数据量可以显著提高查询性能。
ACID 属性：尽管 Amazon S3 本身不提供 ACID 属性，但 Amazon Athena 通过其托管查询执行确保查询结果的一致性和存储在 S3 中的数据的持久性。
经济高效：使用 Amazon Athena，您只需为运行的查询和扫描的数据量付费，与管理基础设施或使用 Amazon Redshift Spectrum 或 Amazon EMR 等专用服务相比，这是一种经济高效的选择。

112 / 204

112.

No.112
一家公司希望从名为 Account_A 的 AWS 账户的 eu-east-1 区域中的 Amazon RDS for PostgreSQL DB 实例迁移数据。该公司将数据迁移到名为 Account_B 的 AWS 账户的 eu-west-1 区域中的 Amazon Redshift 集群。
哪种解决方案将使 AWS 数据库迁移服务 (AWS DMS) 能够在两个数据存储之间复制数据？

A. 在 eu-west-1 的 Account_B 中设置 AWS DMS 复制实例。

B. 在 eu-east-1 的 Account_B 中设置 AWS DMS 复制实例。

C. 在 eu-west-1 的新 AWS 账户中设置 AWS DMS 复制实例。

D. 在 eu-east-1 的 Account_A 中设置 AWS DMS 复制实例。

答案：A

说明：
Redshift 需要与复制实例位于同一区域，请参阅文档：
https://docs.aws.amazon.com/dms/latest/userguide/CHAP_Target.Redshift.html#CHAP_Target.Redshift.Prerequisites

113 / 204

113.

No.113
一家公司使用 Amazon S3 作为数据湖。该公司使用多节点 Amazon Redshift 集群设置数据仓库。该公司根据每个数据文件的数据源组织数据湖中的数据文件。
公司通过对每个数据文件位置使用单独的 COPY 命令将所有数据文件加载到 Redshift 集群中的一个表中。这种方法需要很长时间才能将所有数据文件加载到表中。公司必须提高数据提取速度。公司不想增加流程成本。
哪种解决方案可以满足这些要求？

A. 使用预配置的 Amazon EMR 集群将所有数据文件复制到一个文件夹中。使用 COPY 命令将数据加载到 Amazon Redshift 中。

B. 将所有数据文件并行加载到 Amazon Aurora 中。运行 AWS Glue 作业将数据加载到 Amazon Redshift 中。

C. 使用 AWS Give 作业将所有数据文件复制到一个文件夹中。使用 COPY 命令将数据加载到 Amazon Redshift 中。

D. 创建包含数据文件位置的清单文件。使用 COPY 命令将数据加载到 Amazon Redshift 中。

答案：D

解释：
https://docs.aws.amazon.com/redshift/latest/dg/c_best-practices-single-copy-command.html

114 / 204

114.

★No.114
一家公司计划使用 Amazon Kinesis Data Firehose 将数据存储在 Amazon S3 中。源数据由 2 MB .csv 文件组成。该公司必须将 .csv 文件转换为 JSON 格式。该公司必须将文件存储为 Apache Parquet 格式。
哪种解决方案能够以最少的开发工作量满足这些要求？

A. 使用 Kinesis Data Firehose 将 .csv 文件转换为 JSON。使用 AWS Lambda 函数将文件存储为 Parquet 格式。

B. 使用 Kinesis Data Firehose 将 .csv 文件转换为 JSON 并以 Parquet 格式存储文件。

C. 使用 Kinesis Data Firehose 调用 AWS Lambda 函数，将 .csv 文件转换为 JSON 并以 Parquet 格式存储文件。

D. 使用 Kinesis Data Firehose 调用 AWS Lambda 函数，将 .csv 文件转换为 JSON。使用 Kinesis Data Firehose 将文件存储为 Parquet 格式。

115 / 204

115.

No.115
一家公司正在使用 AWS Transfer Family 服务器将数据从本地环境迁移到 AWS。公司政策要求使用 TLS 1.2 或更高版本对传输中的数据进行加密。
哪种解决方案可以满足这些要求？

A. 为 Transfer Family 服务器生成新的 SSH 密钥。使旧密钥和新密钥可供使用。

B. 更新本地网络的安全组规则以仅允许使用 TLS 1.2 或更高版本的连接。

C. 更新 Transfer Family 服务器的安全策略以指定最低协议版本 TLS 1.2

D. 在 Transfer Family 服务器上安装 SSL 证书以使用 TLS 1.2 加密数据传输。

答案：C

说明：
一家公司正在使用 AWS Transfer Family 服务器将数据从本地环境迁移到 AWS。公司政策要求使用 TLS 1.2 或更高版本对传输中的数据进行加密。

116 / 204

116.

No.116
一家公司希望将应用程序和本地 Apache Kafka 服务器迁移到 AWS。该应用程序处理本地 Oracle 数据库发送到 Kafka 服务器的增量更新。该公司希望使用重新平台迁移策略而不是重构策略。
哪种解决方案能够以最少的管理开销满足这些要求？

A. Amazon Kinesis Data Streams

B. Amazon Managed Streaming for Apache Kafka (Amazon MSK) 预配置集群

C. Amazon Kinesis Data Firehose

D. Amazon Managed Streaming for Apache Kafka (Amazon MSK) 无服务器

答案：D

解释：
因为这是直接迁移和无服务器 - 因为管理开销最少

A. Amazon Kinesis Data Streams：这是用于提取和处理实时流数据的托管服务，但它需要为消息生产者和消费者进行单独的配置。对于最低管理开销来说并不理想。
B. Amazon Managed Streaming for Apache Kafka (Amazon MSK) 预配置集群：虽然 MSK 提供了熟悉的 Kafka 体验，但它需要管理底层基础设施，如集群扩展和配置。增加了管理开销。
C. Amazon Kinesis Data Firehose：此服务将实时数据传送到其他 AWS 目标，但它不是 Kafka 的直接替代品，需要额外的配置来复制数据流。
D. Amazon Managed Streaming for Apache Kafka (Amazon MSK) 无服务器：这是最合适的，因为它提供了完全托管的 Kafka 体验和自动扩展，并且无需管理服务器或基础设施。这与重新平台化策略完美契合，并最大限度地减少了管理开销。

117 / 204

117.

No.117
数据工程师正在使用 AWS Glue 构建自动提取、转换和加载 (ETL) 提取管道。管道提取 Amazon S3 存储桶中的压缩文件。提取管道必须支持增量数据处理。
数据工程师应使用哪种 AWS Glue 功能来满足此要求？

A. 工作流

B. 触发器

C. 作业书签

D. 分类器

答案：C

解释：

选项 C - AWS GLue 书签用于实现增量处理
增量处理：AWS Glue 中的作业书签有助于跟踪 Amazon S3 中数据的最后处理状态。它们使 ETL 作业能够在发生中断或后续运行的情况下从中断处恢复，从而确保仅处理自上次成功运行以来的新数据或修改的数据（增量处理）。
自动化 ETL：作业书签在 AWS Glue ETL 作业中无缝工作，允许作业高效地管理已处理数据的状态，而无需人工干预。
对压缩文件的支持：AWS Glue 原生支持从 Amazon S3 读取压缩文件，因此提取管道可以高效地处理压缩数据格式。

118 / 204

118.

No.118
一家银行公司使用应用程序收集大量交易数据。该公司使用 Amazon Kinesis Data Streams 进行实时分析。该公司的应用程序使用 PutRecord 操作将数据发送到 Kinesis Data Streams。
一位数据工程师观察到一天中某些时间的网络中断。数据工程师希望为整个处理管道配置一次交付。
哪种解决方案可以满足此要求？

A. 设计应用程序，使其能够在处理过程中通过在源中的每个记录中嵌入唯一 ID 来删除重复项。

B. 更新 Amazon Managed Service for Apache Flink（以前称为 Amazon Kinesis Data Analytics）数据收集应用程序的检查点配置，以避免重复处理事件。

C. 设计数据源，使事件不会多次被提取到 Kinesis Data Streams 中。

D. 停止使用 Kinesis Data Streams。改用 Amazon EMR。在 Amazon EMR 中使用 Apache Flink 和 Apache Spark Streaming。

答案：A

解释：
这种方法可确保即使由于网络中断或其他问题而多次发送记录，也只会处理一次，因为唯一 ID 可用于识别和删除任何重复项。这是在分布式系统中实现精确一次处理语义的常见模式。其他选项不能保证整个管道中的精确一次交付。选项 B 部分正确，但它只能避免在 Amazon Managed Service for Apache Flink 中重复处理，而不是在整个管道中重复处理。选项 C 并不总是可行的，因为网络问题和其他因素可能导致事件多次被提取到 Kinesis Data Streams 中。选项 D 涉及更改整个技术堆栈，这对于实现预期结果来说不是必需的，并且可能会带来额外的复杂性和成本。

119 / 204

119.

No.119
一家公司将日志存储在 Amazon S3 存储桶中。当数据工程师尝试访问多个日志文件时，数据工程师发现某些文件已被无意删除。
数据工程师需要一种解决方案来防止将来意外删除文件。
哪种解决方案可以满足此要求且操作开销最少？

A. 定期手动备份 S3 存储桶。

B. 为 S3 存储桶启用 S3 版本控制。

C. 为 S3 存储桶配置复制。

D. 使用 Amazon S3 Glacier 存储类来存档 S3 存储桶中的数据。

答案：B

说明：
S3 版本控制将对象的多个版本保存在同一个存储桶中。启用版本控制后，每次覆盖或删除对象时，都会创建该对象的新版本，并保留以前的版本。这可确保不会因意外删除或覆盖而永久丢失任何数据。

120 / 204

120.

No.120
一家电信公司每天以每秒数千个数据点的速度收集网络使用数据。该公司运行一个应用程序来实时处理使用数据。公司将数据汇总并存储在 Amazon Aurora DB 实例中。
网络使用率突然下降通常表示网络中断。公司必须能够识别网络使用率突然下降，以便公司能够立即采取补救措施。
哪种解决方案能够以最低的延迟满足此要求？

A. 创建 AWS Lambda 函数以查询 Aurora 以了解网络使用率下降情况。使用 Amazon EventBridge 每分钟自动调用 Lambda 函数。

B. 修改处理应用程序以将数据发布到 Amazon Kinesis 数据流。创建 Amazon Managed Service for Apache Flink（以前称为 Amazon Kinesis Data Analytics）应用程序以检测网络使用率下降情况。

C. 用 Amazon DynamoDB 表替换 Aurora 数据库。创建 AWS Lambda 函数以查询 DynamoDB 表以了解每分钟的网络使用率下降情况。在处理应用程序和 DynamoDB 表之间使用 DynamoDB Accelerator (DAX)。

D. 在 Aurora 的数据库活动流功能中创建一个 AWS Lambda 函数来检测网络使用率下降。

答案：B

解释：
关于 D，Aurora 中的数据库活动流主要用于审计数据库活动，而不是用于分析应用程序数据。
B. 修改处理应用程序以将数据发布到 Amazon Kinesis 数据流。创建一个 Amazon Managed Service for Apache Flink（以前称为 Amazon Kinesis Data Analytics）应用程序来检测网络使用率下降。
此方法可确保实时处理，延迟最小，并允许立即检测和响应网络使用率下降。

121 / 204

121.

No.121
数据工程师正在处理和分析 Amazon S3 中的数 TB 原始数据。数据工程师需要清理和准备数据。然后，数据工程师需要将数据加载到 Amazon Redshift 中进行分析。
数据工程师需要一个解决方案，使数据分析师能够执行复杂的查询。该解决方案必须消除执行复杂的提取、转换和加载 (ETL) 过程或管理基础设施的需要。
哪种解决方案可以以最少的运营开销满足这些要求？

A. 使用 Amazon EMR 准备数据。使用 AWS Step Functions 将数据加载到 Amazon Redshift。使用 Amazon QuickSight 运行查询。

B. 使用 AWS Glue DataBrew 准备数据。使用 AWS Glue 将数据加载到 Amazon Redshift。使用 Amazon Redshift 运行查询。

C. 使用 AWS Lambda 准备数据。使用 Amazon Kinesis Data Firehose 将数据加载到 Amazon Redshift。使用 Amazon Athena 运行查询。

D. 使用 AWS Glue 准备数据。使用 AWS 数据库迁移服务 (AVVS DMS) 将数据加载到 Amazon Redshift 中。使用 Amazon Redshift Spectrum 运行查询。

答案：B

解释：
不能是 D，因为 DMS 不支持 S3 作为源，而是 B，因为它实现了主题中描述的所有目标。

122 / 204

122.

No.122
一家公司使用 AWS Lambda 函数将文件从旧版 SFTP 环境传输到 Amazon S3 存储桶。Lambda 函数启用了 VPC，以确保 Lambda 函数与同一 VPC 环境中的其他 AVS 服务之间的所有通信都将通过安全网络进行。
Lambda 函数能够成功连接到 SFTP 环境。但是，当 Lambda 函数尝试将文件上传到 S3 存储桶时，Lambda 函数会返回超时错误。数据工程师必须以安全的方式解决超时问题。
哪种解决方案能够以最具成本效益的方式满足这些要求？

A. 在 VPC 的公共子网中创建 NAT 网关。将网络流量路由到 NAT 网关。

B. 为 Amazon S3 创建 VPC 网关终端节点。将网络流量路由到 VPC 网关终端节点。

C. 为 Amazon S3 创建 VPC 接口终端节点。将网络流量路由到 VPC 接口终端节点。

D. 使用 VPC 互联网网关连接到互联网。将网络流量路由到 VPC 互联网网关。

答案：B

说明：

选项 B - Amazon S3 的 VPC 网关终端节点
Amazon S3 的 VPC 网关终端节点
虽然接口终端节点是一种可行的解决方案，但与网关终端节点相比，它可能更复杂且更昂贵。VPC 接口终端节点按小时和每 GB 传输数据收费。

123 / 204

123.

No.123
一家公司从在 Amazon RDS 上运行的客户数据库中读取数据。数据库包含许多不一致的字段。例如，一个数据库中名为 place_id 的客户记录字段在另一个数据库中名为 location_id。公司需要跨不同数据库链接客户记录，即使客户记录字段不匹配。
哪种解决方案能够以最少的运营开销满足这些要求？

A. 创建一个预配置的 Amazon EMR 集群来处理和分析数据库中的数据。连接到 Apache Zeppelin 笔记本。使用 FindMatches 转换查找数据中的重复记录。

B. 创建 AWS Glue 爬虫程序来抓取数据库。使用 FindMatches 转换查找数据中的重复记录。通过评估性能和结果来评估和调整转换。

C. 创建 AWS Glue 爬虫程序来抓取数据库。使用 Amazon SageMaker 构建 Apache Spark ML 管道以查找数据中的重复记录。

D. 创建一个预配置的 Amazon EMR 集群来处理和分析数据库中的数据。连接到 Apache Zeppelin 笔记本。使用 Apache Spark ML 模型查找数据中的重复记录。通过评估性能和结果来评估和调整模型。

答案：B

解释：
自动发现 RDS 数据库中数据的模式和结构，节省大量手动工作。
创建可查询或转换的统一数据目录。

124 / 204

124.

No.124
一家金融公司从第三方数据提供商处接收数据，并将数据作为对象存储在 Amazon S3 存储桶中。
该公司对对象运行 AWS Glue 爬虫程序以创建数据目录。AWS Glue 爬虫程序创建了多个表。但是，该公司预计爬虫程序只会创建一个表。
该公司需要一个解决方案来确保 AVS Glue 爬虫程序只创建一个表。
哪种解决方案组合可以满足此要求？（选择两个。）

A. 确保每个对象的对象格式、压缩类型和架构相同。

B. 确保每个对象的对象格式和架构相同。不要强制每个对象的压缩类型的一致性。

C. 确保每个对象的架构相同。不要强制每个对象的文件格式和压缩类型的一致性。

D. 确保每个 S3 对象名称的前缀结构一致。

E. 确保所有 S3 对象名称都遵循类似的模式。

答案：A、D

说明：
为确保 AWS Glue 爬虫程序仅创建一个表并一致地处理对象格式、压缩类型、架构和前缀结构：
确保对象格式、压缩类型、架构和前缀结构一致
1. **一致的对象格式**：
- 确保 S3 存储桶中的所有对象都采用相同的格式（例如，CSV、JSON、Parquet）。

2. **一致的压缩类型**：
- 确保所有对象使用相同的压缩类型（例如，GZIP、Snappy）。

3. **一致的架构**：
- 确保所有对象都具有相同的架构（即，具有相同数据类型的相同字段）。

4. **一致的前缀结构**：
- 确保 S3 存储桶中的所有对象都遵循一致的命名约定和前缀结构（例如，`s3://your-bucket/path/to/data/`）。

125 / 204

125.

★No.125
应用程序使用来自 Amazon Simple Queue Service (Amazon SQS) 队列的消息。应用程序偶尔会遇到停机。停机会导致队列中的消息过期并在 1 天后被删除。消息删除会导致应用程序数据丢失。
哪些解决方案可以最大限度地减少应用程序的数据丢失？（选择两个。）

A. 增加消息保留期

B. 增加可见性超时。

C. 将死信队列 (DLQ) 附加到 SQS 队列。

D. 使用延迟队列延迟消息传递

E. 减少消息处理时间。

126 / 204

126.

No.126
一家公司正在创建近乎实时的仪表板来可视化时间序列数据。该公司将数据提取到 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 中。自定义数据管道使用数据。然后，管道将数据写入 Amazon Keyspaces（用于 Apache Cassandra）、Amazon OpenSearch Service 和 Amazon S3 中的 Apache Avro 对象。
哪种解决方案能够以最低的延迟使数据可用于数据可视化？

A. 使用来自 OpenSearch Service 的数据创建 OpenSearch 仪表板。

B. 使用带有 Apache Hive 元存储的 Amazon Athena 查询 Amazon S3 中的 Avro 对象。使用 Amazon Managed Grafana 连接到 Athena 并创建仪表板。

C. 使用 Amazon Athena 查询来自 Amazon S3 中的 Avro 对象的数据。将 Amazon Keyspaces 配置为数据目录。将 Amazon QuickSight 连接到 Athena 以创建仪表板。

D. 使用 AWS Glue 对数据进行分类。使用 S3 Select 查询 Amazon S3 中的 Avro 对象。将 Amazon QuickSight 连接到 S3 存储桶以创建仪表板。

答案：A

解释：

选项 A - 使用来自 OpenSearch 服务的数据创建 OpenSearch 仪表板是实现最低延迟的最佳选择。OpenSearch 专为低延迟数据检索和可视化而设计，使其成为近实时仪表板的理想选择。

127 / 204

127.

★No.127
数据工程师维护基于 Amazon Redshift 数据库的物化视图。该视图有一个名为 load_date 的列，用于存储每行加载的日期。
数据工程师需要通过从物化视图中删除所有行来回收数据库存储空间。
哪个命令将回收最多的数据库存储空间？

A. DELETE FROMmaterialized_view_name where 1=1

B. TRUNCATEmaterialized_view_name

C. VACUUM table_name where load_date<=current_date materializedview

D. DELETE FROMmaterialized_view_name where load_date<=current_date

128 / 204

128.

No.128
一家媒体公司希望使用 Amazon OpenSearch Service 分析有关流行音乐艺术家和歌曲的实时数据。该公司预计每天将接收数百万个新数据事件。新数据事件将通过 Amazon Kinesis 数据流到达。公司必须转换数据，然后将数据导入 OpenSearch Service 域。
公司应使用哪种方法来导入数据，同时降低运营开销？

A. 使用 Amazon Kinesis Data Firehose 和 AWS Lambda 函数转换数据并将转换后的数据传送给 OpenSearch Service。

B. 使用具有预建过滤器的 Logstash 管道转换数据并将转换后的数据传送给 OpenSearch Service。

C. 使用 AWS Lambda 函数调用 Amazon Kinesis Agent 转换数据并将转换后的数据传送给 OpenSearch Service。

D. 使用 Kinesis Client Library (KCL) 转换数据并将转换后的数据传送给 OpenSearch Service。

答案：A

说明：

选项 A - 使用 Amazon Kinesis Data Firehose 和 AWS Lambda 函数转换数据并将转换后的数据传送给 OpenSearch Service 是实现最低运营开销的最佳选择。 Kinesis Data Firehose 是一种托管服务，可自动执行数据提取过程、无缝扩展并直接与 OpenSearch Service 集成，从而最大限度地减少对手动干预和基础设施管理的需求。

129 / 204

129.

No.129
一家公司将包含客户地址的客户数据表存储在 AWS Lake Formation 数据湖中。为了遵守新法规，该公司必须确保用户无法访问位于加拿大的客户的数据。
该公司需要一个解决方案来阻止用户访问位于加拿大的客户的行。
哪种解决方案可以以最少的运营工作量满足此要求？

A. 设置行级过滤器以阻止用户访问国家/地区为加拿大的行。

B. 创建一个 IAM 角色，限制用户访问国家/地区为加拿大的地址。

C. 设置列级过滤器以阻止用户访问国家/地区为加拿大的行。

D. 将标签应用于所有国家/地区为加拿大的行。阻止标签等于“加拿大”的用户访问。

答案：A

解释：
行级安全性：AWS Lake Formation 提供内置的行级安全性，允许您根据条件控制对表中特定行的访问。这正是此场景所需要的。

最少的操作工作量：设置后，此过滤器将自动应用于所有查询，而无需修改数据或创建复杂的 IAM 策略。

可扩展性：随着新数据添加到表中，过滤器将自动应用，无需额外工作。

精确度：它通过阻止访问国家/地区为加拿大的行来直接满足要求，而不会影响其他数据。

130 / 204

130.

★No.130
一家公司在 Amazon Redshift 中实施了 Lake House 架构。该公司需要让用户能够使用第三方身份提供商 (IdP) 验证 Redshift 查询编辑器的身份。
数据工程师必须设置身份验证机制。
数据工程师应采取的第一步是什么来满足此要求？

A. 在 Redshift 集群的配置设置中将第三方 IdP 注册为身份提供商。

B. 在 Amazon Redshift 中将第三方 IdP 注册为身份提供商。

C. 将第三方 IdP 注册为 AVS Secrets Manager 的身份提供商。配置 Amazon Redshift 以使用 Secrets Manager 管理用户凭证。

D. 将第三方 IdP 注册为 AWS 证书管理器 (ACM) 的身份提供商。配置 Amazon Redshift 以使用 ACM 管理用户凭证。

131 / 204

131.

No.131
一家公司目前使用包含通用 Amazon EC2 实例的预配置 Amazon EMR 集群。 EMR 集群使用 EMR 托管扩展，在 1 到 5 个任务节点之间进行扩展，以完成公司长期运行的 Apache Spark 提取、转换和加载 (ETL) 作业。公司每天都会运行 ETL 作业。
当公司运行 ETL 作业时，EMR 集群会快速扩展到 5 个节点。EMR 集群通常会达到最大 CPU 使用率，但内存使用率仍低于 30%。
公司希望修改 EMR 集群配置，以降低运行每日 ETL 作业的 EMR 成本。
哪种解决方案能够以最具成本效益的方式满足这些要求？

A. 将 EMR 托管扩展的最大任务节点数增加到 10。

B. 将任务节点类型从通用 EC2 实例更改为内存优化的 EC2 实例。

C. 将任务节点类型从通用 Re 实例切换为计算优化的 EC2 实例。

D. 缩短已配置 EMR 集群的扩展冷却时间。

答案：C

解释：
由于 ETL 作业达到最大 CPU 使用率但未达到内存使用率，因此从通用实例切换到计算优化实例（例如 C5 或 C6g 实例）可以为 CPU 受限的工作负载提供更好的性价比。

132 / 204

132.

No.132
一家公司将 .csv 文件上传到 Amazon S3 存储桶。该公司的数据平台团队已设置 AWS Glue 爬虫来执行数据发现并创建表和架构。
AWS Glue 作业将处理后的数据从表写入 Amazon Redshift 数据库。AWS Glue 作业处理列映射并在 Redshift 数据库中适当地创建 Amazon Redshift 表。
如果公司出于任何原因重新运行 AWS Glue 作业，则会将重复记录引入 Amazon Redshift 表中。该公司需要一个可以更新 Redshift 表而不产生重复的解决方案。
哪种解决方案可以满足这些要求？

A. 修改 AWS Glue 作业以将行复制到暂存 Redshift 表中。添加 SQL 命令以使用暂存 Redshift 表中的新值更新现有行。

B. 修改 AWS Glue 作业以将先前插入的数据加载到 MySQL 数据库中。在 MySQL 数据库中执行 upsert 操作。将结果复制到 Amazon Redshift 表。

C. 使用 Apache Spark 的 DataFrame dropDuplicates() API 消除重复项。将数据写入 Redshift 表。

D. 使用 AWS Glue ResolveChoice 内置转换从最新记录中选择列的值。

答案：A

说明：
两步方法涉及创建暂存表，然后使用 Redshift 的合并语句从暂存表更新目标表，最后截断/维护暂存表。

133 / 204

133.

No.133
一家公司正在使用 Amazon Redshift 构建数据仓库解决方案。该公司正在将数百个文件加载到 Redshift 集群中的事实表中。
该公司希望数据仓库解决方案实现尽可能大的吞吐量。当公司将数据加载到事实表中时，解决方案必须以最佳方式使用集群资源。
哪种解决方案可以满足这些要求？

A. 使用多个 COPY 命令将数据加载到 Redshift 集群中。

B. 使用 S3DistCp 将多个文件加载到 Hadoop 分布式文件系统 (HDFS)。使用 HDFS 连接器将数据导入 Redshift 集群。

C. 使用与 Redshift 集群节点数相等的 INSERT 语句数。将数据并行加载到每个节点中。

D. 使用单个 COPY 命令将数据加载到 Redshift 集群中。

答案：D

说明：
单个 COPY 命令会自动在 Redshift 集群中的所有节点上并行执行加载操作。这可确保最佳地利用集群资源。

134 / 204

134.

No.134
一家公司从多个数据源提取数据并将数据存储在 Amazon S3 存储桶中。AWS Glue 提取、转换和加载 (ETL) 作业转换数据并将转换后的数据写入基于 Amazon S3 的数据湖。该公司使用 Amazon Athena 查询数据湖中的数据。
即使记录没有通用的唯一标识符，公司也需要识别匹配的记录。
哪种解决方案可以满足此要求？

A. 使用 Amazon Macie 模式匹配作为 ETL 作业的一部分。

B. 在 ETL 作业中训练并使用 AWS Glue PySpark Filter 类。

C. 对表进行分区并使用 ETL 作业根据唯一标识符对数据进行分区。

D. 在 ETL 作业中训练并使用 AWS Lake Formation FindMatches 转换。

答案：D

解释：
AWS Lake Formation 提供机器学习功能来创建自定义转换以清理数据。目前有一个名为 FindMatches 的可用转换。FindMatches 转换使您能够识别数据集中的重复或匹配记录，即使记录没有通用唯一标识符并且没有完全匹配的字段。这不需要编写任何代码或了解机器学习的工作原理。

135 / 204

135.

No.135
数据工程师正在使用 AWS Glue 爬虫程序对 Amazon S3 存储桶中的数据进行分类。S3 存储桶包含 .csv 和 json 文件。数据工程师将爬虫程序配置为从目录中排除 .json 文件。
当数据工程师在 Amazon Athena 中运行查询时，查询还会处理排除的 .json 文件。数据工程师想要解决这个问题。数据工程师需要一个不会影响源 S3 存储桶中 .csv 文件的访问要求的解决方案。
哪种解决方案可以以最短的查询时间满足此要求？

A. 调整 AWS Glue 爬虫程序设置，以确保 AWS Glue 爬虫程序也排除 .json 文件。

B. 使用 Athena 控制台确保 Athena 查询也排除 .json 文件。

C. 将 .json 文件重新定位到 S3 存储桶内的其他路径。

D. 使用 S3 存储桶策略阻止对 .json 文件的访问。

答案：C

说明：
Athena 无法识别您为 AWS Glue 爬虫程序指定的排除模式。例如，如果您有一个包含 .csv 和 .json 文件的 Amazon S3 存储桶，并且您从爬虫程序中排除 .json 文件，则 Athena 会查询这两组文件。为避免这种情况，请将要排除的文件放在其他位置。
https://docs.aws.amazon.com/athena/latest/ug/troubleshooting-athena.html

136 / 204

136.

No.136
数据工程师设置了一个 AWS Lambda 函数来读取存储在 Amazon S3 存储桶中的对象。该对象由 AWS KMS 密钥加密。
数据工程师配置了 Lambda 函数的执行角色以访问 S3 存储桶。但是，Lambda 函数遇到错误，无法检索对象的内容。
错误的可能原因是什么？

A. 数据工程师错误配置了 S3 存储桶的权限。Lambda 函数无法访问该对象。

B. Lambda 函数使用的是过时的 SDK 版本，导致读取失败。

C. S3 存储桶位于与数据工程师工作区域不同的 AWS 区域。延迟问题导致 Lambda 函数遇到错误。

D. Lambda 函数的执行角色没有访问可解密 S3 对象的 KMS 密钥所需的权限。

答案：D

解释：
Lambda 函数配置为访问 S3 存储桶：数据工程师已经设置了 Lambda 函数的执行角色以访问 S3 存储桶。这意味着基本 S3 访问权限可能已到位。

对象使用 KMS 密钥加密：这是一个关键细节。当 S3 中的对象使用 KMS 密钥加密时，任何尝试读取该对象的实体都需要两组权限：a. 访问 S3 存储桶和对象的权限 b. 使用特定 KMS 密钥进行解密的权限

尝试检索内容时发生错误：这表明 Lambda 函数可能可以看到该对象（因为它具有 S3 访问权限），但在尝试读取其内容时失败。

要解决此问题，数据工程师应授予 Lambda 函数的执行角色所需的 KMS 权限。具体来说，为用于加密 S3 对象的 KMS 密钥添加“kms:Decrypt”权限。

137 / 204

137.

No.137
一位数据工程师在 1,000 个 AWS Glue 数据目录表中实施了数据质量规则。由于业务需求最近发生变化，数据工程师必须编辑数据质量规则。
数据工程师应如何以最少的运营开销满足此要求？

A. 在 AWS Glue ETL 中创建一个管道，以编辑 1,000 个数据目录表中每个表的规则。使用 AWS Lambda 函数为每个数据目录表调用相应的 AWS Glue 作业。

B. 创建一个 AWS Lambda 函数，该函数对 AWS Glue 数据质量进行 API 调用以进行编辑。

C. 创建 Amazon EMR 集群。在 Amazon EMR 上运行一个管道，该管道编辑每个数据目录表的规则。使用 AWS Lambda 函数运行 EMR 管道。

D. 使用 AWS 管理控制台编辑数据目录中的规则。

答案：B

说明：
创建一个 AWS Lambda 函数，该函数对 AWS Glue Data Quality 进行 API 调用以进行编辑。

138 / 204

138.

No.138
两位开发人员正在开发单独的应用程序版本。开发人员已使用 GitHub 存储库的主分支作为源，创建了名为分支 A 和分支 B 的功能分支。
分支 A 的开发人员将代码部署到生产系统。分支 B 的代码将在下一周的预定应用程序发布中合并到主分支中。
在向主分支提出拉取请求之前，分支 B 的开发人员应该运行哪个命令？

A. git diff branchB master git commit -m

B. git pull master

C. git rebase master

D. git fetch -b master

答案：C

说明：
将分支 B 重新定位到更新的主分支上可确保分支 B 包含主分支中的所有最新更改（包括从分支 A 部署到生产的更改）。

通过将分支 B 的提交置于最新的主分支提交之上，它有助于维护线性、干净的历史记录。

这种方法降低了拉取请求最终合并到主分支时发生合并冲突的可能性。

它使代码审查过程更容易，因为拉取请求中的所有更改都是相关的和最新的。

通过使用 git rebase master，开发人员在创建拉取请求之前确保分支 B 与主分支中的所有更改（包括来自分支 A 的更改）保持同步。这种方法有助于维护干净、线性的历史记录，并降低合并过程中发生冲突的可能性。

139 / 204

139.

★No.139
一家公司将员工数据存储在 Amazon Resdshift 中。名为 Employee 的表使用名为 Region ID、Department ID 和 Role ID 的列作为复合排序键。
哪些查询将通过使用表的复合排序键最大程度地提高查询速度？（选择两个。）

A. 从 Employee 中选择 *，其中 Region ID='North America'；

B. 从 Employee 中选择 *，其中 Region ID='North America' 和 Department ID=20；

C. 从 Employee 中选择 *，其中 Department ID=20 和 Region ID='North America'；

D. 从 Employee 中选择 *，其中 Role ID=50；

E. 从 Employee 中选择 *，其中 Region ID='North America' 和 Role ID=50；

140 / 204

140.

No.140
一家公司从位于世界各地的测试机构收到测试结果。该公司将测试结果存储在 Amazon S3 存储桶中的数百万个 1 KB JSON 文件中。数据工程师需要处理文件，将其转换为 Apache Parquet 格式，然后将其加载到 Amazon Redshift 表中。数据工程师使用 AWS Glue 来处理文件，使用 AWS Step Functions 来编排流程，并使用 Amazon EventBridge 来安排作业。
该公司最近增加了更多测试设施。处理文件所需的时间正在增加。数据工程师必须减少数据处理时间。
哪种解决方案将最大程度地减少数据处理时间？

A. 使用 AWS Lambda 将原始输入文件分组为更大的文件。将较大的文件写回 Amazon S3。使用 AWS Glue 处理文件。将文件加载到 Amazon Redshift 表中。

B. 使用 AWS Glue 动态框架文件分组选项提取原始输入文件。处理文件。将文件加载到 Amazon Redshift 表中。

C. 使用 Amazon Redshift COPY 命令将原始输入文件从 Amazon S3 直接移动到 Amazon Redshift 表中。在 Amazon Redshift 中处理文件。

D. 使用 Amazon EMR 而不是 AWS Glue 对原始输入文件进行分组。在 Amazon EMR 中处理文件。将文件加载到 Amazon Redshift 表中。

答案：B

解释：
关键要求是减少存储在 Amazon S3 中的数百万个小型 JSON 文件的处理时间。解决方案需要解决大量小文件导致的效率低下问题，同时利用现有的 AWS Glue 和 Amazon Redshift 设置。

141 / 204

141.

No.141
数据工程师使用 Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 在 AWS 账户中运行数据管道。
工作流最近运行失败。数据工程师需要使用 Apache Airflow 日志来诊断工作流的故障。
数据工程师应该使用哪种日志类型来诊断故障原因？

A. YourEnvironmentName-WebServer

B. YourEnvironmentName-Scheduler

C. YourEnvironmentName-DAGProcessing

D. YourEnvironmentName-Task

答案：D

说明：
https://pupuweb.com/amazon-dea-c01-which-apache-airflow-log-type-should-you-use-to-diagnose-workflow-failures-in-amazon-mwaa/

当工作流无法在 Amazon MWAA 中运行时，任务日志（YourEnvironmentName-Task）与诊断问题最为相关。任务日志包含有关工作流中各个任务执行的详细信息，包括任何错误消息或堆栈跟踪，可帮助查明失败原因。

142 / 204

142.

No.142
一家金融公司使用 Amazon Redshift 作为数据仓库。该公司将数据存储在共享的 Amazon S3 存储桶中。该公司使用 Amazon Redshift Spectrum 访问存储在 S3 存储桶中的数据。数据来自经过认证的第三方数据提供商。每个第三方数据提供商都有唯一的连接详细信息。
为了遵守法规，公司必须确保公司 AWS 环境之外的任何数据都无法访问。
公司应采取哪些步骤组合来满足这些要求？（选择两个。）

A. 将现有的 Redshift 集群替换为私有子网中的新 Redshift 集群。使用接口 VPC 终端节点连接到 Redshift 集群。使用 NAT 网关授予 Redshift 对 S3 存储桶的访问权限。

B. 为每个数据提供商创建一个 AWS CloudHSM 硬件安全模块 (HSM)。使用每个数据提供商的相应 HSM 加密每个数据提供商的数据。

C. 为 Amazon Redshift 集群启用增强型 VPC 路由。设置 AWS Direct Connect 连接并配置每个数据提供商与财务公司的 VPC 之间的连接。

D. 定义主键和外键的表约束。

E. 使用联合查询访问来自每个数据提供商的数据。不要将数据上传到 S3 存储桶。通过网关 VPC 端点执行联合查询。

答案：A、C

说明：

选项 A - 将现有 Redshift 集群替换为私有子网中的新 Redshift 集群。使用接口 VPC 端点连接到 Redshift 集群。使用 NAT 网关授予 Redshift 对 S3 存储桶的访问权限。

选项 C - 为 Amazon Redshift 集群启用增强 VPC 路由。设置 AWS Direct Connect 连接并配置每个数据提供商与财务公司的 VPC 之间的连接。

143 / 204

143.

No.143
来自多个数据源的文件定期到达 Amazon S3 存储桶。当新文件到达 S3 存储桶时，数据工程师希望近乎实时地将新文件导入 Amazon Redshift。
哪种解决方案可以满足这些要求？

A. 使用查询编辑器 v2 安排 COPY 命令将新文件加载到 Amazon Redshift 中。

B. 使用 Amazon Aurora 和 Amazon Redshift 之间的零 ETL 集成将新文件加载到 Amazon Redshift 中。

C. 使用 AWS Glue 作业书签将新文件提取、转换和加载 (ETL) 到 Amazon Redshift 中。

D. 使用 S3 事件通知调用 AWS Lambda 函数将新文件加载到 Amazon Redshift 中。

答案：D

说明：
上传时触发将是最快的选项。

144 / 204

144.

No.144
一家科技公司目前使用 Amazon Kinesis Data Streams 实时收集日志数据。该公司希望使用 Amazon Redshift 进行下游实时查询并丰富日志数据。
哪种解决方案可以以最低的运营开销将数据导入 Amazon Redshift？

A. 设置 Amazon Kinesis Data Firehose 传输流以将数据发送到 Redshift 预置的集群表。

B. 设置 Amazon Kinesis Data Firehose 传输流以将数据发送到 Amazon S3。配置 Redshift 预置的集群以每分钟加载一次数据。

C. 配置 Amazon Managed Service for Apache Flink（以前称为 Amazon Kinesis Data Analytics）以将数据直接发送到 Redshift 预置的集群表。

D. 使用 Amazon Redshift 流式导入来自 Kinesis Data Streams 并将数据呈现为物化视图。

答案：D

说明：
Amazon Redshift 支持从 Amazon Kinesis Data Streams 进行流式导入。Amazon Redshift 流式导入功能可将 Amazon Kinesis Data Streams 中的流数据以低延迟、高速导入到 Amazon Redshift 物化视图中。 Amazon Redshift 流式提取功能消除了在提取到 Amazon Redshift 之前将数据暂存在 Amazon S3 中的需要。

链接：https://docs.aws.amazon.com/streams/latest/dev/using-other-services-redshift.html

145 / 204

145.

No.145
一家公司在本地 Oracle 数据库中维护一个数据仓库。该公司希望在 AWS 上构建一个数据湖。该公司希望将数据仓库表加载到 Amazon S3 中，并将表与每天从数据仓库到达的增量数据同步。
每个表都有一个包含单调递增值的列。每个表的大小小于 50 GB。数据仓库表每天晚上 1 点到 2 点之间刷新一次。商业智能团队每天上午 10 点到晚上 8 点查询表格。
哪种解决方案将以最高效的方式满足这些要求？

A. 使用 AWS 数据库迁移服务 (AWS DMS) 满载加 CDC 作业将包含单调递增数据列的表从本地数据仓库加载到 Amazon S3。使用 AWS Glue 中的自定义逻辑将每日增量数据附加到 Amazon S3 中的满载副本。

B. 使用 AWS Glue Java 数据库连接 (JDBC) 连接。为包含单调递增值的列配置作业书签。编写自定义逻辑以将每日增量数据附加到 Amazon S3 中的满载副本。

C. 使用 AWS Database Migration Service (AWS DMS) 满载迁移每天将数据仓库表加载到 Amazon S3 中。每天覆盖前一天的满载副本。

D. 使用 AWS Glue 每天将数据仓库表的完整副本加载到 Amazon S3 中。每天覆盖前一天的满载副本。

答案：A

说明：
使用 AWS Database Migration Service (AWS DMS) 满载加 CDC 作业将包含单调递增数据列的表从本地数据仓库加载到 Amazon S3。

146 / 204

146.

No.146
一家公司正在为新的分析团队构建数据湖。该公司使用 Amazon S3 进行存储，使用 Amazon Athena 进行查询分析。Amazon S3 中的所有数据均为 Apache Parquet 格式。
该公司正在数据中心运行一个新的 Oracle 数据库作为源系统。该公司在 Oracle 数据库中有 70 个表。所有表都有主键。源系统中的数据偶尔会发生变化。该公司希望每天将表导入数据湖。
哪种解决方案可以以最少的努力满足此要求？

A. 在 Amazon EMR 中创建一个 Apache Sqoop 作业以从 Oracle 数据库读取数据。配置 Sqoop 作业以将数据以 Parquet 格式写入 Amazon S3。

B. 创建与 Oracle 数据库的 AWS Glue 连接。创建 AWS Glue 书签作业以增量提取数据并以 Parquet 格式将数据写入 Amazon S3。

C. 创建 AWS Database Migration Service (AWS DMS) 任务以进行持续复制。将 Oracle 数据库设置为源。将 Amazon S3 设置为目标。配置任务以 Parquet 格式写入数据。

D. 在 Amazon RDS 中创建 Oracle 数据库。使用 AWS 数据库迁移服务 (AWS DMS) 将本地 Oracle 数据库迁移到 Amazon RDS。在表上配置触发器以调用 AWS Lambda 函数将更改的记录以 Parquet 格式写入 Amazon S3。

答案：C

说明：

选项 C - 您可以使用 S3 作为目标并将文件配置为 Parquet 格式 https://docs.aws.amazon.com/dms/latest/userguide/CHAP_Target.S3.html

147 / 204

147.

No.147
一家运输公司希望通过捕获地理位置记录来跟踪车辆移动。记录大小为 10 字节。该公司每秒最多收到 10,000 条记录。由于网络条件不可靠，数据传输延迟几分钟是可以接受的。
运输公司希望使用 Amazon Kinesis Data Streams 来提取地理位置数据。该公司需要一种可靠的机制来将数据发送到 Kinesis Data Streams。公司需要最大限度地提高 Kinesis 分片的吞吐效率。
哪种解决方案能够以最高效的方式满足这些要求？

A. Kinesis 代理

B. Kinesis 生产器库 (KPL)

C. Amazon Kinesis Data Firehose

D. Kinesis SDK

答案：B

说明：
KPL 会自动将多个记录分批并聚合为单个有效负载，然后再将其发送到 Kinesis Data Streams。这减少了发送的记录数量并优化了分片吞吐量使用率。

148 / 204

148.

No.148
一家投资公司需要管理不断增长的大量半结构化数据并从中提取见解。
数据工程师需要对半结构化数据进行重复数据删除，删除重复的记录，并删除常见的重复拼写错误。
哪种解决方案能够以最少的运营开销满足这些要求？

A. 使用 AWS Glue 的 FindMatches 功能删除重复记录。

B. 使用 Amazon Athena 中的非 Windows 函数删除重复记录。

C. 使用 Amazon Neptune ML 和 Apache Gremlin 脚本删除重复记录。

D. 使用 Amazon DynamoDB 的全局表功能防止重复数据。

答案：A

解释：

选项 A - 其他选项很愚蠢，几乎没有意义

149 / 204

149.

No.149
一家公司正在构建库存管理系统和库存重新订购系统以自动重新订购产品。两个系统都使用 Amazon Kinesis Data Streams。库存管理系统使用 Amazon Kinesis 生产器库 (KPL) 将数据发布到流中。库存重新排序系统使用 Amazon Kinesis 客户端库 (KCL) 从流中使用数据。公司将流配置为根据需要进行扩展和缩减。
在公司将系统部署到生产环境之前，公司发现库存重新排序系统收到了重复的数据。
哪些因素可能导致重新排序系统收到重复的数据？（选择两个。）

A. 生产器遇到与网络相关的超时。

B. 流的 IteratorAgeMilliseconds 指标值过高。

C. 分片数量、记录处理器数量或两者均发生变化。

D. AggregationEnabled 配置属性设置为 true。

E. max_records 配置属性设置为过高的数字。

答案：A、C

解释：
https://docs.aws.amazon.com/streams/latest/dev/kinesis-record-processor-duplicates.html
消费者可能会因网络超时而添加重复项。
生产者可能会因分片和记录处理器相关的更改而使用重复项。

150 / 204

150.

No.150
一家电子商务公司运营着一个复杂的订单履行流程，该流程涵盖了 AWS 中托管的多个操作系统。每个操作系统都有一个符合 Java 数据库连接 (JDBC) 的关系数据库，用于捕获最新的处理状态。
该公司需要让运营团队能够在整个履行过程中每小时跟踪订单。
哪种解决方案能够以最少的开发开销满足这些要求？

A. 使用 AWS Glue 构建从操作系统到 Amazon Redshift 的提取管道在 Amazon QuickSight 中构建跟踪订单的仪表板。

B. 使用 AWS Glue 构建从操作系统到 Amazon DynamoD 的提取管道在 Amazon QuickSight 中构建跟踪订单的仪表板。

C. 使用 AWS 数据库迁移服务 (AWS DMS) 捕获操作系统中更改的记录。将更改发布到与源数据库不同的 AWS 区域中的 Amazon DynamoDB 表。构建跟踪订单的 Grafana 仪表板。

D. 使用 AWS 数据库迁移服务 (AWS DMS) 捕获操作系统中更改的记录。将更改发布到与源数据库不同的 AWS 区域中的 Amazon DynamoDB 表。构建跟踪订单的 Amazon QuickSight 仪表板。

答案：A

解释：
DynamoDB 并非设计用于支持关系数据库。但是 Redshift 可以。

https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/build-an-etl-service-pipeline-to-load-data-incrementally-from-amazon-s3-to-amazon-redshift-using-aws-glue.html

151 / 204

151.

No.151
数据工程师需要使用 Amazon Neptune 开发图形应用程序。
工程师应该使用哪些编程语言来开发图形应用程序？（选择两个。）

A. Gremlin

B. SQL

C. ANSI SQL

D. SPARQL

E. Spark SQL

答案：A、D

说明：
https://docs.aws.amazon.com/neptune/latest/userguide/access-graph-queries.html

152 / 204

152.

No.152
一家移动游戏公司希望从其游戏应用程序中捕获数据。该公司希望将数据提供给三个内部数据消费者。数据记录的大小约为 20 KB。
该公司希望从运行游戏应用程序的每台设备实现最佳吞吐量。此外，该公司还希望开发一个应用程序来处理数据流。流处理应用程序必须为每个内部消费者提供专用的吞吐量。
哪种解决方案可以满足这些要求？

A. 配置移动应用程序以调用 PutRecords API 操作将数据发送到 Amazon Kinesis Data Streams。使用增强的扇出功能为每个内部消费者提供一个流。

B. 配置移动应用程序以调用 PutRecordBatch API 操作将数据发送到 Amazon Kinesis Data Firehose。提交 AWS Support 案例以启用公司 AWS 账户的专用吞吐量。允许每个内部消费者访问该流。

C. 配置移动应用程序以使用 Amazon Kinesis Producer Library (KPL) 将数据发送到 Amazon Kinesis Data Firehose。使用增强的扇出功能为每个内部消费者提供一个流。

D. 配置移动应用程序以调用 PutRecords API 操作将数据发送到 Amazon Kinesis Data Streams。在 Amazon EC2 实例上为每个内部消费者托管流处理应用程序。为 EC2 实例配置自动扩展。

答案：A

解释：
A 是最好的，但我认为它应该是每个消费者的一个 SHARD。
B - 没有任何意义
C - 据我所知，Firehose 没有增强的扇出
D - 没有专用吞吐量，因为它不使用 KDS 的增强扇出

153 / 204

153.

No.153
一家零售公司使用 Amazon Redshift 数据仓库和 Amazon S3 存储桶。该公司每天都将零售订单数据提取到 S3 存储桶中。
该公司将所有订单数据存储在 S3 存储桶内的单个路径上。数据有 100 多列。该公司从第三方应用程序中提取订单数据，该应用程序每天生成 30 多个 CSV 格式的文件。每个 CSV 文件的大小在 50 到 70 MB 之间。
该公司使用 Amazon Redshift Spectrum 运行选择列集的查询。用户根据每日订单汇总指标。最近，用户报告查询的性能下降了。数据工程师必须解决查询的性能问题。
哪种步骤组合可以以最少的开发工作量满足此要求？（选择两个。）

A. 配置第三方应用程序以创建列格式的文件。

B. 开发 AWS Glue ETL 作业，将多个每日 CSV 文件转换为每天一个文件。

C. 根据订单日期对 S3 存储桶中的订单数据进行分区。

D. 配置第三方应用程序以创建 JSON 格式的文件。

E. 将 JSON 数据加载到 Amazon Redshift 表中的 SUPER 类型列中。

答案：A、C

说明：
https://docs.aws.amazon.com/redshift/latest/dg/r_SUPER_type.html

154 / 204

154.

No.154
一家公司将客户记录存储在 Amazon S3 中。在创建每条记录后的 7 年内，公司不得删除或修改客户记录数据。根用户也不能删除或修改数据。
数据工程师希望使用 S3 对象锁定来保护数据。
哪种解决方案可以满足这些要求？

A. 在 S3 存储桶上启用治理模式。使用 7 年的默认保留期。

B. 在 S3 存储桶上启用合规模式。使用 7 年的默认保留期。

C. 对 S3 存储桶中的单个对象进行合法保留。将保留期设置为 7 年。

D. 将 S3 存储桶中单个对象的保留期设置为 7 年。

答案：B

解释：
“在合规模式下，任何用户（包括 AWS 账户中的根用户）都无法覆盖或删除受保护的对象版本。当对象在合规模式下被锁定时，其保留模式无法更改，其保留期也无法缩短。合规模式有助于确保在保留期内无法覆盖或删除对象版本。”

https://aws.amazon.com/s3/features/object-lock/

155 / 204

155.

No.155
数据工程师需要在 Amazon Athena 中创建一个新的空表，该表具有与名为 old_table 的现有表相同的架构。
数据工程师应使用哪条 SQL 语句来满足此要求？

A. CREATE TABLE new_table AS SELECT * FROM old_tables;

B. INSERT INTO new_table SELECT * FROM old_table;

C. CREATE TABLE new_table (LIKE old_table);

D. CREATE TABLE new_table AS (SELECT * FROM old_table) WITH NO DATA;

答案：D

解释：
AS 子句允许您根据 SELECT 语句定义新表的架构。

末尾的 WITH NO DATA 子句明确告诉 Athena 创建表结构而不复制任何数据。

有关更多信息，请参阅本文档中的“创建现有表的空副本”部分 - https://docs.aws.amazon.com/athena/latest/ug/ctas-examples.html

156 / 204

156.

No.156
数据工程师需要根据现有 Athena 表 cities_world 中的数据子集创建 Amazon Athena 表。 cities_world 表包含位于世界各地的城市。数据工程师必须创建一个名为 cities_us 的新表，以仅包含 cities_world 中位于美国的城市。
数据工程师应该使用哪个 SQL 语句来满足此要求？

A. 插入 cities_usa (city,state) SELECT city, state FROM cities_world WHERE country=’usa’;

B. 移动 city, state FROM cities_world 至 cities_usa WHERE country=’usa’;

C. 插入 cities_usa SELECT city, state FROM cities_world WHERE country=’usa’;

D. 更新 cities_usa SET (city, state) = (SELECT city, state FROM cities_world WHERE country=’usa’);

答案：A

解释：
插入 cities_usa (city,state)
SELECT city,state
FROM cities_world
WHERE country='usa'

157 / 204

157.

★No.157
一家公司实施了一个具有中央治理账户的数据网格。该公司需要对治理账户中的所有数据进行分类。治理账户使用 AWS Lake Formation 集中共享数据并授予访问权限。
该公司创建了一个新的数据产品，其中包括一组 Amazon Redshift Serverless 表。数据工程师需要与营销团队共享数据产品。营销团队必须只能访问部分列。数据工程师需要与合规团队共享相同的数据产品。合规团队必须能够访问与营销团队需要访问的不同部分列。
数据工程师应采取哪种步骤组合来满足这些要求？（选择两个。）

A. 创建需要共享的表的视图。仅包含所需的列。

B. 创建包含需要共享的表的 Amazon Redshift 数据共享。

C. 在营销团队的账户中创建一个 Amazon Redshift 托管 VPC 终端节点。授予营销团队对视图的访问权限。

D. 将 Amazon Redshift 数据共享共享到治理账户中的 Lake Formation 目录。

E. 将 Amazon Redshift 数据共享共享到营销团队账户中的 Amazon Redshift Serverless 工作组。

158 / 204

158.

No.158
一家公司在 Amazon S3 中有一个数据湖。该公司使用 AWS Glue 对数据进行分类，并使用 AWS Glue Studio 实施数据提取、转换和加载 (ETL) 管道。
该公司需要确保每次运行管道时都会检查数据质量问题。数据工程师必须增强现有管道，以根据预定义的阈值评估数据质量规则。
哪种解决方案可以以最少的实施工作量满足这些要求？

A. 向每个 Glue ETL 作业添加由 SQL 查询定义的新转换。使用 SQL 查询实施包含需要评估的数据质量规则的规则集。

B. 向每个 Glue ETL 作业添加新的评估数据质量转换。使用数据质量定义语言 (DQDL) 实现包含需要评估的数据质量规则的规则集。

C. 为每个 Glue ETL 作业添加新的自定义转换。使用 PyDeequ 库实现包含需要评估的数据质量规则的规则集。

D. 为每个 Glue ETL 作业添加新的自定义转换。使用 Great Expectations 库实现包含需要评估的数据质量规则的规则集。

答案：B

说明：
https://docs.aws.amazon.com/glue/latest/dg/tutorial-data-quality.html

AWS Glue Data Quality 与数据质量定义语言 (DQDL) 配合使用来定义数据质量规则。

159 / 204

159.

No.159
一家公司有一个使用微服务架构的应用程序。该公司在 Amazon Elastic Kubernetes Services (Amazon EKS) 集群上托管该应用程序。
该公司希望为该应用程序建立一个强大的监控系统。公司需要分析来自 EKS 集群和应用程序的日志。公司需要将集群的日志与应用程序的跟踪关联起来，以识别整个应用程序请求流程中的故障点。
哪种步骤组合能够以最少的开发工作量满足这些要求？（选择两个。）

A. 使用 FluentBit 收集日志。使用 OpenTelemetry 收集跟踪。

B. 使用 Amazon CloudWatch 收集日志。使用 Amazon Kinesis 收集跟踪。

C. 使用 Amazon CloudWatch 收集日志。使用 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 收集跟踪。

D. 使用 Amazon OpenSearch 关联日志和跟踪。

E. 使用 AWS Glue 关联日志和跟踪。

答案：A、D

解释：
https://aws.amazon.com/blogs/big-data/part-1-microservice-observability-with-amazon-opensearch-service-trace-and-log-correlation/

160 / 204

160.

No.160
一家公司有一个游戏应用程序，它将数据存储在 Amazon DynamoDB 表中。数据工程师需要将游戏数据导入 Amazon OpenSearch Service 集群。数据更新必须近乎实时。
哪种解决方案可以满足这些要求？

A. 使用 AWS Step Functions 定期将数据从 Amazon DynamoDB 表导出到 Amazon S3 存储桶。使用 AWS Lambda 函数将数据加载到 Amazon OpenSearch Service 中。

B. 配置 AWS Glue 作业，使源为 Amazon DynamoDB，目标为 Amazon OpenSearch Service，以便近乎实时地传输数据。

C. 使用 Amazon DynamoDB Streams 捕获表更改。使用 AWS Lambda 函数处理和更新 Amazon OpenSearch Service 中的数据。

D. 使用自定义 OpenSearch 插件同步来自 Amazon DynamoDB 表的数据。

答案：C

说明：
https://docs.aws.amazon.com/opensearch-service/latest/developerguide/configure-client-ddb.html

DynamoDB 支持*近乎实时*的项级变更数据捕获记录流式传输

161 / 204

161.

No.161
一家公司使用 Amazon Redshift 作为其数据仓库服务。数据工程师需要设计一个物理数据模型。
数据工程师遇到了一个正在增长的非规范化表。该表没有合适的列用作分配键。
数据工程师应该使用哪种分配方式来满足这些要求，同时减少维护开销？

A. 全部分配

B. 均匀分配

C. 自动分配

D. 键分配

答案：C

说明：
使用自动分配，Amazon Redshift 根据表数据的大小分配最佳分配方式。例如，如果指定了 AUTO 分配样式，Amazon Redshift 最初会将 ALL 分配样式分配给小表。当表变大时，Amazon Redshift 可能会将分配样式更改为 KEY，选择主键（或复合主键的列）作为分配键。如果表变大并且没有任何列适合作为分配键，Amazon Redshift 会将分配样式更改为 EVEN。分配样式的更改发生在后台，对用户查询的影响最小。

162 / 204

162.

No.162
一家零售公司正在全球扩展其业务。该公司需要使用 Amazon QuickSight 准确计算财务报告的货币汇率。该公司有一个现有的仪表板，其中包含基于对包含全球货币值和汇率的数据集的分析的视觉效果。
数据工程师需要确保汇率的计算精度为小数点后四位。计算必须预先计算。数据工程师必须在 QuickSight 超快速、并行、内存计算引擎 (SPICE) 中实现结果。
哪种解决方案可以满足这些要求？

A. 在数据集中定义并创建计算字段。

B. 在分析中定义并创建计算字段。

C. 在可视化中定义并创建计算字段。

D. 在仪表板中定义并创建计算字段。

答案：A

说明：
https://docs.aws.amazon.com/quicksight/latest/user/adding-a-calculated-field-analysis.html

163 / 204

163.

★No.163
一家公司有三家子公司。每家子公司使用不同的数据仓库解决方案。第一家子公司将其数据仓库托管在 Amazon Redshift 中。第二家子公司在 AWS 上使用 Teradata Vantage。第三家子公司使用 Google BigQuery。
该公司希望将所有数据汇总到中央 Amazon S3 数据湖中。该公司希望使用 Apache Iceberg 作为表格式。
数据工程师需要构建一条新管道以连接到所有数据源，使用每个源引擎运行转换，连接数据并将数据写入 Iceberg。
哪种解决方案可以以最少的运营工作量满足这些要求？

A. 使用本机 Amazon Redshift、Teradata 和 BigQuery 连接器在 AWS Glue 中构建管道。使用本机 AWS Glue 转换来连接数据。在数据湖 Iceberg 表上运行合并操作。

B. 使用适用于 Amazon Redshift、Teradata 和 BigQuery 的 Amazon Athena 联合查询连接器在 Athena 中构建管道。编写 SQL 查询以从所有数据源读取数据，连接数据，并在数据湖 Iceberg 表上运行合并操作。

C. 使用本机 Amazon Redshift 连接器、Teradata 的 Java 数据库连接 (JDBC) 连接器和开源 Apache Spark BigQuery 连接器在 Amazon EMR 中构建管道。在 PySpark 中编写代码以连接数据。在数据湖 Iceberg 表上运行合并操作。

D. 使用 Amazon Appflow 中的本机 Amazon Redshift、Teradata 和 BigQuery 连接器将数据写入 Amazon S3 和 AWS Glue 数据目录。使用 Amazon Athena 连接数据。在数据湖 Iceberg 表上运行合并操作。

164 / 204

164.

No.164
一家公司正在构建数据流处理应用程序。该应用程序在 Amazon Elastic Kubernetes Service (Amazon EKS) 集群中运行。该应用程序将处理后的数据存储在 Amazon DynamoDB 表中。
该公司需要 EKS 集群中的应用程序容器能够安全地访问 DynamoDB 表。公司不想在容器中嵌入 AWS 凭证。
哪种解决方案可以满足这些要求？

A. 将 AWS 凭证存储在 Amazon S3 存储桶中。授予 EKS 容器对 S3 存储桶的访问权限以检索凭证。

B. 将 IAM 角色附加到 EKS 工作节点，授予 IAM 角色对 DynamoD 的访问权限。使用 IAM 角色设置 IAM 角色服务账户 (IRSA) 功能。

C. 创建具有访问密钥的 IAM 用户以访问 DynamoDB 表。使用 EKS 容器中的环境变量来存储 IAM 用户访问密钥数据。

D. 创建具有访问密钥的 IAM 用户以访问 DynamoDB 表。使用安装在 EKS 群集节点卷中的 Kubernetes 密钥来存储用户访问密钥数据。

答案：B

解释：
https://docs.aws.amazon.com/eks/latest/userguide/create-node-role.html
https://docs.aws.amazon.com/eks/latest/userguide/iam-roles-for-service-accounts.html

165 / 204

165.

No.165
数据工程师需要将新的数据生产者加入 AWS。数据生产者需要将数据产品迁移到 AWS。
数据生产者维护许多支持业务应用程序的数据管道。每个管道都必须具有服务帐户及其相应的凭据。数据工程师必须建立从数据生产者的本地数据中心到 AWS 的安全连接。数据工程师不得使用公共互联网将数据从本地数据中心传输到 AWS。
哪种解决方案可以满足这些要求？

A. 指示新的数据生产者在 Amazon Elastic Container Service (Amazon ECS) 上创建 Amazon 系统映像 (AMI) 来存储应用程序的代码库。在公共子网中创建安全组，仅允许连接到本地数据中心。

B. 创建到本地数据中心的 AWS Direct Connect 连接。将服务帐户凭证存储在 AWS Secrets Manager 中。

C. 在公共子网中创建安全组。将安全组配置为仅允许来自与数据生产者相对应的 CIDR 块的连接。创建包含具有一天到期日期的预签名 URL 的 Amazon S3 存储桶。

D. 创建到本地数据中心的 AWS Direct Connect 连接。将应用程序密钥存储在 AWS Secrets Manager 中。创建包含具有一天到期日期的预签名 URL 的 Amazon S3 存储桶。

答案：B

说明：
Direct Connect + Secret Manager
对于不受成本限制的安全连接，请始终考虑 Direct Connect。

166 / 204

166.

★No.166
数据工程师为存储在 Amazon S3 存储桶中的数据配置了 AWS Glue 数据目录。数据工程师需要配置数据目录以接收增量更新。
数据工程师为 S3 存储桶设置事件通知，并创建 Amazon Simple Queue Service (Amazon SQS) 队列以接收 S3 事件。
数据工程师应采取哪些步骤组合来以最少的运营开销满足这些要求？（选择两个。）

A. 创建基于 S3 事件的 AWS Glue 爬虫程序以使用来自 SQS 队列的事件。

B. 定义基于时间的计划来运行 AWS Glue 爬虫程序，并对数据目录执行增量更新。

C. 使用 AWS Lambda 函数根据 SQS 队列收到的 S3 事件直接更新数据目录。

D. 当 S3 存储桶发生更改时，手动启动 AWS Glue 爬虫程序以对数据目录执行更新。

E. 使用 AWS Step Functions 根据 SQS 队列收到的 S3 事件来协调更新数据目录的过程。

167 / 204

167.

No.167
一家公司使用 AWS Glue 数据目录来索引每天上传到 Amazon S3 存储桶的数据。该公司在提取、转换和加载 (ETL) 管道中使用每日批处理流程将数据从外部源上传到 S3 存储桶。
该公司每天运行 S3 数据报告。有时，公司会在所有每日数据上传到 S3 存储桶之前运行报告。数据工程师必须能够向现有的 Amazon Simple Notification Service (Amazon SNS) 主题发送一条消息，以识别任何不完整的数据。
哪种解决方案可以以最少的运营开销满足此要求？

A. 为每日报告使用的源数据集创建数据质量检查。创建一个新的 AWS 托管 Apache Airflow 集群。使用 Airflow 任务运行数据质量检查，这些任务对列数据类型和空值的存在运行数据质量查询。配置 Airflow 有向无环图 (DAG)，向 SNS 主题发送电子邮件通知，通知数据工程师数据集不完整。

B. 对每日报告使用的源数据集创建数据质量检查。创建一个新的 Amazon EMR 集群。使用 Apache Spark SQL 在 EMR 集群中创建 Apache Spark 作业，这些作业对列数据类型和空值的存在运行数据质量查询。使用 AWS Step Functions 工作流编排 ETL 管道。配置工作流以向 SNS 主题发送电子邮件通知，通知数据工程师数据集不完整。

C. 对每日报告使用的源数据集创建数据质量检查。使用 AWS Glue 工作流创建数据质量操作以确认数据集的完整性和一致性。配置数据质量操作以在数据集不完整时在 Amazon EventBridge 中创建事件。配置 EventBridge 以向 Amazon SNS 主题发送事件，通知数据工程师数据集不完整。

D. 创建 AWS Lambda 函数，对列数据类型和空值的存在运行数据质量查询。使用运行 Lambda 函数的 AWS Step Functions 工作流编排 ETL 管道。配置 Step Functions 工作流以发送电子邮件通知，通知数据工程师有关 SNS 主题的不完整数据集。

答案：C

解释：
C 最低运营开销。

https://aws.amazon.com/blogs/big-data/set-up-alerts-and-orchestrate-data-quality-rules-with-aws-glue-data-quality/

168 / 204

168.

No.168
一家公司将包含个人身份信息 (PII) 的客户数据存储在 Amazon Redshift 集群中。该公司的营销、索赔和分析团队需要能够访问客户数据。
营销团队应该有权访问模糊的索赔信息，但应该可以完全访问客户联系信息。索赔团队应该有权访问团队处理的每个索赔的客户信息。分析团队应该只能访问模糊的 PII 数据。
哪种解决方案将以最少的管理开销强制执行这些数据访问要求？

A. 为每个团队创建一个单独的 Redshift 集群。仅为每个团队加载所需的数据。根据团队限制对集群的访问。

B. 创建包含每个数据要求所需字段的视图。仅授予团队对每个团队所需的视图的访问权限。

C. 为每个团队创建一个单独的 Amazon Redshift 数据库角色。分别定义适用于每个团队的屏蔽策略。将适当的屏蔽策略附加到每个团队角色。

D. 将客户数据移动到 Amazon S3 存储桶。使用 AWS Lake Formation 创建数据湖。使用细粒度的安全功能授予每个团队访问数据的适当权限。

说明：
C 是最好的方法，因为 Redshift 具有动态数据屏蔽功能：
https://docs.aws.amazon.com/redshift/latest/dg/t_ddm.html

这是唯一符合最少操作和屏蔽信息的答案。

169 / 204

169.

No.169
一家金融公司最近为其移动应用程序添加了更多功能。新功能要求公司在现有的 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 集群中创建新主题。
公司添加新主题几天后，Amazon CloudWatch 对 MSK 集群的 RootDiskUsed 指标发出警报。
公司应如何处理 CloudWatch 警报？

A. 扩展 MSK 代理的存储。将 MSK 集群存储配置为自动扩展。

B. 扩展 Apache ZooKeeper 节点的存储。

C. 将 MSK 代理实例更新为更大的实例类型。重新启动 MSK 集群。

D. 为现有主题指定目标卷（以 GiB 为单位）参数。

答案：A

说明：
https://docs.aws.amazon.com/msk/latest/developerguide/metrics-details.html

“RootDiskUsed”是代理使用的根磁盘百分比。扩展存储并启用自动扩展似乎是最好的选择。

170 / 204

170.

No.170
数据工程师需要根据公司的 Amazon S3 存储桶和 Amazon RDS 数据库构建企业数据目录。数据目录必须包含目录中数据的存储格式元数据。
哪种解决方案可以以最少的努力满足这些要求？

A. 使用 AWS Glue 爬虫扫描 S3 存储桶和 RDS 数据库并构建数据目录。使用数据管理员检查数据并使用数据格式更新数据目录。

B. 使用 AWS Glue 爬虫构建数据目录。使用 AWS Glue 爬虫分类器识别数据的格式并将格式存储在目录中。

C. 使用 Amazon Macie 构建数据目录并识别敏感数据元素。从 Macie 收集数据格式信息。

D. 使用脚本扫描数据元素并根据数据格式分配数据分类。

答案：B

说明：
https://docs.aws.amazon.com/glue/latest/dg/catalog-and-crawler.html

https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html

171 / 204

171.

No.171
一家公司每季度分析数据湖中的数据以进行库存评估。数据工程师使用 AWS Glue DataBrew 检测数据中有关客户的任何个人身份信息 (PII)。该公司的隐私政策将某些自定义类别的信息视为 PII。但是，这些类别不包含在标准 DataBrew 数据质量规则中。
数据工程师需要修改当前流程，以扫描数据湖中多个数据集中的自定义 PII 类别。
哪种解决方案能够以最少的运营开销满足这些要求？

A. 手动检查自定义 PII 类别的数据。

B. 在 DataBrew 中实施自定义数据质量规则。将自定义规则应用于数据集。

C. 开发自定义 Python 脚本以检测自定义 PII 类别。从 DataBrew 调用脚本。

D. 实施正则表达式模式以在提取转换期间从字段中提取 PII 信息，并将 (ETL) 操作加载到数据湖中。

答案：B

说明：
https://aws.amazon.com/blogs/big-data/enforce-customized-data-quality-rules-in-aws-glue-databrew/

172 / 204

172.

No.172
一家公司每天在 Amazon S3 存储桶中从合作伙伴处收到一个数据文件。该公司使用每日 AWS Glue 提取、转换和加载 (ETL) 管道来清理和转换每个数据文件。ETL 管道的输出将写入第二个 S3 存储桶中名为 Daily.csv 的 CSV 文件。
有时，每日数据文件为空或缺少必填字段的值。当文件缺少数据时，公司可以使用前一天的 CSV 文件。
数据工程师需要确保只有当新的每日文件完整且有效时才会覆盖前一天的数据文件。
哪种解决方案可以以最少的努力满足这些要求？

A. 调用 AWS Lambda 函数来检查文件中是否存在缺失数据并在必填字段中填写缺失值。

B. 配置 AWS Glue ETL 管道以使用 AWS Glue 数据质量规则。使用数据质量定义语言 (DQDL) 制定规则，以检查必填字段和空文件中的缺失值。

C. 使用 AWS Glue Studio 更改 ETL 管道中的代码，以使用每个字段最常见的值填充必填字段中的任何缺失值。

D. 在 Amazon Athena 中运行 SQL 查询以读取 CSV 文件并删除缺失的行。将更正后的 CSV 文件复制到第二个 S3 存储桶。

答案：B

说明：
https://docs.aws.amazon.com/glue/latest/dg/glue-data-quality.html

173 / 204

173.

No.173
一家营销公司使用 Amazon S3 存储营销数据。该公司在某些存储桶中使用版本控制。该公司运行多个作业来读取数据并将其加载到存储桶中。
为了帮助优化存储成本，该公司希望收集有关 S3 存储桶中存在的不完整分段上传和过时版本的信息。
哪种解决方案能够以最少的运营工作量满足这些要求？

A. 使用 AWS CLI 收集信息。

B. 使用 Amazon S3 库存配置报告收集信息。

C. 使用 Amazon S3 Storage Lens 仪表板收集信息。

D. 使用 Amazon S3 的 AWS 使用情况报告收集信息。

答案：C

说明：
Amazon S3 Storage Lens 提供 S3 存储使用情况和活动的全面视图。它包括与不完整的分段上传、对象的过时版本和其他存储特征相关的指标和见解。

https://docs.aws.amazon.com/AmazonS3/latest/userguide/storage_lens.html

174 / 204

174.

No.174
一家游戏公司使用 Amazon Kinesis Data Streams 收集点击流数据。该公司使用 Amazon Data Firehose 传输流将数据以 JSON 格式存储在 Amazon S3 中。该公司的数据科学家使用 Amazon Athena 查询最新数据以获取业务见解。
该公司希望降低 Athena 成本，但不想重新创建数据管道。
哪种解决方案能够以最少的管理工作量满足这些要求？

A. 将 Firehose 输出格式更改为 Apache Parquet。提供自定义 S3 对象 YYYYMMDD 前缀表达式并指定较大的缓冲区大小。对于现有数据，创建 AWS Glue 提取、转换和加载 (ETL) 作业。配置 ETL 作业以合并小型 JSON 文件，将 JSON 文件转换为大型 Parquet 文件，并添加 YYYYMMDD 前缀。使用 ALTER TABLE ADD PARTITION 语句反映现有 Athena 表上的分区。

B. 创建一个 Apache Spark 作业，该作业合并 JSON 文件并将 JSON 文件转换为 Apache Parquet 文件。每天启动 Amazon EMR 临时集群以运行 Spark 作业以在不同的 S3 位置创建新的 Parquet 文件。使用 ALTER TABLE SET LOCATION 语句在现有 Athena 表上反映新的 S3 位置。

C. 创建 Kinesis 数据流作为 Firehose 的传输目标。使用 Amazon Managed Service for Apache Flink（以前称为 Amazon Kinesis Data Analytics）在 Kinesis 数据流上运行 Apache Flink。使用 Flink 聚合数据并将数据以 Apache Parquet 格式保存到 Amazon S3，并使用自定义 S3 对象 YYYYMMDD 前缀。使用 ALTER TABLE ADD PARTITION 语句在现有 Athena 表上反映分区。

D. 将 AWS Lambda 函数与 Firehose 集成，以将源记录转换为 Apache Parquet 并将其写入 Amazon S3。同时，运行 AWS Glue 提取、转换和加载 (ETL) 作业以合并 JSON 文件并将 JSON 文件转换为大型 Parquet 文件。创建自定义 S3 对象 YYYYMMDD 前缀。使用 ALTER TABLE ADD PARTITION 语句将分区反映在现有的 Athena 表上。

答案：A

说明：
如果您有 JSON，Firehose 应该可以转换它，而无需 Lambda。

将 Firehose 输出格式更改为 Apache Parquet。提供自定义 S3 对象 YYYYMMDD 前缀表达式并指定较大的缓冲区大小。对于现有数据，创建 AWS Glue 提取、转换和加载 (ETL) 作业。配置 ETL 作业以合并小型 JSON 文件，将 JSON 文件转换为大型 Parquet 文件，并添加 YYYYMMDD 前缀。使用 ALTER TABLE ADD PARTITION 语句反映现有 Athena 表上的分区。

175 / 204

175.

No.175
一家公司需要一个解决方案来管理现有 Amazon DynamoDB 表的成本。该公司还需要控制表的大小。该解决方案不得中断任何正在进行的读取或写入操作。该公司希望使用一种在 1 个月后自动从表中删除数据的解决方案。
哪种解决方案可以满足这些要求且持续维护最少？

A. 使用 DynamoDB TTL 功能根据时间戳自动使数据过期。

B. 配置计划的 Amazon EventBridge 规则以调用 AWS Lambda 函数来检查超过 1 个月的数据。配置 Lambda 函数以删除旧数据。

C. 在 DynamoDB 表上配置流以调用 AWS Lambda 函数。配置 Lambda 函数以删除表中超过 1 个月的数据。

D. 使用 AWS Lambda 函数定期扫描 DynamoDB 表中超过 1 个月的数据。配置 Lambda 函数以删除旧数据。

答案：A

说明：
https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/TTL.html
DynamoDB TTL 将根据您的配置方式自动删除项目。

176 / 204

176.

★No.176
一家公司使用 Amazon S3 存储数据，使用 Amazon QuickSight 创建可视化，
该公司在名为 Hub-Account 的 AWS 账户中有一个 S3 存储桶。S3 存储桶由 AWS 密钥管理服务 (AWS KMS) 密钥加密。该公司的 QuickSight 实例位于名为 BI-Account 的单独账户中。
该公司更新 S3 存储桶策略以授予 QuickSight 服务角色访问权限。该公司希望启用跨账户访问以允许 QuickSight 与 S3 存储桶交互。
哪种步骤组合可以满足此要求？（选择两个。）

A. 使用现有的 AWS KMS 密钥加密从 QuickSight 到 S3 存储桶的连接。

B. 将 S3 存储桶添加为 QuickSight 服务角色可以访问的资源。

C. 使用 AWS 资源访问管理器 (AWS RAM) 与 BI-Account 账户共享 S3 存储桶。

D. 向 QuickSight 服务角色添加 IAM 策略，以授予 QuickSight 访问加密 S3 存储桶的 KMS 密钥的权限。

E. 将 KMS 密钥添加为 QuickSight 服务角色可以访问的资源。

177 / 204

177.

No.177
一家汽车销售公司维护着某个地区待售汽车的数据。该公司从供应商处收到有关新车列表的数据，供应商每天将数据作为压缩文件上传到 Amazon S3。压缩文件大小最多为 5 KB。该公司希望在数据上传到 Amazon S3 后立即看到最新的列表。
数据工程师必须自动化和协调列表的数据处理工作流以提供给仪表板。数据工程师还必须提供执行一次性查询和分析报告的能力。查询解决方案必须是可扩展的。
哪种解决方案能够以最具成本效益的方式满足这些要求？

A. 使用 Amazon EMR 集群处理传入数据。使用 AWS Step Functions 来协调工作流。使用 Apache Hive 进行一次性查询和分析报告。使用 Amazon OpenSearch Service 将数据批量提取到计算优化实例中。使用 OpenSearch Service 中的 OpenSearch Dashboards 作为仪表板。

B. 使用预配置的 Amazon EMR 集群处理传入数据。使用 AWS Step Functions 来编排工作流。使用 Amazon Athena 进行一次性查询和分析报告。使用 Amazon QuickSight 作为仪表板。

C. 使用 AWS Glue 处理传入数据。使用 AWS Step Functions 来编排工作流。使用 Amazon Redshift Spectrum 进行一次性查询和分析报告。使用 Amazon OpenSearch Service 中的 OpenSearch Dashboards 作为仪表板。

D. 使用 AWS Glue 处理传入数据。使用 AWS Lambda 和 S3 Event Notifications 来编排工作流。使用 Amazon Athena 进行一次性查询和分析报告。使用 Amazon QuickSight 作为仪表板。

答案：D

说明：
我不太喜欢 AWS Lambda 和 S3 Event Notifications 被描述为负责编排任何工作流的表述。但是，我认为与 AWS Redshift 相比，Athena 在这种情况下是更合适的解决方案，因此在某些时候选择选项 D 似乎是一个合理的选择。

178 / 204

178.

No.178
一家公司在多个 AWS 区域拥有 AWS 资源。该公司在运营的每个区域都拥有 Amazon EFS 文件系统。该公司的数据科学团队仅在一个区域内运营。数据科学团队处理的数据必须保留在团队的区域内。
数据工程师需要通过处理公司每个区域 EFS 文件系统中的文件来创建单个数据集。数据工程师希望使用 AWS Step Functions 状态机来编排 AWS Lambda 函数来处理数据。
哪种解决方案可以以最少的努力满足这些要求？

A. 将每个区域中托管 EFS 文件系统的 VPC 与数据科学团队区域中的 VPC 对等。启用 EFS 文件锁定。配置数据科学团队区域中的 Lambda 函数以挂载每个区域特定的文件系统。使用 Lambda 函数处理数据。

B. 配置每个区域 EFS 文件系统以将数据复制到数据科学团队的区域。在数据科学团队的区域中，配置 Lambda 函数以挂载副本文件系统。使用 Lambda 函数处理数据。

C. 将 Lambda 函数部署到每个区域。将区域 EFS 文件系统挂载到 Lambda 函数。使用 Lambda 函数处理数据。将输出存储在数据科学团队所在区域的 Amazon S3 存储桶中。

D. 使用 AWS DataSync 将文件从每个区域 EFS 文件系统传输到数据科学团队所在区域的文件系统。配置数据科学团队所在区域中的 Lambda 函数以挂载同一区域中的文件系统。使用 Lambda 函数处理数据。

答案：D

说明：
使用选项 D 中的 AWS DataSync 可有效实现所需的数据整合，同时保持工作流程简单且经济高效。它符合数据局部性要求并减少了工程工作量。

179 / 204

179.

No.179
一家公司将其应用程序托管在 Amazon EC2 实例上。该公司必须使用 SSL/TLS 连接对传输中的数据进行加密，以便与客户管理的 AWS 基础设施进行安全通信。
数据工程师需要实施一种解决方案来简化数字证书的生成、分发和轮换。该解决方案必须自动更新和部署 SSL/TLS 证书。
哪种解决方案能够以最少的运营开销满足这些要求？

A. 将自管理证书存储在 EC2 实例上。

B. 使用 AWS 证书管理器 (ACM)。

C. 在 AWS Secrets Manager 中实施自定义自动化脚本。

D. 使用 Amazon Elastic Container Service (Amazon ECS) Service Connect。

答案：B

说明：
ACM 负责创建、存储和更新 SSL/TLS 证书和密钥

https://aws.amazon.com/tw/certificate-manager/

180 / 204

180.

No.180
一家公司将客户数据保存到 Amazon S3 存储桶中。该公司使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密来加密存储桶。数据集包括个人身份信息 (PII)，例如社会安全号码和帐户详细信息。
在公司使用客户数据进行分析之前，必须屏蔽标记为 PII 的数据。在预处理阶段，某些用户必须能够安全地访问 PII 数据。该公司需要一种低维护解决方案来屏蔽和保护整个工程管道中的 PII 数据。
哪种解决方案组合可以满足这些要求？（选择两个。）

A. 使用 AWS Glue DataBrew 执行提取、转换和加载 (ETL) 任务，在分析之前屏蔽 PII 数据。

B. 使用 Amazon GuardDuty 监控工程管道中使用的 PII 数据的访问模式。

C. 为 S3 存储桶配置 Amazon Macie 发现作业。

D. 使用 AWS Identity and Access Management (IAM) 管理权限并控制对 PII 数据的访问。

E. 在应用程序中编写自定义脚本以屏蔽 PII 数据并控制访问。

答案：A、D

说明：
https://aws.amazon.com/tw/blogs/big-data/build-a-data-pipeline-to-automatically-discover-and-mask-pii-data-with-aws-glue-databrew/
A 将查找并屏蔽 PII
D 以进行访问

181 / 204

181.

No.181
数据工程师正在启动 Amazon EMR 集群。数据工程师需要加载到新集群中的数据目前位于 Amazon S3 存储桶中。数据工程师需要确保数据在静止和传输过程中均已加密。
S3 存储桶中的数据由 AWS 密钥管理服务 (AWS KMS) 密钥加密。数据工程师有一个包含隐私增强邮件 (PEM) 文件的 Amazon S3 路径。
哪种解决方案可以满足这些要求？

A. 创建 Amazon EMR 安全配置。为 S3 存储桶的静态加密指定适当的 AWS KMS 密钥。创建第二个安全配置。为传输中加密指定 PEM 文件的 Amazon S3 路径。创建 EMR 集群，并将两个安全配置附加到集群。

B. 创建 Amazon EMR 安全配置。为 S3 存储桶的本地磁盘加密指定适当的 AWS KMS 密钥。为传输中加密指定 PEM 文件的 Amazon S3 路径。在创建 EMR 集群期间使用安全配置。

C. 创建 Amazon EMR 安全配置。为 S3 存储桶的静态加密指定适当的 AWS KMS 密钥。为传输中加密指定 PEM 文件的 Amazon S3 路径。在创建 EMR 集群期间使用安全配置。

D. 创建 Amazon EMR 安全配置。为 S3 存储桶指定适当的 AWS KMS 密钥以进行静态加密。为传输中加密指定 PEM 文件的 Amazon S3 路径。创建 EMR 集群，并将安全配置附加到集群。

答案：C

说明：
https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-specify-security-configuration.html

182 / 204

182.

No.182
一家零售公司正在使用 Amazon Redshift 集群来支持实时库存管理。该公司已在 Amazon SageMaker 中的实时终端上部署了 ML 模型。
该公司希望提供实时库存建议。该公司还希望对未来的库存需求做出预测。
哪些解决方案可以满足这些要求？（选择两个。）

A. 使用 Amazon Redshift ML 生成库存建议。

B. 使用 SQL 调用远程 SageMaker 终端进行预测。

C. 使用 Amazon Redshift ML 安排定期数据导出以进行离线模型训练。

D. 使用 SageMaker Autopilot 在 Amazon Redshift 中创建库存管理仪表板。

E. 使用 Amazon Redshift 作为文件存储系统来存档旧库存管理报告。

答案：A、B

解释：
该公司希望提供实时库存建议。选择 (A) 建议。
该公司还希望对未来的库存需求做出预测。选择 (B) 预测。

183 / 204

183.

No.183
一家公司将 CSV 文件存储在 Amazon S3 存储桶中。数据工程师需要处理 CSV 文件中的数据，并将处理后的数据存储在新的 S3 存储桶中。
该过程需要重命名列、删除特定列、忽略每个文件的第二行、根据数据第一行的值创建新列，并按列的数值过滤结果。
哪种解决方案可以以最少的开发工作量满足这些要求？

A. 使用 AWS Glue Python 作业读取和转换 CSV 文件。

B. 使用 AWS Glue 自定义爬虫读取和转换 CSV 文件。

C. 使用 AWS Glue 工作流构建一组作业来爬取和转换 CSV 文件。

D. 使用 AWS Glue DataBrew 配方读取和转换 CSV 文件。

答案：D

解释：
所有或多或少常见的操作都可以在数据酿造中使用。
https://docs.aws.amazon.com/databrew/latest/dg/recipes.html

184 / 204

184.

No.184
一家公司使用 Amazon Redshift 作为其数据仓库。数据编码应用于数据仓库的现有表。数据工程师发现应用于某些表的压缩编码并不是最适合数据的。
数据工程师需要改进具有次优编码的表的数据编码。
哪种解决方案可以满足此要求？

A. 对已识别的表运行 ANALYZE 命令。根据命令的输出手动更新列的压缩编码。

B. 对已识别的表运行 ANALYZE COMPRESSION 命令。根据命令的输出手动更新列的压缩编码。

C. 对已识别的表运行 VACUUM REINDEX 命令。

D. 对已识别的表运行 VACUUM RECLUSTER 命令。

答案：B

解释：
ANALYZE COMPRESSION 命令：此命令分析指定表中的数据，并为每列提供最佳压缩编码建议。它评估当前编码并根据实际数据分布建议更有效的选项。
手动更新：运行命令后，数据工程师可以手动应用推荐的压缩编码来优化存储和查询性能。

185 / 204

185.

No.185
该公司在 Amazon S3 中存储了大量客户记录。为了遵守法规，公司必须能够在记录创建后的前 30 天内立即访问新客户记录。公司很少访问超过 30 天的记录。
公司需要对其 Amazon S3 存储进行成本优化。
哪种解决方案能够以最具成本效益的方式满足这些要求？

A. 应用生命周期策略，在 30 天后将记录转换为 S3 标准不频繁访问 (S3 Standard-IA) 存储。

B. 使用 S3 智能分层存储。

C. 30 天后将记录转换到 S3 Glacier Deep Archive 存储。

D. 使用 S3 标准-不频繁访问 (S3 Standard-IA) 存储存储所有客户记录。

答案：A

解释：
这个问题定义不明确，它没有说明前 30 天数据的情况，但成本效益表明它不是 B，因此我选择 A。

https://docs.aws.amazon.com/AmazonS3/latest/userguide/object-lifecycle-mgmt.html

186 / 204

186.

No.186
一位数据工程师正在使用 Amazon QuickSight 构建一个仪表板，以报告公司在多个 AWS 区域的收入。数据工程师希望仪表板显示某个区域的总收入，而不管视觉效果中显示的向下钻取级别如何。
哪种解决方案可以满足这些要求？

A. 创建表计算。

B. 创建一个简单的计算字段。

C. 创建级别感知计算 - 聚合 (LAC-A) 函数。

D. 创建级别感知计算 - 窗口 (LAC-W) 函数。

答案：C

说明：
https://docs.aws.amazon.com/quicksight/latest/user/level-aware-calculations.html

187 / 204

187.

No.187
一家零售公司将客户数据存储在 Amazon S3 存储桶中。部分客户数据包含有关客户的个人身份信息 (PII)。公司不得与业务合作伙伴共享 PII 数据。
数据工程师必须先确定数据集是否包含 PII，然后才能将数据集中的对象提供给业务合作伙伴。
哪种解决方案能够以最少的人工干预满足此要求？

A. 配置 S3 存储桶和 S3 对象以允许访问 Amazon Macie。在 Macie 中使用自动敏感数据发现。

B. 配置 AWS CloudTrail 以监控 S3 PUT 操作。检查 CloudTrail 跟踪以识别保存 PII 的操作。

C. 创建 AWS Lambda 函数以识别 S3 对象中的 PII。安排函数定期运行。

D. 在 AWS Glue 数据目录中创建表。编写自定义 SQL 查询以识别表中的 PII。使用 Amazon Athena 运行查询。

答案：A

说明：

选项 A - Amazon Macie 专为自动敏感数据发现、分类和保护而设计。它可以扫描您的 S3 存储桶以使用机器学习和模式匹配识别和分类 PII，这意味着您无需手动检查数据或编写自定义函数。
通过配置 Macie 以访问 S3 存储桶，它将持续监控并自动提醒您检测到的任何 PII，从而大大减少了手动干预的需要。

188 / 204

188.

No.188
数据工程师需要在 Amazon Athena 中创建现有表的空副本以执行数据处理任务。Athena 中的现有表包含 1,000 行。
哪个查询可以满足此要求？

A. CREATE TABLE new_table - LIKE old_table;

B. CREATE TABLE new_table - AS SELECT * FROM old_table - WITH NO DATA;

C. CREATE TABLE new_table - AS SELECT * FROM old_table;

D. CREATE TABLE new_table - as SELECT * FROM old_cable - WHERE 1=1;

答案：B

解释：

选项 B - 应该是 B，没有数据选项，从 CTAS 创建空表

https://docs.aws.amazon.com/athena/latest/ug/ctas-examples.html#ctas-example-empty-table

189 / 204

189.

No.189
一家公司在 Amazon S3 中有一个数据湖。该公司为多个应用程序收集 AWS CloudTrail 日志。该公司将日志存储在数据湖中，在 AWS Glue 中对日志进行分类，并根据年份对日志进行分区。该公司使用 Amazon Athena 分析日志。
最近，客户报告说，对其中一个 Athena 表的查询未返回任何数据。数据工程师必须解决该问题。
数据工程师应采取哪种故障排除步骤组合？（选择两个。）

A. 确认 Athena 指向正确的 Amazon S3 位置。

B. 增加查询超时时间。

C. 使用 MSCK REPAIR TABLE 命令。

D. 重新启动 Athena。

E. 删除并重新创建有问题的 Athena 表。

答案：A、C

解释：
A. 确认 Athena 指向正确的 Amazon S3 位置。

这是确保 Athena 查询的数据源与 S3 中 CloudTrail 日志的实际位置匹配的关键第一步。如果路径不正确，Athena 将找不到数据。
C. 使用 MSCK REPAIR TABLE 命令。

如果数据湖已分区，使用 MSCK REPAIR TABLE 命令可以帮助更新 Athena 中的表元数据。此命令会将任何缺失的分区添加到表中，如果添加了新分区但未反映在 Athena 中，这可能会解决与缺失数据相关的问题。

190 / 204

190.

No.190
数据工程师想要编排一组在 AWS 上运行的提取、转换和加载 (ETL) 作业。ETL 作业包含必须在 Amazon EMR 上运行 Apache Spark 作业、对 Salesforce 进行 API 调用以及将数据加载到 Amazon Redshift 中的任务。
ETL 作业需要自动处理故障和重试。数据工程师需要使用 Python 来编排作业。
哪项服务可以满足这些要求？

A. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)

B. AWS Step Functions

C. AWS Glue

D. Amazon EventBridge

答案：A

解释：

选项 A - 尽管 MWAA 和 Step Functions 都可用于管理任务失败，但 MWAA 更合适，因为工程师希望使用 Python 来编排作业。通常，Step Functions 用于最低限度的基础设施管理。

191 / 204

191.

No.191
数据工程师维护自定义 Python 脚本，这些脚本执行许多 AWS Lambda 函数使用的数据格式化过程。当数据工程师需要修改 Python 脚本时，数据工程师必须手动更新所有 Lambda 函数。
数据工程师需要一种不太手动的方式来更新 Lambda 函数。
哪种解决方案可以满足此要求？

A. 将自定义 Python 脚本存储在共享的 Amazon S3 存储桶中。将指向自定义脚本的指针存储在执行上下文对象中。

B. 将自定义 Python 脚本打包到 Lambda 层中。将 Lambda 层应用于 Lambda 函数。

C. 将自定义 Python 脚本存储在共享的 Amazon S3 存储桶中。将指向客户脚本的指针存储在环境变量中。

D. 为每个 Lambda 函数分配相同的别名。通过指定函数的别名来调用每个 Lambda 函数。

答案：B

说明：
Lambda 层允许您打包可在多个 Lambda 函数之间共享的通用代码和依赖项。通过将自定义 Python 脚本放在层中，您可以更新该层一次，然后更新每个 Lambda 函数使用的版本，而无需直接修改函数代码。
这种方法减少了冗余，简化了更新，并确保使用该层的所有函数都可以以最少的手动工作量访问脚本的最新版本。

192 / 204

192.

No.192
一家公司将客户数据存储在 Amazon S3 存储桶中。公司中的多个团队希望使用客户数据进行下游分析。公司需要确保团队无法访问有关客户的个人身份信息 (PII)。
哪种解决方案可以以最少的运营开销满足此要求？

A. 使用 Amazon Macie 创建并运行敏感数据发现作业以检测和删除 PII。

B. 使用 S3 Object Lambda 访问数据，并使用 Amazon Comprehend 检测和删除 PII。

C. 使用 Amazon Data Firehose 和 Amazon Comprehend 检测和删除 PII。

D. 使用 AWS Glue DataBrew 作业将 PII 数据存储在第二个 S3 存储桶中。对原始 S3 存储桶中剩余的数据执行分析。

答案：B

解释：

选项 A - 不是 A，Macie 只能检测到 PII。Macie 可以发现 PII，但不能自动编辑它。

选项 B - 使用 S3 Object Lambda 和由 Amazon Comprehend 提供支持的预构建 AWS Lambda 函数，您可以在从 S3 检索的 PII 数据返回到应用程序之前对其进行保护。

193 / 204

193.

No.193
一家公司将其处理的数据存储在 S3 存储桶中。该公司有严格的数据访问策略。该公司使用 IAM 角色授予公司内部团队对 S3 存储桶的不同级别访问权限。
该公司希望在用户违反数据访问策略时收到通知。每个通知都必须包含违反策略的用户的用户名。
哪种解决方案可以满足这些要求？

A. 使用 AWS Config 规则检测数据访问策略的违规行为。设置合规性警报。

B. 使用 Amazon CloudWatch 指标收集对象级指标。设置 CloudWatch 警报。

C. 使用 AWS CloudTrail 跟踪 S3 存储桶的对象级事件。将事件转发到 Amazon CloudWatch 以设置 CloudWatch 警报。

D. 使用 Amazon S3 服务器访问日志监控对存储桶的访问。将访问日志转发到 Amazon CloudWatch 日志组。使用日志组上的指标过滤器设置 CloudWatch 警报。

答案：C

解释：

选项 C - 使用 CloutTrial 监控 API 调用，就这么简单。

194 / 204

194.

No.194
一家公司需要将来自第三方的客户数据加载到 Amazon Redshift 数据仓库中。该公司将订单数据和产品数据存储在同一个数据仓库中。该公司希望使用组合数据集来识别潜在的新客户。
数据工程师注意到源数据中的一个字段包含 JSON 格式的值。
数据工程师应如何以最少的努力将 JSON 数据加载到数据仓库中？

A. 使用 SUPER 数据类型将数据存储在 Amazon Redshift 表中。

B. 使用 AWS Glue 展平 JSON 数据并将其提取到 Amazon Redshift 表中。

C. 使用 Amazon S3 存储 JSON 数据。使用 Amazon Athena 查询数据。

D. 使用 AWS Lambda 函数展平 JSON 数据。将数据存储在 Amazon S3 中。

答案：A

解释：

选项 A - Amazon Redshift 中的 SUPER 数据类型允许您将半结构化数据（例如 JSON）直接存储在 Redshift 表中，而无需先展平或转换数据。

195 / 204

195.

No.195
一家公司希望分析公司存储在 MySQL 数据库中的销售记录。该公司希望将这些记录与 Salesforce 确定的销售机会相关联。
该公司每天收到 2 GB 的销售记录。该公司有 100 GB 的已确定销售机会。数据工程师需要开发一个流程来分析和关联销售记录和销售机会。该流程必须每晚运行一次。
哪种解决方案可以以最少的运营开销满足这些要求？

A. 使用 Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 获取两个数据集。使用 AWS Lambda 函数关联数据集。使用 AWS Step Functions 来协调流程。

B. 使用 Amazon AppFlow 从 Salesforce 获取销售机会。使用 AWS Glue 从 MySQL 数据库获取销售记录。将销售记录与销售机会关联起来。使用 Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 来编排流程。

C. 使用 Amazon AppFlow 从 Salesforce 获取销售机会。使用 AWS Glue 从 MySQL 数据库获取销售记录。将销售记录与销售机会关联起来。使用 AWS Step Functions 来编排流程。

D. 使用 Amazon AppFlow 从 Salesforce 获取销售机会。使用 Amazon Kinesis Data Streams 从 MySQL 数据库获取销售记录。使用 Amazon Managed Service for Apache Flink 来关联数据集。使用 AWS Step Functions 来编排流程。

答案：C

说明：

选项 C - App Flow 从 Salse Force 获取数据，Glue 用于 ETL，Step Functions 用于编排，全部托管，无服务器，开销最少！

196 / 204

196.

No.196
一家公司将服务器日志存储在 Amazon S3 存储桶中。该公司需要将日志保留 1 年。1 年后不再需要这些日志。
数据工程师需要一个解决方案来自动删除超过 1 年的日志。
哪种解决方案能够以最少的运营开销满足这些要求？

A. 定义 S3 生命周期配置以在 1 年后删除日志。

B. 创建 AWS Lambda 函数以在 1 年后删除日志。

C. 在 Amazon EC2 实例上安排 cron 作业以在 1 年后删除日志。

D. 配置 AWS Step Functions 状态机以在 1 年后删除日志。

答案：A

说明：

选项 A - Amazon S3 提供生命周期策略，允许您自动管理存储在存储桶中的对象。您可以配置规则以自动删除超过指定年龄的对象

197 / 204

197.

No.197
一家公司正在 AWS Step Functions 中设计一个无服务器数据处理工作流，该工作流涉及多个步骤。处理工作流从外部 API 中提取数据，使用多个 AWS Lambda 函数转换数据，并将转换后的数据加载到 Amazon DynamoDB 中。
公司需要工作流根据传入数据的内容执行特定步骤。
公司应使用哪种 Step Functions 状态类型来满足此要求？

A. 并行

B. 选择

C. 任务

D. 地图

答案：B

说明：
选择添加条件逻辑。即传入数据的状态。

198 / 204

198.

No.198
一位数据工程师在 Amazon Athena 中创建了一个名为 cloudtrail_logs 的表，以查询 AWS CloudTrail 日志并准备数据以供审核。数据工程师需要编写查询以显示自 2024 年初以来发生的错误代码错误。查询必须返回最近的 10 个错误。
哪个查询可以满足这些要求？

A. 从 cloudtrail_logs 中选择 count (*) 作为 TotalEvents、eventname、errorcode、errormessage，其中 errorcode 不为 null，并且 eventtime >= '2024-01-01T00:00:00Z' 按 eventname、errorcode、errormessage 分组，按 TotalEvents 降序排列，限制 10；

B. 从 cloudtrail_logs 中选择 count (*) 作为 TotalEvents、eventname、errorcode、errormessage，其中 eventtime >= '2024-01-01T00:00:00Z' 按 eventname、errorcode、errormessage 分组，按 TotalEvents 降序排列，限制 10；

C. 从 cloudtrail_logs 中选择 count (*) 作为 TotalEvents、eventname、errorcode、errormessage，其中 eventtime >= '2024-01-01T00:00:00Z' 按 eventname、errorcode、errormessage 分组，按 eventname asc 排序，限制 10；

D. 从 cloudtrail_logs 中选择 count (*) 作为 TotalEvents、eventname、errorcode、errormessage，其中 errorcode 不为 null，并且 eventtime >= '2024-01-01T00:00:00Z' 按 eventname、errorcode、errormessage 分组，限制 10；

答案：B

解释：
这不一样，但它显示了重点。降序是正确的答案。
SELECT *
FROM cloudtrail_logs
WHERE
eventTime >= '2024-01-01'
AND errorCode IS NOT NULL
ORDER BY eventTime DESC
LIMIT 10;

199 / 204

199.

No.199
一家在线零售商使用多个配送合作伙伴向客户配送产品。配送合作伙伴将订单摘要发送给零售商。零售商将订单摘要存储在 Amazon S3 中。
一些订单摘要包含有关客户的个人身份信息 (PII)。数据工程师需要检测订单摘要中的 PII，以便公司可以编辑 PII。
哪种解决方案可以以最少的运营开销满足这些要求？

A. Amazon Textract

B. Amazon S3 Storage Lens

C. Amazon Macie

D. Amazon SageMaker Data Wrangler

答案：C

解释：
仅检测（无编辑）= Macie

AWS 中的 PII --> Macie

200 / 204

200.

No.200
一家公司有一个 Amazon Redshift 数据仓库，用户可以使用各种 IAM 角色访问该数据仓库。每天有 100 多名用户访问该数据仓库。
公司希望根据每个用户的职位、权限以及数据的敏感程度来控制用户对对象的访问。
哪种解决方案可以满足这些要求？

A. 使用 Amazon Redshift 的基于角色的访问控制 (RBAC) 功能。

B. 使用 Amazon Redshift 的行级安全性 (RLS) 功能。

C. 使用 Amazon Redshift 的列级安全性 (CLS) 功能。

D. 在 Amazon Redshift 中使用动态数据屏蔽策略。

答案：A

说明：
在这种情况下，行级或列级是不够的。

唯一可能的答案是 A 和 B，但 B 还不够。

201 / 204

201.

No.201
一家公司使用 Amazon DataZone 作为数据治理和业务目录解决方案。该公司将数据存储在 Amazon S3 数据湖中。该公司将 AWS Glue 与 AWS Glue 数据目录结合使用。
数据工程师需要将 AWS Glue 数据质量分数发布到 Amazon DataZone 门户。
哪种解决方案可以满足此要求？

A. 使用适用于特定 AWS Glue 表的数据质量定义语言 (DQDL) 规则创建数据质量规则集。安排规则集每天运行。配置 Amazon DataZone 项目以拥有 Amazon Redshift 数据源。为数据源启用数据质量配置。

B. 配置 AWS Glue ETL 作业以使用评估数据质量转换。在作业中定义数据质量规则集。配置 Amazon DataZone 项目以拥有 AWS Glue 数据源。为数据源启用数据质量配置。

C. 使用适用于特定 AWS Glue 表的数据质量定义语言 (DQDL) 规则创建数据质量规则集。安排规则集每天运行。配置 Amazon DataZone 项目以拥有 AWS Glue 数据源。为数据源启用数据质量配置。

D. 配置 AWS Glue ETL 作业以使用评估数据质量转换。在作业内定义数据质量规则集。配置 Amazon DataZone 项目以拥有 Amazon Redshift 数据源。为数据源启用数据质量配置。

答案：C

说明：
数据区域应配置为使用 glue 作为数据源。

202 / 204

202.

No.202
一家公司在 Amazon Redshift 中有一个数据仓库。为了遵守安全法规，该公司需要记录和存储数据仓库的所有用户活动和连接活动。
哪种解决方案可以满足这些要求？

A. 创建 Amazon S3 存储桶。为 Amazon Redshift 集群启用日志记录。在日志记录配置中指定 S3 存储桶以存储日志。

B. 创建 Amazon Elastic File System (Amazon EFS) 文件系统。为 Amazon Redshift 集群启用日志记录。将日志写入 EFS 文件系统。

C. 创建 Amazon Aurora MySQL 数据库。为 Amazon Redshift 集群启用日志记录。将日志写入 Aurora MySQL 数据库中的表。

D. 创建 Amazon Elastic Block Store (Amazon EBS) 卷。为 Amazon Redshift 集群启用日志记录。将日志写入 EBS 卷。

答案：A

说明：
S3 Bucket 用于存储日志。

203 / 204

203.

No.203
一家公司希望将数据仓库从 Teradata 迁移到 Amazon Redshift。
哪种解决方案能够以最少的运营工作量满足此要求？

A. 使用 AWS 数据库迁移服务 (AWS DMS) 架构转换来迁移架构。使用 AWS DMS 迁移数据。

B. 使用 AWS 架构转换工具 (AWS SCT) 迁移架构。使用 AWS 数据库迁移服务 (AWS DMS) 迁移数据。

C. 使用 AWS 数据库迁移服务 (AWS DMS) 迁移数据。使用自动架构转换。

D. 从 Teradata 手动导出架构定义。将架构应用于 Amazon Redshift 数据库。使用 AWS 数据库迁移服务 (AWS DMS) 迁移数据。

答案：B

解释：
A 看起来很像，但 AWS DMS 的架构转换功能有限。最好与 AWS SCT 配对进行架构迁移。

204 / 204

204.

No.204
一家公司使用各种 AWS 和第三方数据存储。该公司希望将所有数据整合到中央数据仓库中以执行分析。用户需要快速响应分析查询。
该公司在直接查询模式下使用 Amazon QuickSight 来可视化数据。用户通常每天在几个小时内运行查询，并且会出现不可预测的峰值。
哪种解决方案可以以最少的运营开销满足这些要求？

A. 使用 Amazon Redshift Serverless 将所有数据加载到 Amazon Redshift 托管存储 (RMS) 中。

B. 使用 Amazon Athena 以 Apache Parquet 格式将所有数据加载到 Amazon S3 中。

C. 使用 Amazon Redshift 预置集群将所有数据加载到 Amazon Redshift 托管存储 (RMS) 中。

D. 使用 Amazon Aurora PostgreSQL 将所有数据加载到 Aurora 中。

答案：A

说明：
Redshift Serverless 根据查询工作负载自动扩展或缩减资源。这消除了手动容量配置和扩展的需要，大大降低了运营开销。

无服务器适用于不可预测的负载。

Your score is

■AWS DEA-C01 中文 Q.1-100

/100

AWS DEA-C01(CN) Q.1-100

[Q.1-100] AWS Certified Data Engineer – Associate 可验证与核心数据相关的 AWS 服务方面的技能和知识，摄取和转换数据、在应用编程概念时编排数据管道、设计数据模型、管理数据生命周期和确保数据质量的能力。

1 / 100

A. 更新 AWS Glue 安全组以允许来自 Amazon S3 VPC 网关端点的入站流量。

B. 配置 S3 存储桶策略以明确授予 AWS Glue 作业访问 S3 存储桶的权限。

C. 查看 AWS Glue 作业代码以确保 AWS Glue 连接详细信息包含完全限定域名。

D. 验证 VPC 的路由表是否包含 Amazon S3 VPC 网关端点的入站和出站路由。

答案：D

2 / 100

A. 为每个国家/地区的客户数据创建一个单独的表。根据分析师服务的国家/地区向每位分析师提供访问权限。

B. 将 S3 存储桶注册为 AWS Lake Formation 中的数据湖位置。使用 Lake Formation 行级安全功能来执行公司的访问策略。

C. 将数据移动到靠近客户所在国家/地区的 AWS 区域。根据分析师服务的国家/地区向每位分析师提供访问权限。

答案：B

3 / 100

A. 使用 API 调用访问和集成来自 AWS Data Exchange 的第三方数据集。

B. 使用 API 调用访问和集成来自 AWS DataSync 的第三方数据集。

C. 使用 Amazon Kinesis Data Streams 访问和集成来自 AWS CodeCommit 存储库的第三方数据集。

D. 使用 Amazon Kinesis Data Streams 访问和集成来自 Amazon Elastic Container Registry (Amazon ECR) 的第三方数据集。

答案：A

4 / 100

A. 使用 Amazon Aurora 进行数据存储。使用 Amazon Redshift 预置集群进行数据分析。

B. 使用 Amazon S3 进行数据存储。使用 Amazon Athena 进行数据分析。

C. 使用 AWS Glue DataBrew 进行集中数据治理和访问控制。

D. 使用 Amazon RDS 进行数据存储。使用 Amazon EMR 进行数据分析。

E. 使用 AWS Lake Formation 进行集中数据治理和访问控制。

5 / 100

A. 将指向自定义 Python 脚本的指针存储在共享 Amazon S3 存储桶中的执行上下文对象中。

B. 将自定义 Python 脚本打包到 Lambda 层中。将 Lambda 层应用于 Lambda 函数。

C. 将指向自定义 Python 脚本的指针存储在共享 Amazon S3 存储桶中的环境变量中。

D. 为每个 Lambda 函数分配相同的别名。通过指定函数的别名来调用 Lambda 函数。

答案：B

6 / 100

A. AWS Step Functions

B. AWS Glue 工作流

C. AWS Glue Studio

D. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)

答案：B

说明：
Glue 工作流是这里最简单的解决方案：

https://aws.amazon.com/blogs/big-data/orchestrate-an-etl-pipeline-using-aws-glue-workflows-triggers-and-crawlers-with-custom-classifiers/

https://aws.amazon.com/blogs/big-data/extracting-multiDimension-data-from-microsoft-sql-server-analysis-services-using-aws-glue/

A. AWS Step Functions：
它是使用来自不同 AWS 服务的步骤来编排工作流的不错选择，但需要额外的开发才能连接到 Microsoft SQL Server。

7 / 100

A. 建立与 Amazon Redshift 的 WebSocket 连接。

B. 使用 Amazon Redshift 数据 API。

C. 设置与 Amazon Redshift 的 Java 数据库连接 (JDBC) 连接。

D. 将经常访问的数据存储在 Amazon S3 中。使用 Amazon S3 Select 运行查询。

答案：B

8 / 100

A. 为每个用例创建一个 S3 存储桶。创建一个 S3 存储桶策略，向适当的单个 IAM 用户授予权限。将 S3 存储桶策略应用于 S3 存储桶。

B. 为每个用例创建一个 Athena 工作组。将标签应用于工作组。创建一个使用标签将适当权限应用于工作组的 IAM 策略。

C. 为每个用例创建一个 IAM 角色。为每个用例向角色分配适当的权限。将角色与 Athena 关联。

D. 创建一个 AWS Glue 数据目录资源策略，为每个用例向适当的单个 IAM 用户授予权限。将资源策略应用于 Athena 使用的特定表。

答案：B

说明：
https://docs.aws.amazon.com/athena/latest/ug/user-created-workgroups.html

9 / 100

A. 在 Glue 作业属性中选择 FLEX 执行类。

B. 在 Glue 作业属性中使用 Spot 实例类型。

C. 在 Glue 作业属性中选择 STANDARD 执行类。

D. 在 Glue 作业属性中的 GlueVersion 字段中选择最新版本。

答案：A

10 / 100

10.

B. 为标签设置为 .csv 的对象创建事件类型为 s3:ObjectTagging:* 的 S3 事件通知。将 Lambda 函数的 Amazon 资源名称 (ARN) 设置为事件通知的目标。

C. 创建事件类型为 s3:* 的 S3 事件通知。使用过滤规则，仅在后缀包含 .csv 时生成通知。将 Lambda 函数的 Amazon 资源名称 (ARN) 设置为事件通知的目标。

答案：A

说明：
“仅当用户将数据上传到 Amazon S3 存储桶时”，排除 B 和 C，因为我们需要 s3:ObjectCreated:*

S3 事件通知不需要 SNS，因此 A 更简单。

11 / 100

11.

A. 将数据格式从 .csv 更改为 JSON 格式。应用 Snappy 压缩。

B. 使用 Snappy 压缩压缩 .csv 文件。

C. 将数据格式从 .csv 更改为 Apache Parquet。应用 Snappy 压缩。

D. 使用 gzip 压缩压缩 .csv 文件。

答案：C

说明：

12 / 100

12.

D. 使用 AWS Glue 书签实时从 S3 存储桶读取传感器数据。将数据发布到 Amazon Timestream 数据库。使用 Timestream 数据库作为源来创建 Grafana 仪表板。

答案：A

13 / 100

13.

答案：B

说明：

14 / 100

14.

A. 使用第二个 Lambda 函数根据 Amazon CloudWatch 事件调用第一个 Lambda 函数。

B. 使用 Amazon Redshift 数据 API 将事件发布到 Amazon EventBridge。配置 EventBridge 规则以调用 Lambda 函数。

C. 使用 Amazon Redshift 数据 API 将消息发布到 Amazon Simple Queue Service (Amazon SQS) 队列。配置 SQS 队列以调用 Lambda 函数。

D. 使用第二个 Lambda 函数根据 AWS CloudTrail 事件调用第一个 Lambda 函数。

答案：B

说明：
https://docs.aws.amazon.com/redshift/latest/mgmt/data-api-monitoring-events.html

15 / 100

15.

A. AWS DataSync

B. AWS Glue

C. AWS Direct Connect

D. Amazon S3 传输加速

答案：A

说明：

16 / 100

16.

A. AWS Lambda

B. AWS 数据库迁移服务 (AWS DMS)

C. AWS Direct Connect

D. AWS DataSync

答案：B

说明：
无论谁是预先标记答案的管理员，现在是时候开始了。

17 / 100

17.

A. 配置 AWS Glue 触发器以每小时运行一次 ETL 作业。

B. 使用 AWS Glue DataBrew 清理和准备数据以进行分析。

C. 使用 AWS Lambda 函数每小时安排和运行一次 ETL 作业。

D. 使用 AWS Glue 连接在数据源和 Amazon Redshift 之间建立连接。

E. 使用 Redshift 数据 API 将转换后的数据加载到 Amazon Redshift 中。

答案：A、D

说明：

选项 A - 配置 AWS Glue 触发器以每小时运行一次 ETL 作业。

降低代码复杂性：Glue 触发器无需编写自定义代码来安排 ETL 作业。这简化了管道并降低了维护开销。

可扩展性和集成性：Glue 触发器与 Glue ETL 作业无缝协作，确保在 Glue 生态系统内高效调度和执行。

选项 C - 使用 AWS Glue 连接在数据源和 Amazon Redshift 之间建立连接。

预构建连接器：Glue 连接为各种数据源（如 RDS 和 Redshift）提供预构建连接器。这消除了手动配置的需要，并简化了 ETL 作业中的数据源访问。

集中管理：Glue 连接在 Glue 服务中进行集中管理，简化了连接管理并降低了运营开销。

18 / 100

18.

A. 在 Redshift Serverless 工作组的工作负载管理 (WLM) 中启用并发扩展。

B. 在 Redshift 集群中的工作负载管理 (WLM) 队列级别启用并发扩展。

C. 在创建任何新的 Redshift 集群期间在设置中启用并发扩展。

D. 为 Redshift 集群的每日使用配额启用并发扩展。

答案：B

说明：

19 / 100

19.

A. 使用 AWS Lambda 函数和 Athena Boto3 客户端 start_query_execution API 调用以编程方式调用 Athena 查询。

C. 使用 AWS Glue Python shell 作业和 Athena Boto3 客户端 start_query_execution API 调用以编程方式调用 Athena 查询。

E. 使用 Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 在 AWS Batch 中编排 Athena 查询。

答案：A、B

20 / 100

20.

A. AWS Glue

B. Amazon EMR

C. AWS Lambda

D. Amazon Redshift

答案：B

说明：
Glue 就像 EMR 更漂亮但更弱的兄弟。因此，当涉及到 PB 级时，让 EMR 完成工作，让 Glue 远离行动。

21 / 100

21.

A. 使用 Amazon Kinesis Data Firehose 交付流来处理数据集。创建 AWS Lambda 转换函数来识别 PII。使用 AWS SDK 混淆 PII。将 S3 数据湖设置为交付流的目标。

B. 使用 AWS Glue Studio 中的 Detect PII 转换来识别 PII。混淆 PII。使用 AWS Step Functions 状态机来编排数据管道以将数据导入 S3 数据湖。

D. 将数据集导入 Amazon DynamoDB。创建 AWS Lambda 函数以识别和混淆 DynamoDB 表中的 PII 并转换数据。使用相同的 Lambda 函数将数据导入 S3 数据湖。

答案：B

说明：
Data Quality 如何混淆 PII？您可以直接在 Glue Studio 中执行此操作：https://docs.aws.amazon.com/glue/latest/dg/detect-PII.html

选项 C 涉及在 AWS Glue Data Quality 中创建规则的额外步骤和复杂性，与直接使用 AWS Glue Studio 的功能相比，这增加了更多的操作工作量。

22 / 100

22.

A. AWS Glue 工作流

B. AWS Step Functions 任务

C. AWS Lambda 函数

D. Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 工作流

答案：B

说明：
Glue Workflow 仅编排爬虫和粘合作业。

23 / 100

23.

A. 6 个月后将对象转换为 S3 单区-不频繁访问 (S3 单区-IA)。2 年后将对象转移到 S3 Glacier 灵活检索。

B. 6 个月后将对象转换为 S3 标准-不频繁访问 (S3 标准-IA)。2 年后将对象转移到 S3 Glacier 灵活检索。

C. 6 个月后将对象转换为 S3 Standard-Infrequent Access (S3 Standard-IA)。2 年后将对象传输到 S3 Glacier Deep Archive。

D. 6 个月后将对象转换为 S3 One Zone-Infrequent Access (S3 One Zone-IA)。2 年后将对象传输到 S3 Glacier Deep Archive。

答案：C

说明：
灵活检索的成本将高于深度存档。如果记录每年只需要检索一两次，这并不意味着它们需要立即可用。

24 / 100

24.

A. 使用 Redshift 数据共享将销售团队 BI 集群设置为 ETL 集群的消费者。

B. 根据销售团队的要求创建物化视图。授予销售团队对 ETL 集群的直接访问权限。

C. 根据销售团队的要求创建数据库视图。授予销售团队对 ETL 集群的直接访问权限。

D. 每周将数据副本从 ETL 集群卸载到 Amazon S3 存储桶。根据 ETL 集群的内容创建 Amazon Redshift Spectrum 表。

答案：A

25 / 100

25.

A. 使用 Amazon EMR 预置的集群从所有来源读取。使用 Apache Spark 连接数据并执行分析。

B. 将数据从 DynamoDB、Amazon RDS 和 Amazon Redshift 复制到 Amazon S3。直接在 S3 文件上运行 Amazon Athena 查询。

C. 使用 Amazon Athena 联合查询连接来自所有数据源的数据。

D. 使用 Redshift Spectrum 直接从 Redshift 查询 DynamoDB、Amazon RDS 和 Amazon S3 中的数据。

答案：C

26 / 100

26.

A. 使用 Hadoop 分布式文件系统 (HDFS) 作为持久数据存储。

B. 使用 Amazon S3 作为持久数据存储。

C. 对核心节点和任务节点使用基于 x86 的实例。

D. 对核心节点和任务节点使用 Graviton 实例。

E. 对所有主节点使用 Spot 实例。

答案：B、D

基于 AWS Graviton 的实例成本比同类基于 x86 的 Amazon
EC2 实例低 20%：https://aws.amazon.com/ec2/graviton/

27 / 100

27.

A. 使用 Kinesis Data Streams 在 Amazon S3 中暂存数据。使用 COPY 命令将数据从 Amazon S3 直接加载到 Amazon Redshift 中，以使数据立即可用于实时分析。

B. 使用 SQL 查询访问来自 Kinesis Data Streams 的数据。直接在流顶部创建物化视图。定期刷新物化视图以查询最新的流数据。

答案：C

说明：

选项 C - 它可以提供近乎实时的洞察分析。请参阅 AWS 的文章 - https://aws.amazon.com/blogs/big-data/real-time-analytics-with-amazon-redshift-streaming-ingestion/

这里的关键词是近乎实时。如果它涉及 S3 和 COPY，它就不会接近实时。

28 / 100

28.

A. 对 S3 存储桶中的数据进行分区。按年、月和日组织数据。

B. 通过扩展工作程序类型来增加 AWS Glue 实例大小。

C. 将 AWS Glue 架构转换为 DynamicFrame 架构类。

D. 调整 AWS Glue 作业调度频率，使作业每天运行的次数减半。

E. 修改授予 AWS Glue 访问权限的 IAM 角色以授予对所有 S3 功能的访问权限。

答案：A、B

说明：

29 / 100

29.

A. 并行状态

B. 选择状态

C. 映射状态

D. 等待状态

答案：C

30 / 100

30.

A. 用 Python 编写自定义提取、转换和加载 (ETL) 作业。通过导入 Pandas 库使用 DataFrame.drop_duplicates() 函数执行数据重复数据删除。

B. 编写 AWS Glue 提取、转换和加载 (ETL) 作业。使用 FindMatches 机器学习 (ML) 转换转换数据以执行数据重复数据删除。

C. 用 Python 编写自定义提取、转换和加载 (ETL) 作业。导入 Python 重复数据删除库。使用重复数据删除库执行数据重复数据删除。

D. 编写 AWS Glue 提取、转换和加载 (ETL) 作业。导入 Python 重复数据删除库。使用重复数据删除库执行数据重复数据删除。

答案：B

31 / 100

31.

A. 使用 gzip 压缩将单个文件压缩为 1 GB 到 5 GB 之间的大小。

B. 使用列式存储文件格式。

C. 根据最常见的查询谓词对数据进行分区。

D. 将数据拆分为小于 10 KB 的文件。

E. 使用不可拆分的文件格式。

答案：B、C

https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-external-performance.html

32 / 100

32.

A. 为 DB 实例打开公共访问设置。

B. 更新 DB 实例的安全组以仅允许在数据库端口上调用 Lambda 函数。

C. 将 Lambda 函数配置为在 DB 实例使用的同一子网中运行。

D. 将同一安全组附加到 Lambda 函数和 DB 实例。包括允许通过数据库端口访问的自引用规则。

E. 更新私有子网的网络 ACL 以包括允许通过数据库端口访问的自引用规则。

答案：C、D

B：需要更新安全组。除了 lambda 函数之外，可能还有其他应用程序需要访问数据库
D：它可以工作并重用安全组，从而减少运营开销

33 / 100

33.

A. 在 Amazon Elastic Container Service (Amazon ECS) 集群上部署自定义 Python 脚本。

B. 创建具有预置并发性的 AWS Lambda Python 函数。

C. 部署可与 Amazon Elastic Kubernetes Service (Amazon EKS) 上的 API Gateway 集成的自定义 Python 脚本。

D. 创建 AWS Lambda 函数。通过安排 Amazon EventBridge 规则使用模拟事件每 5 分钟调用一次 Lambda 函数，确保函数处于热状态。

答案：B

34 / 100

34.

A. 在生产 AWS 账户中创建目标数据流。在安全 AWS 账户中，创建一个 IAM 角色，该角色对生产 AWS 账户中的 Kinesis Data Streams 具有跨账户权限。

C. 在生产 AWS 账户中创建目标数据流。在生产 AWS 账户中，创建一个 IAM 角色，该角色对安全 AWS 账户中的 Kinesis Data Streams 具有跨账户权限。

答案：D

35 / 100

35.

A. 创建 AWS Lambda 函数来识别先前数据和当前数据之间的变化。配置 Lambda 函数以将更改提取到数据湖中。

B. 将数据提取到 Amazon RDS for MySQL。使用 AWS 数据库迁移服务 (AWS DMS) 将更改的数据写入数据湖。

C. 使用开源数据湖格式将数据源与 S3 数据湖合并以插入新数据并更新现有数据。

D. 将数据导入运行 Aurora Serverless 的 Amazon Aurora MySQL DB 实例。使用 AWS 数据库迁移服务 (AWS DMS) 将更改的数据写入数据湖。

答案：C

说明：
https://aws.amazon.com/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/

这是一个棘手的问题。虽然选项 A 似乎是最佳选择，因为它使用 AWS 服务，但我认为使用 Delta/Iceberg API 比在 Lambda 上编写自定义代码更容易。

36 / 100

36.

A. 创建 AWS Glue 分区索引。启用分区筛选。

B. 根据用户查询的 WHERE 子句中数据共有的列对数据进行存储。

C. 使用基于 S3 存储桶前缀的 Athena 分区投影。

D. 将 S3 存储桶中的数据转换为 Apache Parquet 格式。

E. 使用 Amazon EMR S3DistCP 实用程序将 S3 存储桶中的较小对象合并为较大对象。

答案：A，C

37 / 100

37.

A. 使用包含业务和分析逻辑的 AWS Lambda 函数，在长达 30 分钟的窗口期内对 Amazon Kinesis Data Streams 中的数据执行基于时间的聚合。

B. 使用 Amazon Managed Service for Apache Flink（以前称为 Amazon Kinesis Data Analytics）通过使用多种类型的聚合来分析可能偶尔包含重复项的数据。

C. 使用包含业务和分析逻辑的 AWS Lambda 函数，根据事件时间戳对长达 30 分钟的滚动窗口执行聚合。

答案：D

38 / 100

38.

A. 创建 gp2 卷的快照。从快照创建新的 gp3 卷。将新的 gp3 卷附加到 EC2 实例。

B. 创建新的 gp3 卷。逐步将数据传输到新的 gp3 卷。传输完成后，将新的 gp3 卷安装到 EC2 实例以替换 gp2 卷。

C. 将现有 gp2 卷的卷类型更改为 gp3。输入卷大小、IOPS 和吞吐量的新值。

D. 使用 AWS DataSync 创建新的 gp3 卷。将数据从原始 gp2 卷传输到新的 gp3 卷。

答案：C

说明：
https://aws.amazon.com/blogs/storage/migrate-your-amazon-ebs-volumes-from-gp2-to-gp3-and-save-up-to-20-on-costs/

39 / 100

39.

40 / 100

40.

A. STL_USAGE_CONTROL

B. STL_ALERT_EVENT_LOG

C. STL_QUERY_METRICS

D. STL_PLAN_INFO

答案：B

说明：
STL_ALERT_EVENT_LOG 记录与查询或用户定义的性能阈值相关的任何警报/通知。这将捕获有关潜在性能问题的优化器警报。

STL_PLAN_INFO 提供有关执行计划的详细信息。优化器统计信息和警告可深入了解有问题的查询计划。

STL_USAGE_CONTROL 限制用户活动，但不记录异常。

STL_QUERY_METRICS 具有执行统计信息，但没有计划诊断。

41 / 100

41.

A. 使用 AWS Glue PySpark 作业将源数据以 .csv 格式导入数据湖。

B. 创建 AWS Glue 提取、转换和加载 (ETL) 作业以从 .csv 结构化数据源读取。配置作业以将数据以 JSON 格式导入数据湖。

C. 使用 AWS Glue PySpark 作业以 Apache Avro 格式将源数据导入数据湖。

D. 创建 AWS Glue 提取、转换和加载 (ETL) 作业以从 .csv 结构化数据源读取。配置作业以 Apache Parquet 格式将数据写入数据湖。

答案：D

42 / 100

42.

A. 使用每个区域的数据过滤器将 S3 路径注册为数据位置。

B. 将 S3 路径注册为 AWS Lake Formation 位置。

C. 修改人力资源部门的 IAM 角色，为每个部门的区域添加数据过滤器。

D. 在 AWS Lake Formation 中启用细粒度访问控制。为每个区域添加数据过滤器。

E. 为每个区域创建一个单独的 S3 存储桶。配置 IAM 策略以允许 S3 访问。根据区域限制访问。

答案：B、D

说明：
https://docs.aws.amazon.com/lake-formation/latest/dg/data-filters-about.html
https://docs.aws.amazon.com/lake-formation/latest/dg/access-control-fine-grained.html

43 / 100

43.

答案：B、D

说明：
https://docs.aws.amazon.com/step-functions/latest/dg/procedure-create-iam-role.html
https://docs.aws.amazon.com/step-functions/latest/dg/service-integration-iam-templates.html

当然是权限，我们需要查看流量是否在任何跳跃处被阻止，因为他们提到 EMR 在 vpc 中，所以……流日志

44 / 100

44.

A. 使用由包含应用程序数据的 EC2 实例存储卷支持的 AMI 启动新的 EC2 实例。将默认设置应用于 EC2 实例。

B. 使用由包含应用程序数据的根 Amazon Elastic Block Store (Amazon EBS) 卷支持的 AMI 启动新的 EC2 实例。将默认设置应用于 EC2 实例。

C. 使用由 EC2 实例存储卷支持的 AMI 启动新的 EC2 实例。附加 Amazon Elastic Block Store (Amazon EBS) 卷以包含应用程序数据。将默认设置应用于 EC2 实例。

D. 使用由 Amazon Elastic Block Store (Amazon EBS) 卷支持的 AMI 启动新的 EC2 实例。附加额外的 EC2 实例存储卷以包含应用程序数据。将默认设置应用于 EC2 实例。

答案：C

45 / 100

45.

A. Athena 查询设置

B. Athena 工作组

C. Athena 数据源

D. Athena 查询编辑器

答案：B

46 / 100

46.

A. 安排 AWS Glue 爬虫程序每天早上运行。

B. 每天手动运行 AWS Glue CreatePartition API 两次。

C. 使用将数据写入 Amazon S3 的代码来调用 Boto3 AWS Glue create_partition API 调用。

D. 从 AWS Glue 控制台运行 MSCK REPAIR TABLE 命令。

答案：C

47 / 100

47.

A. Amazon Managed Streaming for Apache Kafka (Amazon MSK)

B. Amazon AppFlow

C. AWS Glue 数据目录

D. Amazon Kinesis

答案：B

48 / 100

48. FROM sales_data -

WHERE year = 2023 -

GROUP BY product_name -
数据工程师应如何修改 Athena 查询以满足这些要求？

A. 将聚合的 sum(sales_amount) 替换为 count(*)。

B. 将 WHERE year = 2023 更改为 WHERE extract(year FROM sales_data) = 2023。

C. 在 GROUP BY 子句后添加 HAVING sum(sales_amount) > 0。

D. 删除 GROUP BY 子句。

答案：B

49 / 100

49.

A. 配置 AWS Lambda 函数以将数据从 S3 存储桶加载到 pandas 数据框中。在数据框上编写 SQL SELECT 语句以查询所需的列。

B. 使用 S3 Select 编写 SQL SELECT 语句以从 S3 对象中检索所需的列。

C. 准备一个 AWS Glue DataBrew 项目来使用 S3 对象并查询所需的列。

D. 在 S3 对象上运行 AWS Glue 爬虫。在 Amazon Athena 中使用 SQL SELECT 语句查询所需的列。

答案：B

50 / 100

50.

No.50
一家公司将 Amazon Redshift 用于其数据仓库。该公司必须自动执行 Amazon Redshift 物化视图的刷新计划。
哪种解决方案能够以最少的努力满足此要求？

A. 使用 Apache Airflow 刷新物化视图。

B. 使用 Amazon Redshift 中的 AWS Lambda 用户定义函数 (UDF) 刷新物化视图。

C. 使用 Amazon Redshift 中的查询编辑器 v2 刷新物化视图。

D. 使用 AWS Glue 工作流刷新物化视图。

答案：C

51 / 100

51.

A. 使用包含状态机的 AWS Step Functions 工作流。配置状态机以运行 Lambda 函数，然后运行 AWS Glue 作业。

B. 使用部署在 Amazon EC2 实例上的 Apache Airflow 工作流。定义一个有向无环图 (DAG)，其中第一个任务是调用 Lambda 函数，第二个任务是调用 AWS Glue 作业。

C. 使用 AWS Glue 工作流运行 Lambda 函数，然后运行 AWS Glue 作业。

答案：A

52 / 100

52.

答案：B

53 / 100

53.

A. 将预置容量增加到峰值负载期间当前存在的最大容量。

B. 将表分成两个表。为每个表预置原始表的一半预置容量。在两个表中均匀分布查询。

C. 使用 AWS Application Auto Scaling 为高峰使用时间安排更高的预置容量。在非高峰时间安排较低的容量。

D. 将容量模式从预置更改为按需。将表配置为根据表上的负载进行扩展和缩减。

答案：C

54 / 100

54.

A. 使用 AWS 数据库迁移服务 (AWS DMS) 将 Hive 元存储迁移到 Amazon S3。配置 AWS Glue 数据目录以扫描 Amazon S3 以生成数据目录。

B. 在 Amazon EMR 中配置 Hive 元存储。将现有的本地 Hive 元存储迁移到 Amazon EMR。使用 AWS Glue 数据目录将公司的数据目录存储为外部数据目录。

C. 在 Amazon EMR 中配置外部 Hive 元存储。将现有的本地 Hive 元存储迁移到 Amazon EMR。使用 Amazon Aurora MySQL 存储公司的数据目录。

D. 在 Amazon EMR 中配置新的 Hive 元存储。将现有的本地 Hive 元存储迁移到 Amazon EMR。使用新的元存储作为公司的数据目录。

答案：B

55 / 100

55.

A. 将排序键更改为 SQL SELECT 语句的 WHERE 子句中最常用的数据列。

B. 将分配键更改为具有最大维度的表列。

C. 将预留节点从 ra3.4xlarge 升级到 ra3.16xlarge。

D. 将主键更改为 SQL SELECT 语句的 WHERE 子句中最常用的数据列。

答案：B

56 / 100

56.

A. 创建 AWS Glue 数据目录。配置 AWS Glue 架构注册表。创建新的 AWS Glue 工作负载以协调分析部门将使用到 Amazon Redshift Serverless 中的数据的提取。

C. 创建 Amazon Athena 工作组。通过 Athena 使用 Apache Spark 探索 Amazon S3 中的数据。向分析部门提供 Athena 工作组架构和表。

答案：A

57 / 100

57.

B. 在 AWS CloudTraiL 中创建管理事件跟踪。配置跟踪以从交易 S3 存储桶接收数据。指定空前缀和只写事件。将日志 S3 存储桶指定为目标存储桶。

C. 为交易 S3 存储桶上的所有活动配置 S3 事件通知规则，以调用 AWS Lambda 函数。对 Lambda 函数进行编程，以将事件写入日志 S3 存储桶。

D. 在 AWS CloudTraiL 中创建数据事件跟踪。配置跟踪以从交易 S3 存储桶接收数据。指定空前缀和只写事件。将日志 S3 存储桶指定为目标存储桶。

答案：D

58 / 100

58.

A. 使用 Amazon EMR 和 Apache Ranger。

B. 在 EMR 集群上使用 Hive 元存储。

C. 使用 AWS Glue 数据目录。

D. 在 Amazon RDS for MySQL DB 实例上使用元存储。

答案：C

59 / 100

59.

A. 使用 Amazon S3 进行数据湖存储。使用 S3 访问策略按行和列限制数据访问。通过 Amazon S3 提供数据访问。

B. 使用 Amazon S3 进行数据湖存储。通过 Amazon EMR 使用 Apache Ranger 按行和列限制数据访问。使用 Apache Pig 提供数据访问。

C. 使用 Amazon Redshift 进行数据湖存储。使用 Redshift 安全策略按行和列限制数据访问。使用 Apache Spark 和 Amazon Athena 联合查询提供数据访问。

D. 使用 Amazon S3 进行数据湖存储。使用 AWS Lake Formation 按行和列限制数据访问。通过 AWS Lake Formation 提供数据访问。

答案：D

说明：
选项 D 是满足要求且运营开销最少的最佳解决方案。

使用 Amazon S3 进行存储，使用 AWS Lake Formation 进行访问控制和数据访问具有以下优势：

60 / 100

60.

A. 在 Amazon S3 中的键开头添加一个随机字符串，以获得更多跨分区吞吐量。

B. 使用与使用 Athena 查询数据的同一账户中的 S3 存储桶。

C. 使用与公司运行 Athena 查询的同一 AWS 区域中的 S3 存储桶。

D. 通过仅获取查询所需的文档键，将 .csv 数据预处理为 JSON 格式。

E. 通过仅获取谓词所需的数据块，将 .csv 数据预处理为 Apache Parquet 格式。

答案：C、E

说明：
https://docs.aws.amazon.com/athena/latest/ug/performance-tuning.html

61 / 100

61.

A. 使用 Amazon RDS 的 Performance Insights 功能来识别具有高 CPU 利用率的查询。优化有问题的查询。

B. 修改数据库架构以包含其他表和索引。

C. 每周重新启动一次 RDS DB 实例。

D. 升级到更大的实例大小。

E. 实施缓存以减少数据库查询负载。

62 / 100

62.

A. VACUUM FULL 订单

B. VACUUM DELETE ONLY 订单

C. VACUUM REINDEX 订单

D. VACUUM SORT ONLY 订单

答案：C

63 / 100

63.

A. 使用自托管 Apache Kafka 集群捕获传感器数据。将数据存储在 Amazon S3 中以供查询。

B. 使用 AWS Lambda 处理传感器数据。将数据存储在 Amazon S3 中以供查询。

C. 使用 Amazon Kinesis Data Streams 捕获传感器数据。将数据存储在 Amazon DynamoDB 中以供查询。

D. 使用 Amazon Simple Queue Service (Amazon SQS) 缓冲传入的传感器数据。使用 AWS Glue 将数据存储在 Amazon RDS 中以供查询。

答案：C

64 / 100

64.

D. 创建具有不同精细访问级别的 IAM 角色。将 IAM 角色分配给 IAM 用户组。使用基于身份的策略在列级别为用户组分配访问级别。

答案：A

65 / 100

65.

A. 使用 Amazon EventBridge 规则每 15 分钟运行一次 AWS Glue 作业。配置 AWS Glue 作业以处理数据并将其加载到 Amazon Redshift 表中。

答案：B、D

说明：
选项 B：Amazon EventBridge 规则与 AWS Glue 工作流作业每 15 分钟一次 - 因为它简化了流程、自动调度和处理架构更改的能力。

选项 D：AWS Lambda 在文件加载时调用 AWS Glue 工作流 - 因为它对文件到达的响应能力和对架构更改的适应性，尽管它比选项 B 稍微复杂一些。

66 / 100

66.

A. 配置 Amazon S3 生命周期策略，以在 1 天后将数据移动到 S3 Glacier Deep Archive 存储类。

B. 使用 Amazon Athena 的查询结果重用功能进行 SQL 查询。

C. 在 BI 应用程序和 Athena 之间添加 Amazon ElastiCache 集群。

D. 将数据集中的文件格式更改为 Apache Parquet。

答案：B

67 / 100

67.

A. 继续对所有表使用 EVEN 分配样式。为所有表指定主键和外键。

B. 对大型表使用 ALL 分配样式。为所有表指定主键和外键。

C. 对很少更新的小表使用 ALL 分布样式。为所有表指定主键和外键。

D. 为所有表指定分布、排序和分区键的组合。

答案：C

68 / 100

{
"Door_No": "24",
"Street_Name": "AAA street",
"City": "BBB",
"Zip_Code": "111111"
}

68. 哪种解决方案能够以最少的编码工作量满足此要求？

A. 使用 AWS Glue DataBrew 读取文件。使用 NEST_TO_ARRAY 转换创建新列。

B. 使用 AWS Glue DataBrew 读取文件。使用 NEST_TO_MAP 转换创建新列。

C. 使用 AWS Glue DataBrew 读取文件。使用 PIVOT 转换创建新列。

D. 用 Python 编写 Lambda 函数来读取文件。使用 Python 数据字典类型创建新列。

答案：B

说明：
NEST_TO_ARRAY 将导致：

[ {"key": "key1", "value": "value1"}, {"key": "key2", "value": "value2"}, {"key": "key3", "value": "value3"}]

while NEST_TO_MAP results: {
"key1": "value1",
"key2": "value2",
"key3": "value3"
}

因此选择 B。

69 / 100

69.

A. 使用 AWS CloudHSM 集群存储加密密钥。配置写入 Amazon S3 的过程以调用 CloudHSM 来加密和解密对象。部署限制对 CloudHSM 集群访问的 IAM 策略。

B. 使用带有客户提供的密钥 (SSE-C) 的服务器端加密来加密包含客户信息的对象。限制对加密对象的密钥的访问。

C. 使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密来加密包含客户信息的对象。配置限制对加密对象的 KMS 密钥的访问的 IAM 策略。

D. 使用带有 Amazon S3 托管密钥 (SSE-S3) 的服务器端加密来加密包含客户信息的对象。配置 IAM 策略以限制对加密对象的 Amazon S3 托管密钥的访问。

答案：C

说明：
使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密来加密包含客户信息的对象。配置 IAM 策略以限制对加密对象的 KMS 密钥的访问。

70 / 100

70.

C. 使用 S3 智能分层。激活 Deep Archive 访问层。

D. 使用 S3 智能分层。使用默认访问层。

答案：D

说明：
虽然 C 更具成本效益，但由于“必须能够在几毫秒内检索所有数据”，因此将选择 D。

71 / 100

71.

A. 将凭证存储在 AWS Glue 作业参数中。

B. 将凭证存储在 Amazon S3 存储桶中的配置文件中。

C. 使用 AWS Glue 作业从 Amazon S3 存储桶中的配置文件访问凭证。

D. 将凭证存储在 AWS Secrets Manager 中。

E. 授予 AWS Glue 作业 IAM 角色对存储凭证的访问权限。

答案：D，E

说明：
D 是因为这是 AWS 保护凭据的最佳实践，而 E 是因为将凭据放入机密后，您将需要访问权限。

72 / 100

72.

A. 使用 Amazon Step Functions 在分析流程完成时暂停 Redshift 集群，并恢复集群以每月运行新流程。

B. 使用 Amazon Redshift Serverless 自动处理分析工作负载。

C. 使用 AWS CLI 自动处理分析工作负载。

D. 使用 AWS CloudFormation 模板自动处理分析工作负载。

答案：B

73 / 100

73.

A. 在 AWS Glue 笔记本中创建并运行 Apache Spark 作业。配置作业以读取 S3 文件并计算不同客户的数量。

B. 创建 AWS Glue 爬虫程序以创建 S3 文件的 AWS Glue 数据目录。从 Amazon Athena 运行 SQL 查询以计算不同客户的数量。

C. 在 Amazon EMR Serverless 中创建并运行 Apache Spark 作业以计算不同客户的数量。

D. 使用 AWS Glue DataBrew 创建使用 COUNT_DISTINCT 聚合函数计算不同客户数量的配方。

答案：D

74 / 100

74.

A. 将数据加载到 Amazon Kinesis Data Firehose 中。将数据加载到 Amazon Redshift 中。

B. 使用 Amazon Redshift 的流式提取功能。

C. 将数据加载到 Amazon S3 中。使用 COPY 命令将数据加载到 Amazon Redshift 中。

D. 使用 Amazon Aurora 零 ETL 与 Amazon Redshift 的集成。

答案：B

75 / 100

75.

A. QuickSight 和 Athena 之间没有联系。

B. Athena 表未编入目录。

C. QuickSight 无权访问 S3 存储桶。

D. QuickSight 无权解密 S3 数据。

E. 没有为 QuickSight 分配 IAM 角色。

答案：C、D

说明：
https://docs.aws.amazon.com/quicksight/latest/user/troubleshoot-athena-insufficient-permissions.html

E 不正确，因为它会导致身份验证/授权错误，而不是权限不足错误。

76 / 100

76.

答案：A

说明：
最低运营开销？直接使用 Athena 查询，无需任何中间操作或服务。

77 / 100

77.

A. 将 AWSGlueServiceRole 托管策略添加到数据工程师的 IAM 用户。

B. 向数据工程师的 IAM 用户添加一项策略，该策略包括信任策略中针对 AWS Glue 和 SageMaker 服务主体的 sts:AssumeRole 操作。

C. 向数据工程师的 IAM 用户添加 AmazonSageMakerFullAccess 托管策略。

D. 向数据工程师的 IAM 用户添加一项策略，允许信任策略中针对 AWS Glue 和 SageMaker 服务主体的 sts:AddAssociation 操作。

答案：B

78 / 100

78.

A. 使用 Amazon EMR 检测模式并提取、转换数据并将其加载到 S3 存储桶中。在 Apache Spark 中创建管道。

B. 使用 AWS Glue 检测模式并提取、转换数据并将其加载到 S3 存储桶中。在 Apache Spark 中创建管道。

C. 在 AWS Lambda 中创建一个 PySpark 程序，以提取、转换和加载数据到 S3 存储桶中。

D. 在 Amazon Redshift 中创建一个存储过程，以检测架构并提取、转换和加载数据到 Redshift Spectrum 表中。从 Amazon S3 访问表。

答案：B

说明：
使用 AWS Glue 检测架构并提取、转换和加载数据到 S3 存储桶中。在 Apache Spark 中创建一个管道。

79 / 100

79.

C. 使用 AWS Glue 为每个应用程序转换数据。创建数据集的多个副本。为每个数据集副本提供适当的编辑级别，以满足访问副本的应用程序的需求。

答案：B

80 / 100

80.

A. 编写自定义 Python 应用程序。在 Amazon Elastic Kubernetes Service (Amazon EKS) 集群上托管应用程序。

B. 编写 PySpark ETL 脚本。在 Amazon EMR 集群上托管脚本。

C. 编写 AWS Glue PySpark 作业。使用 Apache Spark 转换数据。

D. 编写 AWS Glue Python shell 作业。使用 pandas 转换数据。

81 / 100

81.

No.81
数据工程师使用名为 Orders 的 AWS Glue 爬虫创建 AWS Glue 数据目录表。数据工程师想要添加以下新分区：

s3://transactions/orders/order_date=2023-01-01
s3://transactions/orders/order_date=2023-01-02

B. MSCK 修复表订单；

C. 修复表订单；

答案：A

82 / 100

82.

A. 使用 zip 压缩的 .csv 格式

B. 使用 bzip2 压缩的 JSON 格式

C. 使用 Snappy 压缩的 Apache Parquet 格式

D. 使用 LZO 压缩的 Apache Avro 格式

答案：C

83 / 100

83.

D. 将管道转换为 AWS Step Functions 工作流。在 SQL 中重新创建数据质量检查作为基于 Python 的 AWS Lambda 函数。

答案：C

84 / 100

84.

A. Amazon EventBridge

B. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)

C. AWS Step Functions

D. AWS Glue Workflows

答案：C

说明：
Glue Workflows 用于 Glue 作业编排。C 用于与不同 AWS 服务进行编排。

85 / 100

85.

A. 创建一个 AWS Glue 作业，确定所有 ALB 访问日志的架构并将分区元数据写入 AWS Glue 数据目录。

B. 创建一个 AWS Glue 爬虫，其中包含一个分类器，该分类器确定所有 ALB 访问日志的架构并将分区元数据写入 AWS Glue 数据目录。

C. 创建一个 AWS Lambda 函数来转换所有 ALB 访问日志。将结果以 Apache Parquet 格式保存到 Amazon S3。对元数据进行分区。使用 Athena 查询转换后的数据。

D. 使用 Apache Hive 创建存储桶表。使用 AWS Lambda 函数转换所有 ALB 访问日志。

答案：B

86 / 100

86.

A. 根据之前成功的文件传输确定文件传输通常何时完成。设置 Amazon EventBridge 计划事件以在一天中的该时间启动 AWS Glue 作业。

B. 设置 Amazon EventBridge 事件，在每次成功的 S3 文件网关文件传输事件后启动 AWS Glue 工作流。

C. 设置按需 AWS Glue 工作流，以便数据工程师可以在每次文件传输完成时启动 AWS Glue 工作流。

D. 设置一个将调用 AWS Glue 工作流的 AWS Lambda 函数。设置一个事件来创建 S3 对象作为 Lambda 函数的触发器。

答案：B

说明：
直接使用 EventBridge 在 S3 事件上触发 AWS Glue 工作流非常简单，并且利用了 AWS 的事件驱动架构，只需要极少的维护。

87 / 100

87.

A. 配置 Amazon Redshift 联合查询功能以查询 PostgreSQL 数据库中的实时交易数据。

B. 配置 Amazon Redshift Spectrum 以查询 PostgreSQL 数据库中的实时交易数据。

E. 在 Amazon Redshift 中创建一个物化视图，将来自不同来源的实时、当前和历史数据结合起来。

答案：A

88 / 100

88.

A. 将分区键从设施 ID 更改为随机生成的键。

B. 增加分片数量。

C. 在生产者端存档数据。

D. 将分区键从设施 ID 更改为捕获日期。

答案：A

89 / 100

89.

A. EXPLAIN SELECT * FROM sales;

B. EXPLAIN ANALYZE FROM sales;

C. EXPLAIN ANALYZE SELECT * FROM sales;

D. EXPLAIN FROM sales;

答案：C

说明：
使用 EXPLAIN ANALIZE
https://docs.aws.amazon.com/athena/latest/ug/athena-explain-statement.html

90 / 100

90.

A. 配置 Amazon Kinesis Data Streams 数据流以使用 Splunk 作为目标。创建 CloudWatch Logs 订阅过滤器以将日志事件发送到数据流。

B. 创建 Amazon Kinesis Data Firehose 传输流以使用 Splunk 作为目标。创建 CloudWatch Logs 订阅过滤器以将日志事件发送到传输流。

C. 创建 Amazon Kinesis Data Firehose 传输流以使用 Splunk 作为目标。创建 AWS Lambda 函数以将流日志从 CloudWatch Logs 发送到传输流。

D. 配置 Amazon Kinesis Data Streams 数据流以使用 Splunk 作为目标。创建 AWS Lambda 函数以将流日志从 CloudWatch Logs 发送到数据流。

答案：B

91 / 100

91.

A. 设置 AWS Lake Formation。在 Lake Formation 中按 IAM 角色为用户和应用程序定义基于安全策略的规则。

B. 为 AWS Glue 表定义基于 IAM 资源的策略。将相同的策略附加到 IAM 用户组。

C. 为 AWS Glue 表定义基于 IAM 身份的策略。将相同的策略附加到 IAM 角色。将 IAM 角色与包含用户的 IAM 组关联。

D. 在 AWS Resource Access Manager (AWS RAM) 中创建资源共享以授予 IAM 用户访问权限。

答案：A

92 / 100

92.

A. 创建一个读取 S3 文件状态并将状态记录在 Amazon DynamoDB 中的 ETL 作业。

B. 为 ETL 作业启用作业书签以在运行后更新状态，从而跟踪以前处理的数据。

C. 为 ETL 作业启用作业指标以帮助跟踪 Amazon CloudWatch 中已处理的对象。

D. 配置 ETL 作业以在每次运行后从 Amazon S3 中删除已处理的对象。

答案：B

说明：
AWS Glue 作业书签旨在通过自动跟踪状态来处理增量数据处理。

93 / 100

93.

A. 将流日志发布到 Amazon CloudWatch Logs。使用 Amazon Athena 进行分析。

B. 将流日志发布到 Amazon CloudWatch Logs。使用 Amazon OpenSearch Service 集群进行分析。

C. 以文本格式将流日志发布到 Amazon S3。使用 Amazon Athena 进行分析。

D. 以 Apache Parquet 格式将流日志发布到 Amazon S3。使用 Amazon Athena 进行分析。

答案：D

说明：
流日志可以以 Parquet 格式发布到 S3：https://docs.aws.amazon.com/vpc/latest/userguide/flow-logs-s3.html#flow-logs-s3-path

94 / 100

94.

A. 将商店位置表的分布样式从均匀分布更改为全部分布。

B. 根据具有最高维度的列将商店位置表的分布样式更改为键分布。

C. 将名为 store_id 的连接列添加到所有表的排序键中。

D. 将 Redshift 预留节点升级到同一实例系列中的更大实例大小。

答案：A

95 / 100

95.

A. 从 Sales 中选择 *，其中 city_name ~ ‘$(San|El)*’;

B. 从 Sales 中选择 *，其中 city_name ~ ‘^(San|El)*’;

C. 从 Sales 中选择 *，其中 city_name ~’$(San&El)*’;

D. 从 Sales 中选择 *，其中 city_name ~ ‘^(San&El)*’;

答案：B

说明：
供大家参考的正则表达式模式

96 / 100

96.

A. 使用 Amazon CloudWatch 监控 DMS 任务。检查 CDCIncomingChanges 指标以识别来自源数据库的 CDC 中的延迟。

B. 验证是否在 postgresql.conf 配置文件中配置了源数据库的逻辑复制。

C. 为源数据库的 DMS 终端节点启用 Amazon CloudWatch Logs。检查错误消息。

D. 使用 Amazon CloudWatch 监控 DMS 任务。检查 CDCLatencySource 指标以确定来自源数据库的 CDC 中的延迟。

答案：D

说明：
CDCLatencySource 指标：此指标测量源数据库和 DMS 任务之间的延迟。它显示从源数据库的事务日志读取更改需要多长时间。

https://docs.aws.amazon.com/dms/latest/userguide/CHAP_Monitoring.html#CHAP_Monitoring.Metrics

97 / 100

97.

A. 使用 Amazon Kinesis Data Streams 和 Amazon Kinesis Data Firehose 将数据传送到 S3 存储桶。使用 Kinesis Data Firehose 的默认缓冲间隔。

B. 使用 Amazon Kinesis Data Streams 将数据传送到 S3 存储桶。将流配置为使用 5 个预配置分片。

C. 使用 Amazon Kinesis Data Streams 并调用 Kinesis Client Library 将数据传送到 S3 存储桶。使用来自应用程序的 5 秒缓冲间隔。

答案：C

98 / 100

98.

A. 对于每日传入数据，使用 AWS Glue 爬虫扫描和识别模式。

B. 对于每日传入数据，使用 Amazon Athena 扫描和识别模式。

C. 对于每日传入数据，使用 Amazon Redshift 执行转换。

D. 对于每日和存档数据，使用 Amazon EMR 执行数据转换。

E. 对于存档数据，使用 Amazon SageMaker 执行数据转换。

答案：A、D

说明：
Glue 爬虫用于识别模式，EMR 用于对数据进行批处理。

A. 对于每日传入数据，使用 AWS Glue 爬虫扫描和识别模式。
D. 对于每日和存档数据，使用 Amazon EMR 执行数据转换。

原因如下：

99 / 100

99.

A. 使用 AWS Glue 作业书签来跟踪数据的准确性和一致性。

B. 创建自定义 AWS Glue 数据质量规则集来定义特定的数据质量检查。

C. 使用内置的 AWS Glue 数据质量转换进行标准数据质量验证。

D. 使用 AWS Glue 数据目录维护集中式数据架构和元数据存储库。

答案：B

100 / 100

100.

A. 将数据存储在 Amazon Glacier Flexible Retrieval 中。使用 Amazon S3 Glacier Select 查询数据。

B. 将数据存储在 Amazon S3 中。使用 Amazon S3 Select 查询数据。

C. 将数据存储在 Amazon S3 中。使用 Amazon Athena 查询数据。

D. 将数据存储在 Amazon Glacier Instant Retrieval 中。使用 Amazon Athena 查询数据。

Your score is

■AWS DEA-C01 中文 Q.101-204

/104

AWS DEA-C01(CN) Q.101-204

[Q.101-204] AWS Certified Data Engineer – Associate 可验证与核心数据相关的 AWS 服务方面的技能和知识，摄取和转换数据、在应用编程概念时编排数据管道、设计数据模型、管理数据生命周期和确保数据质量的能力。

1 / 104

A. 创建 AWS Lambda 函数来安排 cron 作业来运行存储过程。

B. 使用 Amazon EC2 Spot 实例中的 Amazon Redshift 数据 API 安排和运行存储过程。

C. 使用查询编辑器 v2 按计划运行存储过程。

D. 安排 AWS Glue Python shell 作业来运行存储过程。

答案：C

说明：
这可以通过查询编辑器 v2 实现（https://docs.aws.amazon.com/redshift/latest/mgmt/query-editor-v2-schedule-query.html）

2 / 104

A. 使用 Amazon Redshift 存储和查询点击流数据。

B. 使用 Amazon Athena 查询点击流数据

C. 使用 Amazon S3 分析查询点击流数据。

D. 通过 QuickSight 直接 SQL 查询访问查询数据。

E. 通过 QuickSight SPICE（超快速、并行、内存计算引擎）访问查询数据。为数据集配置每日刷新。

答案：B，E

3 / 104

A. AWS 数据交换

B. Amazon 简单工作流服务 (Amazon SWF)

C. Amazon Apache Airflow 托管工作流 (Amazon MWAA)

D. AWS Glue

答案：C

4 / 104

A. Amazon Keyspaces（适用于 Apache Cassandra）

B. Amazon DocumentDB（兼容 MongoDB）

C. Amazon DynamoDB

D. Amazon Timestream

答案：C

说明：
提供个位数毫秒级的性能 => DynamoDB

5 / 104

A. 确保 Lambda 函数执行角色的信任策略允许 EventBridge 承担执行角色。

B. 确保 EventBridge 使用的 IAM 角色和 Lambda 函数的基于资源的策略都具有必要的权限。

C. 确保部署 Lambda 函数的子网配置为私有子网。

D. 确保 EventBridge 架构有效并且事件映射配置正确。

答案：B

6 / 104

A. 使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密和 Amazon S3 加密客户端。

B. 使用带有 AWS KMS 密钥 (DSSE-KMS) 的双层服务器端加密。

C. 在上传文件之前使用带有客户提供的密钥 (SSE-C) 的服务器端加密。

D. 使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密。

答案：B

解释：
B. 使用带有 AWS KMS 密钥 (DSSE-KMS) 的双层服务器端加密。

7 / 104

No.107
数据工程师注意到 Amazon Athena 查询在运行之前被保留在队列中。
数据工程师如何防止查询排队？

A. 增加查询结果限制。

B. 为现有工作组配置预置容量。

C. 使用联合查询。

D. 允许运行 Athena 查询的用户加入现有工作组。

答案：B

8 / 104

A. AWS Glue 作业没有书签正常工作所需的 s3:GetObjectAcl 权限。

B. AWS Glue 作业的最大并发数设置为 1。

C. 数据工程师错误地为 Glue 作业指定了旧版本的 AWS Glue。

D. AWS Glue 作业没有必需的提交语句。

答案：D

9 / 104

A. AWS Lambda

B. Amazon Managed Workflows for Apache Airflow (Amazon MVVAA)

C. AWS Step Functions

D. AWS Glue

答案：B

解释：
因为公司希望在本地使用相同的工具并减少运营开销。

10 / 104

10.

A. 运行计划的 AWS Glue 提取、转换和加载 (ETL) 作业，以使用 Java 数据库连接 (JDBC) 连接获取 MySQL 数据库更新。将 Amazon Redshift 设置为 ETL 作业的目标。

B. 在 AWS 数据库迁移服务 (AWS DMS) 中运行满载加 CDC 任务，以持续复制 MySQL 数据库更改。将 Amazon Redshift 设置为任务的目标。

C. 使用 Amazon AppFlow SDK 为 MySQL 数据库构建自定义连接器，以持续复制数据库更改。将 Amazon Redshift 设置为连接器的目标。

D. 运行计划的 AWS DataSync 任务以同步 MySQL 数据库中的数据。将 Amazon Redshift 设置为任务的目标。

答案：B

11 / 104

11.

A. Amazon S3 Select

B. Amazon Redshift Spectrum

C. Amazon Athena

D. Amazon EMR

答案：C

12 / 104

12.

A. 在 eu-west-1 的 Account_B 中设置 AWS DMS 复制实例。

B. 在 eu-east-1 的 Account_B 中设置 AWS DMS 复制实例。

C. 在 eu-west-1 的新 AWS 账户中设置 AWS DMS 复制实例。

D. 在 eu-east-1 的 Account_A 中设置 AWS DMS 复制实例。

答案：A

说明：
Redshift 需要与复制实例位于同一区域，请参阅文档：
https://docs.aws.amazon.com/dms/latest/userguide/CHAP_Target.Redshift.html#CHAP_Target.Redshift.Prerequisites

13 / 104

13.

A. 使用预配置的 Amazon EMR 集群将所有数据文件复制到一个文件夹中。使用 COPY 命令将数据加载到 Amazon Redshift 中。

B. 将所有数据文件并行加载到 Amazon Aurora 中。运行 AWS Glue 作业将数据加载到 Amazon Redshift 中。

C. 使用 AWS Give 作业将所有数据文件复制到一个文件夹中。使用 COPY 命令将数据加载到 Amazon Redshift 中。

D. 创建包含数据文件位置的清单文件。使用 COPY 命令将数据加载到 Amazon Redshift 中。

答案：D

解释：
https://docs.aws.amazon.com/redshift/latest/dg/c_best-practices-single-copy-command.html

14 / 104

14.

A. 使用 Kinesis Data Firehose 将 .csv 文件转换为 JSON。使用 AWS Lambda 函数将文件存储为 Parquet 格式。

B. 使用 Kinesis Data Firehose 将 .csv 文件转换为 JSON 并以 Parquet 格式存储文件。

C. 使用 Kinesis Data Firehose 调用 AWS Lambda 函数，将 .csv 文件转换为 JSON 并以 Parquet 格式存储文件。

D. 使用 Kinesis Data Firehose 调用 AWS Lambda 函数，将 .csv 文件转换为 JSON。使用 Kinesis Data Firehose 将文件存储为 Parquet 格式。

15 / 104

15.

A. 为 Transfer Family 服务器生成新的 SSH 密钥。使旧密钥和新密钥可供使用。

B. 更新本地网络的安全组规则以仅允许使用 TLS 1.2 或更高版本的连接。

C. 更新 Transfer Family 服务器的安全策略以指定最低协议版本 TLS 1.2

D. 在 Transfer Family 服务器上安装 SSL 证书以使用 TLS 1.2 加密数据传输。

答案：C

说明：
一家公司正在使用 AWS Transfer Family 服务器将数据从本地环境迁移到 AWS。公司政策要求使用 TLS 1.2 或更高版本对传输中的数据进行加密。

16 / 104

16.

A. Amazon Kinesis Data Streams

B. Amazon Managed Streaming for Apache Kafka (Amazon MSK) 预配置集群

C. Amazon Kinesis Data Firehose

D. Amazon Managed Streaming for Apache Kafka (Amazon MSK) 无服务器

答案：D

解释：
因为这是直接迁移和无服务器 - 因为管理开销最少

17 / 104

17.

A. 工作流

B. 触发器

C. 作业书签

D. 分类器

答案：C

解释：

18 / 104

18.

A. 设计应用程序，使其能够在处理过程中通过在源中的每个记录中嵌入唯一 ID 来删除重复项。

B. 更新 Amazon Managed Service for Apache Flink（以前称为 Amazon Kinesis Data Analytics）数据收集应用程序的检查点配置，以避免重复处理事件。

C. 设计数据源，使事件不会多次被提取到 Kinesis Data Streams 中。

D. 停止使用 Kinesis Data Streams。改用 Amazon EMR。在 Amazon EMR 中使用 Apache Flink 和 Apache Spark Streaming。

答案：A

19 / 104

19.

A. 定期手动备份 S3 存储桶。

B. 为 S3 存储桶启用 S3 版本控制。

C. 为 S3 存储桶配置复制。

D. 使用 Amazon S3 Glacier 存储类来存档 S3 存储桶中的数据。

答案：B

20 / 104

20.

A. 创建 AWS Lambda 函数以查询 Aurora 以了解网络使用率下降情况。使用 Amazon EventBridge 每分钟自动调用 Lambda 函数。

D. 在 Aurora 的数据库活动流功能中创建一个 AWS Lambda 函数来检测网络使用率下降。

答案：B

21 / 104

21.

A. 使用 Amazon EMR 准备数据。使用 AWS Step Functions 将数据加载到 Amazon Redshift。使用 Amazon QuickSight 运行查询。

B. 使用 AWS Glue DataBrew 准备数据。使用 AWS Glue 将数据加载到 Amazon Redshift。使用 Amazon Redshift 运行查询。

C. 使用 AWS Lambda 准备数据。使用 Amazon Kinesis Data Firehose 将数据加载到 Amazon Redshift。使用 Amazon Athena 运行查询。

D. 使用 AWS Glue 准备数据。使用 AWS 数据库迁移服务 (AVVS DMS) 将数据加载到 Amazon Redshift 中。使用 Amazon Redshift Spectrum 运行查询。

答案：B

解释：
不能是 D，因为 DMS 不支持 S3 作为源，而是 B，因为它实现了主题中描述的所有目标。

22 / 104

22.

A. 在 VPC 的公共子网中创建 NAT 网关。将网络流量路由到 NAT 网关。

B. 为 Amazon S3 创建 VPC 网关终端节点。将网络流量路由到 VPC 网关终端节点。

C. 为 Amazon S3 创建 VPC 接口终端节点。将网络流量路由到 VPC 接口终端节点。

D. 使用 VPC 互联网网关连接到互联网。将网络流量路由到 VPC 互联网网关。

答案：B

说明：

23 / 104

23.

A. 创建一个预配置的 Amazon EMR 集群来处理和分析数据库中的数据。连接到 Apache Zeppelin 笔记本。使用 FindMatches 转换查找数据中的重复记录。

B. 创建 AWS Glue 爬虫程序来抓取数据库。使用 FindMatches 转换查找数据中的重复记录。通过评估性能和结果来评估和调整转换。

C. 创建 AWS Glue 爬虫程序来抓取数据库。使用 Amazon SageMaker 构建 Apache Spark ML 管道以查找数据中的重复记录。

答案：B

解释：
自动发现 RDS 数据库中数据的模式和结构，节省大量手动工作。
创建可查询或转换的统一数据目录。

24 / 104

24.

A. 确保每个对象的对象格式、压缩类型和架构相同。

B. 确保每个对象的对象格式和架构相同。不要强制每个对象的压缩类型的一致性。

C. 确保每个对象的架构相同。不要强制每个对象的文件格式和压缩类型的一致性。

D. 确保每个 S3 对象名称的前缀结构一致。

E. 确保所有 S3 对象名称都遵循类似的模式。

答案：A、D

2. **一致的压缩类型**：
- 确保所有对象使用相同的压缩类型（例如，GZIP、Snappy）。

3. **一致的架构**：
- 确保所有对象都具有相同的架构（即，具有相同数据类型的相同字段）。

4. **一致的前缀结构**：
- 确保 S3 存储桶中的所有对象都遵循一致的命名约定和前缀结构（例如，`s3://your-bucket/path/to/data/`）。

25 / 104

25.

A. 增加消息保留期

B. 增加可见性超时。

C. 将死信队列 (DLQ) 附加到 SQS 队列。

D. 使用延迟队列延迟消息传递

E. 减少消息处理时间。

26 / 104

26.

A. 使用来自 OpenSearch Service 的数据创建 OpenSearch 仪表板。

B. 使用带有 Apache Hive 元存储的 Amazon Athena 查询 Amazon S3 中的 Avro 对象。使用 Amazon Managed Grafana 连接到 Athena 并创建仪表板。

C. 使用 Amazon Athena 查询来自 Amazon S3 中的 Avro 对象的数据。将 Amazon Keyspaces 配置为数据目录。将 Amazon QuickSight 连接到 Athena 以创建仪表板。

D. 使用 AWS Glue 对数据进行分类。使用 S3 Select 查询 Amazon S3 中的 Avro 对象。将 Amazon QuickSight 连接到 S3 存储桶以创建仪表板。

答案：A

解释：

27 / 104

27.

A. DELETE FROMmaterialized_view_name where 1=1

B. TRUNCATEmaterialized_view_name

C. VACUUM table_name where load_date<=current_date materializedview

D. DELETE FROMmaterialized_view_name where load_date<=current_date

28 / 104

28.

A. 使用 Amazon Kinesis Data Firehose 和 AWS Lambda 函数转换数据并将转换后的数据传送给 OpenSearch Service。

B. 使用具有预建过滤器的 Logstash 管道转换数据并将转换后的数据传送给 OpenSearch Service。

C. 使用 AWS Lambda 函数调用 Amazon Kinesis Agent 转换数据并将转换后的数据传送给 OpenSearch Service。

D. 使用 Kinesis Client Library (KCL) 转换数据并将转换后的数据传送给 OpenSearch Service。

答案：A

说明：

29 / 104

29.

A. 设置行级过滤器以阻止用户访问国家/地区为加拿大的行。

B. 创建一个 IAM 角色，限制用户访问国家/地区为加拿大的地址。

C. 设置列级过滤器以阻止用户访问国家/地区为加拿大的行。

D. 将标签应用于所有国家/地区为加拿大的行。阻止标签等于“加拿大”的用户访问。

答案：A

解释：
行级安全性：AWS Lake Formation 提供内置的行级安全性，允许您根据条件控制对表中特定行的访问。这正是此场景所需要的。

最少的操作工作量：设置后，此过滤器将自动应用于所有查询，而无需修改数据或创建复杂的 IAM 策略。

可扩展性：随着新数据添加到表中，过滤器将自动应用，无需额外工作。

精确度：它通过阻止访问国家/地区为加拿大的行来直接满足要求，而不会影响其他数据。

30 / 104

30.

A. 在 Redshift 集群的配置设置中将第三方 IdP 注册为身份提供商。

B. 在 Amazon Redshift 中将第三方 IdP 注册为身份提供商。

C. 将第三方 IdP 注册为 AVS Secrets Manager 的身份提供商。配置 Amazon Redshift 以使用 Secrets Manager 管理用户凭证。

D. 将第三方 IdP 注册为 AWS 证书管理器 (ACM) 的身份提供商。配置 Amazon Redshift 以使用 ACM 管理用户凭证。

31 / 104

31.

A. 将 EMR 托管扩展的最大任务节点数增加到 10。

B. 将任务节点类型从通用 EC2 实例更改为内存优化的 EC2 实例。

C. 将任务节点类型从通用 Re 实例切换为计算优化的 EC2 实例。

D. 缩短已配置 EMR 集群的扩展冷却时间。

答案：C

32 / 104

32.

A. 修改 AWS Glue 作业以将行复制到暂存 Redshift 表中。添加 SQL 命令以使用暂存 Redshift 表中的新值更新现有行。

B. 修改 AWS Glue 作业以将先前插入的数据加载到 MySQL 数据库中。在 MySQL 数据库中执行 upsert 操作。将结果复制到 Amazon Redshift 表。

C. 使用 Apache Spark 的 DataFrame dropDuplicates() API 消除重复项。将数据写入 Redshift 表。

D. 使用 AWS Glue ResolveChoice 内置转换从最新记录中选择列的值。

答案：A

说明：
两步方法涉及创建暂存表，然后使用 Redshift 的合并语句从暂存表更新目标表，最后截断/维护暂存表。

33 / 104

33.

A. 使用多个 COPY 命令将数据加载到 Redshift 集群中。

B. 使用 S3DistCp 将多个文件加载到 Hadoop 分布式文件系统 (HDFS)。使用 HDFS 连接器将数据导入 Redshift 集群。

C. 使用与 Redshift 集群节点数相等的 INSERT 语句数。将数据并行加载到每个节点中。

D. 使用单个 COPY 命令将数据加载到 Redshift 集群中。

答案：D

说明：
单个 COPY 命令会自动在 Redshift 集群中的所有节点上并行执行加载操作。这可确保最佳地利用集群资源。

34 / 104

34.

A. 使用 Amazon Macie 模式匹配作为 ETL 作业的一部分。

B. 在 ETL 作业中训练并使用 AWS Glue PySpark Filter 类。

C. 对表进行分区并使用 ETL 作业根据唯一标识符对数据进行分区。

D. 在 ETL 作业中训练并使用 AWS Lake Formation FindMatches 转换。

答案：D

35 / 104

35.

A. 调整 AWS Glue 爬虫程序设置，以确保 AWS Glue 爬虫程序也排除 .json 文件。

B. 使用 Athena 控制台确保 Athena 查询也排除 .json 文件。

C. 将 .json 文件重新定位到 S3 存储桶内的其他路径。

D. 使用 S3 存储桶策略阻止对 .json 文件的访问。

答案：C

36 / 104

36.

A. 数据工程师错误配置了 S3 存储桶的权限。Lambda 函数无法访问该对象。

B. Lambda 函数使用的是过时的 SDK 版本，导致读取失败。

C. S3 存储桶位于与数据工程师工作区域不同的 AWS 区域。延迟问题导致 Lambda 函数遇到错误。

D. Lambda 函数的执行角色没有访问可解密 S3 对象的 KMS 密钥所需的权限。

答案：D

解释：
Lambda 函数配置为访问 S3 存储桶：数据工程师已经设置了 Lambda 函数的执行角色以访问 S3 存储桶。这意味着基本 S3 访问权限可能已到位。

尝试检索内容时发生错误：这表明 Lambda 函数可能可以看到该对象（因为它具有 S3 访问权限），但在尝试读取其内容时失败。

要解决此问题，数据工程师应授予 Lambda 函数的执行角色所需的 KMS 权限。具体来说，为用于加密 S3 对象的 KMS 密钥添加“kms:Decrypt”权限。

37 / 104

37.

A. 在 AWS Glue ETL 中创建一个管道，以编辑 1,000 个数据目录表中每个表的规则。使用 AWS Lambda 函数为每个数据目录表调用相应的 AWS Glue 作业。

B. 创建一个 AWS Lambda 函数，该函数对 AWS Glue 数据质量进行 API 调用以进行编辑。

C. 创建 Amazon EMR 集群。在 Amazon EMR 上运行一个管道，该管道编辑每个数据目录表的规则。使用 AWS Lambda 函数运行 EMR 管道。

D. 使用 AWS 管理控制台编辑数据目录中的规则。

答案：B

说明：
创建一个 AWS Lambda 函数，该函数对 AWS Glue Data Quality 进行 API 调用以进行编辑。

38 / 104

38.

A. git diff branchB master git commit -m

B. git pull master

C. git rebase master

D. git fetch -b master

答案：C

说明：
将分支 B 重新定位到更新的主分支上可确保分支 B 包含主分支中的所有最新更改（包括从分支 A 部署到生产的更改）。

通过将分支 B 的提交置于最新的主分支提交之上，它有助于维护线性、干净的历史记录。

这种方法降低了拉取请求最终合并到主分支时发生合并冲突的可能性。

它使代码审查过程更容易，因为拉取请求中的所有更改都是相关的和最新的。

39 / 104

39.

A. 从 Employee 中选择 *，其中 Region ID='North America'；

B. 从 Employee 中选择 *，其中 Region ID='North America' 和 Department ID=20；

C. 从 Employee 中选择 *，其中 Department ID=20 和 Region ID='North America'；

D. 从 Employee 中选择 *，其中 Role ID=50；

E. 从 Employee 中选择 *，其中 Region ID='North America' 和 Role ID=50；

40 / 104

40.

A. 使用 AWS Lambda 将原始输入文件分组为更大的文件。将较大的文件写回 Amazon S3。使用 AWS Glue 处理文件。将文件加载到 Amazon Redshift 表中。

B. 使用 AWS Glue 动态框架文件分组选项提取原始输入文件。处理文件。将文件加载到 Amazon Redshift 表中。

C. 使用 Amazon Redshift COPY 命令将原始输入文件从 Amazon S3 直接移动到 Amazon Redshift 表中。在 Amazon Redshift 中处理文件。

D. 使用 Amazon EMR 而不是 AWS Glue 对原始输入文件进行分组。在 Amazon EMR 中处理文件。将文件加载到 Amazon Redshift 表中。

答案：B

41 / 104

41.

A. YourEnvironmentName-WebServer

B. YourEnvironmentName-Scheduler

C. YourEnvironmentName-DAGProcessing

D. YourEnvironmentName-Task

答案：D

说明：
https://pupuweb.com/amazon-dea-c01-which-apache-airflow-log-type-should-you-use-to-diagnose-workflow-failures-in-amazon-mwaa/

42 / 104

42.

B. 为每个数据提供商创建一个 AWS CloudHSM 硬件安全模块 (HSM)。使用每个数据提供商的相应 HSM 加密每个数据提供商的数据。

C. 为 Amazon Redshift 集群启用增强型 VPC 路由。设置 AWS Direct Connect 连接并配置每个数据提供商与财务公司的 VPC 之间的连接。

D. 定义主键和外键的表约束。

E. 使用联合查询访问来自每个数据提供商的数据。不要将数据上传到 S3 存储桶。通过网关 VPC 端点执行联合查询。

答案：A、C

说明：

选项 C - 为 Amazon Redshift 集群启用增强 VPC 路由。设置 AWS Direct Connect 连接并配置每个数据提供商与财务公司的 VPC 之间的连接。

43 / 104

43.

A. 使用查询编辑器 v2 安排 COPY 命令将新文件加载到 Amazon Redshift 中。

B. 使用 Amazon Aurora 和 Amazon Redshift 之间的零 ETL 集成将新文件加载到 Amazon Redshift 中。

C. 使用 AWS Glue 作业书签将新文件提取、转换和加载 (ETL) 到 Amazon Redshift 中。

D. 使用 S3 事件通知调用 AWS Lambda 函数将新文件加载到 Amazon Redshift 中。

答案：D

说明：
上传时触发将是最快的选项。

44 / 104

44.

A. 设置 Amazon Kinesis Data Firehose 传输流以将数据发送到 Redshift 预置的集群表。

B. 设置 Amazon Kinesis Data Firehose 传输流以将数据发送到 Amazon S3。配置 Redshift 预置的集群以每分钟加载一次数据。

C. 配置 Amazon Managed Service for Apache Flink（以前称为 Amazon Kinesis Data Analytics）以将数据直接发送到 Redshift 预置的集群表。

D. 使用 Amazon Redshift 流式导入来自 Kinesis Data Streams 并将数据呈现为物化视图。

答案：D

链接：https://docs.aws.amazon.com/streams/latest/dev/using-other-services-redshift.html

45 / 104

45.

B. 使用 AWS Glue Java 数据库连接 (JDBC) 连接。为包含单调递增值的列配置作业书签。编写自定义逻辑以将每日增量数据附加到 Amazon S3 中的满载副本。

C. 使用 AWS Database Migration Service (AWS DMS) 满载迁移每天将数据仓库表加载到 Amazon S3 中。每天覆盖前一天的满载副本。

D. 使用 AWS Glue 每天将数据仓库表的完整副本加载到 Amazon S3 中。每天覆盖前一天的满载副本。

答案：A

说明：
使用 AWS Database Migration Service (AWS DMS) 满载加 CDC 作业将包含单调递增数据列的表从本地数据仓库加载到 Amazon S3。

46 / 104

46.

A. 在 Amazon EMR 中创建一个 Apache Sqoop 作业以从 Oracle 数据库读取数据。配置 Sqoop 作业以将数据以 Parquet 格式写入 Amazon S3。

B. 创建与 Oracle 数据库的 AWS Glue 连接。创建 AWS Glue 书签作业以增量提取数据并以 Parquet 格式将数据写入 Amazon S3。

C. 创建 AWS Database Migration Service (AWS DMS) 任务以进行持续复制。将 Oracle 数据库设置为源。将 Amazon S3 设置为目标。配置任务以 Parquet 格式写入数据。

答案：C

说明：

选项 C - 您可以使用 S3 作为目标并将文件配置为 Parquet 格式 https://docs.aws.amazon.com/dms/latest/userguide/CHAP_Target.S3.html

47 / 104

47.

A. Kinesis 代理

B. Kinesis 生产器库 (KPL)

C. Amazon Kinesis Data Firehose

D. Kinesis SDK

答案：B

说明：
KPL 会自动将多个记录分批并聚合为单个有效负载，然后再将其发送到 Kinesis Data Streams。这减少了发送的记录数量并优化了分片吞吐量使用率。

48 / 104

48.

A. 使用 AWS Glue 的 FindMatches 功能删除重复记录。

B. 使用 Amazon Athena 中的非 Windows 函数删除重复记录。

C. 使用 Amazon Neptune ML 和 Apache Gremlin 脚本删除重复记录。

D. 使用 Amazon DynamoDB 的全局表功能防止重复数据。

答案：A

解释：

选项 A - 其他选项很愚蠢，几乎没有意义

49 / 104

49.

A. 生产器遇到与网络相关的超时。

B. 流的 IteratorAgeMilliseconds 指标值过高。

C. 分片数量、记录处理器数量或两者均发生变化。

D. AggregationEnabled 配置属性设置为 true。

E. max_records 配置属性设置为过高的数字。

答案：A、C

50 / 104

50.

A. 使用 AWS Glue 构建从操作系统到 Amazon Redshift 的提取管道在 Amazon QuickSight 中构建跟踪订单的仪表板。

B. 使用 AWS Glue 构建从操作系统到 Amazon DynamoD 的提取管道在 Amazon QuickSight 中构建跟踪订单的仪表板。

答案：A

解释：
DynamoDB 并非设计用于支持关系数据库。但是 Redshift 可以。

https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/build-an-etl-service-pipeline-to-load-data-incrementally-from-amazon-s3-to-amazon-redshift-using-aws-glue.html

51 / 104

51.

No.151
数据工程师需要使用 Amazon Neptune 开发图形应用程序。
工程师应该使用哪些编程语言来开发图形应用程序？（选择两个。）

A. Gremlin

B. SQL

C. ANSI SQL

D. SPARQL

E. Spark SQL

答案：A、D

说明：
https://docs.aws.amazon.com/neptune/latest/userguide/access-graph-queries.html

52 / 104

52.

A. 配置移动应用程序以调用 PutRecords API 操作将数据发送到 Amazon Kinesis Data Streams。使用增强的扇出功能为每个内部消费者提供一个流。

C. 配置移动应用程序以使用 Amazon Kinesis Producer Library (KPL) 将数据发送到 Amazon Kinesis Data Firehose。使用增强的扇出功能为每个内部消费者提供一个流。

答案：A

53 / 104

53.

A. 配置第三方应用程序以创建列格式的文件。

B. 开发 AWS Glue ETL 作业，将多个每日 CSV 文件转换为每天一个文件。

C. 根据订单日期对 S3 存储桶中的订单数据进行分区。

D. 配置第三方应用程序以创建 JSON 格式的文件。

E. 将 JSON 数据加载到 Amazon Redshift 表中的 SUPER 类型列中。

答案：A、C

说明：
https://docs.aws.amazon.com/redshift/latest/dg/r_SUPER_type.html

54 / 104

54.

A. 在 S3 存储桶上启用治理模式。使用 7 年的默认保留期。

B. 在 S3 存储桶上启用合规模式。使用 7 年的默认保留期。

C. 对 S3 存储桶中的单个对象进行合法保留。将保留期设置为 7 年。

D. 将 S3 存储桶中单个对象的保留期设置为 7 年。

答案：B

https://aws.amazon.com/s3/features/object-lock/

55 / 104

55.

A. CREATE TABLE new_table AS SELECT * FROM old_tables;

B. INSERT INTO new_table SELECT * FROM old_table;

C. CREATE TABLE new_table (LIKE old_table);

D. CREATE TABLE new_table AS (SELECT * FROM old_table) WITH NO DATA;

答案：D

解释：
AS 子句允许您根据 SELECT 语句定义新表的架构。

末尾的 WITH NO DATA 子句明确告诉 Athena 创建表结构而不复制任何数据。

有关更多信息，请参阅本文档中的“创建现有表的空副本”部分 - https://docs.aws.amazon.com/athena/latest/ug/ctas-examples.html

56 / 104

56.

A. 插入 cities_usa (city,state) SELECT city, state FROM cities_world WHERE country=’usa’;

B. 移动 city, state FROM cities_world 至 cities_usa WHERE country=’usa’;

C. 插入 cities_usa SELECT city, state FROM cities_world WHERE country=’usa’;

D. 更新 cities_usa SET (city, state) = (SELECT city, state FROM cities_world WHERE country=’usa’);

答案：A

解释：
插入 cities_usa (city,state)
SELECT city,state
FROM cities_world
WHERE country='usa'

57 / 104

57.

A. 创建需要共享的表的视图。仅包含所需的列。

B. 创建包含需要共享的表的 Amazon Redshift 数据共享。

C. 在营销团队的账户中创建一个 Amazon Redshift 托管 VPC 终端节点。授予营销团队对视图的访问权限。

D. 将 Amazon Redshift 数据共享共享到治理账户中的 Lake Formation 目录。

E. 将 Amazon Redshift 数据共享共享到营销团队账户中的 Amazon Redshift Serverless 工作组。

58 / 104

58.

A. 向每个 Glue ETL 作业添加由 SQL 查询定义的新转换。使用 SQL 查询实施包含需要评估的数据质量规则的规则集。

B. 向每个 Glue ETL 作业添加新的评估数据质量转换。使用数据质量定义语言 (DQDL) 实现包含需要评估的数据质量规则的规则集。

C. 为每个 Glue ETL 作业添加新的自定义转换。使用 PyDeequ 库实现包含需要评估的数据质量规则的规则集。

D. 为每个 Glue ETL 作业添加新的自定义转换。使用 Great Expectations 库实现包含需要评估的数据质量规则的规则集。

答案：B

说明：
https://docs.aws.amazon.com/glue/latest/dg/tutorial-data-quality.html

AWS Glue Data Quality 与数据质量定义语言 (DQDL) 配合使用来定义数据质量规则。

59 / 104

59.

A. 使用 FluentBit 收集日志。使用 OpenTelemetry 收集跟踪。

B. 使用 Amazon CloudWatch 收集日志。使用 Amazon Kinesis 收集跟踪。

C. 使用 Amazon CloudWatch 收集日志。使用 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 收集跟踪。

D. 使用 Amazon OpenSearch 关联日志和跟踪。

E. 使用 AWS Glue 关联日志和跟踪。

答案：A、D

解释：
https://aws.amazon.com/blogs/big-data/part-1-microservice-observability-with-amazon-opensearch-service-trace-and-log-correlation/

60 / 104

60.

A. 使用 AWS Step Functions 定期将数据从 Amazon DynamoDB 表导出到 Amazon S3 存储桶。使用 AWS Lambda 函数将数据加载到 Amazon OpenSearch Service 中。

B. 配置 AWS Glue 作业，使源为 Amazon DynamoDB，目标为 Amazon OpenSearch Service，以便近乎实时地传输数据。

C. 使用 Amazon DynamoDB Streams 捕获表更改。使用 AWS Lambda 函数处理和更新 Amazon OpenSearch Service 中的数据。

D. 使用自定义 OpenSearch 插件同步来自 Amazon DynamoDB 表的数据。

答案：C

说明：
https://docs.aws.amazon.com/opensearch-service/latest/developerguide/configure-client-ddb.html

DynamoDB 支持*近乎实时*的项级变更数据捕获记录流式传输

61 / 104

61.

A. 全部分配

B. 均匀分配

C. 自动分配

D. 键分配

答案：C

62 / 104

62.

A. 在数据集中定义并创建计算字段。

B. 在分析中定义并创建计算字段。

C. 在可视化中定义并创建计算字段。

D. 在仪表板中定义并创建计算字段。

答案：A

说明：
https://docs.aws.amazon.com/quicksight/latest/user/adding-a-calculated-field-analysis.html

63 / 104

63.

A. 使用本机 Amazon Redshift、Teradata 和 BigQuery 连接器在 AWS Glue 中构建管道。使用本机 AWS Glue 转换来连接数据。在数据湖 Iceberg 表上运行合并操作。

64 / 104

64.

A. 将 AWS 凭证存储在 Amazon S3 存储桶中。授予 EKS 容器对 S3 存储桶的访问权限以检索凭证。

B. 将 IAM 角色附加到 EKS 工作节点，授予 IAM 角色对 DynamoD 的访问权限。使用 IAM 角色设置 IAM 角色服务账户 (IRSA) 功能。

C. 创建具有访问密钥的 IAM 用户以访问 DynamoDB 表。使用 EKS 容器中的环境变量来存储 IAM 用户访问密钥数据。

D. 创建具有访问密钥的 IAM 用户以访问 DynamoDB 表。使用安装在 EKS 群集节点卷中的 Kubernetes 密钥来存储用户访问密钥数据。

答案：B

解释：
https://docs.aws.amazon.com/eks/latest/userguide/create-node-role.html
https://docs.aws.amazon.com/eks/latest/userguide/iam-roles-for-service-accounts.html

65 / 104

65.

B. 创建到本地数据中心的 AWS Direct Connect 连接。将服务帐户凭证存储在 AWS Secrets Manager 中。

D. 创建到本地数据中心的 AWS Direct Connect 连接。将应用程序密钥存储在 AWS Secrets Manager 中。创建包含具有一天到期日期的预签名 URL 的 Amazon S3 存储桶。

答案：B

说明：
Direct Connect + Secret Manager
对于不受成本限制的安全连接，请始终考虑 Direct Connect。

66 / 104

66.

A. 创建基于 S3 事件的 AWS Glue 爬虫程序以使用来自 SQS 队列的事件。

B. 定义基于时间的计划来运行 AWS Glue 爬虫程序，并对数据目录执行增量更新。

C. 使用 AWS Lambda 函数根据 SQS 队列收到的 S3 事件直接更新数据目录。

D. 当 S3 存储桶发生更改时，手动启动 AWS Glue 爬虫程序以对数据目录执行更新。

E. 使用 AWS Step Functions 根据 SQS 队列收到的 S3 事件来协调更新数据目录的过程。

67 / 104

67.

答案：C

解释：
C 最低运营开销。

https://aws.amazon.com/blogs/big-data/set-up-alerts-and-orchestrate-data-quality-rules-with-aws-glue-data-quality/

68 / 104

68.

A. 为每个团队创建一个单独的 Redshift 集群。仅为每个团队加载所需的数据。根据团队限制对集群的访问。

B. 创建包含每个数据要求所需字段的视图。仅授予团队对每个团队所需的视图的访问权限。

C. 为每个团队创建一个单独的 Amazon Redshift 数据库角色。分别定义适用于每个团队的屏蔽策略。将适当的屏蔽策略附加到每个团队角色。

D. 将客户数据移动到 Amazon S3 存储桶。使用 AWS Lake Formation 创建数据湖。使用细粒度的安全功能授予每个团队访问数据的适当权限。

说明：
C 是最好的方法，因为 Redshift 具有动态数据屏蔽功能：
https://docs.aws.amazon.com/redshift/latest/dg/t_ddm.html

这是唯一符合最少操作和屏蔽信息的答案。

69 / 104

69.

A. 扩展 MSK 代理的存储。将 MSK 集群存储配置为自动扩展。

B. 扩展 Apache ZooKeeper 节点的存储。

C. 将 MSK 代理实例更新为更大的实例类型。重新启动 MSK 集群。

D. 为现有主题指定目标卷（以 GiB 为单位）参数。

答案：A

说明：
https://docs.aws.amazon.com/msk/latest/developerguide/metrics-details.html

“RootDiskUsed”是代理使用的根磁盘百分比。扩展存储并启用自动扩展似乎是最好的选择。

70 / 104

70.

A. 使用 AWS Glue 爬虫扫描 S3 存储桶和 RDS 数据库并构建数据目录。使用数据管理员检查数据并使用数据格式更新数据目录。

B. 使用 AWS Glue 爬虫构建数据目录。使用 AWS Glue 爬虫分类器识别数据的格式并将格式存储在目录中。

C. 使用 Amazon Macie 构建数据目录并识别敏感数据元素。从 Macie 收集数据格式信息。

D. 使用脚本扫描数据元素并根据数据格式分配数据分类。

答案：B

说明：
https://docs.aws.amazon.com/glue/latest/dg/catalog-and-crawler.html

https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html

71 / 104

71.

A. 手动检查自定义 PII 类别的数据。

B. 在 DataBrew 中实施自定义数据质量规则。将自定义规则应用于数据集。

C. 开发自定义 Python 脚本以检测自定义 PII 类别。从 DataBrew 调用脚本。

D. 实施正则表达式模式以在提取转换期间从字段中提取 PII 信息，并将 (ETL) 操作加载到数据湖中。

答案：B

说明：
https://aws.amazon.com/blogs/big-data/enforce-customized-data-quality-rules-in-aws-glue-databrew/

72 / 104

72.

A. 调用 AWS Lambda 函数来检查文件中是否存在缺失数据并在必填字段中填写缺失值。

B. 配置 AWS Glue ETL 管道以使用 AWS Glue 数据质量规则。使用数据质量定义语言 (DQDL) 制定规则，以检查必填字段和空文件中的缺失值。

C. 使用 AWS Glue Studio 更改 ETL 管道中的代码，以使用每个字段最常见的值填充必填字段中的任何缺失值。

D. 在 Amazon Athena 中运行 SQL 查询以读取 CSV 文件并删除缺失的行。将更正后的 CSV 文件复制到第二个 S3 存储桶。

答案：B

说明：
https://docs.aws.amazon.com/glue/latest/dg/glue-data-quality.html

73 / 104

73.

A. 使用 AWS CLI 收集信息。

B. 使用 Amazon S3 库存配置报告收集信息。

C. 使用 Amazon S3 Storage Lens 仪表板收集信息。

D. 使用 Amazon S3 的 AWS 使用情况报告收集信息。

答案：C

说明：
Amazon S3 Storage Lens 提供 S3 存储使用情况和活动的全面视图。它包括与不完整的分段上传、对象的过时版本和其他存储特征相关的指标和见解。

https://docs.aws.amazon.com/AmazonS3/latest/userguide/storage_lens.html

74 / 104

74.

答案：A

说明：
如果您有 JSON，Firehose 应该可以转换它，而无需 Lambda。

75 / 104

75.

A. 使用 DynamoDB TTL 功能根据时间戳自动使数据过期。

B. 配置计划的 Amazon EventBridge 规则以调用 AWS Lambda 函数来检查超过 1 个月的数据。配置 Lambda 函数以删除旧数据。

C. 在 DynamoDB 表上配置流以调用 AWS Lambda 函数。配置 Lambda 函数以删除表中超过 1 个月的数据。

D. 使用 AWS Lambda 函数定期扫描 DynamoDB 表中超过 1 个月的数据。配置 Lambda 函数以删除旧数据。

答案：A

说明：
https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/TTL.html
DynamoDB TTL 将根据您的配置方式自动删除项目。

76 / 104

76.

A. 使用现有的 AWS KMS 密钥加密从 QuickSight 到 S3 存储桶的连接。

B. 将 S3 存储桶添加为 QuickSight 服务角色可以访问的资源。

C. 使用 AWS 资源访问管理器 (AWS RAM) 与 BI-Account 账户共享 S3 存储桶。

D. 向 QuickSight 服务角色添加 IAM 策略，以授予 QuickSight 访问加密 S3 存储桶的 KMS 密钥的权限。

E. 将 KMS 密钥添加为 QuickSight 服务角色可以访问的资源。

77 / 104

77.

答案：D

78 / 104

78.

答案：D

说明：
使用选项 D 中的 AWS DataSync 可有效实现所需的数据整合，同时保持工作流程简单且经济高效。它符合数据局部性要求并减少了工程工作量。

79 / 104

79.

A. 将自管理证书存储在 EC2 实例上。

B. 使用 AWS 证书管理器 (ACM)。

C. 在 AWS Secrets Manager 中实施自定义自动化脚本。

D. 使用 Amazon Elastic Container Service (Amazon ECS) Service Connect。

答案：B

说明：
ACM 负责创建、存储和更新 SSL/TLS 证书和密钥

https://aws.amazon.com/tw/certificate-manager/

80 / 104

80.

A. 使用 AWS Glue DataBrew 执行提取、转换和加载 (ETL) 任务，在分析之前屏蔽 PII 数据。

B. 使用 Amazon GuardDuty 监控工程管道中使用的 PII 数据的访问模式。

C. 为 S3 存储桶配置 Amazon Macie 发现作业。

D. 使用 AWS Identity and Access Management (IAM) 管理权限并控制对 PII 数据的访问。

E. 在应用程序中编写自定义脚本以屏蔽 PII 数据并控制访问。

答案：A、D

说明：
https://aws.amazon.com/tw/blogs/big-data/build-a-data-pipeline-to-automatically-discover-and-mask-pii-data-with-aws-glue-databrew/
A 将查找并屏蔽 PII
D 以进行访问

81 / 104

81.

答案：C

说明：
https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-specify-security-configuration.html

82 / 104

82.

A. 使用 Amazon Redshift ML 生成库存建议。

B. 使用 SQL 调用远程 SageMaker 终端进行预测。

C. 使用 Amazon Redshift ML 安排定期数据导出以进行离线模型训练。

D. 使用 SageMaker Autopilot 在 Amazon Redshift 中创建库存管理仪表板。

E. 使用 Amazon Redshift 作为文件存储系统来存档旧库存管理报告。

答案：A、B

解释：
该公司希望提供实时库存建议。选择 (A) 建议。
该公司还希望对未来的库存需求做出预测。选择 (B) 预测。

83 / 104

83.

A. 使用 AWS Glue Python 作业读取和转换 CSV 文件。

B. 使用 AWS Glue 自定义爬虫读取和转换 CSV 文件。

C. 使用 AWS Glue 工作流构建一组作业来爬取和转换 CSV 文件。

D. 使用 AWS Glue DataBrew 配方读取和转换 CSV 文件。

答案：D

解释：
所有或多或少常见的操作都可以在数据酿造中使用。
https://docs.aws.amazon.com/databrew/latest/dg/recipes.html

84 / 104

84.

A. 对已识别的表运行 ANALYZE 命令。根据命令的输出手动更新列的压缩编码。

B. 对已识别的表运行 ANALYZE COMPRESSION 命令。根据命令的输出手动更新列的压缩编码。

C. 对已识别的表运行 VACUUM REINDEX 命令。

D. 对已识别的表运行 VACUUM RECLUSTER 命令。

答案：B

85 / 104

85.

A. 应用生命周期策略，在 30 天后将记录转换为 S3 标准不频繁访问 (S3 Standard-IA) 存储。

B. 使用 S3 智能分层存储。

C. 30 天后将记录转换到 S3 Glacier Deep Archive 存储。

D. 使用 S3 标准-不频繁访问 (S3 Standard-IA) 存储存储所有客户记录。

答案：A

解释：
这个问题定义不明确，它没有说明前 30 天数据的情况，但成本效益表明它不是 B，因此我选择 A。

https://docs.aws.amazon.com/AmazonS3/latest/userguide/object-lifecycle-mgmt.html

86 / 104

86.

A. 创建表计算。

B. 创建一个简单的计算字段。

C. 创建级别感知计算 - 聚合 (LAC-A) 函数。

D. 创建级别感知计算 - 窗口 (LAC-W) 函数。

答案：C

说明：
https://docs.aws.amazon.com/quicksight/latest/user/level-aware-calculations.html

87 / 104

87.

A. 配置 S3 存储桶和 S3 对象以允许访问 Amazon Macie。在 Macie 中使用自动敏感数据发现。

B. 配置 AWS CloudTrail 以监控 S3 PUT 操作。检查 CloudTrail 跟踪以识别保存 PII 的操作。

C. 创建 AWS Lambda 函数以识别 S3 对象中的 PII。安排函数定期运行。

D. 在 AWS Glue 数据目录中创建表。编写自定义 SQL 查询以识别表中的 PII。使用 Amazon Athena 运行查询。

答案：A

说明：

88 / 104

88.

No.188
数据工程师需要在 Amazon Athena 中创建现有表的空副本以执行数据处理任务。Athena 中的现有表包含 1,000 行。
哪个查询可以满足此要求？

A. CREATE TABLE new_table - LIKE old_table;

B. CREATE TABLE new_table - AS SELECT * FROM old_table - WITH NO DATA;

C. CREATE TABLE new_table - AS SELECT * FROM old_table;

D. CREATE TABLE new_table - as SELECT * FROM old_cable - WHERE 1=1;

答案：B

解释：

选项 B - 应该是 B，没有数据选项，从 CTAS 创建空表

https://docs.aws.amazon.com/athena/latest/ug/ctas-examples.html#ctas-example-empty-table

89 / 104

89.

A. 确认 Athena 指向正确的 Amazon S3 位置。

B. 增加查询超时时间。

C. 使用 MSCK REPAIR TABLE 命令。

D. 重新启动 Athena。

E. 删除并重新创建有问题的 Athena 表。

答案：A、C

解释：
A. 确认 Athena 指向正确的 Amazon S3 位置。

这是确保 Athena 查询的数据源与 S3 中 CloudTrail 日志的实际位置匹配的关键第一步。如果路径不正确，Athena 将找不到数据。
C. 使用 MSCK REPAIR TABLE 命令。

90 / 104

90.

A. Amazon Managed Workflows for Apache Airflow (Amazon MWAA)

B. AWS Step Functions

C. AWS Glue

D. Amazon EventBridge

答案：A

解释：

91 / 104

91.

A. 将自定义 Python 脚本存储在共享的 Amazon S3 存储桶中。将指向自定义脚本的指针存储在执行上下文对象中。

B. 将自定义 Python 脚本打包到 Lambda 层中。将 Lambda 层应用于 Lambda 函数。

C. 将自定义 Python 脚本存储在共享的 Amazon S3 存储桶中。将指向客户脚本的指针存储在环境变量中。

D. 为每个 Lambda 函数分配相同的别名。通过指定函数的别名来调用每个 Lambda 函数。

答案：B

92 / 104

92.

A. 使用 Amazon Macie 创建并运行敏感数据发现作业以检测和删除 PII。

B. 使用 S3 Object Lambda 访问数据，并使用 Amazon Comprehend 检测和删除 PII。

C. 使用 Amazon Data Firehose 和 Amazon Comprehend 检测和删除 PII。

D. 使用 AWS Glue DataBrew 作业将 PII 数据存储在第二个 S3 存储桶中。对原始 S3 存储桶中剩余的数据执行分析。

答案：B

解释：

选项 A - 不是 A，Macie 只能检测到 PII。Macie 可以发现 PII，但不能自动编辑它。

选项 B - 使用 S3 Object Lambda 和由 Amazon Comprehend 提供支持的预构建 AWS Lambda 函数，您可以在从 S3 检索的 PII 数据返回到应用程序之前对其进行保护。

93 / 104

93.

A. 使用 AWS Config 规则检测数据访问策略的违规行为。设置合规性警报。

B. 使用 Amazon CloudWatch 指标收集对象级指标。设置 CloudWatch 警报。

C. 使用 AWS CloudTrail 跟踪 S3 存储桶的对象级事件。将事件转发到 Amazon CloudWatch 以设置 CloudWatch 警报。

D. 使用 Amazon S3 服务器访问日志监控对存储桶的访问。将访问日志转发到 Amazon CloudWatch 日志组。使用日志组上的指标过滤器设置 CloudWatch 警报。

答案：C

解释：

选项 C - 使用 CloutTrial 监控 API 调用，就这么简单。

94 / 104

94.

A. 使用 SUPER 数据类型将数据存储在 Amazon Redshift 表中。

B. 使用 AWS Glue 展平 JSON 数据并将其提取到 Amazon Redshift 表中。

C. 使用 Amazon S3 存储 JSON 数据。使用 Amazon Athena 查询数据。

D. 使用 AWS Lambda 函数展平 JSON 数据。将数据存储在 Amazon S3 中。

答案：A

解释：

选项 A - Amazon Redshift 中的 SUPER 数据类型允许您将半结构化数据（例如 JSON）直接存储在 Redshift 表中，而无需先展平或转换数据。

95 / 104

95.

A. 使用 Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 获取两个数据集。使用 AWS Lambda 函数关联数据集。使用 AWS Step Functions 来协调流程。

答案：C

说明：

选项 C - App Flow 从 Salse Force 获取数据，Glue 用于 ETL，Step Functions 用于编排，全部托管，无服务器，开销最少！

96 / 104

96.

A. 定义 S3 生命周期配置以在 1 年后删除日志。

B. 创建 AWS Lambda 函数以在 1 年后删除日志。

C. 在 Amazon EC2 实例上安排 cron 作业以在 1 年后删除日志。

D. 配置 AWS Step Functions 状态机以在 1 年后删除日志。

答案：A

说明：

选项 A - Amazon S3 提供生命周期策略，允许您自动管理存储在存储桶中的对象。您可以配置规则以自动删除超过指定年龄的对象

97 / 104

97.

A. 并行

B. 选择

C. 任务

D. 地图

答案：B

说明：
选择添加条件逻辑。即传入数据的状态。

98 / 104

98.

答案：B

解释：
这不一样，但它显示了重点。降序是正确的答案。
SELECT *
FROM cloudtrail_logs
WHERE
eventTime >= '2024-01-01'
AND errorCode IS NOT NULL
ORDER BY eventTime DESC
LIMIT 10;

99 / 104

99.

A. Amazon Textract

B. Amazon S3 Storage Lens

C. Amazon Macie

D. Amazon SageMaker Data Wrangler

答案：C

解释：
仅检测（无编辑）= Macie

AWS 中的 PII --> Macie

100 / 104

100.

A. 使用 Amazon Redshift 的基于角色的访问控制 (RBAC) 功能。

B. 使用 Amazon Redshift 的行级安全性 (RLS) 功能。

C. 使用 Amazon Redshift 的列级安全性 (CLS) 功能。

D. 在 Amazon Redshift 中使用动态数据屏蔽策略。

答案：A

说明：
在这种情况下，行级或列级是不够的。

唯一可能的答案是 A 和 B，但 B 还不够。

101 / 104

101.

答案：C

说明：
数据区域应配置为使用 glue 作为数据源。

102 / 104

102.

A. 创建 Amazon S3 存储桶。为 Amazon Redshift 集群启用日志记录。在日志记录配置中指定 S3 存储桶以存储日志。

B. 创建 Amazon Elastic File System (Amazon EFS) 文件系统。为 Amazon Redshift 集群启用日志记录。将日志写入 EFS 文件系统。

C. 创建 Amazon Aurora MySQL 数据库。为 Amazon Redshift 集群启用日志记录。将日志写入 Aurora MySQL 数据库中的表。

D. 创建 Amazon Elastic Block Store (Amazon EBS) 卷。为 Amazon Redshift 集群启用日志记录。将日志写入 EBS 卷。

答案：A

说明：
S3 Bucket 用于存储日志。

103 / 104

103.

No.203
一家公司希望将数据仓库从 Teradata 迁移到 Amazon Redshift。
哪种解决方案能够以最少的运营工作量满足此要求？

A. 使用 AWS 数据库迁移服务 (AWS DMS) 架构转换来迁移架构。使用 AWS DMS 迁移数据。

B. 使用 AWS 架构转换工具 (AWS SCT) 迁移架构。使用 AWS 数据库迁移服务 (AWS DMS) 迁移数据。

C. 使用 AWS 数据库迁移服务 (AWS DMS) 迁移数据。使用自动架构转换。

D. 从 Teradata 手动导出架构定义。将架构应用于 Amazon Redshift 数据库。使用 AWS 数据库迁移服务 (AWS DMS) 迁移数据。

答案：B

解释：
A 看起来很像，但 AWS DMS 的架构转换功能有限。最好与 AWS SCT 配对进行架构迁移。

104 / 104

104.

A. 使用 Amazon Redshift Serverless 将所有数据加载到 Amazon Redshift 托管存储 (RMS) 中。

B. 使用 Amazon Athena 以 Apache Parquet 格式将所有数据加载到 Amazon S3 中。

C. 使用 Amazon Redshift 预置集群将所有数据加载到 Amazon Redshift 托管存储 (RMS) 中。

D. 使用 Amazon Aurora PostgreSQL 将所有数据加载到 Aurora 中。

答案：A

说明：
Redshift Serverless 根据查询工作负载自动扩展或缩减资源。这消除了手动容量配置和扩展的需要，大大降低了运营开销。

无服务器适用于不可预测的负载。

Your score is