AWS Certified Data Engineer – Associate 可验证与核心数据相关的 AWS 服务方面的技能和知识,摄取和转换数据、在应用编程概念时编排数据管道、设计数据模型、管理数据生命周期和确保数据质量的能力。

 

■AWS DEA-C01 中文 All

/204

AWS DEA-C01(CN) All

AWS Certified Data Engineer – Associate 可验证与核心数据相关的 AWS 服务方面的技能和知识,摄取和转换数据、在应用编程概念时编排数据管道、设计数据模型、管理数据生命周期和确保数据质量的能力。

1 / 204

1.

No.1
数据工程师正在配置 AWS Glue 作业以从 Amazon S3 存储桶读取数据。数据工程师已设置必要的 AWS Glue 连接详细信息和关联的 IAM 角色。但是,当数据工程师尝试运行 AWS Glue 作业时,数据工程师收到一条错误消息,表明 Amazon S3 VPC 网关端点存在问题。
数据工程师必须解决错误并将 AWS Glue 作业连接到 S3 存储桶。
哪种解决方案可以满足此要求?

2 / 204

2.

No.2
一家零售公司在 Amazon S3 存储桶中有一个客户数据中心。来自许多国家的员工使用数据中心来支持全公司的分析。治理团队必须确保公司的数据分析师只能访问与分析师位于同一国家/地区的客户的数据。
哪种解决方案可以以最少的运营工作量满足这些要求?

3 / 204

3.

No.3
一家媒体公司希望改进一个根据用户行为和偏好向客户推荐媒体内容的系统。为了改进推荐系统,该公司需要将来自第三方数据集的见解整合到公司现有的分析平台中。
该公司希望尽量减少整合第三方数据集所需的工作量和时间。
哪种解决方案能够以最少的运营开销满足这些要求?

4 / 204

4.

No.4
一家金融公司想要实现数据网格。数据网格必须支持集中式数据治理、数据分析和数据访问控制。该公司已决定使用 AWS Glue 进行数据目录和提取、转换和加载 (ETL) 操作。
哪种 AWS 服务组合将实现数据网格?(选择两个。)

5 / 204

5.

No.5
数据工程师维护自定义 Python 脚本,这些脚本执行许多 AWS Lambda 函数使用的数据格式化过程。当数据工程师需要修改 Python 脚本时,数据工程师必须手动更新所有 Lambda 函数。
数据工程师需要一种不太手动的方式来更新 Lambda 函数。
哪种解决方案可以满足此要求?

6 / 204

6.

No.6
一家公司在 AWS Glue 中创建了一个提取、转换和加载 (ETL) 数据管道。数据工程师必须抓取 Microsoft SQL Server 中的表。数据工程师需要提取、转换抓取的输出并将其加载到 Amazon S3 存储桶中。数据工程师还必须协调数据管道。
哪种 AWS 服务或功能能够以最具成本效益的方式满足这些要求?

7 / 204

7.

No.7
一家金融服务公司将财务数据存储在 Amazon Redshift 中。数据工程师希望对财务数据运行实时查询以支持基于 Web 的交易应用程序。数据工程师希望在交易应用程序内运行查询。
哪种解决方案能够以最少的运营开销满足这些要求?

8 / 204

8.

No.8
一家公司使用 Amazon Athena 对 Amazon S3 中的数据进行一次性查询。该公司有多个用例。该公司必须实施权限控制,以将查询流程和对查询历史记录的访问分离到同一 AWS 账户中的用户、团队和应用程序之间。
哪种解决方案可以满足这些要求?

9 / 204

9.

No.9
数据工程师需要安排一个工作流,每天运行一组 AWS Glue 作业。数据工程师不需要 Glue 作业在特定时间运行或完成。
哪种解决方案将以最具成本效益的方式运行 Glue 作业?

10 / 204

10.

No.10
数据工程师需要创建一个 AWS Lambda 函数,将数据格式从 .csv 转换为 Apache Parquet。仅当用户将 .csv 文件上传到 Amazon S3 存储桶时,Lambda 函数才必须运行。
哪种解决方案可以以最少的运营开销满足这些要求?

11 / 204

11.

No.11
数据工程师需要更快地完成 Amazon Athena 查询。数据工程师注意到 Athena 查询使用的所有文件当前都以未压缩的 .csv 格式存储。数据工程师还注意到用户通过选择特定列来执行大多数查询。
哪种解决方案将最大程度地提高 Athena 查询性能?

12 / 204

12.

No.12
一家制造公司从其工厂车间收集传感器数据,以监控和提高运营效率。该公司使用 Amazon Kinesis Data Streams 将传感器收集的数据发布到数据流。然后,Amazon Kinesis Data Firehose 将数据写入 Amazon S3 存储桶。
该公司需要在制造工厂的大屏幕上显示运营效率的实时视图。
哪种解决方案可以以最低的延迟满足这些要求?

13 / 204

13.

No.13
一家公司将投资组合的财务表现的每日记录以 .csv 格式存储在 Amazon S3 存储桶中。数据工程师使用 AWS Glue 爬虫程序来爬取 S3 数据。
数据工程师必须使 S3 数据在 AWS Glue 数据目录中每天可访问。
哪种解决方案可以满足这些要求?

14 / 204

14.

No.14
一家公司每天结束时将每天的交易数据加载到 Amazon Redshift 表中。该公司希望能够跟踪哪些表已加载以及哪些表仍需加载。
一位数据工程师希望将 Redshift 表的加载状态存储在 Amazon DynamoDB 表中。数据工程师创建了一个 AWS Lambda 函数,将加载状态的详细信息发布到 DynamoDB。
数据工程师应如何调用 Lambda 函数将加载状态写入 DynamoDB 表?

15 / 204

15.

No.15
数据工程师需要安全地将 5 TB 的数据从本地数据中心传输到 Amazon S3 存储桶。大约 5% 的数据每天都会发生变化。需要定期将数据更新扩散到 S3 存储桶中。数据包括多种格式的文件。数据工程师需要自动化传输过程,并且必须安排该过程定期运行。
数据工程师应使用哪种 AWS 服务以最高效的方式传输数据?

16 / 204

16.

No.16
一家公司使用本地 Microsoft SQL Server 数据库来存储财务交易数据。该公司在每个月底将交易数据从本地数据库迁移到 AWS。该公司注意到,最近将数据从本地数据库迁移到 Amazon RDS for SQL Server 数据库的成本有所增加。
该公司需要一个经济高效的解决方案来将数据迁移到 AWS。该解决方案必须尽量减少访问数据库的应用程序的停机时间。
公司应该使用哪种 AWS 服务来满足这些要求?

17 / 204

17.

No.17
数据工程师正在使用 AWS Glue 提取、转换和加载 (ETL) 作业在 AWS 上构建数据管道。数据工程师需要处理来自 Amazon RDS 和 MongoDB 的数据,执行转换,并将转换后的数据加载到 Amazon Redshift 中进行分析。数据更新必须每小时进行一次。
哪种任务组合可以满足这些要求且运营开销最少?(选择两个。)

18 / 204

18.

No.18
一家公司使用在 RA3 节点上运行的 Amazon Redshift 集群。该公司希望扩展读写容量以满足需求。数据工程师需要确定一个可以启用并发扩展的解决方案。
哪种解决方案可以满足此要求?

19 / 204

19.

No.19
数据工程师必须编排一系列每天运行的 Amazon Athena 查询。每个查询可以运行超过 15 分钟。
哪种步骤组合最经济高效地满足这些要求?(选择两个。)

20 / 204

20.

No.20
一家公司正在将本地工作负载迁移到 AWS。该公司希望降低总体运营开销。该公司还希望探索无服务器选项。
该公司当前的工作负载使用 Apache Pig、Apache Oozie、Apache Spark、Apache Hbase 和 Apache Flink。本地工作负载在几秒钟内处理 PB 级数据。迁移到 AWS 后,公司必须保持类似或更好的性能。
哪种提取、转换和加载 (ETL) 服务可以满足这些要求?

21 / 204

21.

No.21
数据工程师必须使用 AWS 服务将数据集导入 Amazon S3 数据湖。数据工程师对数据集进行分析,并发现数据集包含个人身份信息 (PII)。数据工程师必须实施解决方案来分析数据集并混淆 PII。
哪种解决方案能够以最少的运营工作量满足此要求?

22 / 204

22.

No.22
一家公司维护多个提取、转换和加载 (ETL) 工作流,这些工作流将数据从公司的运营数据库提取到基于 Amazon S3 的数据湖中。ETL 工作流使用 AWS Glue 和 Amazon EMR 来处理数据。
该公司希望改进现有架构以提供自动编排并尽量减少手动工作量。
哪种解决方案能够以最少的运营开销满足这些要求?

23 / 204

23.

No.23
一家公司目前使用 S3 标准存储类将其所有数据存储在 Amazon S3 中。
一位数据工程师检查了数据访问模式以确定趋势。在前 6 个月内,大多数数据文件每天都会被访问几次。在 6 个月到 2 年之间,大多数数据文件每月被访问一两次。2 年后,数据文件每年只被访问一两次。
数据工程师需要使用 S3 生命周期策略来制定新的数据存储规则。新的存储解决方案必须继续提供高可用性。
哪种解决方案将以最具成本效益的方式满足这些要求?

24 / 204

24.

No.24
一家公司维护一个 Amazon Redshift 预置集群,该公司使用该集群进行提取、转换和加载 (ETL) 操作以支持关键分析任务。公司内的销售团队维护一个 Redshift 集群,销售团队使用该集群进行商业智能 (BI) 任务。
销售团队最近请求访问 ETL Redshift 集群中的数据,以便团队可以执行每周摘要分析任务。销售团队需要将 ETL 集群中的数据与销售团队的 BI 集群中的数据合并。
公司需要一个解决方案,该解决方案可以在不中断关键分析任务的情况下与销售团队共享 ETL 集群数据。该解决方案必须最大限度地减少 ETL 集群计算资源的使用。
哪种解决方案可以满足这些要求?

25 / 204

25.

No.25
数据工程师需要连接来自多个来源的数据以执行一次性分析作业。数据存储在 Amazon DynamoDB、Amazon RDS、Amazon Redshift 和 Amazon S3 中。
哪种解决方案最经济高效地满足此要求?

26 / 204

26.

No.26
一家公司计划使用运行 Apache Spark 作业的预配置 Amazon EMR 集群来执行大数据分析。该公司要求高可靠性。大数据团队必须遵循在 Amazon EMR 上运行成本优化和长期运行的工作负载的最佳实践。团队必须找到能够维持公司当前绩效水平的解决方案。
哪种资源组合能够以最具成本效益的方式满足这些要求?(选择两个。)

27 / 204

27.

No.27
一家公司希望实现实时分析功能。该公司希望使用 Amazon Kinesis Data Streams 和 Amazon Redshift 以每秒几 GB 的速度提取和处理流数据。该公司希望通过使用现有的商业智能 (BI) 和分析工具获得近乎实时的洞察。
哪种解决方案可以以最少的运营开销满足这些要求?

28 / 204

28.

No.28
一家公司使用 Amazon QuickSight 仪表板来监控公司某个应用程序的使用情况。该公司使用 AWS Glue 作业来处理仪表板的数据。该公司将数据存储在单个 Amazon S3 存储桶中。该公司每天都会添加新数据。
一位数据工程师发现仪表板查询随着时间的推移变得越来越慢。数据工程师确定查询变慢的根本原因是长时间运行的 AWS Glue 作业。
数据工程师应采取哪些措施来提高 AWS Glue 作业的性能?(选择两个。)

29 / 204

29.

No.29
数据工程师需要使用 AWS Step Functions 设计编排工作流。工作流必须并行处理大量数据文件并对每个文件应用特定转换。
数据工程师应使用哪种 Step Functions 状态来满足这些要求?

30 / 204

30.

No.30
一家公司正在将旧版应用程序迁移到基于 Amazon S3 的数据湖。数据工程师审查了与旧版应用程序相关的数据。数据工程师发现遗留数据包含一些重复信息。
数据工程师必须识别并删除遗留应用程序数据中的重复信息。
哪种解决方案能够以最少的运营开销满足这些要求?

31 / 204

31.

No.31
一家公司正在构建分析解决方案。该解决方案使用 Amazon S3 进行数据湖存储,使用 Amazon Redshift 进行数据仓库存储。该公司希望使用 Amazon Redshift Spectrum 查询 Amazon S3 中的数据。
哪些操作将提供最快的查询?(选择两个。)

32 / 204

32.

No.32
一家公司使用 Amazon RDS 存储交易数据。该公司在私有子网中运行 RDS DB 实例。开发人员编写了一个 AWS Lambda 函数,使用默认设置来插入、更新或删除 DB 实例中的数据。
开发人员需要让 Lambda 函数能够私下连接到 DB 实例,而无需使用公共互联网。
哪种步骤组合可以满足此要求且运营开销最少?(选择两个。)

33 / 204

33.

No.33
一家公司有一个前端 ReactJS 网站,该网站使用 Amazon API Gateway 调用 REST API。这些 API 执行网站的功能。数据工程师需要编写一个 Python 脚本,该脚本可以偶尔通过 API Gateway 调用。代码必须将结果返回到 API Gateway。
哪种解决方案可以以最少的运营开销满足这些要求?

34 / 204

34.

No.34
一家公司有一个运行公司工作负载的生产 AWS 账户。该公司的安全团队创建了一个安全 AWS 账户来存储和分析来自生产 AWS 账户的安全日志。生产 AWS 账户中的安全日志存储在 Amazon CloudWatch Logs 中。
公司需要使用 Amazon Kinesis Data Streams 将安全日志传送到安全 AWS 账户。
哪种解决方案可以满足这些要求?

35 / 204

35.

No.35
一家公司使用 Amazon S3 将半结构化数据存储在事务性数据湖中。一些数据文件很小,但其他数据文件有数十 TB。
数据工程师必须执行变更数据捕获 (CDC) 操作以识别来自数据源的更改数据。数据源每天以 JSON 文件的形式发送完整快照,并将更改的数据提取到数据湖中。
哪种解决方案将以最具成本效益的方式捕获更改的数据?

36 / 204

36.

No.36
数据工程师对 Amazon S3 存储桶中的数据运行 Amazon Athena 查询。Athena 查询使用 AWS Glue 数据目录作为元数据表。
数据工程师注意到 Athena 查询计划遇到了性能瓶颈。数据工程师确定性能瓶颈的原因是 S3 存储桶中的分区数量过多。数据工程师必须解决性能瓶颈并减少 Athena 查询规划时间。
哪些解决方案可以满足这些要求?(选择两个。)

37 / 204

37.

No.37
数据工程师必须管理将实时流数据提取到 AWS。数据工程师希望通过在长达 30 分钟的窗口内使用基于时间的聚合对传入的流数据执行实时分析。数据工程师需要一种具有高度容错性的解决方案。
哪种解决方案能够以最少的运营开销满足这些要求?

38 / 204

38.

No.38
一家公司计划将其 Amazon Elastic Block Store (Amazon EBS) 通用 SSD 存储从 gp2 升级到 gp3。该公司希望防止其 Amazon EC2 实例发生任何中断,因为这些中断会导致在迁移到升级后的存储期间丢失数据。
哪种解决方案可以以最少的运营开销满足这些要求?

39 / 204

39.

★No.39
一家公司正在将其数据库服务器从运行 Microsoft SQL Server 的 Amazon EC2 实例迁移到 Amazon RDS for Microsoft SQL Server DB 实例。该公司的分析团队必须每天导出大量数据元素,直到迁移完成。数据元素是跨多个表的 SQL 连接的结果。数据必须采用 Apache Parquet 格式。分析团队必须将数据存储在 Amazon S3 中。
哪种解决方案能够以最高效的方式满足这些要求?

40 / 204

40.

No.40
数据工程团队正在使用 Amazon Redshift 数据仓库进行运营报告。团队希望防止长时间运行的查询可能导致的性能问题。当查询优化器识别出可能表明性能问题的条件时,数据工程师必须选择 Amazon Redshift 中的系统表来记录异常。
数据工程师应该使用哪些表视图来满足此要求?

41 / 204

41.

No.41
数据工程师必须将 .csv 格式的结构化数据源导入 Amazon S3 数据湖。.csv 文件包含 15 列。数据分析师需要对数据集的一两列运行 Amazon Athena 查询。数据分析师很少查询整个文件。
哪种解决方案能够以最具成本效益的方式满足这些要求?

42 / 204

42.

No.42
一家公司在不同的 AWS 区域设有五个办事处。每个办事处都有自己的人力资源 (HR) 部门,使用唯一的 IAM 角色。该公司将员工记录存储在基于 Amazon S3 存储的数据湖中。
数据工程团队需要限制对记录的访问。每个人力资源部门都应该能够访问人力资源部门所在区域内员工的记录。
数据工程团队应采取哪些步骤组合来以最少的运营开销满足此要求?(选择两个。)

43 / 204

43.

No.43
一家公司使用 AWS Step Functions 来编排数据管道。管道由 Amazon EMR 作业组成,这些作业从数据源提取数据并将数据存储在 Amazon S3 存储桶中。管道还包括将数据加载到 Amazon Redshift 的 EMR 作业。
该公司的云基础设施团队手动构建了一个 Step Functions 状态机。云基础设施团队将 EMR 集群启动到 VPC 中以支持 EMR 作业。但是,部署的 Step Functions 状态机无法运行 EMR 作业。
公司应采取哪些步骤组合来确定 Step Functions 状态机无法运行 EMR 作业的原因?(选择两个。)

44 / 204

44.

No.44
一家公司正在开发一款在 Amazon EC2 实例上运行的应用程序。目前,该应用程序生成的数据是临时的。但是,即使 EC2 实例终止,公司也需要保留数据。
数据工程师必须从 Amazon 系统映像 (AMI) 启动新的 EC2 实例并配置实例以保存数据。
哪种解决方案可以满足此要求?

45 / 204

45.

No.45
一家公司使用 Amazon Athena 通过使用 Create Table As Select (CTAS) 运行 SQL 查询以进行提取、转换和加载 (ETL) 任务。该公司必须使用 Apache Spark 而不是 SQL 来生成分析。
哪种解决方案能让公司使用 Spark 访问 Athena?

46 / 204

46.

No.46
一家公司需要对公司用于数据湖的 Amazon S3 存储进行分区。分区将使用以下格式的 S3 对象键路径:s3://bucket/prefix/year=2023/month=01/day=01。
当公司向存储桶添加新分区时,数据工程师必须确保 AWS Glue 数据目录与 S3 存储同步。
哪种解决方案可以以最低的延迟满足这些要求?

47 / 204

47.

No.47
一家媒体公司使用软件即服务 (SaaS) 应用程序通过第三方工具收集数据。该公司需要将数据存储在 Amazon S3 存储桶中。该公司将使用 Amazon Redshift 根据数据执行分析。
哪种 AWS 服务或功能能够以最少的运营开销满足这些要求?

48 / 204

No.48
一位数据工程师正在使用 Amazon Athena 分析 Amazon S3 中的销售数据。数据工程师编写查询以从名为 sales_data 的表中检索多种产品 2023 年的销售额。但是,查询不会返回 sales_data 表中所有产品的结果。数据工程师需要对查询进行故障排除以解决该问题。
数据工程师的原始查询如下:
SELECT product_name, sum(sales_amount)

48. FROM sales_data -

WHERE year = 2023 -

GROUP BY product_name -
数据工程师应如何修改 Athena 查询以满足这些要求?

49 / 204

49.

No.49
数据工程师有一项一次性任务,即从 Amazon S3 存储桶中采用 Apache Parquet 格式的对象中读取数据。数据工程师只需要查询一列数据。
哪种解决方案可以以最少的运营开销满足这些要求?

50 / 204

50.

No.50
一家公司将 Amazon Redshift 用于其数据仓库。该公司必须自动执行 Amazon Redshift 物化视图的刷新计划。
哪种解决方案能够以最少的努力满足此要求?

51 / 204

51.

No.51
数据工程师必须编排由一个 AWS Lambda 函数和一个 AWS Glue 作业组成的数据管道。该解决方案必须与 AWS 服务集成。
哪种解决方案能够以最少的管理开销满足这些要求?

52 / 204

52.

No.52
一家公司需要为在 AWS 云中运行的数据源设置数据目录和元数据管理。该公司将使用数据目录来维护一组数据存储中的所有对象的元数据。数据存储包括结构化源,例如 Amazon RDS 和 Amazon Redshift。数据存储还包括半结构化源,例如存储在 Amazon S3 中的 JSON 文件和 .xml 文件。
该公司需要一个定期更新数据目录的解决方案。该解决方案还必须检测源元数据的更改。
哪种解决方案能够以最少的运营开销满足这些要求?

53 / 204

53.

No.53
一家公司将来自应用程序的数据存储在以预置容量模式运行的 Amazon DynamoDB 表中。应用程序的工作负载定期具有可预测的吞吐量负载。每周一,清晨活动会立即增加。应用程序在周末的使用率非常低。
公司必须确保应用程序在高峰使用时间始终如一地运行。
哪种解决方案将以最具成本效益的方式满足这些要求?

54 / 204

54.

No.54
一家公司正计划将本地 Apache Hadoop 集群迁移到 Amazon EMR。该公司还需要将数据目录迁移到持久存储解决方案中。
该公司目前将数据目录存储在 Hadoop 集群上的本地 Apache Hive 元存储中。该公司需要无服务器解决方案来迁移数据目录。
哪种解决方案能够以最具成本效益的方式满足这些要求?

55 / 204

55.

No.55
一家公司使用 Amazon Redshift 配置集群作为其数据库。Redshift 集群有五个预留的 ra3.4xlarge 节点并使用密钥分配。
一位数据工程师注意到其中一个节点的 CPU 负载经常超过 90%。在该节点上运行的 SQL 查询已排队。其他四个节点在日常操作期间的 CPU 负载通常低于 15%。
数据工程师希望保持当前的计算节点数量。数据工程师还希望在所有五​​个计算节点之间更均匀地平衡负载。
哪种解决方案可以满足这些要求?

56 / 204

56.

No.56
一家安全公司将 JSON 格式的 IoT 数据存储在 Amazon S3 存储桶中。当公司升级 IoT 设备时,数据结构可能会发生变化。该公司希望创建一个包含 IoT 数据的数据目录。公司的分析部门将使用数据目录来索引数据。
哪种解决方案能够以最具成本效益的方式满足这些要求?

57 / 204

57.

No.57
一家公司将有关交易的详细信息存储在 Amazon S3 存储桶中。该公司希望将所有对 S3 存储桶的写入记录到同一 AWS 区域的另一个 S3 存储桶中。
哪种解决方案可以以最少的运营工作量满足此要求?

58 / 204

58.

No.58
数据工程师需要维护一个中央元数据存储库,用户可以通过 Amazon EMR 和 Amazon Athena 查询访问该存储库。存储库需要提供许多表的架构和属性。一些元数据存储在 Apache Hive 中。数据工程师需要将元数据从 Hive 导入中央元数据存储库。
哪种解决方案能够以最少的开发工作量满足这些要求?

59 / 204

59.

No.59
一家公司需要在 AWS 中构建一个数据湖。该公司必须为特定团队提供行级数据访问和列级数据访问。团队将使用 Amazon Athena、Amazon Redshift Spectrum 和 Amazon EMR 中的 Apache Hive 访问数据。
哪种解决方案能够以最低的运营开销满足这些要求?

60 / 204

60.

No.60
一家航空公司正在收集有关飞行活动的指标以供分析。该公司正在进行概念验证 (POC) 测试,以展示分析如何提供洞​​察力,公司可以利用这些洞察力来增加准时出发率。
POC 测试使用 Amazon S3 中包含 .csv 格式指标的对象。 POC 测试使用 Amazon Athena 查询数据。数据按日期在 S3 存储桶中分区。
随着数据量的增加,公司希望优化存储解决方案以提高查询性能。
哪种解决方案组合可以满足这些要求?(选择两个。)

61 / 204

61.

No.61
一家公司使用 Amazon RDS for MySQL 作为关键应用程序的数据库。数据库工作负载主要是写入,读取次数较少。
数据工程师注意到数据库实例的 CPU 利用率非常高。高 CPU 利用率正在减慢应用程序的速度。数据工程师必须降低数据库实例的 CPU 利用率。
数据工程师应采取哪些措施来满足此要求?(选择两个。)

62 / 204

62.

No.62
一家公司已使用名为 Orders 的 Amazon Redshift 表 6 个月。该公司每周对该表执行更新和删除。该表在包含 AWS 区域的列上具有交错排序键。
该公司希望回收磁盘空间,以便公司不会耗尽存储空间。该公司还希望分析排序键列。
哪个 Amazon Redshift 命令可以满足这些要求?

63 / 204

63.

No.63
一家制造公司希望从传感器收集数据。数据工程师需要实施一种解决方案,以近乎实时的方式提取传感器数据。
该解决方案必须将数据存储到持久数据存储中。该解决方案必须以嵌套 JSON 格式存储数据。公司必须能够以小于 10 毫秒的延迟从数据存储中查询。
哪种解决方案能够以最少的运营开销满足这些要求?

64 / 204

64.

No.64
一家公司将数据存储在 Amazon S3 中的数据湖中。公司存储在数据湖中的一些数据包含个人身份信息 (PII)。多个用户组需要访问原始数据。公司必须确保用户组只能访问他们需要的 PII。
哪种解决方案可以以最少的努力满足这些要求?

65 / 204

65.

No.65
数据工程师必须构建提取、转换和加载 (ETL) 管道,以处理来自 10 个源系统的数据并将其加载到 Amazon Redshift 数据库中的 10 个表中。所有源系统每 15 分钟生成一次 .csv、JSON 或 Apache Parquet 文件。源系统都将文件传送到一个 Amazon S3 存储桶中。文件大小从 10 MB 到 20 GB 不等。尽管数据架构发生变化,ETL 管道仍必须正常运行。
哪些数据管道解决方案可以满足这些要求?(选择两个。)

66 / 204

66.

No.66
一家金融公司希望使用 Amazon Athena 在 PB 级数据集上运行按需 SQL 查询,以支持商业智能 (BI) 应用程序。在非工作时间运行的 AWS Glue 作业每天更新一次数据集。BI 应用程序的标准数据刷新频率为 1 小时,以符合公司政策。
一位数据工程师希望在不增加任何额外基础设施成本的情况下优化公司对 Amazon Athena 的使用成本。
哪种解决方案可以以最低的运营开销满足这些要求?

67 / 204

67.

No.67
一家公司的数据工程师需要优化表 SQL 查询的性能。该公司将数据存储在 Amazon Redshift 集群中。由于预算限制,数据工程师无法增加集群的大小。
该公司将数据存储在多个表中,并使用 EVEN 分配样式加载数据。一些表的大小为数百 GB。其他表的大小不到 10 MB。
哪种解决方案可以满足这些要求?

68 / 204

No.68
一家公司收到包含物理地址数据的 .csv 文件。数据位于具有以下名称的列中:Door_No、Street_Name、City 和 Zip_Code。该公司希望创建一个列来存储这些值,格式如下:

{
"Door_No": "24",
"Street_Name": "AAA street",
"City": "BBB",
"Zip_Code": "111111"
}

68. 哪种解决方案能够以最少的编码工作量满足此要求?

69 / 204

69.

No.69
一家公司将通话记录作为包含敏感客户信息的 Amazon S3 对象接收。该公司必须使用加密来保护 S3 对象。该公司还必须使用只有特定员工才能访问的加密密钥。
哪种解决方案能够以最少的努力满足这些要求?

70 / 204

70.

No.70
一家公司将数 PB 的数据存储在 S3 标准存储类中的数千个 Amazon S3 存储桶中。这些数据支持具有不可预测和可变数据访问模式的分析工作负载。
该公司几个月都没有访问某些数据。但是,该公司必须能够在几毫秒内检索所有数据。该公司需要优化 S3 存储成本。
哪种解决方案可以以最少的运营开销满足这些要求?

71 / 204

71.

No.71
在安全审查期间,一家公司发现了 AWS Glue 作业中的漏洞。该公司发现访问 Amazon Redshift 集群的凭证已硬编码在作业脚本中。
数据工程师必须修复 AWS Glue 作业中的安全漏洞。解决方案必须安全地存储凭证。
数据工程师应采取哪些步骤组合来满足这些要求?(选择两个。)

72 / 204

72.

No.72
数据工程师每月使用 Amazon Redshift 运行一次资源密集型分析流程。每个月,数据工程师都会创建一个新的 Redshift 预置集群。数据工程师会在每月分析流程完成后删除 Redshift 预置集群。在数据工程师每月删除集群之前,数据工程师会将集群中的备份数据卸载到 Amazon S3 存储桶中。
数据工程师需要一个解决方案来运行每月的分析流程,而不需要数据工程师手动管理基础设施。
哪种解决方案能够以最少的运营开销满足这些要求?

73 / 204

73.

No.73
一家公司收到一份包含 .xls 格式的客户数据的每日文件。该公司将该文件存储在 Amazon S3 中。每日文件的大小约为 2 GB。
数据工程师将文件中包含客户名字的列和包含客户姓氏的列连接起来。数据工程师需要确定文件中不同客户的数量。
哪种解决方案可以以最少的运营工作量满足此要求?

74 / 204

74.

No.74
一家医疗保健公司使用 Amazon Kinesis Data Streams 从可穿戴设备、医院设备和患者记录中传输实时健康数据。
数据工程师需要找到一种解决方案来处理流数据。数据工程师需要将数据存储在 Amazon Redshift 无服务器仓库中。该解决方案必须支持对流数据和前一天的数据进行近乎实时的分析。
哪种解决方案能够以最少的运营开销满足这些要求?

75 / 204

75.

No.75
数据工程师需要使用基于 Amazon Athena 对存储在 Amazon S3 存储桶中的数据的查询的 Amazon QuickSight 仪表板。当数据工程师连接到 QuickSight 仪表板时,数据工程师会收到一条错误消息,指示权限不足。
哪些因素可能导致与权限相关的错误?(选择两个。)

76 / 204

76.

No.76
一家公司将 JSON 格式和 .csv 格式的数据集存储在 Amazon S3 存储桶中。该公司拥有适用于 Microsoft SQL Server 数据库的 Amazon RDS、处于预置容量模式的 Amazon DynamoDB 表以及 Amazon Redshift 集群。数据工程团队必须开发一种解决方案,使数据科学家能够使用类似于 SQL 的语法查询所有数据源。
哪种解决方案能够以最少的运营开销满足这些要求?

77 / 204

77.

No.77
数据工程师正在配置 Amazon SageMaker Studio 以使用 AWS Glue 交互式会话为机器学习 (ML) 模型准备数据。
当数据工程师尝试使用 SageMaker Studio 准备数据时,数据工程师收到访问被拒绝错误。
工程师应该进行哪些更改才能访问 SageMaker Studio?

78 / 204

78.

No.78
一家公司每天从 SAP HANA、Microsoft SQL Server、MongoDB、Apache Kafka 和 Amazon DynamoDB 等数据源中提取大约 1 TB 的数据。一些数据源具有未定义的数据模式或会发生变化的数据模式。
数据工程师必须实施可以检测这些数据源模式的解决方案。该解决方案必须提取、转换数据并将其加载到 Amazon S3 存储桶中。该公司有一个服务级别协议 (SLA),要求在数据创建后 15 分钟内将数据加载到 S3 存储桶中。
哪种解决方案可以以最少的运营开销满足这些要求?

79 / 204

79.

No.79
一家公司有多个使用存储在 Amazon S3 存储桶中的数据集的应用程序。该公司有一个电子商务应用程序,它生成一个包含个人身份信息 (PII) 的数据集。该公司有一个内部分析应用程序,不需要访问 PII。
为了遵守法规,公司不得不必要地共享 PII。数据工程师需要根据访问数据集的每个应用程序的需求,实施一个动态编辑 PII 的解决方案。
哪种解决方案能够以最少的运营开销满足要求?

80 / 204

80.

★No.80
数据工程师需要构建提取、转换和加载 (ETL) 作业。ETL 作业将处理用户上传到 Amazon S3 存储桶的每日传入 .csv 文件。每个 S3 对象的大小小于 100 MB。
哪种解决方案最经济高效地满足这些要求?

81 / 204

81.

No.81
数据工程师使用名为 Orders 的 AWS Glue 爬虫创建 AWS Glue 数据目录表。数据工程师想要添加以下新分区:

s3://transactions/orders/order_date=2023-01-01
s3://transactions/orders/order_date=2023-01-02

数据工程师必须编辑元数据以将新分区包含在表中,而无需扫描表位置中的所有文件夹和文件。
数据工程师应在 Amazon Athena 中使用哪种数据定义语言 (DDL) 语句?

82 / 204

82.

No.82
一家公司在 Amazon S3 中存储了 10 到 15 TB 未压缩的 .csv 文件。该公司正在评估 Amazon Athena 作为一次性查询引擎。
该公司希望转换数据以优化查询运行时间和存储成本。
哪种文件格式和压缩解决方案可以满足 Athena 查询的这些要求?

83 / 204

83.

No.83
一家公司使用 Apache Airflow 来协调公司当前的本地数据管道。该公司在管道中运行 SQL 数据质量检查任务。该公司希望将管道迁移到 AWS 并使用 AWS 托管服务。
哪种解决方案可以以最少的重构量满足这些要求?

84 / 204

84.

No.84
一家公司使用 Amazon EMR 作为提取、转换和加载 (ETL) 管道来转换来自多个来源的数据。数据工程师必须协调管道以最大限度地提高性能。
哪种 AWS 服务能够以最经济的方式满足此要求?

85 / 204

85.

No.85
一家在线零售公司将应用程序负载均衡器 (ALB) 访问日志存储在 Amazon S3 存储桶中。该公司希望使用 Amazon Athena 查询日志以分析流量模式。
数据工程师在 Athena 中创建未分区表。随着数据量逐渐增加,查询的响应时间也会增加。数据工程师希望提高 Athena 中的查询性能。
哪种解决方案能够以最少的运营工作量满足这些要求?

86 / 204

86.

No.86
一家公司在 AWS 上拥有一个商业智能平台。该公司使用 AWS Storage Gateway Amazon S3 文件网关将文件从公司的本地环境传输到 Amazon S3 存储桶。
数据工程师需要设置一个流程,该流程将在每次文件传输成功完成时自动启动 AWS Glue 工作流以运行一系列 AWS Glue 作业。
哪种解决方案可以以最少的运营开销满足这些要求?

87 / 204

87.

No.87
一家零售公司使用 Amazon Aurora PostgreSQL 来处理和存储实时交易数据。该公司使用 Amazon Redshift 集群作为数据仓库。
每天早上都会运行提取、转换和加载 (ETL) 作业,以使用来自 PostgreSQL 数据库的新数据更新 Redshift 集群。该公司发展迅速,需要优化 Redshift 集群的成本。
数据工程师需要创建一个解决方案来存档历史数据。数据工程师必须能够运行分析查询,有效地结合来自 PostgreSQL 中的实时交易数据、Redshift 中的当前数据和存档的历史数据。该解决方案必须仅保留 Amazon Redshift 中最近 15 个月的数据以降低成本。
哪种步骤组合可以满足这些要求?(选择两个。)

88 / 204

88.

No.88
一家制造公司在世界各地的设施中拥有许多 IoT 设备。该公司使用 Amazon Kinesis Data Streams 从设备收集数据。数据包括设备 ID、捕获日期、测量类型、测量值和设施 ID。该公司使用设施 ID 作为分区键。
该公司的运营团队最近观察到许多 WriteThroughputExceeded 异常。运营团队发现一些分片使用率很高,但其他分片通常处于空闲状态。
公司应如何解决运营团队观察到的问题?

89 / 204

89.

No.89
一位数据工程师想要提高 Amazon Athena 中针对销售数据表运行的 SQL 查询的性能。
数据工程师想要了解特定 SQL 语句的执行计划。数据工程师还希望查看 SQL 查询中每个操作的计算成本。
数据工程师需要运行哪个语句才能满足这些要求?

90 / 204

90.

No.90
一家公司计划在 VPC 内配置日志传输流。该公司将 VPC 流日志配置为发布到 Amazon CloudWatch Logs。该公司需要近乎实时地将流日志发送到 Splunk 进行进一步分析。
哪种解决方案可以以最少的运营开销满足这些要求?

91 / 204

91.

No.91
一家公司在 AWS 上有一个数据湖。数据湖从业务部门提取数据源。该公司使用 Amazon Athena 进行查询。存储层是 Amazon S3,并使用 AWS Glue 数据目录作为元数据存储库。
该公司希望将数据提供给数据科学家和业务分析师。但是,该公司首先需要根据用户角色和职责管理 Athena 的细粒度、列级数据访问。
哪种解决方案可以满足这些要求?

92 / 204

92.

No.92
一家公司开发了多个 AWS Glue 提取、转换和加载 (ETL) 作业来验证和转换来自 Amazon S3 的数据。ETL 作业每天一次将数据批量加载到 Amazon RDS for MySQL 中。ETL 作业使用 DynamicFrame 读取 S3 数据。
ETL 作业当前处理 S3 存储桶中的所有数据。但是,该公司希望作业仅处理每日增量数据。
哪种解决方案可以以最少的编码工作量满足此要求?

93 / 204

93.

No.93
一家在线零售公司有一个在 VPC 中的 Amazon EC2 实例上运行的应用程序。该公司希望收集 VPC 的流日志并分析网络流量。
哪种解决方案能够以最具成本效益的方式满足这些要求?

94 / 204

94.

No.94
一家零售公司将交易、商店位置和客户信息表存储在四个预留 ra3.4xlarge Amazon Redshift 集群节点中。所有三个表都使用均匀表分布。
该公司每隔几年只更新一次或两次商店位置表。
一位数据工程师注意到 Redshift 队列正在变慢,因为整个商店位置表不断被广播到所有四个计算节点以进行大多数查询。数据工程师希望通过最小化商店位置表的广播来加快查询性能。
哪种解决方案将以最具成本效益的方式满足这些要求?

95 / 204

95.

No.95
一家公司有一个数据仓库,其中包含一个名为 Sales 的表。该公司将该表存储在 Amazon Redshift 中。该表包含一个名为 city_name 的列。该公司希望查询该表以查找 city_name 以“San”或“El”开头的所有行。
哪个 SQL 查询可以满足此要求?

96 / 204

96.

No.96
一家公司需要将客户呼叫数据从其本地 PostgreSQL 数据库发送到 AWS,以生成近乎实时的洞察。该解决方案必须从在 PostgreSQL 数据库中运行的操作数据存储中捕获和加载更新。数据不断变化。
数据工程师配置 AWS 数据库迁移服务 (AWS DMS) 持续复制任务。该任务从每个表的 PostgreSQL 源数据库事务日志中近乎实时地读取更改。然后,该任务将数据发送到 Amazon Redshift 集群进行处理。
数据工程师在任务的变更数据捕获 (CDC) 期间发现延迟问题。数据工程师认为 PostgreSQL 源数据库导致了高延迟。
哪种解决方案将确认 PostgreSQL 数据库是高延迟的来源?

97 / 204

97.

No.97
实验室使用 IoT 传感器监控项目的湿度、温度和压力。传感器每 10 秒发送 100 KB 数据。下游进程将每 30 秒从 Amazon S3 存储桶读取一次数据。
哪种解决方案将以最小的延迟将数据传送到 S3 存储桶?

98 / 204

98.

No.98
一家公司希望使用机器学习 (ML) 对 Amazon S3 数据湖中的数据进行分析。该公司有两个数据转换要求,这将使公司内的消费者能够创建报告。
该公司必须对 300 GB 的各种格式的数据进行每日转换,这些数据必须在预定的时间到达 Amazon S3。该公司必须对 S3 数据湖中的 TB 级存档数据进行一次性转换。该公司使用 Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 有向无环图 (DAG) 来协调处理。
公司应在 Amazon MWAA DA​​G 中安排哪种任务组合才能最经济高效地满足这些要求?(选择两个。)

99 / 204

99.

No.99
一家零售公司使用 AWS Glue 对包含客户订单信息的数据集进行提取、转换和加载 (ETL) 操作。该公司希望实施特定的验证规则以确保数据的准确性和一致性。
哪种解决方案可以满足这些要求?

100 / 204

100.

★No.100
一家保险公司存储了该公司使用 gzip 压缩的交易数据。
该公司需要查询交易数据以进行偶尔的审计。
哪种解决方案能够以最具成本效益的方式满足这一要求?

101 / 204

101.

No.101
一位数据工程师完成了对 Amazon Redshift 存储过程的测试,该过程处理数据并将其插入到非关键任务表中。工程师希望每天自动运行存储过程。
哪种解决方案能够以最具成本效益的方式满足此要求?

102 / 204

102.

No.102
一家营销公司收集点击流数据。该公司将点击流数据发送到 Amazon Kinesis Data Firehose,并将点击流数据存储在 Amazon S3 中。该公司希望构建一系列仪表板,供来自多个部门的数百名用户使用。
该公司将使用 Amazon QuickSight 开发仪表板。该公司希望获得一种可扩展并提供有关点击流活动的每日更新的解决方案。
哪种步骤组合能够以最具成本效益的方式满足这些要求?(选择两个。)

103 / 204

103.

No.103
数据工程师正在构建数据编排工作流。数据工程师计划使用混合模型,其中包括一些本地资源和一些云中的资源。数据工程师希望优先考虑可移植性和开源资源。
数据工程师应该在本地环境和基于云的环境中使用哪种服务?

104 / 204

104.

No.104
一家游戏公司使用 NoSQL 数据库来存储客户信息。该公司正计划迁移到 AWS。
该公司需要一个完全托管的 AWS 解决方案,该解决方案将处理高在线事务处理 (OLTP) 工作负载,提供个位数毫秒级的性能,并在全球范围内提供高可用性。
哪种解决方案能够以最少的运营开销满足这些要求?

105 / 204

105.

No.105
数据工程师创建了一个 AWS Lambda 函数,Amazon EventBridge 事件将调用该函数。当数据工程师尝试使用 EventBridge 事件调用 Lambda 函数时,会出现 AccessDeniedException 消息。
数据工程师应如何解决异常?

106 / 204

106.

No.106
一家公司使用基于 Amazon S3 存储桶的数据湖。为了遵守法规,该公司必须对上传到 S3 存储桶的文件应用两层服务器端加密。该公司希望使用 AWS Lambda 函数来应用必要的加密。
哪种解决方案可以满足这些要求?

107 / 204

107.

No.107
数据工程师注意到 Amazon Athena 查询在运行之前被保留在队列中。
数据工程师如何防止查询排队?

108 / 204

108.

No.108
数据工程师需要调试从 Amazon S3 读取并写入 Amazon Redshift 的 AWS Glue 作业。数据工程师为 AWS Glue 作业启用了书签功能。
数据工程师已将 AWS Glue 作业的最大并发数设置为 1。
AWS Glue 作业已成功将输出写入 Amazon Redshift。但是,在 AWS Glue 作业的先前运行期间加载的 Amazon S3 文件正在后续运行中重新处理。
AWS Glue 作业重新处理文件的可能原因是什么?

109 / 204

109.

No.109
一家电子商务公司希望使用 AWS 将数据管道从本地环境迁移到 AWS 云中。该公司目前在本地环境中使用第三方工具来协调数据提取流程。
该公司希望获得一种不需要公司管理服务器的迁移解决方案。该解决方案必须能够协调 Python 和 Bash 脚本。该解决方案不得要求公司重构任何代码。
哪种解决方案能够以最少的运营开销满足这些要求?

110 / 204

110.

No.110
一家零售公司将来自产品生命周期管理 (PLM) 应用程序的数据存储在本地 MySQL 数据库中。当发生交易时,PLM 应用程序会频繁更新数据库。
该公司希望近乎实时地从 PLM 应用程序中收集见解。该公司希望将这些见解与其他业务数据集集成,并使用 Amazon Redshift 数据仓库分析组合数据集。
该公司已经在本地基础设施和 AWS 之间建立了 AWS Direct Connect 连接。
哪种解决方案能够以最少的开发工作量满足这些要求?

111 / 204

111.

No.111
一家营销公司使用 Amazon S3 存储点击流数据。该公司每天结束时使用 SQL JOIN 子句查询存储在单独存储桶中的 S3 对象上的数据。
该公司根据对象创建关键绩效指标 (KPI)。该公司需要一个无服务器解决方案,使用户能够通过对数据进行分区来查询数据。该解决方案必须保持数据的原子性、一致性、隔离性和持久性 (ACID) 属性。
哪种解决方案能够以最具成本效益的方式满足这些要求?

112 / 204

112.

No.112
一家公司希望从名为 Account_A 的 AWS 账户的 eu-east-1 区域中的 Amazon RDS for PostgreSQL DB 实例迁移数据。该公司将数据迁移到名为 Account_B 的 AWS 账户的 eu-west-1 区域中的 Amazon Redshift 集群。
哪种解决方案将使 AWS 数据库迁移服务 (AWS DMS) 能够在两个数据存储之间复制数据?

113 / 204

113.

No.113
一家公司使用 Amazon S3 作为数据湖。该公司使用多节点 Amazon Redshift 集群设置数据仓库。该公司根据每个数据文件的数据源组织数据湖中的数据文件。
公司通过对每个数据文件位置使用单独的 COPY 命令将所有数据文件加载到 Redshift 集群中的一个表中。这种方法需要很长时间才能将所有数据文件加载到表中。公司必须提高数据提取速度。公司不想增加流程成本。
哪种解决方案可以满足这些要求?

114 / 204

114.

★No.114
一家公司计划使用 Amazon Kinesis Data Firehose 将数据存储在 Amazon S3 中。源数据由 2 MB .csv 文件组成。该公司必须将 .csv 文件转换为 JSON 格式。该公司必须将文件存储为 Apache Parquet 格式。
哪种解决方案能够以最少的开发工作量满足这些要求?

115 / 204

115.

No.115
一家公司正在使用 AWS Transfer Family 服务器将数据从本地环境迁移到 AWS。公司政策要求使用 TLS 1.2 或更高版本对传输中的数据进行加密。
哪种解决方案可以满足这些要求?

116 / 204

116.

No.116
一家公司希望将应用程序和本地 Apache Kafka 服务器迁移到 AWS。该应用程序处理本地 Oracle 数据库发送到 Kafka 服务器的增量更新。该公司希望使用重新平台迁移策略而不是重构策略。
哪种解决方案能够以最少的管理开销满足这些要求?

117 / 204

117.

No.117
数据工程师正在使用 AWS Glue 构建自动提取、转换和加载 (ETL) 提取管道。管道提取 Amazon S3 存储桶中的压缩文件。提取管道必须支持增量数据处理。
数据工程师应使用哪种 AWS Glue 功能来满足此要求?

118 / 204

118.

No.118
一家银行公司使用应用程序收集大量交易数据。该公司使用 Amazon Kinesis Data Streams 进行实时分析。该公司的应用程序使用 PutRecord 操作将数据发送到 Kinesis Data Streams。
一位数据工程师观察到一天中某些时间的网络中断。数据工程师希望为整个处理管道配置一次交付。
哪种解决方案可以满足此要求?

119 / 204

119.

No.119
一家公司将日志存储在 Amazon S3 存储桶中。当数据工程师尝试访问多个日志文件时,数据工程师发现某些文件已被无意删除。
数据工程师需要一种解决方案来防止将来意外删除文件。
哪种解决方案可以满足此要求且操作开销最少?

120 / 204

120.

No.120
一家电信公司每天以每秒数千个数据点的速度收集网络使用数据。该公司运行一个应用程序来实时处理使用数据。公司将数据汇总并存储在 Amazon Aurora DB 实例中。
网络使用率突然下降通常表示网络中断。公司必须能够识别网络使用率突然下降,以便公司能够立即采取补救措施。
哪种解决方案能够以最低的延迟满足此要求?

121 / 204

121.

No.121
数据工程师正在处理和分析 Amazon S3 中的数 TB 原始数据。数据工程师需要清理和准备数据。然后,数据工程师需要将数据加载到 Amazon Redshift 中进行分析。
数据工程师需要一个解决方案,使数据分析师能够执行复杂的查询。该解决方案必须消除执行复杂的提取、转换和加载 (ETL) 过程或管理基础设施的需要。
哪种解决方案可以以最少的运营开销满足这些要求?

122 / 204

122.

No.122
一家公司使用 AWS Lambda 函数将文件从旧版 SFTP 环境传输到 Amazon S3 存储桶。Lambda 函数启用了 VPC,以确保 Lambda 函数与同一 VPC 环境中的其他 AVS 服务之间的所有通信都将通过安全网络进行。
Lambda 函数能够成功连接到 SFTP 环境。但是,当 Lambda 函数尝试将文件上传到 S3 存储桶时,Lambda 函数会返回超时错误。数据工程师必须以安全的方式解决超时问题。
哪种解决方案能够以最具成本效益的方式满足这些要求?

123 / 204

123.

No.123
一家公司从在 Amazon RDS 上运行的客户数据库中读取数据。数据库包含许多不一致的字段。例如,一个数据库中名为 place_id 的客户记录字段在另一个数据库中名为 location_id。公司需要跨不同数据库链接客户记录,即使客户记录字段不匹配。
哪种解决方案能够以最少的运营开销满足这些要求?

124 / 204

124.

No.124
一家金融公司从第三方数据提供商处接收数据,并将数据作为对象存储在 Amazon S3 存储桶中。
该公司对对象运行 AWS Glue 爬虫程序以创建数据目录。AWS Glue 爬虫程序创建了多个表。但是,该公司预计爬虫程序只会创建一个表。
该公司需要一个解决方案来确保 AVS Glue 爬虫程序只创建一个表。
哪种解决方案组合可以满足此要求?(选择两个。)

125 / 204

125.

★No.125
应用程序使用来自 Amazon Simple Queue Service (Amazon SQS) 队列的消息。应用程序偶尔会遇到停机。停机会导致队列中的消息过期并在 1 天后被删除。消息删除会导致应用程序数据丢失。
哪些解决方案可以最大限度地减少应用程序的数据丢失?(选择两个。)

126 / 204

126.

No.126
一家公司正在创建近乎实时的仪表板来可视化时间序列数据。该公司将数据提取到 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 中。自定义数据管道使用数据。然后,管道将数据写入 Amazon Keyspaces(用于 Apache Cassandra)、Amazon OpenSearch Service 和 Amazon S3 中的 Apache Avro 对象。
哪种解决方案能够以最低的延迟使数据可用于数据可视化?

127 / 204

127.

★No.127
数据工程师维护基于 Amazon Redshift 数据库的物化视图。该视图有一个名为 load_date 的列,用于存储每行加载的日期。
数据工程师需要通过从物化视图中删除所有行来回收数据库存储空间。
哪个命令将回收最多的数据库存储空间?

128 / 204

128.

No.128
一家媒体公司希望使用 Amazon OpenSearch Service 分析有关流行音乐艺术家和歌曲的实时数据。该公司预计每天将接收数百万个新数据事件。新数据事件将通过 Amazon Kinesis 数据流到达。公司必须转换数据,然后将数据导入 OpenSearch Service 域。
公司应使用哪种方法来导入数据,同时降低运营开销?

129 / 204

129.

No.129
一家公司将包含客户地址的客户数据表存储在 AWS Lake Formation 数据湖中。为了遵守新法规,该公司必须确保用户无法访问位于加拿大的客户的数据。
该公司需要一个解决方案来阻止用户访问位于加拿大的客户的行。
哪种解决方案可以以最少的运营工作量满足此要求?

130 / 204

130.

★No.130
一家公司在 Amazon Redshift 中实施了 Lake House 架构。该公司需要让用户能够使用第三方身份提供商 (IdP) 验证 Redshift 查询编辑器的身份。
数据工程师必须设置身份验证机制。
数据工程师应采取的第一步是什么来满足此要求?

131 / 204

131.

No.131
一家公司目前使用包含通用 Amazon EC2 实例的预配置 Amazon EMR 集群。 EMR 集群使用 EMR 托管扩展,在 1 到 5 个任务节点之间进行扩展,以完成公司长期运行的 Apache Spark 提取、转换和加载 (ETL) 作业。公司每天都会运行 ETL 作业。
当公司运行 ETL 作业时,EMR 集群会快速扩展到 5 个节点。EMR 集群通常会达到最大 CPU 使用率,但内存使用率仍低于 30%。
公司希望修改 EMR 集群配置,以降低运行每日 ETL 作业的 EMR 成本。
哪种解决方案能够以最具成本效益的方式满足这些要求?

132 / 204

132.

No.132
一家公司将 .csv 文件上传到 Amazon S3 存储桶。该公司的数据平台团队已设置 AWS Glue 爬虫来执行数据发现并创建表和架构。
AWS Glue 作业将处理后的数据从表写入 Amazon Redshift 数据库。AWS Glue 作业处理列映射并在 Redshift 数据库中适当地创建 Amazon Redshift 表。
如果公司出于任何原因重新运行 AWS Glue 作业,则会将重复记录引入 Amazon Redshift 表中。该公司需要一个可以更新 Redshift 表而不产生重复的解决方案。
哪种解决方案可以满足这些要求?

133 / 204

133.

No.133
一家公司正在使用 Amazon Redshift 构建数据仓库解决方案。该公司正在将数百个文件加载到 Redshift 集群中的事实表中。
该公司希望数据仓库解决方案实现尽可能大的吞吐量。当公司将数据加载到事实表中时,解决方案必须以最佳方式使用集群资源。
哪种解决方案可以满足这些要求?

134 / 204

134.

No.134
一家公司从多个数据源提取数据并将数据存储在 Amazon S3 存储桶中。AWS Glue 提取、转换和加载 (ETL) 作业转换数据并将转换后的数据写入基于 Amazon S3 的数据湖。该公司使用 Amazon Athena 查询数据湖中的数据。
即使记录没有通用的唯一标识符,公司也需要识别匹配的记录。
哪种解决方案可以满足此要求?

135 / 204

135.

No.135
数据工程师正在使用 AWS Glue 爬虫程序对 Amazon S3 存储桶中的数据进行分类。S3 存储桶包含 .csv 和 json 文件。数据工程师将爬虫程序配置为从目录中排除 .json 文件。
当数据工程师在 Amazon Athena 中运行查询时,查询还会处理排除的 .json 文件。数据工程师想要解决这个问题。数据工程师需要一个不会影响源 S3 存储桶中 .csv 文件的访问要求的解决方案。
哪种解决方案可以以最短的查询时间满足此要求?

136 / 204

136.

No.136
数据工程师设置了一个 AWS Lambda 函数来读取存储在 Amazon S3 存储桶中的对象。该对象由 AWS KMS 密钥加密。
数据工程师配置了 Lambda 函数的执行角色以访问 S3 存储桶。但是,Lambda 函数遇到错误,无法检索对象的内容。
错误的可能原因是什么?

137 / 204

137.

No.137
一位数据工程师在 1,000 个 AWS Glue 数据目录表中实施了数据质量规则。由于业务需求最近发生变化,数据工程师必须编辑数据质量规则。
数据工程师应如何以最少的运营开销满足此要求?

138 / 204

138.

No.138
两位开发人员正在开发单独的应用程序版本。开发人员已使用 GitHub 存储库的主分支作为源,创建了名为分支 A 和分支 B 的功能分支。
分支 A 的开发人员将代码部署到生产系统。分支 B 的代码将在下一周的预定应用程序发布中合并到主分支中。
在向主分支提出拉取请求之前,分支 B 的开发人员应该运行哪个命令?

139 / 204

139.

★No.139
一家公司将员工数据存储在 Amazon Resdshift 中。名为 Employee 的表使用名为 Region ID、Department ID 和 Role ID 的列作为复合排序键。
哪些查询将通过使用表的复合排序键最大程度地提高查询速度?(选择两个。)

140 / 204

140.

No.140
一家公司从位于世界各地的测试机构收到测试结果。该公司将测试结果存储在 Amazon S3 存储桶中的数百万个 1 KB JSON 文件中。数据工程师需要处理文件,将其转换为 Apache Parquet 格式,然后将其加载到 Amazon Redshift 表中。数据工程师使用 AWS Glue 来处理文件,使用 AWS Step Functions 来编排流程,并使用 Amazon EventBridge 来安排作业。
该公司最近增加了更多测试设施。处理文件所需的时间正在增加。数据工程师必须减少数据处理时间。
哪种解决方案将最大程度地减少数据处理时间?

141 / 204

141.

No.141
数据工程师使用 Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 在 AWS 账户中运行数据管道。
工作流最近运行失败。数据工程师需要使用 Apache Airflow 日志来诊断工作流的故障。
数据工程师应该使用哪种日志类型来诊断故障原因?

142 / 204

142.

No.142
一家金融公司使用 Amazon Redshift 作为数据仓库。该公司将数据存储在共享的 Amazon S3 存储桶中。该公司使用 Amazon Redshift Spectrum 访问存储在 S3 存储桶中的数据。数据来自经过认证的第三方数据提供商。每个第三方数据提供商都有唯一的连接详细信息。
为了遵守法规,公司必须确保公司 AWS 环境之外的任何数据都无法访问。
公司应采取哪些步骤组合来满足这些要求?(选择两个。)

143 / 204

143.

No.143
来自多个数据源的文件定期到达 Amazon S3 存储桶。当新文件到达 S3 存储桶时,数据工程师希望近乎实时地将新文件导入 Amazon Redshift。
哪种解决方案可以满足这些要求?

144 / 204

144.

No.144
一家科技公司目前使用 Amazon Kinesis Data Streams 实时收集日志数据。该公司希望使用 Amazon Redshift 进行下游实时查询并丰富日志数据。
哪种解决方案可以以最低的运营开销将数据导入 Amazon Redshift?

145 / 204

145.

No.145
一家公司在本地 Oracle 数据库中维护一个数据仓库。该公司希望在 AWS 上构建一个数据湖。该公司希望将数据仓库表加载到 Amazon S3 中,并将表与每天从数据仓库到达的增量数据同步。
每个表都有一个包含单调递增值的列。每个表的大小小于 50 GB。数据仓库表每天晚上 1 点到 2 点之间刷新一次。商业智能团队每天上午 10 点到晚上 8 点查询表格。
哪种解决方案将以最高效的方式满足这些要求?

146 / 204

146.

No.146
一家公司正在为新的分析团队构建数据湖。该公司使用 Amazon S3 进行存储,使用 Amazon Athena 进行查询分析。Amazon S3 中的所有数据均为 Apache Parquet 格式。
该公司正在数据中心运行一个新的 Oracle 数据库作为源系统。该公司在 Oracle 数据库中有 70 个表。所有表都有主键。源系统中的数据偶尔会发生变化。该公司希望每天将表导入数据湖。
哪种解决方案可以以最少的努力满足此要求?

147 / 204

147.

No.147
一家运输公司希望通过捕获地理位置记录来跟踪车辆移动。记录大小为 10 字节。该公司每秒最多收到 10,000 条记录。由于网络条件不可靠,数据传输延迟几分钟是可以接受的。
运输公司希望使用 Amazon Kinesis Data Streams 来提取地理位置数据。该公司需要一种可靠的机制来将数据发送到 Kinesis Data Streams。公司需要最大限度地提高 Kinesis 分片的吞吐效率。
哪种解决方案能够以最高效的方式满足这些要求?

148 / 204

148.

No.148
一家投资公司需要管理不断增长的大量半结构化数据并从中提取见解。
数据工程师需要对半结构化数据进行重复数据删除,删除重复的记录,并删除常见的重复拼写错误。
哪种解决方案能够以最少的运营开销满足这些要求?

149 / 204

149.

No.149
一家公司正在构建库存管理系统和库存重新订购系统以自动重新订购产品。两个系统都使用 Amazon Kinesis Data Streams。库存管理系统使用 Amazon Kinesis 生产器库 (KPL) 将数据发布到流中。库存重新排序系统使用 Amazon Kinesis 客户端库 (KCL) 从流中使用数据。公司将流配置为根据需要进行扩展和缩减。
在公司将系统部署到生产环境之前,公司发现库存重新排序系统收到了重复的数据。
哪些因素可能导致重新排序系统收到重复的数据?(选择两个。)

150 / 204

150.

No.150
一家电子商务公司运营着一个复杂的订单履行流程,该流程涵盖了 AWS 中托管的多个操作系统。每个操作系统都有一个符合 Java 数据库连接 (JDBC) 的关系数据库,用于捕获最新的处理状态。
该公司需要让运营团队能够在整个履行过程中每小时跟踪订单。
哪种解决方案能够以最少的开发开销满足这些要求?

151 / 204

151.

No.151
数据工程师需要使用 Amazon Neptune 开发图形应用程序。
工程师应该使用哪些编程语言来开发图形应用程序?(选择两个。)

152 / 204

152.

No.152
一家移动游戏公司希望从其游戏应用程序中捕获数据。该公司希望将数据提供给三个内部数据消费者。数据记录的大小约为 20 KB。
该公司希望从运行游戏应用程序的每台设备实现最佳吞吐量。此外,该公司还希望开发一个应用程序来处理数据流。流处理应用程序必须为每个内部消费者提供专用的吞吐量。
哪种解决方案可以满足这些要求?

153 / 204

153.

No.153
一家零售公司使用 Amazon Redshift 数据仓库和 Amazon S3 存储桶。该公司每天都将零售订单数据提取到 S3 存储桶中。
该公司将所有订单数据存储在 S3 存储桶内的单个路径上。数据有 100 多列。该公司从第三方应用程序中提取订单数据,该应用程序每天生成 30 多个 CSV 格式的文件。每个 CSV 文件的大小在 50 到 70 MB 之间。
该公司使用 Amazon Redshift Spectrum 运行选择列集的查询。用户根据每日订单汇总指标。最近,用户报告查询的性能下降了。数据工程师必须解决查询的性能问题。
哪种步骤组合可以以最少的开发工作量满足此要求? (选择两个。)

154 / 204

154.

No.154
一家公司将客户记录存储在 Amazon S3 中。在创建每条记录后的 7 年内,公司不得删除或修改客户记录数据。根用户也不能删除或修改数据。
数据工程师希望使用 S3 对象锁定来保护数据。
哪种解决方案可以满足这些要求?

155 / 204

155.

No.155
数据工程师需要在 Amazon Athena 中创建一个新的空表,该表具有与名为 old_table 的现有表相同的架构。
数据工程师应使用哪条 SQL 语句来满足此要求?

156 / 204

156.

No.156
数据工程师需要根据现有 Athena 表 cities_world 中的数据子集创建 Amazon Athena 表。 cities_world 表包含位于世界各地的城市。数据工程师必须创建一个名为 cities_us 的新表,以仅包含 cities_world 中位于美国的城市。
数据工程师应该使用哪个 SQL 语句来满足此要求?

157 / 204

157.

★No.157
一家公司实施了一个具有中央治理账户的数据网格。该公司需要对治理账户中的所有数据进行分类。治理账户使用 AWS Lake Formation 集中共享数据并授予访问权限。
该公司创建了一个新的数据产品,其中包括一组 Amazon Redshift Serverless 表。数据工程师需要与营销团队共享数据产品。营销团队必须只能访问部分列。数据工程师需要与合规团队共享相同的数据产品。合规团队必须能够访问与营销团队需要访问的不同部分列。
数据工程师应采取哪种步骤组合来满足这些要求?(选择两个。)

158 / 204

158.

No.158
一家公司在 Amazon S3 中有一个数据湖。该公司使用 AWS Glue 对数据进行分类,并使用 AWS Glue Studio 实施数据提取、转换和加载 (ETL) 管道。
该公司需要确保每次运行管道时都会检查数据质量问题。数据工程师必须增强现有管道,以根据预定义的阈值评估数据质量规则。
哪种解决方案可以以最少的实施工作量满足这些要求?

159 / 204

159.

No.159
一家公司有一个使用微服务架构的应用程序。该公司在 Amazon Elastic Kubernetes Services (Amazon EKS) 集群上托管该应用程序。
该公司希望为该应用程序建立一个强大的监控系统。公司需要分析来自 EKS 集群和应用程序的日志。公司需要将集群的日志与应用程序的跟踪关联起来,以识别整个应用程序请求流程中的故障点。
哪种步骤组合能够以最少的开发工作量满足这些要求?(选择两个。)

160 / 204

160.

No.160
一家公司有一个游戏应用程序,它将数据存储在 Amazon DynamoDB 表中。数据工程师需要将游戏数据导入 Amazon OpenSearch Service 集群。数据更新必须近乎实时。
哪种解决方案可以满足这些要求?

161 / 204

161.

No.161
一家公司使用 Amazon Redshift 作为其数据仓库服务。数据工程师需要设计一个物理数据模型。
数据工程师遇到了一个正在增长的非规范化表。该表没有合适的列用作分配键。
数据工程师应该使用哪种分配方式来满足这些要求,同时减少维护开销?

162 / 204

162.

No.162
一家零售公司正在全球扩展其业务。该公司需要使用 Amazon QuickSight 准确计算财务报告的货币汇率。该公司有一个现有的仪表板,其中包含基于对包含全球货币值和汇率的数据集的分析的视觉效果。
数据工程师需要确保汇率的计算精度为小数点后四位。计算必须预先计算。数据工程师必须在 QuickSight 超快速、并行、内存计算引擎 (SPICE) 中实现结果。
哪种解决方案可以满足这些要求?

163 / 204

163.

★No.163
一家公司有三家子公司。每家子公司使用不同的数据仓库解决方案。第一家子公司将其数据仓库托管在 Amazon Redshift 中。第二家子公司在 AWS 上使用 Teradata Vantage。第三家子公司使用 Google BigQuery。
该公司希望将所有数据汇总到中央 Amazon S3 数据湖中。该公司希望使用 Apache Iceberg 作为表格式。
数据工程师需要构建一条新管道以连接到所有数据源,使用每个源引擎运行转换,连接数据并将数据写入 Iceberg。
哪种解决方案可以以最少的运营工作量满足这些要求?

164 / 204

164.

No.164
一家公司正在构建数据流处理应用程序。该应用程序在 Amazon Elastic Kubernetes Service (Amazon EKS) 集群中运行。该应用程序将处理后的数据存储在 Amazon DynamoDB 表中。
该公司需要 EKS 集群中的应用程序容器能够安全地访问 DynamoDB 表。公司不想在容器中嵌入 AWS 凭证。
哪种解决方案可以满足这些要求?

165 / 204

165.

No.165
数据工程师需要将新的数据生产者加入 AWS。数据生产者需要将数据产品迁移到 AWS。
数据生产者维护许多支持业务应用程序的数据管道。每个管道都必须具有服务帐户及其相应的凭据。数据工程师必须建立从数据生产者的本地数据中心到 AWS 的安全连接。数据工程师不得使用公共互联网将数据从本地数据中心传输到 AWS。
哪种解决方案可以满足这些要求?

166 / 204

166.

★No.166
数据工程师为存储在 Amazon S3 存储桶中的数据配置了 AWS Glue 数据目录。数据工程师需要配置数据目录以接收增量更新。
数据工程师为 S3 存储桶设置事件通知,并创建 Amazon Simple Queue Service (Amazon SQS) 队列以接收 S3 事件。
数据工程师应采取哪些步骤组合来以最少的运营开销满足这些要求?(选择两个。)

167 / 204

167.

No.167
一家公司使用 AWS Glue 数据目录来索引每天上传到 Amazon S3 存储桶的数据。该公司在提取、转换和加载 (ETL) 管道中使用每日批处理流程将数据从外部源上传到 S3 存储桶。
该公司每天运行 S3 数据报告。有时,公司会在所有每日数据上传到 S3 存储桶之前运行报告。数据工程师必须能够向现有的 Amazon Simple Notification Service (Amazon SNS) 主题发送一条消息,以识别任何不完整的数据。
哪种解决方案可以以最少的运营开销满足此要求?

168 / 204

168.

No.168
一家公司将包含个人身份信息 (PII) 的客户数据存储在 Amazon Redshift 集群中。该公司的营销、索赔和分析团队需要能够访问客户数据。
营销团队应该有权访问模糊的索赔信息,但应该可以完全访问客户联系信息。索赔团队应该有权访问团队处理的每个索赔的客户信息。分析团队应该只能访问模糊的 PII 数据。
哪种解决方案将以最少的管理开销强制执行这些数据访问要求?

169 / 204

169.

No.169
一家金融公司最近为其移动应用程序添加了更多功能。新功能要求公司在现有的 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 集群中创建新主题。
公司添加新主题几天后,Amazon CloudWatch 对 MSK 集群的 RootDiskUsed 指标发出警报。
公司应如何处理 CloudWatch 警报?

170 / 204

170.

No.170
数据工程师需要根据公司的 Amazon S3 存储桶和 Amazon RDS 数据库构建企业数据目录。数据目录必须包含目录中数据的存储格式元数据。
哪种解决方案可以以最少的努力满足这些要求?

171 / 204

171.

No.171
一家公司每季度分析数据湖中的数据以进行库存评估。数据工程师使用 AWS Glue DataBrew 检测数据中有关客户的任何个人身份信息 (PII)。该公司的隐私政策将某些自定义类别的信息视为 PII。但是,这些类别不包含在标准 DataBrew 数据质量规则中。
数据工程师需要修改当前流程,以扫描数据湖中多个数据集中的自定义 PII 类别。
哪种解决方案能够以最少的运营开销满足这些要求?

172 / 204

172.

No.172
一家公司每天在 Amazon S3 存储桶中从合作伙伴处收到一个数据文件。该公司使用每日 AWS Glue 提取、转换和加载 (ETL) 管道来清理和转换每个数据文件。ETL 管道的输出将写入第二个 S3 存储桶中名为 Daily.csv 的 CSV 文件。
有时,每日数据文件为空或缺少必填字段的值。当文件缺少数据时,公司可以使用前一天的 CSV 文件。
数据工程师需要确保只有当新的每日文件完整且有效时才会覆盖前一天的数据文件。
哪种解决方案可以以最少的努力满足这些要求?

173 / 204

173.

No.173
一家营销公司使用 Amazon S3 存储营销数据。该公司在某些存储桶中使用版本控制。该公司运行多个作业来读取数据并将其加载到存储桶中。
为了帮助优化存储成本,该公司希望收集有关 S3 存储桶中存在的不完整分段上传和过时版本的信息。
哪种解决方案能够以最少的运营工作量满足这些要求?

174 / 204

174.

No.174
一家游戏公司使用 Amazon Kinesis Data Streams 收集点击流数据。该公司使用 Amazon Data Firehose 传输流将数据以 JSON 格式存储在 Amazon S3 中。该公司的数据科学家使用 Amazon Athena 查询最新数据以获取业务见解。
该公司希望降低 Athena 成本,但不想重新创建数据管道。
哪种解决方案能够以最少的管理工作量满足这些要求?

175 / 204

175.

No.175
一家公司需要一个解决方案来管理现有 Amazon DynamoDB 表的成本。该公司还需要控制表的大小。该解决方案不得中断任何正在进行的读取或写入操作。该公司希望使用一种在 1 个月后自动从表中删除数据的解决方案。
哪种解决方案可以满足这些要求且持续维护最少?

176 / 204

176.

★No.176
一家公司使用 Amazon S3 存储数据,使用 Amazon QuickSight 创建可视化,
该公司在名为 Hub-Account 的 AWS 账户中有一个 S3 存储桶。S3 存储桶由 AWS 密钥管理服务 (AWS KMS) 密钥加密。该公司的 QuickSight 实例位于名为 BI-Account 的单独账户中。
该公司更新 S3 存储桶策略以授予 QuickSight 服务角色访问权限。该公司希望启用跨账户访问以允许 QuickSight 与 S3 存储桶交互。
哪种步骤组合可以满足此要求?(选择两个。)

177 / 204

177.

No.177
一家汽车销售公司维护着某个地区待售汽车的数据。该公司从供应商处收到有关新车列表的数据,供应商每天将数据作为压缩文件上传到 Amazon S3。压缩文件大小最多为 5 KB。该公司希望在数据上传到 Amazon S3 后立即看到最新的列表。
数据工程师必须自动化和协调列表的数据处理工作流以提供给仪表板。数据工程师还必须提供执行一次性查询和分析报告的能力。查询解决方案必须是可扩展的。
哪种解决方案能够以最具成本效益的方式满足这些要求?

178 / 204

178.

No.178
一家公司在多个 AWS 区域拥有 AWS 资源。该公司在运营的每个区域都拥有 Amazon EFS 文件系统。该公司的数据科学团队仅在一个区域内运营。数据科学团队处理的数据必须保留在团队的区域内。
数据工程师需要通过处理公司每个区域 EFS 文件系统中的文件来创建单个数据集。数据工程师希望使用 AWS Step Functions 状态机来编排 AWS Lambda 函数来处理数据。
哪种解决方案可以以最少的努力满足这些要求?

179 / 204

179.

No.179
一家公司将其应用程序托管在 Amazon EC2 实例上。该公司必须使用 SSL/TLS 连接对传输中的数据进行加密,以便与客户管理的 AWS 基础设施进行安全通信。
数据工程师需要实施一种解决方案来简化数字证书的生成、分发和轮换。该解决方案必须自动更新和部署 SSL/TLS 证书。
哪种解决方案能够以最少的运营开销满足这些要求?

180 / 204

180.

No.180
一家公司将客户数据保存到 Amazon S3 存储桶中。该公司使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密来加密存储桶。数据集包括个人身份信息 (PII),例如社会安全号码和帐户详细信息。
在公司使用客户数据进行分析之前,必须屏蔽标记为 PII 的数据。在预处理阶段,某些用户必须能够安全地访问 PII 数据。该公司需要一种低维护解决方案来屏蔽和保护整个工程管道中的 PII 数据。
哪种解决方案组合可以满足这些要求?(选择两个。)

181 / 204

181.

No.181
数据工程师正在启动 Amazon EMR 集群。数据工程师需要加载到新集群中的数据目前位于 Amazon S3 存储桶中。数据工程师需要确保数据在静止和传输过程中均已加密。
S3 存储桶中的数据由 AWS 密钥管理服务 (AWS KMS) 密钥加密。数据工程师有一个包含隐私增强邮件 (PEM) 文件的 Amazon S3 路径。
哪种解决方案可以满足这些要求?

182 / 204

182.

No.182
一家零售公司正在使用 Amazon Redshift 集群来支持实时库存管理。该公司已在 Amazon SageMaker 中的实时终端上部署了 ML 模型。
该公司希望提供实时库存建议。该公司还希望对未来的库存需求做出预测。
哪些解决方案可以满足这些要求?(选择两个。)

183 / 204

183.

No.183
一家公司将 CSV 文件存储在 Amazon S3 存储桶中。数据工程师需要处理 CSV 文件中的数据,并将处理后的数据存储在新的 S3 存储桶中。
该过程需要重命名列、删除特定列、忽略每个文件的第二行、根据数据第一行的值创建新列,并按列的数值过滤结果。
哪种解决方案可以以最少的开发工作量满足这些要求?

184 / 204

184.

No.184
一家公司使用 Amazon Redshift 作为其数据仓库。数据编码应用于数据仓库的现有表。数据工程师发现应用于某些表的压缩编码并不是最适合数据的。
数据工程师需要改进具有次优编码的表的数据编码。
哪种解决方案可以满足此要求?

185 / 204

185.

No.185
该公司在 Amazon S3 中存储了大量客户记录。为了遵守法规,公司必须能够在记录创建后的前 30 天内立即访问新客户记录。公司很少访问超过 30 天的记录。
公司需要对其 Amazon S3 存储进行成本优化。
哪种解决方案能够以最具成本效益的方式满足这些要求?

186 / 204

186.

No.186
一位数据工程师正在使用 Amazon QuickSight 构建一个仪表板,以报告公司在多个 AWS 区域的收入。数据工程师希望仪表板显示某个区域的总收入,而不管视觉效果中显示的向下钻取级别如何。
哪种解决方案可以满足这些要求?

187 / 204

187.

No.187
一家零售公司将客户数据存储在 Amazon S3 存储桶中。部分客户数据包含有关客户的个人身份信息 (PII)。公司不得与业务合作伙伴共享 PII 数据。
数据工程师必须先确定数据集是否包含 PII,然后才能将数据集中的对象提供给业务合作伙伴。
哪种解决方案能够以最少的人工干预满足此要求?

188 / 204

188.

No.188
数据工程师需要在 Amazon Athena 中创建现有表的空副本以执行数据处理任务。Athena 中的现有表包含 1,000 行。
哪个查询可以满足此要求?

189 / 204

189.

No.189
一家公司在 Amazon S3 中有一个数据湖。该公司为多个应用程序收集 AWS CloudTrail 日志。该公司将日志存储在数据湖中,在 AWS Glue 中对日志进行分类,并根据年份对日志进行分区。该公司使用 Amazon Athena 分析日志。
最近,客户报告说,对其中一个 Athena 表的查询未返回任何数据。数据工程师必须解决该问题。
数据工程师应采取哪种故障排除步骤组合?(选择两个。)

190 / 204

190.

No.190
数据工程师想要编排一组在 AWS 上运行的提取、转换和加载 (ETL) 作业。ETL 作业包含必须在 Amazon EMR 上运行 Apache Spark 作业、对 Salesforce 进行 API 调用以及将数据加载到 Amazon Redshift 中的任务。
ETL 作业需要自动处理故障和重试。数据工程师需要使用 Python 来编排作业。
哪项服务可以满足这些要求?

191 / 204

191.

No.191
数据工程师维护自定义 Python 脚本,这些脚本执行许多 AWS Lambda 函数使用的数据格式化过程。当数据工程师需要修改 Python 脚本时,数据工程师必须手动更新所有 Lambda 函数。
数据工程师需要一种不太手动的方式来更新 Lambda 函数。
哪种解决方案可以满足此要求?

192 / 204

192.

No.192
一家公司将客户数据存储在 Amazon S3 存储桶中。公司中的多个团队希望使用客户数据进行下游分析。公司需要确保团队无法访问有关客户的个人身份信息 (PII)。
哪种解决方案可以以最少的运营开销满足此要求?

193 / 204

193.

No.193
一家公司将其处理的数据存储在 S3 存储桶中。该公司有严格的数据访问策略。该公司使用 IAM 角色授予公司内部团队对 S3 存储桶的不同级别访问权限。
该公司希望在用户违反数据访问策略时收到通知。每个通知都必须包含违反策略的用户的用户名。
哪种解决方案可以满足这些要求?

194 / 204

194.

No.194
一家公司需要将来自第三方的客户数据加载到 Amazon Redshift 数据仓库中。该公司将订单数据和产品数据存储在同一个数据仓库中。该公司希望使用组合数据集来识别潜在的新客户。
数据工程师注意到源数据中的一个字段包含 JSON 格式的值。
数据工程师应如何以最少的努力将 JSON 数据加载到数据仓库中?

195 / 204

195.

No.195
一家公司希望分析公司存储在 MySQL 数据库中的销售记录。该公司希望将这些记录与 Salesforce 确定的销售机会相关联。
该公司每天收到 2 GB 的销售记录。该公司有 100 GB 的已确定销售机会。数据工程师需要开发一个流程来分析和关联销售记录和销售机会。该流程必须每晚运行一次。
哪种解决方案可以以最少的运营开销满足这些要求?

196 / 204

196.

No.196
一家公司将服务器日志存储在 Amazon S3 存储桶中。该公司需要将日志保留 1 年。1 年后不再需要这些日志。
数据工程师需要一个解决方案来自动删除超过 1 年的日志。
哪种解决方案能够以最少的运营开销满足这些要求?

197 / 204

197.

No.197
一家公司正在 AWS Step Functions 中设计一个无服务器数据处理工作流,该工作流涉及多个步骤。处理工作流从外部 API 中提取数据,使用多个 AWS Lambda 函数转换数据,并将转换后的数据加载到 Amazon DynamoDB 中。
公司需要工作流根据传入数据的内容执行特定步骤。
公司应使用哪种 Step Functions 状态类型来满足此要求?

198 / 204

198.

No.198
一位数据工程师在 Amazon Athena 中创建了一个名为 cloudtrail_logs 的表,以查询 AWS CloudTrail 日志并准备数据以供审核。数据工程师需要编写查询以显示自 2024 年初以来发生的错误代码错误。查询必须返回最近的 10 个错误。
哪个查询可以满足这些要求?

199 / 204

199.

No.199
一家在线零售商使用多个配送合作伙伴向客户配送产品。配送合作伙伴将订单摘要发送给零售商。零售商将订单摘要存储在 Amazon S3 中。
一些订单摘要包含有关客户的个人身份信息 (PII)。数据工程师需要检测订单摘要中的 PII,以便公司可以编辑 PII。
哪种解决方案可以以最少的运营开销满足这些要求?

200 / 204

200.

No.200
一家公司有一个 Amazon Redshift 数据仓库,用户可以使用各种 IAM 角色访问该数据仓库。每天有 100 多名用户访问该数据仓库。
公司希望根据每个用户的职位、权限以及数据的敏感程度来控制用户对对象的访问。
哪种解决方案可以满足这些要求?

201 / 204

201.

No.201
一家公司使用 Amazon DataZone 作为数据治理和业务目录解决方案。该公司将数据存储在 Amazon S3 数据湖中。该公司将 AWS Glue 与 AWS Glue 数据目录结合使用。
数据工程师需要将 AWS Glue 数据质量分数发布到 Amazon DataZone 门户。
哪种解决方案可以满足此要求?

202 / 204

202.

No.202
一家公司在 Amazon Redshift 中有一个数据仓库。为了遵守安全法规,该公司需要记录和存储数据仓库的所有用户活动和连接活动。
哪种解决方案可以满足这些要求?

203 / 204

203.

No.203
一家公司希望将数据仓库从 Teradata 迁移到 Amazon Redshift。
哪种解决方案能够以最少的运营工作量满足此要求?

204 / 204

204.

No.204
一家公司使用各种 AWS 和第三方数据存储。该公司希望将所有数据整合到中央数据仓库中以执行分析。用户需要快速响应分析查询。
该公司在直接查询模式下使用 Amazon QuickSight 来可视化数据。用户通常每天在几个小时内运行查询,并且会出现不可预测的峰值。
哪种解决方案可以以最少的运营开销满足这些要求?

Your score is

0%

 

■AWS DEA-C01 中文 Q.1-100

/100

AWS DEA-C01(CN) Q.1-100

[Q.1-100] AWS Certified Data Engineer – Associate 可验证与核心数据相关的 AWS 服务方面的技能和知识,摄取和转换数据、在应用编程概念时编排数据管道、设计数据模型、管理数据生命周期和确保数据质量的能力。

1 / 100

1.

No.1
数据工程师正在配置 AWS Glue 作业以从 Amazon S3 存储桶读取数据。数据工程师已设置必要的 AWS Glue 连接详细信息和关联的 IAM 角色。但是,当数据工程师尝试运行 AWS Glue 作业时,数据工程师收到一条错误消息,表明 Amazon S3 VPC 网关端点存在问题。
数据工程师必须解决错误并将 AWS Glue 作业连接到 S3 存储桶。
哪种解决方案可以满足此要求?

2 / 100

2.

No.2
一家零售公司在 Amazon S3 存储桶中有一个客户数据中心。来自许多国家的员工使用数据中心来支持全公司的分析。治理团队必须确保公司的数据分析师只能访问与分析师位于同一国家/地区的客户的数据。
哪种解决方案可以以最少的运营工作量满足这些要求?

3 / 100

3.

No.3
一家媒体公司希望改进一个根据用户行为和偏好向客户推荐媒体内容的系统。为了改进推荐系统,该公司需要将来自第三方数据集的见解整合到公司现有的分析平台中。
该公司希望尽量减少整合第三方数据集所需的工作量和时间。
哪种解决方案能够以最少的运营开销满足这些要求?

4 / 100

4.

No.4
一家金融公司想要实现数据网格。数据网格必须支持集中式数据治理、数据分析和数据访问控制。该公司已决定使用 AWS Glue 进行数据目录和提取、转换和加载 (ETL) 操作。
哪种 AWS 服务组合将实现数据网格?(选择两个。)

5 / 100

5.

No.5
数据工程师维护自定义 Python 脚本,这些脚本执行许多 AWS Lambda 函数使用的数据格式化过程。当数据工程师需要修改 Python 脚本时,数据工程师必须手动更新所有 Lambda 函数。
数据工程师需要一种不太手动的方式来更新 Lambda 函数。
哪种解决方案可以满足此要求?

6 / 100

6.

No.6
一家公司在 AWS Glue 中创建了一个提取、转换和加载 (ETL) 数据管道。数据工程师必须抓取 Microsoft SQL Server 中的表。数据工程师需要提取、转换抓取的输出并将其加载到 Amazon S3 存储桶中。数据工程师还必须协调数据管道。
哪种 AWS 服务或功能能够以最具成本效益的方式满足这些要求?

7 / 100

7.

No.7
一家金融服务公司将财务数据存储在 Amazon Redshift 中。数据工程师希望对财务数据运行实时查询以支持基于 Web 的交易应用程序。数据工程师希望在交易应用程序内运行查询。
哪种解决方案能够以最少的运营开销满足这些要求?

8 / 100

8.

No.8
一家公司使用 Amazon Athena 对 Amazon S3 中的数据进行一次性查询。该公司有多个用例。该公司必须实施权限控制,以将查询流程和对查询历史记录的访问分离到同一 AWS 账户中的用户、团队和应用程序之间。
哪种解决方案可以满足这些要求?

9 / 100

9.

No.9
数据工程师需要安排一个工作流,每天运行一组 AWS Glue 作业。数据工程师不需要 Glue 作业在特定时间运行或完成。
哪种解决方案将以最具成本效益的方式运行 Glue 作业?

10 / 100

10.

No.10
数据工程师需要创建一个 AWS Lambda 函数,将数据格式从 .csv 转换为 Apache Parquet。仅当用户将 .csv 文件上传到 Amazon S3 存储桶时,Lambda 函数才必须运行。
哪种解决方案可以以最少的运营开销满足这些要求?

11 / 100

11.

No.11
数据工程师需要更快地完成 Amazon Athena 查询。数据工程师注意到 Athena 查询使用的所有文件当前都以未压缩的 .csv 格式存储。数据工程师还注意到用户通过选择特定列来执行大多数查询。
哪种解决方案将最大程度地提高 Athena 查询性能?

12 / 100

12.

No.12
一家制造公司从其工厂车间收集传感器数据,以监控和提高运营效率。该公司使用 Amazon Kinesis Data Streams 将传感器收集的数据发布到数据流。然后,Amazon Kinesis Data Firehose 将数据写入 Amazon S3 存储桶。
该公司需要在制造工厂的大屏幕上显示运营效率的实时视图。
哪种解决方案可以以最低的延迟满足这些要求?

13 / 100

13.

No.13
一家公司将投资组合的财务表现的每日记录以 .csv 格式存储在 Amazon S3 存储桶中。数据工程师使用 AWS Glue 爬虫程序来爬取 S3 数据。
数据工程师必须使 S3 数据在 AWS Glue 数据目录中每天可访问。
哪种解决方案可以满足这些要求?

14 / 100

14.

No.14
一家公司每天结束时将每天的交易数据加载到 Amazon Redshift 表中。该公司希望能够跟踪哪些表已加载以及哪些表仍需加载。
一位数据工程师希望将 Redshift 表的加载状态存储在 Amazon DynamoDB 表中。数据工程师创建了一个 AWS Lambda 函数,将加载状态的详细信息发布到 DynamoDB。
数据工程师应如何调用 Lambda 函数将加载状态写入 DynamoDB 表?

15 / 100

15.

No.15
数据工程师需要安全地将 5 TB 的数据从本地数据中心传输到 Amazon S3 存储桶。大约 5% 的数据每天都会发生变化。需要定期将数据更新扩散到 S3 存储桶中。数据包括多种格式的文件。数据工程师需要自动化传输过程,并且必须安排该过程定期运行。
数据工程师应使用哪种 AWS 服务以最高效的方式传输数据?

16 / 100

16.

No.16
一家公司使用本地 Microsoft SQL Server 数据库来存储财务交易数据。该公司在每个月底将交易数据从本地数据库迁移到 AWS。该公司注意到,最近将数据从本地数据库迁移到 Amazon RDS for SQL Server 数据库的成本有所增加。
该公司需要一个经济高效的解决方案来将数据迁移到 AWS。该解决方案必须尽量减少访问数据库的应用程序的停机时间。
公司应该使用哪种 AWS 服务来满足这些要求?

17 / 100

17.

No.17
数据工程师正在使用 AWS Glue 提取、转换和加载 (ETL) 作业在 AWS 上构建数据管道。数据工程师需要处理来自 Amazon RDS 和 MongoDB 的数据,执行转换,并将转换后的数据加载到 Amazon Redshift 中进行分析。数据更新必须每小时进行一次。
哪种任务组合可以满足这些要求且运营开销最少?(选择两个。)

18 / 100

18.

No.18
一家公司使用在 RA3 节点上运行的 Amazon Redshift 集群。该公司希望扩展读写容量以满足需求。数据工程师需要确定一个可以启用并发扩展的解决方案。
哪种解决方案可以满足此要求?

19 / 100

19.

No.19
数据工程师必须编排一系列每天运行的 Amazon Athena 查询。每个查询可以运行超过 15 分钟。
哪种步骤组合最经济高效地满足这些要求?(选择两个。)

20 / 100

20.

No.20
一家公司正在将本地工作负载迁移到 AWS。该公司希望降低总体运营开销。该公司还希望探索无服务器选项。
该公司当前的工作负载使用 Apache Pig、Apache Oozie、Apache Spark、Apache Hbase 和 Apache Flink。本地工作负载在几秒钟内处理 PB 级数据。迁移到 AWS 后,公司必须保持类似或更好的性能。
哪种提取、转换和加载 (ETL) 服务可以满足这些要求?

21 / 100

21.

No.21
数据工程师必须使用 AWS 服务将数据集导入 Amazon S3 数据湖。数据工程师对数据集进行分析,并发现数据集包含个人身份信息 (PII)。数据工程师必须实施解决方案来分析数据集并混淆 PII。
哪种解决方案能够以最少的运营工作量满足此要求?

22 / 100

22.

No.22
一家公司维护多个提取、转换和加载 (ETL) 工作流,这些工作流将数据从公司的运营数据库提取到基于 Amazon S3 的数据湖中。ETL 工作流使用 AWS Glue 和 Amazon EMR 来处理数据。
该公司希望改进现有架构以提供自动编排并尽量减少手动工作量。
哪种解决方案能够以最少的运营开销满足这些要求?

23 / 100

23.

No.23
一家公司目前使用 S3 标准存储类将其所有数据存储在 Amazon S3 中。
一位数据工程师检查了数据访问模式以确定趋势。在前 6 个月内,大多数数据文件每天都会被访问几次。在 6 个月到 2 年之间,大多数数据文件每月被访问一两次。2 年后,数据文件每年只被访问一两次。
数据工程师需要使用 S3 生命周期策略来制定新的数据存储规则。新的存储解决方案必须继续提供高可用性。
哪种解决方案将以最具成本效益的方式满足这些要求?

24 / 100

24.

No.24
一家公司维护一个 Amazon Redshift 预置集群,该公司使用该集群进行提取、转换和加载 (ETL) 操作以支持关键分析任务。公司内的销售团队维护一个 Redshift 集群,销售团队使用该集群进行商业智能 (BI) 任务。
销售团队最近请求访问 ETL Redshift 集群中的数据,以便团队可以执行每周摘要分析任务。销售团队需要将 ETL 集群中的数据与销售团队的 BI 集群中的数据合并。
公司需要一个解决方案,该解决方案可以在不中断关键分析任务的情况下与销售团队共享 ETL 集群数据。该解决方案必须最大限度地减少 ETL 集群计算资源的使用。
哪种解决方案可以满足这些要求?

25 / 100

25.

No.25
数据工程师需要连接来自多个来源的数据以执行一次性分析作业。数据存储在 Amazon DynamoDB、Amazon RDS、Amazon Redshift 和 Amazon S3 中。
哪种解决方案最经济高效地满足此要求?

26 / 100

26.

No.26
一家公司计划使用运行 Apache Spark 作业的预配置 Amazon EMR 集群来执行大数据分析。该公司要求高可靠性。大数据团队必须遵循在 Amazon EMR 上运行成本优化和长期运行的工作负载的最佳实践。团队必须找到能够维持公司当前绩效水平的解决方案。
哪种资源组合能够以最具成本效益的方式满足这些要求?(选择两个。)

27 / 100

27.

No.27
一家公司希望实现实时分析功能。该公司希望使用 Amazon Kinesis Data Streams 和 Amazon Redshift 以每秒几 GB 的速度提取和处理流数据。该公司希望通过使用现有的商业智能 (BI) 和分析工具获得近乎实时的洞察。
哪种解决方案可以以最少的运营开销满足这些要求?

28 / 100

28.

No.28
一家公司使用 Amazon QuickSight 仪表板来监控公司某个应用程序的使用情况。该公司使用 AWS Glue 作业来处理仪表板的数据。该公司将数据存储在单个 Amazon S3 存储桶中。该公司每天都会添加新数据。
一位数据工程师发现仪表板查询随着时间的推移变得越来越慢。数据工程师确定查询变慢的根本原因是长时间运行的 AWS Glue 作业。
数据工程师应采取哪些措施来提高 AWS Glue 作业的性能?(选择两个。)

29 / 100

29.

No.29
数据工程师需要使用 AWS Step Functions 设计编排工作流。工作流必须并行处理大量数据文件并对每个文件应用特定转换。
数据工程师应使用哪种 Step Functions 状态来满足这些要求?

30 / 100

30.

No.30
一家公司正在将旧版应用程序迁移到基于 Amazon S3 的数据湖。数据工程师审查了与旧版应用程序相关的数据。数据工程师发现遗留数据包含一些重复信息。
数据工程师必须识别并删除遗留应用程序数据中的重复信息。
哪种解决方案能够以最少的运营开销满足这些要求?

31 / 100

31.

No.31
一家公司正在构建分析解决方案。该解决方案使用 Amazon S3 进行数据湖存储,使用 Amazon Redshift 进行数据仓库存储。该公司希望使用 Amazon Redshift Spectrum 查询 Amazon S3 中的数据。
哪些操作将提供最快的查询?(选择两个。)

32 / 100

32.

No.32
一家公司使用 Amazon RDS 存储交易数据。该公司在私有子网中运行 RDS DB 实例。开发人员编写了一个 AWS Lambda 函数,使用默认设置来插入、更新或删除 DB 实例中的数据。
开发人员需要让 Lambda 函数能够私下连接到 DB 实例,而无需使用公共互联网。
哪种步骤组合可以满足此要求且运营开销最少?(选择两个。)

33 / 100

33.

No.33
一家公司有一个前端 ReactJS 网站,该网站使用 Amazon API Gateway 调用 REST API。这些 API 执行网站的功能。数据工程师需要编写一个 Python 脚本,该脚本可以偶尔通过 API Gateway 调用。代码必须将结果返回到 API Gateway。
哪种解决方案可以以最少的运营开销满足这些要求?

34 / 100

34.

No.34
一家公司有一个运行公司工作负载的生产 AWS 账户。该公司的安全团队创建了一个安全 AWS 账户来存储和分析来自生产 AWS 账户的安全日志。生产 AWS 账户中的安全日志存储在 Amazon CloudWatch Logs 中。
公司需要使用 Amazon Kinesis Data Streams 将安全日志传送到安全 AWS 账户。
哪种解决方案可以满足这些要求?

35 / 100

35.

No.35
一家公司使用 Amazon S3 将半结构化数据存储在事务性数据湖中。一些数据文件很小,但其他数据文件有数十 TB。
数据工程师必须执行变更数据捕获 (CDC) 操作以识别来自数据源的更改数据。数据源每天以 JSON 文件的形式发送完整快照,并将更改的数据提取到数据湖中。
哪种解决方案将以最具成本效益的方式捕获更改的数据?

36 / 100

36.

No.36
数据工程师对 Amazon S3 存储桶中的数据运行 Amazon Athena 查询。Athena 查询使用 AWS Glue 数据目录作为元数据表。
数据工程师注意到 Athena 查询计划遇到了性能瓶颈。数据工程师确定性能瓶颈的原因是 S3 存储桶中的分区数量过多。数据工程师必须解决性能瓶颈并减少 Athena 查询规划时间。
哪些解决方案可以满足这些要求?(选择两个。)

37 / 100

37.

No.37
数据工程师必须管理将实时流数据提取到 AWS。数据工程师希望通过在长达 30 分钟的窗口内使用基于时间的聚合对传入的流数据执行实时分析。数据工程师需要一种具有高度容错性的解决方案。
哪种解决方案能够以最少的运营开销满足这些要求?

38 / 100

38.

No.38
一家公司计划将其 Amazon Elastic Block Store (Amazon EBS) 通用 SSD 存储从 gp2 升级到 gp3。该公司希望防止其 Amazon EC2 实例发生任何中断,因为这些中断会导致在迁移到升级后的存储期间丢失数据。
哪种解决方案可以以最少的运营开销满足这些要求?

39 / 100

39.

★No.39
一家公司正在将其数据库服务器从运行 Microsoft SQL Server 的 Amazon EC2 实例迁移到 Amazon RDS for Microsoft SQL Server DB 实例。该公司的分析团队必须每天导出大量数据元素,直到迁移完成。数据元素是跨多个表的 SQL 连接的结果。数据必须采用 Apache Parquet 格式。分析团队必须将数据存储在 Amazon S3 中。
哪种解决方案能够以最高效的方式满足这些要求?

40 / 100

40.

No.40
数据工程团队正在使用 Amazon Redshift 数据仓库进行运营报告。团队希望防止长时间运行的查询可能导致的性能问题。当查询优化器识别出可能表明性能问题的条件时,数据工程师必须选择 Amazon Redshift 中的系统表来记录异常。
数据工程师应该使用哪些表视图来满足此要求?

41 / 100

41.

No.41
数据工程师必须将 .csv 格式的结构化数据源导入 Amazon S3 数据湖。.csv 文件包含 15 列。数据分析师需要对数据集的一两列运行 Amazon Athena 查询。数据分析师很少查询整个文件。
哪种解决方案能够以最具成本效益的方式满足这些要求?

42 / 100

42.

No.42
一家公司在不同的 AWS 区域设有五个办事处。每个办事处都有自己的人力资源 (HR) 部门,使用唯一的 IAM 角色。该公司将员工记录存储在基于 Amazon S3 存储的数据湖中。
数据工程团队需要限制对记录的访问。每个人力资源部门都应该能够访问人力资源部门所在区域内员工的记录。
数据工程团队应采取哪些步骤组合来以最少的运营开销满足此要求?(选择两个。)

43 / 100

43.

No.43
一家公司使用 AWS Step Functions 来编排数据管道。管道由 Amazon EMR 作业组成,这些作业从数据源提取数据并将数据存储在 Amazon S3 存储桶中。管道还包括将数据加载到 Amazon Redshift 的 EMR 作业。
该公司的云基础设施团队手动构建了一个 Step Functions 状态机。云基础设施团队将 EMR 集群启动到 VPC 中以支持 EMR 作业。但是,部署的 Step Functions 状态机无法运行 EMR 作业。
公司应采取哪些步骤组合来确定 Step Functions 状态机无法运行 EMR 作业的原因?(选择两个。)

44 / 100

44.

No.44
一家公司正在开发一款在 Amazon EC2 实例上运行的应用程序。目前,该应用程序生成的数据是临时的。但是,即使 EC2 实例终止,公司也需要保留数据。
数据工程师必须从 Amazon 系统映像 (AMI) 启动新的 EC2 实例并配置实例以保存数据。
哪种解决方案可以满足此要求?

45 / 100

45.

No.45
一家公司使用 Amazon Athena 通过使用 Create Table As Select (CTAS) 运行 SQL 查询以进行提取、转换和加载 (ETL) 任务。该公司必须使用 Apache Spark 而不是 SQL 来生成分析。
哪种解决方案能让公司使用 Spark 访问 Athena?

46 / 100

46.

No.46
一家公司需要对公司用于数据湖的 Amazon S3 存储进行分区。分区将使用以下格式的 S3 对象键路径:s3://bucket/prefix/year=2023/month=01/day=01。
当公司向存储桶添加新分区时,数据工程师必须确保 AWS Glue 数据目录与 S3 存储同步。
哪种解决方案可以以最低的延迟满足这些要求?

47 / 100

47.

No.47
一家媒体公司使用软件即服务 (SaaS) 应用程序通过第三方工具收集数据。该公司需要将数据存储在 Amazon S3 存储桶中。该公司将使用 Amazon Redshift 根据数据执行分析。
哪种 AWS 服务或功能能够以最少的运营开销满足这些要求?

48 / 100

No.48
一位数据工程师正在使用 Amazon Athena 分析 Amazon S3 中的销售数据。数据工程师编写查询以从名为 sales_data 的表中检索多种产品 2023 年的销售额。但是,查询不会返回 sales_data 表中所有产品的结果。数据工程师需要对查询进行故障排除以解决该问题。
数据工程师的原始查询如下:
SELECT product_name, sum(sales_amount)

48. FROM sales_data -

WHERE year = 2023 -

GROUP BY product_name -
数据工程师应如何修改 Athena 查询以满足这些要求?

49 / 100

49.

No.49
数据工程师有一项一次性任务,即从 Amazon S3 存储桶中采用 Apache Parquet 格式的对象中读取数据。数据工程师只需要查询一列数据。
哪种解决方案可以以最少的运营开销满足这些要求?

50 / 100

50.

No.50
一家公司将 Amazon Redshift 用于其数据仓库。该公司必须自动执行 Amazon Redshift 物化视图的刷新计划。
哪种解决方案能够以最少的努力满足此要求?

51 / 100

51.

No.51
数据工程师必须编排由一个 AWS Lambda 函数和一个 AWS Glue 作业组成的数据管道。该解决方案必须与 AWS 服务集成。
哪种解决方案能够以最少的管理开销满足这些要求?

52 / 100

52.

No.52
一家公司需要为在 AWS 云中运行的数据源设置数据目录和元数据管理。该公司将使用数据目录来维护一组数据存储中的所有对象的元数据。数据存储包括结构化源,例如 Amazon RDS 和 Amazon Redshift。数据存储还包括半结构化源,例如存储在 Amazon S3 中的 JSON 文件和 .xml 文件。
该公司需要一个定期更新数据目录的解决方案。该解决方案还必须检测源元数据的更改。
哪种解决方案能够以最少的运营开销满足这些要求?

53 / 100

53.

No.53
一家公司将来自应用程序的数据存储在以预置容量模式运行的 Amazon DynamoDB 表中。应用程序的工作负载定期具有可预测的吞吐量负载。每周一,清晨活动会立即增加。应用程序在周末的使用率非常低。
公司必须确保应用程序在高峰使用时间始终如一地运行。
哪种解决方案将以最具成本效益的方式满足这些要求?

54 / 100

54.

No.54
一家公司正计划将本地 Apache Hadoop 集群迁移到 Amazon EMR。该公司还需要将数据目录迁移到持久存储解决方案中。
该公司目前将数据目录存储在 Hadoop 集群上的本地 Apache Hive 元存储中。该公司需要无服务器解决方案来迁移数据目录。
哪种解决方案能够以最具成本效益的方式满足这些要求?

55 / 100

55.

No.55
一家公司使用 Amazon Redshift 配置集群作为其数据库。Redshift 集群有五个预留的 ra3.4xlarge 节点并使用密钥分配。
一位数据工程师注意到其中一个节点的 CPU 负载经常超过 90%。在该节点上运行的 SQL 查询已排队。其他四个节点在日常操作期间的 CPU 负载通常低于 15%。
数据工程师希望保持当前的计算节点数量。数据工程师还希望在所有五​​个计算节点之间更均匀地平衡负载。
哪种解决方案可以满足这些要求?

56 / 100

56.

No.56
一家安全公司将 JSON 格式的 IoT 数据存储在 Amazon S3 存储桶中。当公司升级 IoT 设备时,数据结构可能会发生变化。该公司希望创建一个包含 IoT 数据的数据目录。公司的分析部门将使用数据目录来索引数据。
哪种解决方案能够以最具成本效益的方式满足这些要求?

57 / 100

57.

No.57
一家公司将有关交易的详细信息存储在 Amazon S3 存储桶中。该公司希望将所有对 S3 存储桶的写入记录到同一 AWS 区域的另一个 S3 存储桶中。
哪种解决方案可以以最少的运营工作量满足此要求?

58 / 100

58.

No.58
数据工程师需要维护一个中央元数据存储库,用户可以通过 Amazon EMR 和 Amazon Athena 查询访问该存储库。存储库需要提供许多表的架构和属性。一些元数据存储在 Apache Hive 中。数据工程师需要将元数据从 Hive 导入中央元数据存储库。
哪种解决方案能够以最少的开发工作量满足这些要求?

59 / 100

59.

No.59
一家公司需要在 AWS 中构建一个数据湖。该公司必须为特定团队提供行级数据访问和列级数据访问。团队将使用 Amazon Athena、Amazon Redshift Spectrum 和 Amazon EMR 中的 Apache Hive 访问数据。
哪种解决方案能够以最低的运营开销满足这些要求?

60 / 100

60.

No.60
一家航空公司正在收集有关飞行活动的指标以供分析。该公司正在进行概念验证 (POC) 测试,以展示分析如何提供洞​​察力,公司可以利用这些洞察力来增加准时出发率。
POC 测试使用 Amazon S3 中包含 .csv 格式指标的对象。 POC 测试使用 Amazon Athena 查询数据。数据按日期在 S3 存储桶中分区。
随着数据量的增加,公司希望优化存储解决方案以提高查询性能。
哪种解决方案组合可以满足这些要求?(选择两个。)

61 / 100

61.

No.61
一家公司使用 Amazon RDS for MySQL 作为关键应用程序的数据库。数据库工作负载主要是写入,读取次数较少。
数据工程师注意到数据库实例的 CPU 利用率非常高。高 CPU 利用率正在减慢应用程序的速度。数据工程师必须降低数据库实例的 CPU 利用率。
数据工程师应采取哪些措施来满足此要求?(选择两个。)

62 / 100

62.

No.62
一家公司已使用名为 Orders 的 Amazon Redshift 表 6 个月。该公司每周对该表执行更新和删除。该表在包含 AWS 区域的列上具有交错排序键。
该公司希望回收磁盘空间,以便公司不会耗尽存储空间。该公司还希望分析排序键列。
哪个 Amazon Redshift 命令可以满足这些要求?

63 / 100

63.

No.63
一家制造公司希望从传感器收集数据。数据工程师需要实施一种解决方案,以近乎实时的方式提取传感器数据。
该解决方案必须将数据存储到持久数据存储中。该解决方案必须以嵌套 JSON 格式存储数据。公司必须能够以小于 10 毫秒的延迟从数据存储中查询。
哪种解决方案能够以最少的运营开销满足这些要求?

64 / 100

64.

No.64
一家公司将数据存储在 Amazon S3 中的数据湖中。公司存储在数据湖中的一些数据包含个人身份信息 (PII)。多个用户组需要访问原始数据。公司必须确保用户组只能访问他们需要的 PII。
哪种解决方案可以以最少的努力满足这些要求?

65 / 100

65.

No.65
数据工程师必须构建提取、转换和加载 (ETL) 管道,以处理来自 10 个源系统的数据并将其加载到 Amazon Redshift 数据库中的 10 个表中。所有源系统每 15 分钟生成一次 .csv、JSON 或 Apache Parquet 文件。源系统都将文件传送到一个 Amazon S3 存储桶中。文件大小从 10 MB 到 20 GB 不等。尽管数据架构发生变化,ETL 管道仍必须正常运行。
哪些数据管道解决方案可以满足这些要求?(选择两个。)

66 / 100

66.

No.66
一家金融公司希望使用 Amazon Athena 在 PB 级数据集上运行按需 SQL 查询,以支持商业智能 (BI) 应用程序。在非工作时间运行的 AWS Glue 作业每天更新一次数据集。BI 应用程序的标准数据刷新频率为 1 小时,以符合公司政策。
一位数据工程师希望在不增加任何额外基础设施成本的情况下优化公司对 Amazon Athena 的使用成本。
哪种解决方案可以以最低的运营开销满足这些要求?

67 / 100

67.

No.67
一家公司的数据工程师需要优化表 SQL 查询的性能。该公司将数据存储在 Amazon Redshift 集群中。由于预算限制,数据工程师无法增加集群的大小。
该公司将数据存储在多个表中,并使用 EVEN 分配样式加载数据。一些表的大小为数百 GB。其他表的大小不到 10 MB。
哪种解决方案可以满足这些要求?

68 / 100

No.68
一家公司收到包含物理地址数据的 .csv 文件。数据位于具有以下名称的列中:Door_No、Street_Name、City 和 Zip_Code。该公司希望创建一个列来存储这些值,格式如下:

{
"Door_No": "24",
"Street_Name": "AAA street",
"City": "BBB",
"Zip_Code": "111111"
}

68. 哪种解决方案能够以最少的编码工作量满足此要求?

69 / 100

69.

No.69
一家公司将通话记录作为包含敏感客户信息的 Amazon S3 对象接收。该公司必须使用加密来保护 S3 对象。该公司还必须使用只有特定员工才能访问的加密密钥。
哪种解决方案能够以最少的努力满足这些要求?

70 / 100

70.

No.70
一家公司将数 PB 的数据存储在 S3 标准存储类中的数千个 Amazon S3 存储桶中。这些数据支持具有不可预测和可变数据访问模式的分析工作负载。
该公司几个月都没有访问某些数据。但是,该公司必须能够在几毫秒内检索所有数据。该公司需要优化 S3 存储成本。
哪种解决方案可以以最少的运营开销满足这些要求?

71 / 100

71.

No.71
在安全审查期间,一家公司发现了 AWS Glue 作业中的漏洞。该公司发现访问 Amazon Redshift 集群的凭证已硬编码在作业脚本中。
数据工程师必须修复 AWS Glue 作业中的安全漏洞。解决方案必须安全地存储凭证。
数据工程师应采取哪些步骤组合来满足这些要求?(选择两个。)

72 / 100

72.

No.72
数据工程师每月使用 Amazon Redshift 运行一次资源密集型分析流程。每个月,数据工程师都会创建一个新的 Redshift 预置集群。数据工程师会在每月分析流程完成后删除 Redshift 预置集群。在数据工程师每月删除集群之前,数据工程师会将集群中的备份数据卸载到 Amazon S3 存储桶中。
数据工程师需要一个解决方案来运行每月的分析流程,而不需要数据工程师手动管理基础设施。
哪种解决方案能够以最少的运营开销满足这些要求?

73 / 100

73.

No.73
一家公司收到一份包含 .xls 格式的客户数据的每日文件。该公司将该文件存储在 Amazon S3 中。每日文件的大小约为 2 GB。
数据工程师将文件中包含客户名字的列和包含客户姓氏的列连接起来。数据工程师需要确定文件中不同客户的数量。
哪种解决方案可以以最少的运营工作量满足此要求?

74 / 100

74.

No.74
一家医疗保健公司使用 Amazon Kinesis Data Streams 从可穿戴设备、医院设备和患者记录中传输实时健康数据。
数据工程师需要找到一种解决方案来处理流数据。数据工程师需要将数据存储在 Amazon Redshift 无服务器仓库中。该解决方案必须支持对流数据和前一天的数据进行近乎实时的分析。
哪种解决方案能够以最少的运营开销满足这些要求?

75 / 100

75.

No.75
数据工程师需要使用基于 Amazon Athena 对存储在 Amazon S3 存储桶中的数据的查询的 Amazon QuickSight 仪表板。当数据工程师连接到 QuickSight 仪表板时,数据工程师会收到一条错误消息,指示权限不足。
哪些因素可能导致与权限相关的错误?(选择两个。)

76 / 100

76.

No.76
一家公司将 JSON 格式和 .csv 格式的数据集存储在 Amazon S3 存储桶中。该公司拥有适用于 Microsoft SQL Server 数据库的 Amazon RDS、处于预置容量模式的 Amazon DynamoDB 表以及 Amazon Redshift 集群。数据工程团队必须开发一种解决方案,使数据科学家能够使用类似于 SQL 的语法查询所有数据源。
哪种解决方案能够以最少的运营开销满足这些要求?

77 / 100

77.

No.77
数据工程师正在配置 Amazon SageMaker Studio 以使用 AWS Glue 交互式会话为机器学习 (ML) 模型准备数据。
当数据工程师尝试使用 SageMaker Studio 准备数据时,数据工程师收到访问被拒绝错误。
工程师应该进行哪些更改才能访问 SageMaker Studio?

78 / 100

78.

No.78
一家公司每天从 SAP HANA、Microsoft SQL Server、MongoDB、Apache Kafka 和 Amazon DynamoDB 等数据源中提取大约 1 TB 的数据。一些数据源具有未定义的数据模式或会发生变化的数据模式。
数据工程师必须实施可以检测这些数据源模式的解决方案。该解决方案必须提取、转换数据并将其加载到 Amazon S3 存储桶中。该公司有一个服务级别协议 (SLA),要求在数据创建后 15 分钟内将数据加载到 S3 存储桶中。
哪种解决方案可以以最少的运营开销满足这些要求?

79 / 100

79.

No.79
一家公司有多个使用存储在 Amazon S3 存储桶中的数据集的应用程序。该公司有一个电子商务应用程序,它生成一个包含个人身份信息 (PII) 的数据集。该公司有一个内部分析应用程序,不需要访问 PII。
为了遵守法规,公司不得不必要地共享 PII。数据工程师需要根据访问数据集的每个应用程序的需求,实施一个动态编辑 PII 的解决方案。
哪种解决方案能够以最少的运营开销满足要求?

80 / 100

80.

★No.80
数据工程师需要构建提取、转换和加载 (ETL) 作业。ETL 作业将处理用户上传到 Amazon S3 存储桶的每日传入 .csv 文件。每个 S3 对象的大小小于 100 MB。
哪种解决方案最经济高效地满足这些要求?

81 / 100

81.

No.81
数据工程师使用名为 Orders 的 AWS Glue 爬虫创建 AWS Glue 数据目录表。数据工程师想要添加以下新分区:

s3://transactions/orders/order_date=2023-01-01
s3://transactions/orders/order_date=2023-01-02

数据工程师必须编辑元数据以将新分区包含在表中,而无需扫描表位置中的所有文件夹和文件。
数据工程师应在 Amazon Athena 中使用哪种数据定义语言 (DDL) 语句?

82 / 100

82.

No.82
一家公司在 Amazon S3 中存储了 10 到 15 TB 未压缩的 .csv 文件。该公司正在评估 Amazon Athena 作为一次性查询引擎。
该公司希望转换数据以优化查询运行时间和存储成本。
哪种文件格式和压缩解决方案可以满足 Athena 查询的这些要求?

83 / 100

83.

No.83
一家公司使用 Apache Airflow 来协调公司当前的本地数据管道。该公司在管道中运行 SQL 数据质量检查任务。该公司希望将管道迁移到 AWS 并使用 AWS 托管服务。
哪种解决方案可以以最少的重构量满足这些要求?

84 / 100

84.

No.84
一家公司使用 Amazon EMR 作为提取、转换和加载 (ETL) 管道来转换来自多个来源的数据。数据工程师必须协调管道以最大限度地提高性能。
哪种 AWS 服务能够以最经济的方式满足此要求?

85 / 100

85.

No.85
一家在线零售公司将应用程序负载均衡器 (ALB) 访问日志存储在 Amazon S3 存储桶中。该公司希望使用 Amazon Athena 查询日志以分析流量模式。
数据工程师在 Athena 中创建未分区表。随着数据量逐渐增加,查询的响应时间也会增加。数据工程师希望提高 Athena 中的查询性能。
哪种解决方案能够以最少的运营工作量满足这些要求?

86 / 100

86.

No.86
一家公司在 AWS 上拥有一个商业智能平台。该公司使用 AWS Storage Gateway Amazon S3 文件网关将文件从公司的本地环境传输到 Amazon S3 存储桶。
数据工程师需要设置一个流程,该流程将在每次文件传输成功完成时自动启动 AWS Glue 工作流以运行一系列 AWS Glue 作业。
哪种解决方案可以以最少的运营开销满足这些要求?

87 / 100

87.

No.87
一家零售公司使用 Amazon Aurora PostgreSQL 来处理和存储实时交易数据。该公司使用 Amazon Redshift 集群作为数据仓库。
每天早上都会运行提取、转换和加载 (ETL) 作业,以使用来自 PostgreSQL 数据库的新数据更新 Redshift 集群。该公司发展迅速,需要优化 Redshift 集群的成本。
数据工程师需要创建一个解决方案来存档历史数据。数据工程师必须能够运行分析查询,有效地结合来自 PostgreSQL 中的实时交易数据、Redshift 中的当前数据和存档的历史数据。该解决方案必须仅保留 Amazon Redshift 中最近 15 个月的数据以降低成本。
哪种步骤组合可以满足这些要求?(选择两个。)

88 / 100

88.

No.88
一家制造公司在世界各地的设施中拥有许多 IoT 设备。该公司使用 Amazon Kinesis Data Streams 从设备收集数据。数据包括设备 ID、捕获日期、测量类型、测量值和设施 ID。该公司使用设施 ID 作为分区键。
该公司的运营团队最近观察到许多 WriteThroughputExceeded 异常。运营团队发现一些分片使用率很高,但其他分片通常处于空闲状态。
公司应如何解决运营团队观察到的问题?

89 / 100

89.

No.89
一位数据工程师想要提高 Amazon Athena 中针对销售数据表运行的 SQL 查询的性能。
数据工程师想要了解特定 SQL 语句的执行计划。数据工程师还希望查看 SQL 查询中每个操作的计算成本。
数据工程师需要运行哪个语句才能满足这些要求?

90 / 100

90.

No.90
一家公司计划在 VPC 内配置日志传输流。该公司将 VPC 流日志配置为发布到 Amazon CloudWatch Logs。该公司需要近乎实时地将流日志发送到 Splunk 进行进一步分析。
哪种解决方案可以以最少的运营开销满足这些要求?

91 / 100

91.

No.91
一家公司在 AWS 上有一个数据湖。数据湖从业务部门提取数据源。该公司使用 Amazon Athena 进行查询。存储层是 Amazon S3,并使用 AWS Glue 数据目录作为元数据存储库。
该公司希望将数据提供给数据科学家和业务分析师。但是,该公司首先需要根据用户角色和职责管理 Athena 的细粒度、列级数据访问。
哪种解决方案可以满足这些要求?

92 / 100

92.

No.92
一家公司开发了多个 AWS Glue 提取、转换和加载 (ETL) 作业来验证和转换来自 Amazon S3 的数据。ETL 作业每天一次将数据批量加载到 Amazon RDS for MySQL 中。ETL 作业使用 DynamicFrame 读取 S3 数据。
ETL 作业当前处理 S3 存储桶中的所有数据。但是,该公司希望作业仅处理每日增量数据。
哪种解决方案可以以最少的编码工作量满足此要求?

93 / 100

93.

No.93
一家在线零售公司有一个在 VPC 中的 Amazon EC2 实例上运行的应用程序。该公司希望收集 VPC 的流日志并分析网络流量。
哪种解决方案能够以最具成本效益的方式满足这些要求?

94 / 100

94.

No.94
一家零售公司将交易、商店位置和客户信息表存储在四个预留 ra3.4xlarge Amazon Redshift 集群节点中。所有三个表都使用均匀表分布。
该公司每隔几年只更新一次或两次商店位置表。
一位数据工程师注意到 Redshift 队列正在变慢,因为整个商店位置表不断被广播到所有四个计算节点以进行大多数查询。数据工程师希望通过最小化商店位置表的广播来加快查询性能。
哪种解决方案将以最具成本效益的方式满足这些要求?

95 / 100

95.

No.95
一家公司有一个数据仓库,其中包含一个名为 Sales 的表。该公司将该表存储在 Amazon Redshift 中。该表包含一个名为 city_name 的列。该公司希望查询该表以查找 city_name 以“San”或“El”开头的所有行。
哪个 SQL 查询可以满足此要求?

96 / 100

96.

No.96
一家公司需要将客户呼叫数据从其本地 PostgreSQL 数据库发送到 AWS,以生成近乎实时的洞察。该解决方案必须从在 PostgreSQL 数据库中运行的操作数据存储中捕获和加载更新。数据不断变化。
数据工程师配置 AWS 数据库迁移服务 (AWS DMS) 持续复制任务。该任务从每个表的 PostgreSQL 源数据库事务日志中近乎实时地读取更改。然后,该任务将数据发送到 Amazon Redshift 集群进行处理。
数据工程师在任务的变更数据捕获 (CDC) 期间发现延迟问题。数据工程师认为 PostgreSQL 源数据库导致了高延迟。
哪种解决方案将确认 PostgreSQL 数据库是高延迟的来源?

97 / 100

97.

No.97
实验室使用 IoT 传感器监控项目的湿度、温度和压力。传感器每 10 秒发送 100 KB 数据。下游进程将每 30 秒从 Amazon S3 存储桶读取一次数据。
哪种解决方案将以最小的延迟将数据传送到 S3 存储桶?

98 / 100

98.

No.98
一家公司希望使用机器学习 (ML) 对 Amazon S3 数据湖中的数据进行分析。该公司有两个数据转换要求,这将使公司内的消费者能够创建报告。
该公司必须对 300 GB 的各种格式的数据进行每日转换,这些数据必须在预定的时间到达 Amazon S3。该公司必须对 S3 数据湖中的 TB 级存档数据进行一次性转换。该公司使用 Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 有向无环图 (DAG) 来协调处理。
公司应在 Amazon MWAA DA​​G 中安排哪种任务组合才能最经济高效地满足这些要求?(选择两个。)

99 / 100

99.

No.99
一家零售公司使用 AWS Glue 对包含客户订单信息的数据集进行提取、转换和加载 (ETL) 操作。该公司希望实施特定的验证规则以确保数据的准确性和一致性。
哪种解决方案可以满足这些要求?

100 / 100

100.

★No.100
一家保险公司存储了该公司使用 gzip 压缩的交易数据。
该公司需要查询交易数据以进行偶尔的审计。
哪种解决方案能够以最具成本效益的方式满足这一要求?

Your score is

0%

 

■AWS DEA-C01 中文 Q.101-204

/104

AWS DEA-C01(CN) Q.101-204

[Q.101-204] AWS Certified Data Engineer – Associate 可验证与核心数据相关的 AWS 服务方面的技能和知识,摄取和转换数据、在应用编程概念时编排数据管道、设计数据模型、管理数据生命周期和确保数据质量的能力。

1 / 104

1.

No.101
一位数据工程师完成了对 Amazon Redshift 存储过程的测试,该过程处理数据并将其插入到非关键任务表中。工程师希望每天自动运行存储过程。
哪种解决方案能够以最具成本效益的方式满足此要求?

2 / 104

2.

No.102
一家营销公司收集点击流数据。该公司将点击流数据发送到 Amazon Kinesis Data Firehose,并将点击流数据存储在 Amazon S3 中。该公司希望构建一系列仪表板,供来自多个部门的数百名用户使用。
该公司将使用 Amazon QuickSight 开发仪表板。该公司希望获得一种可扩展并提供有关点击流活动的每日更新的解决方案。
哪种步骤组合能够以最具成本效益的方式满足这些要求?(选择两个。)

3 / 104

3.

No.103
数据工程师正在构建数据编排工作流。数据工程师计划使用混合模型,其中包括一些本地资源和一些云中的资源。数据工程师希望优先考虑可移植性和开源资源。
数据工程师应该在本地环境和基于云的环境中使用哪种服务?

4 / 104

4.

No.104
一家游戏公司使用 NoSQL 数据库来存储客户信息。该公司正计划迁移到 AWS。
该公司需要一个完全托管的 AWS 解决方案,该解决方案将处理高在线事务处理 (OLTP) 工作负载,提供个位数毫秒级的性能,并在全球范围内提供高可用性。
哪种解决方案能够以最少的运营开销满足这些要求?

5 / 104

5.

No.105
数据工程师创建了一个 AWS Lambda 函数,Amazon EventBridge 事件将调用该函数。当数据工程师尝试使用 EventBridge 事件调用 Lambda 函数时,会出现 AccessDeniedException 消息。
数据工程师应如何解决异常?

6 / 104

6.

No.106
一家公司使用基于 Amazon S3 存储桶的数据湖。为了遵守法规,该公司必须对上传到 S3 存储桶的文件应用两层服务器端加密。该公司希望使用 AWS Lambda 函数来应用必要的加密。
哪种解决方案可以满足这些要求?

7 / 104

7.

No.107
数据工程师注意到 Amazon Athena 查询在运行之前被保留在队列中。
数据工程师如何防止查询排队?

8 / 104

8.

No.108
数据工程师需要调试从 Amazon S3 读取并写入 Amazon Redshift 的 AWS Glue 作业。数据工程师为 AWS Glue 作业启用了书签功能。
数据工程师已将 AWS Glue 作业的最大并发数设置为 1。
AWS Glue 作业已成功将输出写入 Amazon Redshift。但是,在 AWS Glue 作业的先前运行期间加载的 Amazon S3 文件正在后续运行中重新处理。
AWS Glue 作业重新处理文件的可能原因是什么?

9 / 104

9.

No.109
一家电子商务公司希望使用 AWS 将数据管道从本地环境迁移到 AWS 云中。该公司目前在本地环境中使用第三方工具来协调数据提取流程。
该公司希望获得一种不需要公司管理服务器的迁移解决方案。该解决方案必须能够协调 Python 和 Bash 脚本。该解决方案不得要求公司重构任何代码。
哪种解决方案能够以最少的运营开销满足这些要求?

10 / 104

10.

No.110
一家零售公司将来自产品生命周期管理 (PLM) 应用程序的数据存储在本地 MySQL 数据库中。当发生交易时,PLM 应用程序会频繁更新数据库。
该公司希望近乎实时地从 PLM 应用程序中收集见解。该公司希望将这些见解与其他业务数据集集成,并使用 Amazon Redshift 数据仓库分析组合数据集。
该公司已经在本地基础设施和 AWS 之间建立了 AWS Direct Connect 连接。
哪种解决方案能够以最少的开发工作量满足这些要求?

11 / 104

11.

No.111
一家营销公司使用 Amazon S3 存储点击流数据。该公司每天结束时使用 SQL JOIN 子句查询存储在单独存储桶中的 S3 对象上的数据。
该公司根据对象创建关键绩效指标 (KPI)。该公司需要一个无服务器解决方案,使用户能够通过对数据进行分区来查询数据。该解决方案必须保持数据的原子性、一致性、隔离性和持久性 (ACID) 属性。
哪种解决方案能够以最具成本效益的方式满足这些要求?

12 / 104

12.

No.112
一家公司希望从名为 Account_A 的 AWS 账户的 eu-east-1 区域中的 Amazon RDS for PostgreSQL DB 实例迁移数据。该公司将数据迁移到名为 Account_B 的 AWS 账户的 eu-west-1 区域中的 Amazon Redshift 集群。
哪种解决方案将使 AWS 数据库迁移服务 (AWS DMS) 能够在两个数据存储之间复制数据?

13 / 104

13.

No.113
一家公司使用 Amazon S3 作为数据湖。该公司使用多节点 Amazon Redshift 集群设置数据仓库。该公司根据每个数据文件的数据源组织数据湖中的数据文件。
公司通过对每个数据文件位置使用单独的 COPY 命令将所有数据文件加载到 Redshift 集群中的一个表中。这种方法需要很长时间才能将所有数据文件加载到表中。公司必须提高数据提取速度。公司不想增加流程成本。
哪种解决方案可以满足这些要求?

14 / 104

14.

★No.114
一家公司计划使用 Amazon Kinesis Data Firehose 将数据存储在 Amazon S3 中。源数据由 2 MB .csv 文件组成。该公司必须将 .csv 文件转换为 JSON 格式。该公司必须将文件存储为 Apache Parquet 格式。
哪种解决方案能够以最少的开发工作量满足这些要求?

15 / 104

15.

No.115
一家公司正在使用 AWS Transfer Family 服务器将数据从本地环境迁移到 AWS。公司政策要求使用 TLS 1.2 或更高版本对传输中的数据进行加密。
哪种解决方案可以满足这些要求?

16 / 104

16.

No.116
一家公司希望将应用程序和本地 Apache Kafka 服务器迁移到 AWS。该应用程序处理本地 Oracle 数据库发送到 Kafka 服务器的增量更新。该公司希望使用重新平台迁移策略而不是重构策略。
哪种解决方案能够以最少的管理开销满足这些要求?

17 / 104

17.

No.117
数据工程师正在使用 AWS Glue 构建自动提取、转换和加载 (ETL) 提取管道。管道提取 Amazon S3 存储桶中的压缩文件。提取管道必须支持增量数据处理。
数据工程师应使用哪种 AWS Glue 功能来满足此要求?

18 / 104

18.

No.118
一家银行公司使用应用程序收集大量交易数据。该公司使用 Amazon Kinesis Data Streams 进行实时分析。该公司的应用程序使用 PutRecord 操作将数据发送到 Kinesis Data Streams。
一位数据工程师观察到一天中某些时间的网络中断。数据工程师希望为整个处理管道配置一次交付。
哪种解决方案可以满足此要求?

19 / 104

19.

No.119
一家公司将日志存储在 Amazon S3 存储桶中。当数据工程师尝试访问多个日志文件时,数据工程师发现某些文件已被无意删除。
数据工程师需要一种解决方案来防止将来意外删除文件。
哪种解决方案可以满足此要求且操作开销最少?

20 / 104

20.

No.120
一家电信公司每天以每秒数千个数据点的速度收集网络使用数据。该公司运行一个应用程序来实时处理使用数据。公司将数据汇总并存储在 Amazon Aurora DB 实例中。
网络使用率突然下降通常表示网络中断。公司必须能够识别网络使用率突然下降,以便公司能够立即采取补救措施。
哪种解决方案能够以最低的延迟满足此要求?

21 / 104

21.

No.121
数据工程师正在处理和分析 Amazon S3 中的数 TB 原始数据。数据工程师需要清理和准备数据。然后,数据工程师需要将数据加载到 Amazon Redshift 中进行分析。
数据工程师需要一个解决方案,使数据分析师能够执行复杂的查询。该解决方案必须消除执行复杂的提取、转换和加载 (ETL) 过程或管理基础设施的需要。
哪种解决方案可以以最少的运营开销满足这些要求?

22 / 104

22.

No.122
一家公司使用 AWS Lambda 函数将文件从旧版 SFTP 环境传输到 Amazon S3 存储桶。Lambda 函数启用了 VPC,以确保 Lambda 函数与同一 VPC 环境中的其他 AVS 服务之间的所有通信都将通过安全网络进行。
Lambda 函数能够成功连接到 SFTP 环境。但是,当 Lambda 函数尝试将文件上传到 S3 存储桶时,Lambda 函数会返回超时错误。数据工程师必须以安全的方式解决超时问题。
哪种解决方案能够以最具成本效益的方式满足这些要求?

23 / 104

23.

No.123
一家公司从在 Amazon RDS 上运行的客户数据库中读取数据。数据库包含许多不一致的字段。例如,一个数据库中名为 place_id 的客户记录字段在另一个数据库中名为 location_id。公司需要跨不同数据库链接客户记录,即使客户记录字段不匹配。
哪种解决方案能够以最少的运营开销满足这些要求?

24 / 104

24.

No.124
一家金融公司从第三方数据提供商处接收数据,并将数据作为对象存储在 Amazon S3 存储桶中。
该公司对对象运行 AWS Glue 爬虫程序以创建数据目录。AWS Glue 爬虫程序创建了多个表。但是,该公司预计爬虫程序只会创建一个表。
该公司需要一个解决方案来确保 AVS Glue 爬虫程序只创建一个表。
哪种解决方案组合可以满足此要求?(选择两个。)

25 / 104

25.

★No.125
应用程序使用来自 Amazon Simple Queue Service (Amazon SQS) 队列的消息。应用程序偶尔会遇到停机。停机会导致队列中的消息过期并在 1 天后被删除。消息删除会导致应用程序数据丢失。
哪些解决方案可以最大限度地减少应用程序的数据丢失?(选择两个。)

26 / 104

26.

No.126
一家公司正在创建近乎实时的仪表板来可视化时间序列数据。该公司将数据提取到 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 中。自定义数据管道使用数据。然后,管道将数据写入 Amazon Keyspaces(用于 Apache Cassandra)、Amazon OpenSearch Service 和 Amazon S3 中的 Apache Avro 对象。
哪种解决方案能够以最低的延迟使数据可用于数据可视化?

27 / 104

27.

★No.127
数据工程师维护基于 Amazon Redshift 数据库的物化视图。该视图有一个名为 load_date 的列,用于存储每行加载的日期。
数据工程师需要通过从物化视图中删除所有行来回收数据库存储空间。
哪个命令将回收最多的数据库存储空间?

28 / 104

28.

No.128
一家媒体公司希望使用 Amazon OpenSearch Service 分析有关流行音乐艺术家和歌曲的实时数据。该公司预计每天将接收数百万个新数据事件。新数据事件将通过 Amazon Kinesis 数据流到达。公司必须转换数据,然后将数据导入 OpenSearch Service 域。
公司应使用哪种方法来导入数据,同时降低运营开销?

29 / 104

29.

No.129
一家公司将包含客户地址的客户数据表存储在 AWS Lake Formation 数据湖中。为了遵守新法规,该公司必须确保用户无法访问位于加拿大的客户的数据。
该公司需要一个解决方案来阻止用户访问位于加拿大的客户的行。
哪种解决方案可以以最少的运营工作量满足此要求?

30 / 104

30.

★No.130
一家公司在 Amazon Redshift 中实施了 Lake House 架构。该公司需要让用户能够使用第三方身份提供商 (IdP) 验证 Redshift 查询编辑器的身份。
数据工程师必须设置身份验证机制。
数据工程师应采取的第一步是什么来满足此要求?

31 / 104

31.

No.131
一家公司目前使用包含通用 Amazon EC2 实例的预配置 Amazon EMR 集群。 EMR 集群使用 EMR 托管扩展,在 1 到 5 个任务节点之间进行扩展,以完成公司长期运行的 Apache Spark 提取、转换和加载 (ETL) 作业。公司每天都会运行 ETL 作业。
当公司运行 ETL 作业时,EMR 集群会快速扩展到 5 个节点。EMR 集群通常会达到最大 CPU 使用率,但内存使用率仍低于 30%。
公司希望修改 EMR 集群配置,以降低运行每日 ETL 作业的 EMR 成本。
哪种解决方案能够以最具成本效益的方式满足这些要求?

32 / 104

32.

No.132
一家公司将 .csv 文件上传到 Amazon S3 存储桶。该公司的数据平台团队已设置 AWS Glue 爬虫来执行数据发现并创建表和架构。
AWS Glue 作业将处理后的数据从表写入 Amazon Redshift 数据库。AWS Glue 作业处理列映射并在 Redshift 数据库中适当地创建 Amazon Redshift 表。
如果公司出于任何原因重新运行 AWS Glue 作业,则会将重复记录引入 Amazon Redshift 表中。该公司需要一个可以更新 Redshift 表而不产生重复的解决方案。
哪种解决方案可以满足这些要求?

33 / 104

33.

No.133
一家公司正在使用 Amazon Redshift 构建数据仓库解决方案。该公司正在将数百个文件加载到 Redshift 集群中的事实表中。
该公司希望数据仓库解决方案实现尽可能大的吞吐量。当公司将数据加载到事实表中时,解决方案必须以最佳方式使用集群资源。
哪种解决方案可以满足这些要求?

34 / 104

34.

No.134
一家公司从多个数据源提取数据并将数据存储在 Amazon S3 存储桶中。AWS Glue 提取、转换和加载 (ETL) 作业转换数据并将转换后的数据写入基于 Amazon S3 的数据湖。该公司使用 Amazon Athena 查询数据湖中的数据。
即使记录没有通用的唯一标识符,公司也需要识别匹配的记录。
哪种解决方案可以满足此要求?

35 / 104

35.

No.135
数据工程师正在使用 AWS Glue 爬虫程序对 Amazon S3 存储桶中的数据进行分类。S3 存储桶包含 .csv 和 json 文件。数据工程师将爬虫程序配置为从目录中排除 .json 文件。
当数据工程师在 Amazon Athena 中运行查询时,查询还会处理排除的 .json 文件。数据工程师想要解决这个问题。数据工程师需要一个不会影响源 S3 存储桶中 .csv 文件的访问要求的解决方案。
哪种解决方案可以以最短的查询时间满足此要求?

36 / 104

36.

No.136
数据工程师设置了一个 AWS Lambda 函数来读取存储在 Amazon S3 存储桶中的对象。该对象由 AWS KMS 密钥加密。
数据工程师配置了 Lambda 函数的执行角色以访问 S3 存储桶。但是,Lambda 函数遇到错误,无法检索对象的内容。
错误的可能原因是什么?

37 / 104

37.

No.137
一位数据工程师在 1,000 个 AWS Glue 数据目录表中实施了数据质量规则。由于业务需求最近发生变化,数据工程师必须编辑数据质量规则。
数据工程师应如何以最少的运营开销满足此要求?

38 / 104

38.

No.138
两位开发人员正在开发单独的应用程序版本。开发人员已使用 GitHub 存储库的主分支作为源,创建了名为分支 A 和分支 B 的功能分支。
分支 A 的开发人员将代码部署到生产系统。分支 B 的代码将在下一周的预定应用程序发布中合并到主分支中。
在向主分支提出拉取请求之前,分支 B 的开发人员应该运行哪个命令?

39 / 104

39.

★No.139
一家公司将员工数据存储在 Amazon Resdshift 中。名为 Employee 的表使用名为 Region ID、Department ID 和 Role ID 的列作为复合排序键。
哪些查询将通过使用表的复合排序键最大程度地提高查询速度?(选择两个。)

40 / 104

40.

No.140
一家公司从位于世界各地的测试机构收到测试结果。该公司将测试结果存储在 Amazon S3 存储桶中的数百万个 1 KB JSON 文件中。数据工程师需要处理文件,将其转换为 Apache Parquet 格式,然后将其加载到 Amazon Redshift 表中。数据工程师使用 AWS Glue 来处理文件,使用 AWS Step Functions 来编排流程,并使用 Amazon EventBridge 来安排作业。
该公司最近增加了更多测试设施。处理文件所需的时间正在增加。数据工程师必须减少数据处理时间。
哪种解决方案将最大程度地减少数据处理时间?

41 / 104

41.

No.141
数据工程师使用 Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 在 AWS 账户中运行数据管道。
工作流最近运行失败。数据工程师需要使用 Apache Airflow 日志来诊断工作流的故障。
数据工程师应该使用哪种日志类型来诊断故障原因?

42 / 104

42.

No.142
一家金融公司使用 Amazon Redshift 作为数据仓库。该公司将数据存储在共享的 Amazon S3 存储桶中。该公司使用 Amazon Redshift Spectrum 访问存储在 S3 存储桶中的数据。数据来自经过认证的第三方数据提供商。每个第三方数据提供商都有唯一的连接详细信息。
为了遵守法规,公司必须确保公司 AWS 环境之外的任何数据都无法访问。
公司应采取哪些步骤组合来满足这些要求?(选择两个。)

43 / 104

43.

No.143
来自多个数据源的文件定期到达 Amazon S3 存储桶。当新文件到达 S3 存储桶时,数据工程师希望近乎实时地将新文件导入 Amazon Redshift。
哪种解决方案可以满足这些要求?

44 / 104

44.

No.144
一家科技公司目前使用 Amazon Kinesis Data Streams 实时收集日志数据。该公司希望使用 Amazon Redshift 进行下游实时查询并丰富日志数据。
哪种解决方案可以以最低的运营开销将数据导入 Amazon Redshift?

45 / 104

45.

No.145
一家公司在本地 Oracle 数据库中维护一个数据仓库。该公司希望在 AWS 上构建一个数据湖。该公司希望将数据仓库表加载到 Amazon S3 中,并将表与每天从数据仓库到达的增量数据同步。
每个表都有一个包含单调递增值的列。每个表的大小小于 50 GB。数据仓库表每天晚上 1 点到 2 点之间刷新一次。商业智能团队每天上午 10 点到晚上 8 点查询表格。
哪种解决方案将以最高效的方式满足这些要求?

46 / 104

46.

No.146
一家公司正在为新的分析团队构建数据湖。该公司使用 Amazon S3 进行存储,使用 Amazon Athena 进行查询分析。Amazon S3 中的所有数据均为 Apache Parquet 格式。
该公司正在数据中心运行一个新的 Oracle 数据库作为源系统。该公司在 Oracle 数据库中有 70 个表。所有表都有主键。源系统中的数据偶尔会发生变化。该公司希望每天将表导入数据湖。
哪种解决方案可以以最少的努力满足此要求?

47 / 104

47.

No.147
一家运输公司希望通过捕获地理位置记录来跟踪车辆移动。记录大小为 10 字节。该公司每秒最多收到 10,000 条记录。由于网络条件不可靠,数据传输延迟几分钟是可以接受的。
运输公司希望使用 Amazon Kinesis Data Streams 来提取地理位置数据。该公司需要一种可靠的机制来将数据发送到 Kinesis Data Streams。公司需要最大限度地提高 Kinesis 分片的吞吐效率。
哪种解决方案能够以最高效的方式满足这些要求?

48 / 104

48.

No.148
一家投资公司需要管理不断增长的大量半结构化数据并从中提取见解。
数据工程师需要对半结构化数据进行重复数据删除,删除重复的记录,并删除常见的重复拼写错误。
哪种解决方案能够以最少的运营开销满足这些要求?

49 / 104

49.

No.149
一家公司正在构建库存管理系统和库存重新订购系统以自动重新订购产品。两个系统都使用 Amazon Kinesis Data Streams。库存管理系统使用 Amazon Kinesis 生产器库 (KPL) 将数据发布到流中。库存重新排序系统使用 Amazon Kinesis 客户端库 (KCL) 从流中使用数据。公司将流配置为根据需要进行扩展和缩减。
在公司将系统部署到生产环境之前,公司发现库存重新排序系统收到了重复的数据。
哪些因素可能导致重新排序系统收到重复的数据?(选择两个。)

50 / 104

50.

No.150
一家电子商务公司运营着一个复杂的订单履行流程,该流程涵盖了 AWS 中托管的多个操作系统。每个操作系统都有一个符合 Java 数据库连接 (JDBC) 的关系数据库,用于捕获最新的处理状态。
该公司需要让运营团队能够在整个履行过程中每小时跟踪订单。
哪种解决方案能够以最少的开发开销满足这些要求?

51 / 104

51.

No.151
数据工程师需要使用 Amazon Neptune 开发图形应用程序。
工程师应该使用哪些编程语言来开发图形应用程序?(选择两个。)

52 / 104

52.

No.152
一家移动游戏公司希望从其游戏应用程序中捕获数据。该公司希望将数据提供给三个内部数据消费者。数据记录的大小约为 20 KB。
该公司希望从运行游戏应用程序的每台设备实现最佳吞吐量。此外,该公司还希望开发一个应用程序来处理数据流。流处理应用程序必须为每个内部消费者提供专用的吞吐量。
哪种解决方案可以满足这些要求?

53 / 104

53.

No.153
一家零售公司使用 Amazon Redshift 数据仓库和 Amazon S3 存储桶。该公司每天都将零售订单数据提取到 S3 存储桶中。
该公司将所有订单数据存储在 S3 存储桶内的单个路径上。数据有 100 多列。该公司从第三方应用程序中提取订单数据,该应用程序每天生成 30 多个 CSV 格式的文件。每个 CSV 文件的大小在 50 到 70 MB 之间。
该公司使用 Amazon Redshift Spectrum 运行选择列集的查询。用户根据每日订单汇总指标。最近,用户报告查询的性能下降了。数据工程师必须解决查询的性能问题。
哪种步骤组合可以以最少的开发工作量满足此要求? (选择两个。)

54 / 104

54.

No.154
一家公司将客户记录存储在 Amazon S3 中。在创建每条记录后的 7 年内,公司不得删除或修改客户记录数据。根用户也不能删除或修改数据。
数据工程师希望使用 S3 对象锁定来保护数据。
哪种解决方案可以满足这些要求?

55 / 104

55.

No.155
数据工程师需要在 Amazon Athena 中创建一个新的空表,该表具有与名为 old_table 的现有表相同的架构。
数据工程师应使用哪条 SQL 语句来满足此要求?

56 / 104

56.

No.156
数据工程师需要根据现有 Athena 表 cities_world 中的数据子集创建 Amazon Athena 表。 cities_world 表包含位于世界各地的城市。数据工程师必须创建一个名为 cities_us 的新表,以仅包含 cities_world 中位于美国的城市。
数据工程师应该使用哪个 SQL 语句来满足此要求?

57 / 104

57.

★No.157
一家公司实施了一个具有中央治理账户的数据网格。该公司需要对治理账户中的所有数据进行分类。治理账户使用 AWS Lake Formation 集中共享数据并授予访问权限。
该公司创建了一个新的数据产品,其中包括一组 Amazon Redshift Serverless 表。数据工程师需要与营销团队共享数据产品。营销团队必须只能访问部分列。数据工程师需要与合规团队共享相同的数据产品。合规团队必须能够访问与营销团队需要访问的不同部分列。
数据工程师应采取哪种步骤组合来满足这些要求?(选择两个。)

58 / 104

58.

No.158
一家公司在 Amazon S3 中有一个数据湖。该公司使用 AWS Glue 对数据进行分类,并使用 AWS Glue Studio 实施数据提取、转换和加载 (ETL) 管道。
该公司需要确保每次运行管道时都会检查数据质量问题。数据工程师必须增强现有管道,以根据预定义的阈值评估数据质量规则。
哪种解决方案可以以最少的实施工作量满足这些要求?

59 / 104

59.

No.159
一家公司有一个使用微服务架构的应用程序。该公司在 Amazon Elastic Kubernetes Services (Amazon EKS) 集群上托管该应用程序。
该公司希望为该应用程序建立一个强大的监控系统。公司需要分析来自 EKS 集群和应用程序的日志。公司需要将集群的日志与应用程序的跟踪关联起来,以识别整个应用程序请求流程中的故障点。
哪种步骤组合能够以最少的开发工作量满足这些要求?(选择两个。)

60 / 104

60.

No.160
一家公司有一个游戏应用程序,它将数据存储在 Amazon DynamoDB 表中。数据工程师需要将游戏数据导入 Amazon OpenSearch Service 集群。数据更新必须近乎实时。
哪种解决方案可以满足这些要求?

61 / 104

61.

No.161
一家公司使用 Amazon Redshift 作为其数据仓库服务。数据工程师需要设计一个物理数据模型。
数据工程师遇到了一个正在增长的非规范化表。该表没有合适的列用作分配键。
数据工程师应该使用哪种分配方式来满足这些要求,同时减少维护开销?

62 / 104

62.

No.162
一家零售公司正在全球扩展其业务。该公司需要使用 Amazon QuickSight 准确计算财务报告的货币汇率。该公司有一个现有的仪表板,其中包含基于对包含全球货币值和汇率的数据集的分析的视觉效果。
数据工程师需要确保汇率的计算精度为小数点后四位。计算必须预先计算。数据工程师必须在 QuickSight 超快速、并行、内存计算引擎 (SPICE) 中实现结果。
哪种解决方案可以满足这些要求?

63 / 104

63.

★No.163
一家公司有三家子公司。每家子公司使用不同的数据仓库解决方案。第一家子公司将其数据仓库托管在 Amazon Redshift 中。第二家子公司在 AWS 上使用 Teradata Vantage。第三家子公司使用 Google BigQuery。
该公司希望将所有数据汇总到中央 Amazon S3 数据湖中。该公司希望使用 Apache Iceberg 作为表格式。
数据工程师需要构建一条新管道以连接到所有数据源,使用每个源引擎运行转换,连接数据并将数据写入 Iceberg。
哪种解决方案可以以最少的运营工作量满足这些要求?

64 / 104

64.

No.164
一家公司正在构建数据流处理应用程序。该应用程序在 Amazon Elastic Kubernetes Service (Amazon EKS) 集群中运行。该应用程序将处理后的数据存储在 Amazon DynamoDB 表中。
该公司需要 EKS 集群中的应用程序容器能够安全地访问 DynamoDB 表。公司不想在容器中嵌入 AWS 凭证。
哪种解决方案可以满足这些要求?

65 / 104

65.

No.165
数据工程师需要将新的数据生产者加入 AWS。数据生产者需要将数据产品迁移到 AWS。
数据生产者维护许多支持业务应用程序的数据管道。每个管道都必须具有服务帐户及其相应的凭据。数据工程师必须建立从数据生产者的本地数据中心到 AWS 的安全连接。数据工程师不得使用公共互联网将数据从本地数据中心传输到 AWS。
哪种解决方案可以满足这些要求?

66 / 104

66.

★No.166
数据工程师为存储在 Amazon S3 存储桶中的数据配置了 AWS Glue 数据目录。数据工程师需要配置数据目录以接收增量更新。
数据工程师为 S3 存储桶设置事件通知,并创建 Amazon Simple Queue Service (Amazon SQS) 队列以接收 S3 事件。
数据工程师应采取哪些步骤组合来以最少的运营开销满足这些要求?(选择两个。)

67 / 104

67.

No.167
一家公司使用 AWS Glue 数据目录来索引每天上传到 Amazon S3 存储桶的数据。该公司在提取、转换和加载 (ETL) 管道中使用每日批处理流程将数据从外部源上传到 S3 存储桶。
该公司每天运行 S3 数据报告。有时,公司会在所有每日数据上传到 S3 存储桶之前运行报告。数据工程师必须能够向现有的 Amazon Simple Notification Service (Amazon SNS) 主题发送一条消息,以识别任何不完整的数据。
哪种解决方案可以以最少的运营开销满足此要求?

68 / 104

68.

No.168
一家公司将包含个人身份信息 (PII) 的客户数据存储在 Amazon Redshift 集群中。该公司的营销、索赔和分析团队需要能够访问客户数据。
营销团队应该有权访问模糊的索赔信息,但应该可以完全访问客户联系信息。索赔团队应该有权访问团队处理的每个索赔的客户信息。分析团队应该只能访问模糊的 PII 数据。
哪种解决方案将以最少的管理开销强制执行这些数据访问要求?

69 / 104

69.

No.169
一家金融公司最近为其移动应用程序添加了更多功能。新功能要求公司在现有的 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 集群中创建新主题。
公司添加新主题几天后,Amazon CloudWatch 对 MSK 集群的 RootDiskUsed 指标发出警报。
公司应如何处理 CloudWatch 警报?

70 / 104

70.

No.170
数据工程师需要根据公司的 Amazon S3 存储桶和 Amazon RDS 数据库构建企业数据目录。数据目录必须包含目录中数据的存储格式元数据。
哪种解决方案可以以最少的努力满足这些要求?

71 / 104

71.

No.171
一家公司每季度分析数据湖中的数据以进行库存评估。数据工程师使用 AWS Glue DataBrew 检测数据中有关客户的任何个人身份信息 (PII)。该公司的隐私政策将某些自定义类别的信息视为 PII。但是,这些类别不包含在标准 DataBrew 数据质量规则中。
数据工程师需要修改当前流程,以扫描数据湖中多个数据集中的自定义 PII 类别。
哪种解决方案能够以最少的运营开销满足这些要求?

72 / 104

72.

No.172
一家公司每天在 Amazon S3 存储桶中从合作伙伴处收到一个数据文件。该公司使用每日 AWS Glue 提取、转换和加载 (ETL) 管道来清理和转换每个数据文件。ETL 管道的输出将写入第二个 S3 存储桶中名为 Daily.csv 的 CSV 文件。
有时,每日数据文件为空或缺少必填字段的值。当文件缺少数据时,公司可以使用前一天的 CSV 文件。
数据工程师需要确保只有当新的每日文件完整且有效时才会覆盖前一天的数据文件。
哪种解决方案可以以最少的努力满足这些要求?

73 / 104

73.

No.173
一家营销公司使用 Amazon S3 存储营销数据。该公司在某些存储桶中使用版本控制。该公司运行多个作业来读取数据并将其加载到存储桶中。
为了帮助优化存储成本,该公司希望收集有关 S3 存储桶中存在的不完整分段上传和过时版本的信息。
哪种解决方案能够以最少的运营工作量满足这些要求?

74 / 104

74.

No.174
一家游戏公司使用 Amazon Kinesis Data Streams 收集点击流数据。该公司使用 Amazon Data Firehose 传输流将数据以 JSON 格式存储在 Amazon S3 中。该公司的数据科学家使用 Amazon Athena 查询最新数据以获取业务见解。
该公司希望降低 Athena 成本,但不想重新创建数据管道。
哪种解决方案能够以最少的管理工作量满足这些要求?

75 / 104

75.

No.175
一家公司需要一个解决方案来管理现有 Amazon DynamoDB 表的成本。该公司还需要控制表的大小。该解决方案不得中断任何正在进行的读取或写入操作。该公司希望使用一种在 1 个月后自动从表中删除数据的解决方案。
哪种解决方案可以满足这些要求且持续维护最少?

76 / 104

76.

★No.176
一家公司使用 Amazon S3 存储数据,使用 Amazon QuickSight 创建可视化,
该公司在名为 Hub-Account 的 AWS 账户中有一个 S3 存储桶。S3 存储桶由 AWS 密钥管理服务 (AWS KMS) 密钥加密。该公司的 QuickSight 实例位于名为 BI-Account 的单独账户中。
该公司更新 S3 存储桶策略以授予 QuickSight 服务角色访问权限。该公司希望启用跨账户访问以允许 QuickSight 与 S3 存储桶交互。
哪种步骤组合可以满足此要求?(选择两个。)

77 / 104

77.

No.177
一家汽车销售公司维护着某个地区待售汽车的数据。该公司从供应商处收到有关新车列表的数据,供应商每天将数据作为压缩文件上传到 Amazon S3。压缩文件大小最多为 5 KB。该公司希望在数据上传到 Amazon S3 后立即看到最新的列表。
数据工程师必须自动化和协调列表的数据处理工作流以提供给仪表板。数据工程师还必须提供执行一次性查询和分析报告的能力。查询解决方案必须是可扩展的。
哪种解决方案能够以最具成本效益的方式满足这些要求?

78 / 104

78.

No.178
一家公司在多个 AWS 区域拥有 AWS 资源。该公司在运营的每个区域都拥有 Amazon EFS 文件系统。该公司的数据科学团队仅在一个区域内运营。数据科学团队处理的数据必须保留在团队的区域内。
数据工程师需要通过处理公司每个区域 EFS 文件系统中的文件来创建单个数据集。数据工程师希望使用 AWS Step Functions 状态机来编排 AWS Lambda 函数来处理数据。
哪种解决方案可以以最少的努力满足这些要求?

79 / 104

79.

No.179
一家公司将其应用程序托管在 Amazon EC2 实例上。该公司必须使用 SSL/TLS 连接对传输中的数据进行加密,以便与客户管理的 AWS 基础设施进行安全通信。
数据工程师需要实施一种解决方案来简化数字证书的生成、分发和轮换。该解决方案必须自动更新和部署 SSL/TLS 证书。
哪种解决方案能够以最少的运营开销满足这些要求?

80 / 104

80.

No.180
一家公司将客户数据保存到 Amazon S3 存储桶中。该公司使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密来加密存储桶。数据集包括个人身份信息 (PII),例如社会安全号码和帐户详细信息。
在公司使用客户数据进行分析之前,必须屏蔽标记为 PII 的数据。在预处理阶段,某些用户必须能够安全地访问 PII 数据。该公司需要一种低维护解决方案来屏蔽和保护整个工程管道中的 PII 数据。
哪种解决方案组合可以满足这些要求?(选择两个。)

81 / 104

81.

No.181
数据工程师正在启动 Amazon EMR 集群。数据工程师需要加载到新集群中的数据目前位于 Amazon S3 存储桶中。数据工程师需要确保数据在静止和传输过程中均已加密。
S3 存储桶中的数据由 AWS 密钥管理服务 (AWS KMS) 密钥加密。数据工程师有一个包含隐私增强邮件 (PEM) 文件的 Amazon S3 路径。
哪种解决方案可以满足这些要求?

82 / 104

82.

No.182
一家零售公司正在使用 Amazon Redshift 集群来支持实时库存管理。该公司已在 Amazon SageMaker 中的实时终端上部署了 ML 模型。
该公司希望提供实时库存建议。该公司还希望对未来的库存需求做出预测。
哪些解决方案可以满足这些要求?(选择两个。)

83 / 104

83.

No.183
一家公司将 CSV 文件存储在 Amazon S3 存储桶中。数据工程师需要处理 CSV 文件中的数据,并将处理后的数据存储在新的 S3 存储桶中。
该过程需要重命名列、删除特定列、忽略每个文件的第二行、根据数据第一行的值创建新列,并按列的数值过滤结果。
哪种解决方案可以以最少的开发工作量满足这些要求?

84 / 104

84.

No.184
一家公司使用 Amazon Redshift 作为其数据仓库。数据编码应用于数据仓库的现有表。数据工程师发现应用于某些表的压缩编码并不是最适合数据的。
数据工程师需要改进具有次优编码的表的数据编码。
哪种解决方案可以满足此要求?

85 / 104

85.

No.185
该公司在 Amazon S3 中存储了大量客户记录。为了遵守法规,公司必须能够在记录创建后的前 30 天内立即访问新客户记录。公司很少访问超过 30 天的记录。
公司需要对其 Amazon S3 存储进行成本优化。
哪种解决方案能够以最具成本效益的方式满足这些要求?

86 / 104

86.

No.186
一位数据工程师正在使用 Amazon QuickSight 构建一个仪表板,以报告公司在多个 AWS 区域的收入。数据工程师希望仪表板显示某个区域的总收入,而不管视觉效果中显示的向下钻取级别如何。
哪种解决方案可以满足这些要求?

87 / 104

87.

No.187
一家零售公司将客户数据存储在 Amazon S3 存储桶中。部分客户数据包含有关客户的个人身份信息 (PII)。公司不得与业务合作伙伴共享 PII 数据。
数据工程师必须先确定数据集是否包含 PII,然后才能将数据集中的对象提供给业务合作伙伴。
哪种解决方案能够以最少的人工干预满足此要求?

88 / 104

88.

No.188
数据工程师需要在 Amazon Athena 中创建现有表的空副本以执行数据处理任务。Athena 中的现有表包含 1,000 行。
哪个查询可以满足此要求?

89 / 104

89.

No.189
一家公司在 Amazon S3 中有一个数据湖。该公司为多个应用程序收集 AWS CloudTrail 日志。该公司将日志存储在数据湖中,在 AWS Glue 中对日志进行分类,并根据年份对日志进行分区。该公司使用 Amazon Athena 分析日志。
最近,客户报告说,对其中一个 Athena 表的查询未返回任何数据。数据工程师必须解决该问题。
数据工程师应采取哪种故障排除步骤组合?(选择两个。)

90 / 104

90.

No.190
数据工程师想要编排一组在 AWS 上运行的提取、转换和加载 (ETL) 作业。ETL 作业包含必须在 Amazon EMR 上运行 Apache Spark 作业、对 Salesforce 进行 API 调用以及将数据加载到 Amazon Redshift 中的任务。
ETL 作业需要自动处理故障和重试。数据工程师需要使用 Python 来编排作业。
哪项服务可以满足这些要求?

91 / 104

91.

No.191
数据工程师维护自定义 Python 脚本,这些脚本执行许多 AWS Lambda 函数使用的数据格式化过程。当数据工程师需要修改 Python 脚本时,数据工程师必须手动更新所有 Lambda 函数。
数据工程师需要一种不太手动的方式来更新 Lambda 函数。
哪种解决方案可以满足此要求?

92 / 104

92.

No.192
一家公司将客户数据存储在 Amazon S3 存储桶中。公司中的多个团队希望使用客户数据进行下游分析。公司需要确保团队无法访问有关客户的个人身份信息 (PII)。
哪种解决方案可以以最少的运营开销满足此要求?

93 / 104

93.

No.193
一家公司将其处理的数据存储在 S3 存储桶中。该公司有严格的数据访问策略。该公司使用 IAM 角色授予公司内部团队对 S3 存储桶的不同级别访问权限。
该公司希望在用户违反数据访问策略时收到通知。每个通知都必须包含违反策略的用户的用户名。
哪种解决方案可以满足这些要求?

94 / 104

94.

No.194
一家公司需要将来自第三方的客户数据加载到 Amazon Redshift 数据仓库中。该公司将订单数据和产品数据存储在同一个数据仓库中。该公司希望使用组合数据集来识别潜在的新客户。
数据工程师注意到源数据中的一个字段包含 JSON 格式的值。
数据工程师应如何以最少的努力将 JSON 数据加载到数据仓库中?

95 / 104

95.

No.195
一家公司希望分析公司存储在 MySQL 数据库中的销售记录。该公司希望将这些记录与 Salesforce 确定的销售机会相关联。
该公司每天收到 2 GB 的销售记录。该公司有 100 GB 的已确定销售机会。数据工程师需要开发一个流程来分析和关联销售记录和销售机会。该流程必须每晚运行一次。
哪种解决方案可以以最少的运营开销满足这些要求?

96 / 104

96.

No.196
一家公司将服务器日志存储在 Amazon S3 存储桶中。该公司需要将日志保留 1 年。1 年后不再需要这些日志。
数据工程师需要一个解决方案来自动删除超过 1 年的日志。
哪种解决方案能够以最少的运营开销满足这些要求?

97 / 104

97.

No.197
一家公司正在 AWS Step Functions 中设计一个无服务器数据处理工作流,该工作流涉及多个步骤。处理工作流从外部 API 中提取数据,使用多个 AWS Lambda 函数转换数据,并将转换后的数据加载到 Amazon DynamoDB 中。
公司需要工作流根据传入数据的内容执行特定步骤。
公司应使用哪种 Step Functions 状态类型来满足此要求?

98 / 104

98.

No.198
一位数据工程师在 Amazon Athena 中创建了一个名为 cloudtrail_logs 的表,以查询 AWS CloudTrail 日志并准备数据以供审核。数据工程师需要编写查询以显示自 2024 年初以来发生的错误代码错误。查询必须返回最近的 10 个错误。
哪个查询可以满足这些要求?

99 / 104

99.

No.199
一家在线零售商使用多个配送合作伙伴向客户配送产品。配送合作伙伴将订单摘要发送给零售商。零售商将订单摘要存储在 Amazon S3 中。
一些订单摘要包含有关客户的个人身份信息 (PII)。数据工程师需要检测订单摘要中的 PII,以便公司可以编辑 PII。
哪种解决方案可以以最少的运营开销满足这些要求?

100 / 104

100.

No.200
一家公司有一个 Amazon Redshift 数据仓库,用户可以使用各种 IAM 角色访问该数据仓库。每天有 100 多名用户访问该数据仓库。
公司希望根据每个用户的职位、权限以及数据的敏感程度来控制用户对对象的访问。
哪种解决方案可以满足这些要求?

101 / 104

101.

No.201
一家公司使用 Amazon DataZone 作为数据治理和业务目录解决方案。该公司将数据存储在 Amazon S3 数据湖中。该公司将 AWS Glue 与 AWS Glue 数据目录结合使用。
数据工程师需要将 AWS Glue 数据质量分数发布到 Amazon DataZone 门户。
哪种解决方案可以满足此要求?

102 / 104

102.

No.202
一家公司在 Amazon Redshift 中有一个数据仓库。为了遵守安全法规,该公司需要记录和存储数据仓库的所有用户活动和连接活动。
哪种解决方案可以满足这些要求?

103 / 104

103.

No.203
一家公司希望将数据仓库从 Teradata 迁移到 Amazon Redshift。
哪种解决方案能够以最少的运营工作量满足此要求?

104 / 104

104.

No.204
一家公司使用各种 AWS 和第三方数据存储。该公司希望将所有数据整合到中央数据仓库中以执行分析。用户需要快速响应分析查询。
该公司在直接查询模式下使用 Amazon QuickSight 来可视化数据。用户通常每天在几个小时内运行查询,并且会出现不可预测的峰值。
哪种解决方案可以以最少的运营开销满足这些要求?

Your score is

0%

最終更新: 3月 14, 2025