順番全練習問題集(答え表示)

/74

Amazon AWS Certified Data Analytics – Specialty

AWS Certified Data Analytics - Specialty 面向具备使用 AWS 服务设计、构建、保护和维护分析解决方案的实践经验和专业知识的个人。

1 / 74

1. (3)一家物联网公司正在开发一种新的小工具,可以在智能床垫上睡觉时收集睡眠模式数据。传感器会将数据传输到 Amazon S3 存储桶。每天晚上,为每张床创建大约 2 MB 的数据。必须对每个用户的数据进行分析和总结,并且必须尽快使调查结果可供访问。时间窗口和其他操作包括在该过程中。每次运行都基于使用 Python 脚本进行的测试,需要大约 1 GB 的 RAM,并且需要几分钟才能完成。

哪个选项是执行脚本的最具成本效益的方法?

2 / 74

2. (7)利用 Amazon Kinesis Data Streams,一家在线商店正在重新设计其库存管理和库存重新订购系统,以实现产品重新订购的自动化。Kinesis Producer Library (KPL) 用于通过库存管理系统将数据发布到流中。Kinesis 客户端库 (KCL) 用于通过库存重新排序机制从流中提取数据。流设置为根据需要放大或缩小。商家意识到库存重新订购系统在生产部署之前正在获取重复数据。

哪些原因可能导致重复数据?(至少选择两个。)

3 / 74

3.

(8)一家企业有一个应用程序,它使用 Amazon Kinesis 客户端库 (KCL) 从 Kinesis 数据流中读取记录。
在成功的营销努力后,该应用程序的使用量显着增加。结果,数据分析师被迫分离某些数据分片。当分片被分割时,程序开始间歇性地发出 ExpiredIteratorExceptions。
数据分析师在解决这个问题中的作用是什么?

4 / 74

4. (11)每 10 秒,流应用程序会从 Amazon Kinesis Data Streams 读取数据并立即将其写入 Amazon S3 存储桶。应用程序正在从数百个分片中读取数据。由于需要不同,批处理间隔不能修改。Amazon Athena 有权访问数据。随着时间的推移,用户会注意到查询性能下降。

哪一步可以帮助优化查询性能?

5 / 74

5.

(13)一家公司在本地维护一个包含历史数据的 PostgreSQL 数据库。该数据库由内部遗留应用程序用于只读操作。业务团队希望尽快将数据迁移到 Amazon S3 上的数据湖并对其进行增强以进行分析。
该组织在其 VPC 与其本地网络之间建立了 AWS Direct Connect 链接。数据分析专家必须提供一种解决方案,以实现业务团队的目标,同时产生最少的运营成本。
哪种解决方案满足这些标准?

6 / 74

6. (23)在线零售商使用 Amazon Redshift 存储过去的销售交易。为了遵守支付卡行业数据安全标准,组织有义务对集群内的静态数据 (PCI DSS) 进行加密。公司治理策略要求通过本地硬件安全模块 (HSM) 管理加密密钥。

哪种解决方案满足这些标准?

7 / 74

7. (24)一家企业使用 Amazon Redshift 管理一个大小约为 500 TB 的数据仓库。每隔几个小时,就会导入新数据,并在白天和晚上执行只读查询。在工作日,每天早上有好几个小时没有写入,负载非常高。某些查询需要排队,并且在这些时间内需要很长时间才能执行。企业必须优化查询执行并最大限度地减少停机时间。

哪种方法最具成本效益?

8 / 74

8.

(26)一家公司建立了一个新的选举报告网站,该网站利用 Amazon Kinesis Data Firehose 将完整的 AWS WAF 日志传输到使用 Amazon Kinesis Data Firehose 的 Amazon S3 存储桶。
该组织现在正在寻找一种低成本的解决方案,以使用日志可视化进行这种罕见的数据分析,而开发工作很少。
哪种解决方案满足这些标准?

9 / 74

(33)一家金融机构希望使用 Amazon Kinesis Data Streams 捕获大量交易数据以进行实时分析。该企业利用
PutRecord 使用 Amazon Kinesis 向其提供数据,并且在一天中的特定时间看到网络中断。公司希望准确地获得一次。
整个处理流程中的语义。

9. 企业应该采取什么行动来获得这些特征?

10 / 74

10.

(32)网络设备制造商拥有数百万客户。每小时从设备收集数据并保存在 Amazon S3 数据湖中。
该组织对过去 24 小时的数据流记录进行分析,以发现异常并诊断和解决用户困难。此外,该组织还检查了两年前的历史记录,以发现趋势并确定发展领域。
数据流日志中包含许多参数,包括日期、时间戳、源 IP 和目标 IP。每天,大约有 100 亿次事件发生。
应该如何保存这些数据才能获得最佳性能?

11 / 74

11. (35)一家制造企业将其数据存储在 Amazon S3 上。该组织打算使用 AWS Lake Formation 在粒度级别保护此类数据资产。Apache Parquet 用于存储数据。该公司已为顾问指定了构建数据湖的最后期限。

顾问应如何开发满足这些要求的最具成本效益的解决方案?

12 / 74

12. (40)某大学希望使用 Amazon Kinesis Data Firehose 在 Amazon S3 中收集 JSON 格式的批次水质值。数据来自分布在附近湖泊上的 50 个传感器。学生将使用 Amazon Athena 查询存储的数据,以跟踪记录参数随时间的变化,例如水温或酸度。该项目引起了越来越多的兴趣,促使该机构重新考虑如何维护数据。

哪种数据格式和分区方案将带来最大的成本节约?(选择两个。)

13 / 74

13. (43)一家重要的金融机构目前正在执行其 ETL 流程。此方法包括将数据从 Amazon S3 传输到 Amazon Redshift 集群。该组织希望以最具成本效益的方式将数据集加载到 Amazon Redshift。

哪些步骤序列将满足这些条件?(选择两个。)

14 / 74

14. (49)一家著名的机构设定了促进学生多样性的战略目标。数据分析团队现在正在开发一个带有数据可视化的仪表板,让利益相关者可以看到历史模式。必须使用 Microsoft Active Directory 对所有访问进行身份验证。需要对传输中的数据和静态数据进行加密。

哪种解决方案满足这些标准?

15 / 74

15. (50)一家金融机构使用 Amazon S3 来托管数据湖,并使用 Amazon Redshift 集群来托管数据仓库。该公司利用 Amazon QuickSight 创建控制面板,并希望保护从其本地 Active Directory 访问 Amazon QuickSight。

应该如何保护数据?

16 / 74

16.

(59)一家公司希望使用自主机器学习 (ML) 随机森林 (RCF) 技术来展示复杂的现实世界情况,包括识别季节性和趋势、去除异常值和填补缺失数据。
从事该项目的团队是非技术性的,并且正在寻求尽可能少的管理开销。
哪种解决方案将满足这些标准?

17 / 74

17. (63)一家跨国制药公司从位于全球的各种测试中心获取新药的测试结果。调查结果以数百万个 1 KB 大小的 JSON 对象的形式上传到公司的 Amazon S3 存储桶。数据工程团队必须分析这些文件,将它们转换为 Apache Parquet,然后将它们放入 Amazon Redshift 以供数据分析师进行仪表板报告。工程团队使用 AWS Glue 处理项目,使用 AWS Step Functions 编排流程,并使用 Amazon CloudWatch 安排作业。
最近安装了额外的测试设施,处理文件所需的时间也在增加。

什么能最有效地减少处理数据所需的时间?

18 / 74

18. (64)一家金融机构目前正在使用密集存储 (DS) 节点的 Amazon Redshift 集群上存储敏感数据。在审计期间发现集群未加密。根据合规标准,必须使用支持自动密钥轮换的硬件安全模块 (HSM) 来保护包含敏感数据的数据库。

为确保合规性,需要哪些程序顺序?(选择两个。)

19 / 74

19. (72)一家从遥远的建筑工地监测天气状况的公司正在实施一个系统,该系统将从以下两个气象站收集温度数据。

✑ A 站,配备十个传感器
✑ B 站,配备五个传感器

现场主题专家安装了这些气象站。
每个传感器都由一个唯一的 ID 标识。Amazon Kinesis Data Streams 将用于从每个传感器收集数据。
基于传入和传出数据的总吞吐量形成具有两个分片的单个 Amazon Kinesis 数据流。根据站名生成两个分区键。在测试过程中,来自 A 站的数据会遇到瓶颈,而来自 B 站的数据则不会。总流吞吐量经验证小于分配的 Kinesis Data Streams 吞吐量。

如何在不增加系统总成本和复杂性的情况下解决这一瓶颈,同时满足数据收集的质量标准?

20 / 74

20. (74)一家保险公司拥有 JSON 格式的原始数据,这些数据通过 Amazon Kinesis Data Firehose 传输流临时传输到 Amazon S3 存储桶。每 8 小时,AWS Glue 爬虫计划更新 S3 存储桶的数据目录中包含的表的架构。数据分析师使用 Apache Spark SQL 分析 Amazon EMR 上的数据,Amazon EMR 使用 AWS Glue 数据目录作为元存储进行配置。据数据分析师称,他们有时会获得过时的数据。数据工程师必须确保用户可以访问最新数据。

哪种解决方案满足这些标准?

21 / 74

21. (75)一家大型零售商已成功过渡到基于 Amazon S3 的数据湖设计。该公司的营销团队正在使用 Amazon Redshift 和 Amazon QuickSight 来分析数据以生成和展示见解。为确保营销团队获得最新的可操作数据,数据分析师利用前一天数 TB 的更改每晚进行 Amazon Redshift 刷新。
用户声称,在第一次夜间刷新后,在刷新之前执行良好的最受欢迎的仪表板中有一半现在要慢得多。Amazon CloudWatch 不显示任何通知。

以下哪一项是性能下降的最可能原因?

22 / 74

22. (76)金融服务机构必须从交易所收集每日股票交易数据并将其存储在数据仓库中。组织需要将数据直接流式传输到数据存储库中,但有时允许基于 SQL 的数据修改。该解决方案应包含复杂的分析查询,这些查询以尽可能少的延迟执行。该解决方案必须包括一个商业智能仪表板,可以识别股票价格异常的主要原因。

哪个选项最能满足企业的需求?

23 / 74

23. (79)一家电信企业正在寻找一种检测异常情况的系统,以识别欺诈电话。目前,该公司利用 Amazon Kinesis 将 JSON 格式的电话记录从其本地数据库传输到 Amazon S3。目前的数据集包含 200 列的语音通话记录。为了识别欺诈电话,该解决方案只需要检查其中的五个列。
该组织正在寻找一种利用 AWS 的低成本解决方案,并且需要很少的工作和熟悉异常检测算法。

哪种解决方案满足这些标准?

24 / 74

(81)运营团队观察到某个 ETL 应用程序的一些 AWS Glue 任务失败。AWS Glue 任务从 Amazon S3 存储桶中读取大量微小的 JSON 文件,并以其原生 Apache Parquet 格式将它们发布到单独的 S3 存储桶中。进行初步检查后,数据工程师在 AWS Glue 控制台的“历史记录”选项卡中看到以下错误消息:命令退出代码 1 不成功。
进一步检查表明,不成功任务的驱动程序内存配置文件迅速超过了 50% 利用率的安全阈值,并迅速达到 90-95%。所有执行程序的平均内存利用率仍然低于 4%。
此外,在调查关联的 Amazon CloudWatch Logs 时,数据工程师会检测到以下问题。

24.

数据工程师应该采取哪些行动以尽可能最具成本效益的方式解决问题?

25 / 74

25. (82)一家企业正在开发一种用于监控车队的服务。这家初创公司从每辆汽车上安装的设备收集物联网数据,并将其近乎实时地输入 Amazon Redshift。在一天中的不同时间间隔,车队所有者将包含车辆参考数据的 .csv 文件上传到 Amazon S3。每晚例行程序使用来自 Amazon S3 的汽车参考数据填充 Amazon Redshift。为了启用报告和仪表板,企业将来自设备的物联网数据和车辆参考数据连接起来。当他们的仪表板一天不更新时,车队所有者会感到恼火。

哪种方法会导致将参考数据上传到 Amazon S3 和在所有者的仪表板中看到更新之间的时间间隔最短?

26 / 74

26. (83)Amazon 上的 Redshift 数据库保存敏感的用户数据。需要记录以遵守监管义务。数据库身份验证尝试、连接和断开连接必须记录在日志中。此外,日志必须包含对数据库执行的每个查询的记录以及执行每个查询的数据库用户。

哪些操作会导致相关日志的创建?

27 / 74

27. (85)三个数据分析师团队使用 EMR 文件系统 (EMRFS) 在 Amazon EMR 集群上使用 Apache Hive 分析存储在每个团队的 Amazon S3 存储桶中的数据。EMR 集群上启用了 Kerberos,并设置为针对公司 Active Directory 对用户进行身份验证。由于材料非常敏感,因此必须限制每个团队的成员访问。

哪些程序将确保符合安全要求?

28 / 74

28. (86)跨国公司分为多个子组织,每个子组织在一个单独的国家/地区提供其商品和服务。公司的高级管理层需要迅速确定哪个子组织在每个国家的表现最好。所有销售数据都以 Parquet 格式保存在 Amazon S3 上。

哪种技术可以以最少的努力获得高层领导所需的图像?

29 / 74

29. (87)Amazon Athena 现在被一家公司用来查询其全球数据库。Amazon S3 用于存储 us-east-1 和 us-west-2 区域中的区域数据。数据没有加密。为了简化和集中查询流程,该组织打算利用 us-west-2 中的 Athena 从两个区域的 Amazon S3 中查询数据。解决方案必须尽可能便宜。

企业应该采取什么行动来实现这一目标?

30 / 74

30. (88)一家企业正在从本地 Apache Hadoop 集群过渡到 Amazon Elastic Map Reduce (EMR) 集群。集群仅在正常工作时间内运行。EMR 集群必须高度可用,以防止由于公司需要避免当日集群故障而导致当日集群故障。当集群在每个工作日结束时终止时,数据必须继续存在。

EMR 集群的哪些配置可以满足这些要求?(选择三个。)

31 / 74

31.

(89)一家公司希望近乎实时地增强应用程序日志,然后分析丰富的数据集。
该应用程序部署在 Amazon EC2 实例上的各个可用区中,并使用 Amazon CloudWatch Logs 记录其活动。
扩充的源保存在 Amazon DynamoDB 数据库中。
哪种解决方案满足事件收集和丰富的要求?

32 / 74

32.

(90)企业使用 Amazon Kinesis SDK 将数据写入 Kinesis Data Streams。
根据合规性规定,必须使用可旋转密钥对静态数据进行加密。
该组织希望以尽可能少的编码工作来实现此加密要求。
如何满足这些规定?

33 / 74

33. (93)一个庞大的组织使用中央数据湖跨多个部门进行分析。每个部门都有自己的 AWS 账户和自己的 Amazon S3 存储桶。每个 AWS 账户都有自己的数据目录,即 AWS Glue 数据目录。数据湖的访问要求因工作而异。助理分析师应该只拥有对其部门数据的读取权限。高级数据分析师可能有权访问许多部门的一部分列,包括他们自己的。

哪种解决方案可以满足这些访问要求,同时最大限度地减少费用和管理任务?

34 / 74

34. (94)分析软件即服务 (SaaS) 供应商希望为其客户提供自助式商业智能 (BI) 报告功能。提供商使用 Amazon QuickSight 创建这些报告。尽管报告的数据存储在多租户数据库中,但每个客户都应该只能访问自己的数据。该公司希望为消费者提供两种不同的用户角色:

✑ 只需要检查仪表板的个人可能是只读用户。
✑ 能够开发新仪表板并与其他用户共享的个人被视为超级用户。
哪个 QuickSught 功能使供应商能够满足这些标准?

35 / 74

35.

(96)一家公司构建了一项服务,该服务每天生成数百万条消息并通过 Amazon Kinesis Data Streams 流式传输这些消息。
该公司使用 Kinesis SDK 将数据写入 Kinesis Data Streams。引入几个月后,一位数据分析师发现写入性能急剧下降。数据分析师检查了分析结果,发现 Kinesis 正在限制写入请求。
数据分析师希望在不显着修改架构的情况下处理此问题。
数据分析师应该采取哪些措施来纠正这种情况?(选择两个。)

36 / 74

36. (99)一家企业创建了许多 AWS Glue 任务来验证和转换来自 Amazon S3 的数据,并将其分批加载到 Amazon RDS for MySQL 中,每天一次。ETL 操作使用 DynamicFrame 来读取 S3 数据。目前,ETL 开发人员很难在每次运行时仅处理增量数据,因为 AWS Glue 作业会在每次运行时处理整个 S3 输入数据。

哪个选项可以使开发人员以尽可能少的编码工作来解决问题?

37 / 74

37. (100)一位数据分析师正在使用 AWS Glue 组织、清理、验证和格式化 200 GB 数据集。数据分析师使用标准工作器类型开始执行任务。三小时后,AWS Glue 任务的状态仍为 RUNNING。任务运行日志不包含错误代码。数据分析师希望在不过度配置的情况下缩短完成任务所需的时间。

他或她应该采取哪些数据分析师活动?

38 / 74

38.

(106)企业使用 Amazon OpenSearch Service (Amazon Elasticsearch Service) 来存储和分析网站点击流数据。该组织每天使用 Amazon Kinesis Data Firehose 收集 1 TB 数据并将一天的数据存储在 Amazon ES 集群中。
该组织在 Amazon ES 索引上的查询性能非常缓慢,并且在尝试使用 Kinesis Data Firehose 发布到索引时有时会遇到问题。
Amazon ES 集群由十个节点组成,每个节点执行一个索引和三个专用主节点。每个数据节点设置有 1.5 TB 的 Amazon EBS 存储,集群包含 1,000 个分片。有时,集群日志包含 JVMMemoryPressure 问题。
哪个选项将优化 Amazon ES 的性能?

39 / 74

39.

(110)一家专门从事智能家居自动化的公司必须有效地摄取和分析来自各种链接设备和传感器的信息。这些通信的大部分由几个小文件组成。
这些消息由 Amazon Kinesis Data Streams 提取,并使用 Kinesis 数据流的消费者应用程序发布到 Amazon S3。然后通过基于 Amazon EMR 的管道处理 Amazon S3 消息数据,并由预定的 PySpark 进程提供支持。
数据平台团队控制数据处理,关注下游数据处理效率和成本。他们希望保持对 PySpark 的使用。
哪种解决方案优化了数据处理效率并且架构完善?

40 / 74

40. (111)出于分析目的,一家航空公司一直在收集有关航班活动的统计数据。最近完成的概念验证强调了该公司如何为数据分析师提供洞察力,以帮助他们提高准时出发。概念证明使用包含 .csv 格式指标的 Amazon S3 对象和用于数据查询的 Amazon Athena。随着数据量的增长,数据分析师希望优化存储解决方案以最大限度地提高查询速度。

随着数据湖规模的扩大,数据分析师应该采取哪些选择来优化性能?(选择三个。)

41 / 74

41. (113)一组数据科学家想要检查市场趋势数据,以便为他们的组织制定新的投资策略。趋势数据大量来自五个不同的数据源。该团队希望利用 Amazon Kinesis 来促进他们的使用案例。该团队使用类似 SQL 的查询分析趋势,并希望发送警报以响应趋势中某些值得注意的模式。此外,数据科学家希望将数据存储到 Amazon S3 以进行保存和历史再处理,如果可行,可以使用 AWS 托管服务。团队希望尽可能采用最便宜的选择。

哪种解决方案满足这些标准?

42 / 74

42.

(116)零售组织使用 Amazon Athena 对 AWS Glue 数据目录进行临时搜索。数据分析团队负责公司的数据目录和数据访问。数据分析团队希望对查询进行分区并管理在各种工作负载和团队之间执行它们的成本。
在理想情况下,数据分析师希望组织团队内不同用户执行的查询,将查询结果存储在每个团队的唯一 Amazon S3 存储桶中,并对数据目录的搜索施加成本限制。
哪种解决方案满足这些标准?

43 / 74

43. (118)一家公司在全国各地的道路上提供收费服务,并收集数据以更好地了解交通模式。分析师一直在寻求进行近实时流量统计的选项。该组织有兴趣开发一个摄取管道,该管道将所有数据输入 Amazon Redshift 集群,并在某个收费站的收费流量低于预定义阈值时通知运营员工。Amazon S3 用于存储站数据和相关的阈值。

在满足这些要求方面,哪种策略最有效?

44 / 74

44. (121)数据分析师正在使用存储在 Amazon Redshift 中的整合销售数据创建 Amazon QuickSight 控制面板。必须控制仪表板,以便澳大利亚悉尼的销售人员只能访问澳大利亚数据,而纽约的销售人员只能看到来自美国 (US) 的数据。

数据分析师应采取哪些步骤来保证足够的数据安全性?

45 / 74

45.

(124)一家金融机构使用 Amazon S3 作为其数据湖,并使用多节点 Amazon Redshift 集群作为其数据仓库,数据中包含的数据文件。
每个数据文件根据其数据源排列在一个文件夹中。使用单独的数据文件,所有数据文件都导入到 Amazon Redshift 集群中的单个表中。
COPY 命令用于数据文件的每个位置。使用此方法将所有数据文件加载到 Amazon Redshift 需要很长时间。用户想要更快的响应时间。
在保持数据文件在 S3 数据湖中的隔离的同时几乎不增加成本的解决方案。
哪种解决方案满足这些标准?

46 / 74

46. (125)共享工作空间公司的数据工程团队的任务是为空间预订系统创建的所有网络日志开发一个整合的日志系统。该公司运营着一组 Amazon EC2 实例,用于处理基于 Web 的共享空间预订请求。数据工程团队的目标是将所有博客聚合成一个允许近实时搜索的服务。团队对管理日志系统的维护和操作不感兴趣。

哪个选项使数据工程团队能够有效地在 AWS 上配置 Web 日志系统?

47 / 74

47. (127)一家移动游戏公司希望从他们的游戏应用程序中收集数据,并使其立即可供分析。每条数据记录的大小约为 20 KB。该公司专注于从每个设备中获得尽可能高的吞吐量。此外,该公司打算构建一个能够为每个用户提供专用吞吐量的数据流处理程序。

哪种解决方案可以实现这一目标?

48 / 74

48. (129)一家企业创建了一个 Apache Hive 脚本来批量处理存储在 Amazon S3 中的数据。该脚本必须每天执行一次,并且输出存储在 Amazon S3 中。该公司测试了该脚本,发现它在一个小型的三节点本地集群上运行不到 30 分钟。

哪种方法是调度和运行脚本最便宜的方法?

49 / 74

49. (130)一家企业想要对存储在 Amazon S3 上的 Elastic Load Balancing 的日志进行分析。数据分析师必须能够查询特定年份、月份或日期的整个数据库。此外,数据分析师应该能够对列的子集进行查询。该公司的运营成本低,是最具成本效益的选择。

哪种技术可以满足这些日志数据优化和查询的需求?

50 / 74

(135)一家企业正在构建数据湖,需要从关系数据库中提取数据,包括时间序列数据。
该公司希望通过使用托管服务来做到这一点。将增量数据从源获取到 Amazon S3 的过程需要每日计划。
在满足这些要求方面,哪种策略最具成本效益?

51 / 74

51. (142)一家企业打算在 Amazon S3 上建立一个数据湖。该组织希望根据使用模式和成本限制实施分层存储。支持来自旧客户端的 JDBC 连接、支持联合访问控制的元数据管理以及利用 PySpark 和 Scala 的基于批处理的 ETL 都是该解决方案的必需组件。运营管理应该是最小的。

哪个组件组合满足这些要求?(选择三个。)

52 / 74

52. (143)一家企业正在以 100 MBps 的速率将其大量计费数据流式传输到 Amazon Kinesis Data Streams。数据分析师按账户 ID 对数据进行分区,以确保与特定账户关联的所有记录都存储在同一个 Kinesis 分片中,并保留该顺序。在使用 Kinesis Java SDK 开发自定义使用者时,数据分析师发现帐户 ID 的消息有时会出现乱序。进一步分析表明,乱序消息似乎来自同一帐户 ID 的不同分片,并且在进行流调整大小时可见。

这种行为的理由是什么,补救措施是什么?

53 / 74

53. (144)在 AWS 上,软件企业运行一个每周接收更新的应用程序。作为应用程序测试过程的一部分,必须构建一个解决方案来检查每个 Amazon EC2 实例的日志文件,以确保应用程序在每次部署后继续正常运行。收集和分析解决方案应该是高度可访问的,在显示新数据时几乎没有延迟。

公司应该使用哪种技术来收集和分析日志?

54 / 74

54. (145)一家技术企业正在开发用于可视化和分析时间敏感数据的仪表板。数据将通过 Amazon Kinesis Data Firehose 以 60 秒的黄油间隔摄取。仪表板必须近乎实时地显示数据。

哪种可视化解决方案满足这些标准?

55 / 74

55. (146)一位数据分析专家正在使用 AWS Glue 自动提取提交到 Amazon S3 存储桶的压缩文件。数据接收管道应该能够进行增量处理。

数据分析专业人员应使用哪个 AWS Glue 功能来完成此任务?

56 / 74

56. (150)一家公司利用 AWS 托管一个数据湖,该数据湖从多个业务部门提取数据并使用 Amazon Athena 执行搜索。Amazon S3 与 AWS Glue 数据目录一起用作存储层。该组织希望使其数据科学家和业务分析师能够访问数据。但是,组织必须首先根据用户角色和职责来规范 Athena 的数据访问。

企业应该怎么做才能以尽可能少的运营开销来实施这些访问限制?

57 / 74

57. (151)一家企业在 Amazon S3 上保存了 100 万份扫描文档作为图片文件。这些文件包括打印的申请表,其中包含申请人的姓名、申请日期、申请类型和申请文本等信息。该公司创建了一个机器学习系统,可以从扫描的文档中提取元数据信息。该组织希望使内部数据分析师能够根据申请人的姓名、申请日期或申请内容来检查和定位申请。此外,应下载原始照片。成本管理在查询性能方面处于次要地位。

哪种解决方案可以在满足要求的同时产生洞察力来组织照片和信息?

58 / 74

58. (153)一家公司在全球拥有配备物联网设备的设施。Amazon Kinesis Data Streams 用于将数据从设备发送到 Amazon S3。该组织的运营团队希望从物联网数据中获得洞察力,以便在接收期间检查数据质量。必须近乎实时地提取洞察力,并且必须将输出记录到 Amazon DynamoDB 以供进一步分析。

哪种解决方案满足这些标准?

59 / 74

59.

(156)一家在线游戏公司使用源自 Kinesis 数据流的 Amazon Kinesis Data Analytics SQL 应用程序。
源代码为程序提供了三个非空字段:player_id、score 和 us_5_digit_zip_code。
一位数据分析师创建了一个 .csv 映射文件,该文件将有限数量的 us_5_digit_zip_code 值转换为地区代码。
如果存在区域代码,数据分析师必须将其作为 Kinesis Data Analytics 应用程序的额外输出包含在内。
数据分析师应如何在将支出降至最低的同时实现这一目标?

60 / 74

60. (163)一家媒体组织希望对其 Amazon S3 数据湖中存储的数据进行机器学习和分析。为了让公司的消费者开发报告,必须满足两个数据转换标准:

✑ 每天转换 300 GB 的不同文件格式的数据,并在预定时间登陆 Amazon S3。
✑ 对驻留在 S3 数据湖中的 TB 级存档数据进行一次性转换。

哪种技术组合在满足公司数据转换需求方面最具成本效益?(选择三个。)

61 / 74

(56)一家公司希望通过扩展其推荐引擎的功能来提高客户对其智能家居系统的满意度。每个传感器都使用 Java Kinesis Producer Library (KPL) 将其分层 JSON 数据异步提交到 Amazon Kinesis Data Streams。根据从故障传感器集合中收集的统计数据,当传感器发生故障时,其记录的数据并不总是传递到云端。
该组织需要一个能够对最新传感器数据进行近实时分析的系统。

61. 哪种解决方案可以让企业满足这些标准?

62 / 74

62.

(54)一家营销公司希望增强其商业智能和报告能力。该组织在整个规划过程中与主要利益相关者进行了访谈,并了解到以下内容:
✑ 运营团队生成当月数据的每小时报告。
✑ 销售团队希望使用大量 Amazon QuickSight 控制面板来提供每个类别最近 30 天的滚动视图。此外,销售团队希望在数据到达报告后端时立即访问数据。
✑ 财务团队每天为上个月的数据生成报告,每月为过去 24 个月的数据生成报告。
目前,该系统有 400 TB 的数据,预计每月增加 100 TB。该组织正在寻找可以想象的最具成本效益的选择。
哪个选项最能满足企业的需求?

63 / 74

63.

(48)一家企业希望通过查看前三个月的用户活动来进行用户流失研究。每天,数百万用户创建 1.5 TB 的未压缩数据。为了达到查询性能目标,需要一个 30 节点的 Amazon Redshift 集群,每个节点具有 2.56 TB 的固态驱动器 (SSD) 存储。
该公司打算对一年的历史数据进行额外检查,以确定哪些功能最受欢迎。该分析将每周进行一次。
哪种方法最具成本效益?

64 / 74

64.

(30)一家企业正在寻求降低其数据和分析平台的成本。该组织正在将各种数据源中的各种 .csv 和 JSON 文件导入 Amazon S3。预计每天将接收 50 GB 的数据。该公司正在使用 Amazon Athena 直接查询 Amazon S3 中的原始数据。大多数搜索汇总了过去 12 个月的数据,而很少访问超过 5 年的数据。一个典型的查询将搜索大约 500 MB 的数据,并应在不到一分钟的时间内提供结果。出于合规目的,必须永久存储原始数据。
哪个选项最能满足企业的需求?

65 / 74

65. (147)每天,一家大型拼车公司在全球雇佣数千名司机,为数百万独特的消费者提供服务。该组织已选择 Amazon Redshift 作为迁移现有数据集市的平台。下表包含在当前架构中。

✑ 关于已完成游乐设施的信息的行程事实表。
✑ 驱动器配置文件的驱动器尺寸表。
✑ 包含客户资料信息的客户事实表。

该公司按日期和目的地分析旅行信息,以确定区域盈利能力。司机的信息很少更新。客户资料会定期更新。
哪种表架构可以优化查询性能?

66 / 74

66.

(149) 一家医疗保健组织使用 AWS 数据和分析技术收集、摄取和存储其患者的电子健康记录 (EHR) 数据。原始 EHR 数据以 JSON 格式存储在 Amazon S3 中,并且每小时更新一次。该组织希望将数据目录和相关元数据保留在 AWS Glue 数据目录中,以便利用 Amazon Athena 或 Amazon Redshift Spectrum 提供分析。
在数据目录中定义表时适用以下条件:
✑ 选择目录表名称,不要依赖目录表命名算法。
✑ 使用加载在相应 S3 存储桶前缀中的新分区来更新表。
哪个选项以最少的努力满足这些标准?

67 / 74

67.

(160)一家媒体组织一直在分析其应用程序生成的日志数据。并发分析作业的数量最近有所增加,而旧任务的整体性能随着新作业数量的增加而下降。分区数据存储在 Amazon S3 One Zone-Infrequent Access (S3 One Zone-IA) 存储桶中,分析处理通过启用一致视图的 EMR 文件系统 (EMRFS) 在 Amazon EMR 集群上进行。一位数据分析师发现 EMR 任务节点在 Amazon S3 中列出项目需要更长的时间。
哪一步最有可能提高 Amazon S3 中日志数据访问的性能?

68 / 74

68.

(12)一家公用事业公司正在安装数千个智能电表,以获取有关能源使用的实时数据。该公司正在使用 Amazon Kinesis Data Streams 从智能仪表收集数据流。消费者应用程序使用 Kinesis 客户端库 (KCL) 检索流数据。该公司只有一个消费者应用程序可用。
在将记录写入流的时间和消费者应用程序读取记录的时间之间,企业注意到平均延迟一秒。此延迟必须减少到 500 毫秒以下。
哪种解决方案满足这些标准?

69 / 74

69.

(10)一家零售组织正在使用 Amazon Redshift 构建其数据仓库解决方案。作为该努力的一部分,该组织现在正在将数百个文件添加到其 Amazon Redshift 集群中建立的事实表中。在将数据加载到公司的事实表中时,公司需要解决方案来实现最佳吞吐量并优化集群资源的使用。
企业应该如何满足这些要求?

70 / 74

(6)营销组织正在使用 Amazon S3 来存储活动响应数据。每个活动的数据都是从一组一致的来源编译而来的。数据以 .csv 文件的形式上传到 Amazon S3。业务分析师将使用 Amazon Athena 检查每个活动的数据。该组织需要降低使用 Athena 进行持续数据分析的成本。
70. 数据分析专业人员应结合执行哪些步骤来满足这些要求?(选择两个。)

71 / 74

71.

(5)一家公司每月使用 gzip 压缩一次 100 MB.csv 文件。该文件托管在 Amazon S3 Glacier 中,包含 50,000 条房产列表记录。
公司的数据分析师需要为某个供应商查询公司的部分数据。
哪种方法最具成本效益?

72 / 74

72.

(4)一家人力资源组织使用 10 节点 Amazon Redshift 集群对公司数据运行分析查询。Amazon Redshift 集群包含两张表:一张用于产品,一张用于交易,两者都有一个产品 sku 字段。这些表跨度超过 100 GB。大多数查询都使用这两个表。
组织应该采用哪种分布模式来优化这两个表的查询速度?

73 / 74

73.

(161)一家企业正在 Amazon S3 上存储历史数据集。该公司的数据工程师希望通过 Amazon Athena 使这些数据集可用于研究。此外,工程师希望利用 AWS 加密技术保护 S3 结果位置中的 Athena 查询结果。以下条件适用于加密查询结果:
✑ 使用自定义密钥对主数据集查询结果进行加密。
✑ 对所有其他查询结果使用通用加密。
✑ 为主要数据集查询提供审计跟踪,显示密钥的使用时间和用户。
哪种解决方案满足这些标准?

74 / 74

74.

(162)一位数据分析师正在开发一个系统,该系统将允许他使用 SQL 和 JDBC 连接以交互方式查询数据集。用户将能够以 Apache ORC 格式将存储在 Amazon S3 中的数据连接到存储在 Amazon OpenSearch Service (Amazon Elasticsearch Service) 和 Amazon Aurora MySQL 中的数据。
哪个选项将提供最新的信息?

Your score is

0%

 

最終更新: 8月 10, 2022