順番全練習問題集(答え表示) /74 Amazon AWS Certified Data Analytics – Specialty AWS Certified Data Analytics - Specialty 面向具备使用 AWS 服务设计、构建、保护和维护分析解决方案的实践经验和专业知识的个人。 1 / 74 1. (3)一家物联网公司正在开发一种新的小工具,可以在智能床垫上睡觉时收集睡眠模式数据。传感器会将数据传输到 Amazon S3 存储桶。每天晚上,为每张床创建大约 2 MB 的数据。必须对每个用户的数据进行分析和总结,并且必须尽快使调查结果可供访问。时间窗口和其他操作包括在该过程中。每次运行都基于使用 Python 脚本进行的测试,需要大约 1 GB 的 RAM,并且需要几分钟才能完成。 哪个选项是执行脚本的最具成本效益的方法? A.带有 Python 脚本的 AWS Lambda B.带有 Scala 作业的 AWS Glue C.带有 Apache Spark 脚本的 Amazon EMR D.带有 PySpark 作业的 AWS Glue 我认为答案应该是“A”。Lambda 是最具成本效益的解决方案,可同时满足内存和时间要求。 2 / 74 2. (7)利用 Amazon Kinesis Data Streams,一家在线商店正在重新设计其库存管理和库存重新订购系统,以实现产品重新订购的自动化。Kinesis Producer Library (KPL) 用于通过库存管理系统将数据发布到流中。Kinesis 客户端库 (KCL) 用于通过库存重新排序机制从流中提取数据。流设置为根据需要放大或缩小。商家意识到库存重新订购系统在生产部署之前正在获取重复数据。 哪些原因可能导致重复数据?(至少选择两个。) A.生产者有网络相关的超时。 B.IteratorAgeMilliseconds 指标的流值太高。 C.分片、记录处理器或两者的数量发生了变化。 D.AggregationEnabled 配置属性设置为 true。 E.max_records 配置属性设置为过高的数字。 显然,复制可以通过两种方式发生,无论是在生产者端还是在消费者端。在骄傲方面,它是由于网络延迟/超时而发生的,特别是生产者正在等待成功的确认,但由于网络故障而丢失,生产者再次发送数据直到收到确认。在消费者方面,它是由于记录处理器重启而发生的。这可能由于 4 个原因而发生。Worker 意外终止,Worker 实例被添加或删除,Shard 被合并或拆分,应用程序被部署。在任何情况下,防止重复的最佳方法是在数据中使用唯一标识符。答案应该是 A、C https://docs.aws.amazon.com/streams/latest/dev/kinesis-record-processor-duplicates.html 3 / 74 3. (8)一家企业有一个应用程序,它使用 Amazon Kinesis 客户端库 (KCL) 从 Kinesis 数据流中读取记录。 在成功的营销努力后,该应用程序的使用量显着增加。结果,数据分析师被迫分离某些数据分片。当分片被分割时,程序开始间歇性地发出 ExpiredIteratorExceptions。 数据分析师在解决这个问题中的作用是什么? A.增加处理流记录的线程数。 B.增加分配给流的 Amazon DynamoDB 表的预置读取容量单位。 C.增加分配给流的 Amazon DynamoDB 表的预置写入容量单位。 D.减少分配给流的 Amazon DynamoDB 表的预置写入容量单位。 C 是正确的。ExpiredIteratorException => 增加 WCU https://docs.aws.amazon.com/streams/latest/dev/troubleshooting-consumers.html#shard-iterator-expires-unexpectedly 4 / 74 4. (11)每 10 秒,流应用程序会从 Amazon Kinesis Data Streams 读取数据并立即将其写入 Amazon S3 存储桶。应用程序正在从数百个分片中读取数据。由于需要不同,批处理间隔不能修改。Amazon Athena 有权访问数据。随着时间的推移,用户会注意到查询性能下降。 哪一步可以帮助优化查询性能? A.合并 Amazon S3 中的文件以形成更大的文件。 B.增加 Kinesis Data Streams 中的分片数量。 C.为流应用程序添加更多内存和 CPU 容量。 D.将文件写入多个 S3 存储桶。 答案:A. 合并 Amazon S3 中的文件以形成更大的文件 5 / 74 5. (13)一家公司在本地维护一个包含历史数据的 PostgreSQL 数据库。该数据库由内部遗留应用程序用于只读操作。业务团队希望尽快将数据迁移到 Amazon S3 上的数据湖并对其进行增强以进行分析。 该组织在其 VPC 与其本地网络之间建立了 AWS Direct Connect 链接。数据分析专家必须提供一种解决方案,以实现业务团队的目标,同时产生最少的运营成本。 哪种解决方案满足这些标准? A.使用自定义的批量上传过程将数据从本地 PostgreSQL 数据库上传到 Amazon S3。使用 AWS Glue 爬虫对 Amazon S3 中的数据进行编目。使用 AWS Glue 作业来丰富结果并将结果以 Apache Parquet 格式存储在单独的 S3 存储桶中。使用 Amazon Athena 查询数据。 B.创建 Amazon RDS for PostgreSQL 数据库并使用 AWS Database Migration Service (AWS DMS) 将数据迁移到 Amazon RDS。使用 AWS Data Pipeline 从 Amazon RDS for PostgreSQL 表中复制和丰富数据,并将数据移动到 Amazon S3。使用 Amazon Athena 查询数据。 C.配置 AWS Glue 爬网程序以使用 JDBC 连接对本地数据库中的数据进行编目。使用 AWS Glue 作业丰富数据并将结果以 Apache Parquet 格式保存到 Amazon S3。创建一个 Amazon Redshift 集群并使用 Amazon Redshift Spectrum 查询数据。 D.配置 AWS Glue 爬网程序以使用 JDBC 连接对本地数据库中的数据进行编目。使用 AWS Glue 作业丰富数据并将结果以 Apache Parquet 格式保存到 Amazon S3。使用 Amazon Athena 查询数据。 这个问题说最少的操作开销......所以它应该是 D 正确答案是 D,因为 AWS Glue 可用于使用 JDBC 连接从本地数据存储中提取数据、转换数据并将数据存储在 S3 中,且操作开销最少。 https://aws.amazon.com/blogs/big-data/how-to-access-and-analyze-on-premises-data-stores-using-aws-glue/ 6 / 74 6. (23)在线零售商使用 Amazon Redshift 存储过去的销售交易。为了遵守支付卡行业数据安全标准,组织有义务对集群内的静态数据 (PCI DSS) 进行加密。公司治理策略要求通过本地硬件安全模块 (HSM) 管理加密密钥。 哪种解决方案满足这些标准? A.使用 AWS CloudHSM Classic 创建和管理加密密钥。在 VPC 中启动 Amazon Redshift 集群,并可选择使用 CloudHSM Classic 进行密钥管理。 B.创建 VPC 并在 VPC 和本地网络之间建立 VPN 连接。为本地 HSM 创建 HSM 连接和客户端证书。在 VPC 中启动集群,并可选择使用本地 HSM 存储密钥。 C.为本地 HSM 创建 HSM 连接和客户端证书。通过修改集群在现有的未加密集群上启用 HSM 加密。使用 VPN 从本地网络连接到 Amazon Redshift 集群所在的 VPC。 D.在 AWS CloudHSM 中创建本地 HSM 的副本。在 VPC 中启动集群,并可选择使用 CloudHSM 存储密钥。 选择 B A- 错误,因为需要本地 HCM C- 无法在现有的未加密集群上启用加密 D - Redshift 不支持 AWS CloudHSM。 7 / 74 7. (24)一家企业使用 Amazon Redshift 管理一个大小约为 500 TB 的数据仓库。每隔几个小时,就会导入新数据,并在白天和晚上执行只读查询。在工作日,每天早上有好几个小时没有写入,负载非常高。某些查询需要排队,并且在这些时间内需要很长时间才能执行。企业必须优化查询执行并最大限度地减少停机时间。 哪种方法最具成本效益? A.在工作负载管理 (WLM) 队列中启用并发扩展。 B.在高峰时段使用 AWS 管理控制台添加更多节点。将分发方式设置为 ALL。 C.使用弹性调整大小在高峰时间快速添加节点。不需要时删除节点。 D.使用快照、还原和调整大小操作。切换到新的目标集群。 A 正确。 B、C、D = 错误,因为他们都在谈论不划算的调整大小或缩放。 https://docs.aws.amazon.com/redshift/latest/dg/concurrency-scaling.html 8 / 74 8. (26)一家公司建立了一个新的选举报告网站,该网站利用 Amazon Kinesis Data Firehose 将完整的 AWS WAF 日志传输到使用 Amazon Kinesis Data Firehose 的 Amazon S3 存储桶。 该组织现在正在寻找一种低成本的解决方案,以使用日志可视化进行这种罕见的数据分析,而开发工作很少。 哪种解决方案满足这些标准? A.使用 AWS Glue 爬网程序从日志中创建和更新 Glue 数据目录中的表。使用 Athena 执行临时分析并使用 Amazon QuickSight 开发数据可视化。 B.创建第二个 Kinesis Data Firehose 传输流以将日志文件传输到 Amazon OpenSearch Service (Amazon Elasticsearch Service)。使用 Amazon ES 对日志执行基于文本的搜索以进行临时分析,并使用 OpenSearch Dashboards (Kibana) 进行数据可视化。 C.创建 AWS Lambda 函数以将日志转换为 .csv 格式。然后将该函数添加到 Kinesis Data Firehose 转换配置。使用 Amazon Redshift 使用 SQL 查询对日志执行临时分析,并使用 Amazon QuickSight 开发数据可视化。 D.创建一个 Amazon EMR 集群并使用 Amazon S3 作为数据源。创建 Apache Spark 作业以执行临时分析并使用 Amazon QuickSight 开发数据可视化。 答案是 A,因为它具有成本效益。与昂贵的 Elasticsearch Cluster 相比,Athena 和 Quicksight Standard 非常具有成本效益。 B - 如果问题是为了获得日志分析的最佳解决方案,这应该是答案(这不符合成本效益) C 和 D 可以被排除当没有它们就可以满足要求时,包含这么多服务的明显原因 9 / 74 (33)一家金融机构希望使用 Amazon Kinesis Data Streams 捕获大量交易数据以进行实时分析。该企业利用 PutRecord 使用 Amazon Kinesis 向其提供数据,并且在一天中的特定时间看到网络中断。公司希望准确地获得一次。 整个处理流程中的语义。 9. 企业应该采取什么行动来获得这些特征? A.设计应用程序,以便它可以在处理过程中删除重复项,并在每条记录中嵌入一个唯一 ID。 B.依靠 Amazon Kinesis Data Analytics 的处理语义来避免重复处理事件。 C.设计数据生成器,使事件不会被多次摄取到 Kinesis Data Streams 中。 D.依赖于 Amazon EMR 中包含的 Apache Flink 和 Apache Spark Streaming 的唯一一种处理语义。 答案 A. 设计应用程序,以便在处理过程中通过在每条记录中嵌入唯一 ID 来删除重复项。生产者重试 考虑一个生产者在调用 PutRecord 之后但在收到来自 Amazon Kinesis Data Streams 的确认之前经历了与网络相关的超时。生产者无法确定记录是否已传送到 Kinesis Data Streams。假设每条记录对应用程序都很重要,生产者将被写入使用相同数据重试调用。如果对同一数据的两个 PutRecord 调用均已成功提交到 Kinesis Data Streams,则将有两条 Kinesis Data Streams 记录。虽然这两条记录具有相同的数据,但它们也具有唯一的序列号。需要严格保证的应用程序应在记录中嵌入主键,以便稍后在处理时删除重复项。请注意,与消费者重试导致的重复数量相比,生产者重试导致的重复数量通常较低。 参考:https://docs.aws.amazon.com/streams/latest/dev/kinesis-record-processor-duplicates.html 10 / 74 10. (32)网络设备制造商拥有数百万客户。每小时从设备收集数据并保存在 Amazon S3 数据湖中。 该组织对过去 24 小时的数据流记录进行分析,以发现异常并诊断和解决用户困难。此外,该组织还检查了两年前的历史记录,以发现趋势并确定发展领域。 数据流日志中包含许多参数,包括日期、时间戳、源 IP 和目标 IP。每天,大约有 100 亿次事件发生。 应该如何保存这些数据才能获得最佳性能? A.在 Apache ORC 中按日期分区并按源 IP 排序 B.在按日期分区并按源 IP 排序的压缩 .csv 中 C.在 Apache Parquet 中按源 IP 分区并按日期排序 D.在按源 IP 分区并按日期排序的压缩嵌套 JSON 中 答案是 A。在 Apache ORC 中按日期分区并按源 IP 排序。因为该公司分析了 2 年前的历史日志以及过去 24 小时的数据。因此,数据应根据日期进行分区并按 IP 排序,而不是相反。ORC 是柱状的,因此是首选的数据格式。 B 和 D = 错误,使用列格式。 C = 错误,按日期划分所以历史数据和被分开。 11 / 74 11. (35)一家制造企业将其数据存储在 Amazon S3 上。该组织打算使用 AWS Lake Formation 在粒度级别保护此类数据资产。Apache Parquet 用于存储数据。该公司已为顾问指定了构建数据湖的最后期限。 顾问应如何开发满足这些要求的最具成本效益的解决方案? A.运行 Lake Formation 蓝图以将数据移动到 Lake Formation。Lake Formation 获得数据后,对 Lake Formation 应用权限。 B.要创建数据目录,请在现有 Parquet 数据上运行 AWS Glue 爬网程序。注册 Amazon S3 路径,然后通过 Lake Formation 应用权限以提供细粒度的安全性。 C.在 Amazon EC2 实例上安装 Apache Ranger 并与 Amazon EMR 集成。使用 Ranger 策略,为 Amazon S3 中的现有数据资产创建基于角色的访问控制。 D.为不同的用户和组创建多个 IAM 角色。将 IAM 角色分配给 Amazon S3 中的不同数据资产,以创建基于表和基于列的访问控制。 我将选择选项 B。这里的数据已经以镶木地板格式存在于 S3 存储桶中。我们只需要在创建目录后将 S3 存储桶注册到 Lake Formation。如果必须将数据从其他来源带到 S3,蓝图是理想的方式。来自 Lake Formation 常见问题解答:Lake Formation 如何在数据湖中组织我的数据?答:您可以使用 Lake Formation 中可用的蓝图之一将数据摄取到您的数据湖中。Lake Formation 创建 Glue 工作流,用于抓取源表、提取数据并将其加载到 S3。在 S3 中,Lake Formation 为您组织数据,设置分区和数据格式以优化性能和成本。对于 Amazon S3 中已有的数据,您可以使用 Lake Formation 注册这些存储桶来管理它们。 12 / 74 12. (40)某大学希望使用 Amazon Kinesis Data Firehose 在 Amazon S3 中收集 JSON 格式的批次水质值。数据来自分布在附近湖泊上的 50 个传感器。学生将使用 Amazon Athena 查询存储的数据,以跟踪记录参数随时间的变化,例如水温或酸度。该项目引起了越来越多的兴趣,促使该机构重新考虑如何维护数据。 哪种数据格式和分区方案将带来最大的成本节约?(选择两个。) A.使用 Snappy 压缩以 Apache Avro 格式存储数据。 B.按年、月、日对数据进行分区。 C.以 Apache ORC 格式存储数据,不使用压缩。 D.使用 Snappy 压缩以 Apache Parquet 格式存储数据。 E.按传感器、年、月和日对数据进行分区。 D毫无疑问:可以节省 30% 到 90% 的每次查询成本,并通过压缩、分区和将数据转换为列格式来获得更好的性能。B:用于分区 13 / 74 13. (43)一家重要的金融机构目前正在执行其 ETL 流程。此方法包括将数据从 Amazon S3 传输到 Amazon Redshift 集群。该组织希望以最具成本效益的方式将数据集加载到 Amazon Redshift。 哪些步骤序列将满足这些条件?(选择两个。) A.使用带有清单文件的 COPY 命令将数据加载到 Amazon Redshift。 B.使用 S3DistCp 将文件加载到 Amazon Redshift。 C.在加载过程中使用临时登台表。 D.使用 UNLOAD 命令将数据上传到 Amazon Redshift。 E.使用 Amazon Redshift Spectrum 从 Amazon S3 查询文件。 A 和 c,因为目标是将数据从 s3 移动到 redshift,而在 E 中我们没有移动。 14 / 74 14. (49)一家著名的机构设定了促进学生多样性的战略目标。数据分析团队现在正在开发一个带有数据可视化的仪表板,让利益相关者可以看到历史模式。必须使用 Microsoft Active Directory 对所有访问进行身份验证。需要对传输中的数据和静态数据进行加密。 哪种解决方案满足这些标准? A.配置为使用 SAML 2.0 执行身份联合的 Amazon QuickSight 标准版。和默认加密设置。 B.配置为使用 SAML 2.0 和默认加密设置执行身份联合的 Amazon QuickSight 企业版。 C.使用 AD 连接器使用 Active Directory 进行身份验证的 Amazon QuckSight 标准版。将 Amazon QuickSight 配置为使用导入 AWS KMS 的客户提供的密钥。 D.Amazon QuickSight 企业版使用 AD 连接器使用 Active Directory 进行身份验证。将 Amazon QuickSight 配置为使用导入 AWS KMS 的客户提供的密钥。 B 是我的答案 - 使用 KMS 密钥无法在 SPICE 中休息。它仅支持 AWS 托管的密钥 D 不正确,因为在 Amazon QuickSight 企业版中,SPICE 中的静态数据是使用带有 AWS 托管密钥的块级加密进行加密的。您不能使用导入 AWS KMS 的客户提供的密钥。 15 / 74 15. (50)一家金融机构使用 Amazon S3 来托管数据湖,并使用 Amazon Redshift 集群来托管数据仓库。该公司利用 Amazon QuickSight 创建控制面板,并希望保护从其本地 Active Directory 访问 Amazon QuickSight。 应该如何保护数据? A. 在公司网络环境中使用 Active Directory 连接器和单点登录 (SSO)。 B. 使用 VPC 终端节点从 Amazon QuickSight 连接到 Amazon S3,并使用 IAM 角色对 Amazon Redshift 进行身份验证。 C. 通过创建一个 S3 终端节点来连接 Amazon QuickSight 和一个 VPC 终端节点来连接到 Amazon Redshift,从而建立安全连接。 D. 将 Amazon QuickSight 和 Amazon Redshift 放在安全组中,并使用 Amazon S3 终端节点将 Amazon QuickSight 连接到 Amazon S3。 答案是A。带有企业版的 Active Directory,Quicksight 企业版允许通过 AD 连接器进行连接。 16 / 74 16. (59)一家公司希望使用自主机器学习 (ML) 随机森林 (RCF) 技术来展示复杂的现实世界情况,包括识别季节性和趋势、去除异常值和填补缺失数据。 从事该项目的团队是非技术性的,并且正在寻求尽可能少的管理开销。 哪种解决方案将满足这些标准? A. 使用 AWS Glue ML 转换创建预测,然后使用 Amazon QuickSight 可视化数据。 B. 使用 Amazon QuickSight 可视化数据,然后使用 ML 支持的预测来预测关键业务指标。 C. 使用来自 AWS Marketplace 的预构建 ML AMI 创建预测,然后使用 Amazon QuickSight 可视化数据。 D. 使用计算字段创建新预测,然后使用 Amazon QuickSight 可视化数据。 答案 B. 使用 Amazon QuickSight 可视化数据,然后使用 ML 支持的预测来预测关键业务指标。 17 / 74 17. (63)一家跨国制药公司从位于全球的各种测试中心获取新药的测试结果。调查结果以数百万个 1 KB 大小的 JSON 对象的形式上传到公司的 Amazon S3 存储桶。数据工程团队必须分析这些文件,将它们转换为 Apache Parquet,然后将它们放入 Amazon Redshift 以供数据分析师进行仪表板报告。工程团队使用 AWS Glue 处理项目,使用 AWS Step Functions 编排流程,并使用 Amazon CloudWatch 安排作业。 最近安装了额外的测试设施,处理文件所需的时间也在增加。 什么能最有效地减少处理数据所需的时间? A. 使用 AWS Lambda 将小文件分组为更大的文件。将文件写回 Amazon S3。使用 AWS Glue 处理文件并将它们加载到 Amazon Redshift 表中。 B. 在摄取原始输入文件时使用 AWS Glue 动态框架文件分组选项。处理文件并将它们加载到 Amazon Redshift 表中。 C. 使用 Amazon Redshift COPY 命令将文件从 Amazon S3 直接移动到 Amazon Redshift 表中。处理 Amazon Redshift 中的文件。 D. 使用 Amazon EMR 而不是 AWS Glue 对小输入文件进行分组。处理 Amazon EMR 中的文件并将它们加载到 Amazon Redshift 表中。 A 效率不高,因为您正在创建一个额外的步骤(S3 中的“暂存”位置来存储这些大文件)。更不用说现在您要支付双倍的存储成本 B 是对的。问题说输入文件格式是json,输出是parquet,所以DynamicFrames with groupFiles可以帮助输入json格式 18 / 74 18. (64)一家金融机构目前正在使用密集存储 (DS) 节点的 Amazon Redshift 集群上存储敏感数据。在审计期间发现集群未加密。根据合规标准,必须使用支持自动密钥轮换的硬件安全模块 (HSM) 来保护包含敏感数据的数据库。 为确保合规性,需要哪些程序顺序?(选择两个。) A. 使用具有自动密钥轮换功能的客户端和服务器证书建立与 HSM 的可信连接。 B. 使用 HSM 加密选项和自动密钥轮换修改集群。 C. 创建一个新的 HSM 加密的 Amazon Redshift 集群并将数据迁移到新集群。 D. 通过 AWS CLI 启用具有密钥轮换功能的 HSM。 E. 在 HSM 中启用椭圆曲线 Diffie-Hellman Ephemeral (ECDHE) 加密。 答案应该是 A 和 C。 使用 HSM,您必须创建一个新集群(消除 B)。请参阅下面的链接,它明确指出“您无法通过修改集群来启用硬件安全模块 (HSM) 加密。相反,创建一个新的 HSM 加密集群并将您的数据迁移到新集群” https://docs.aws.amazon.com/redshift/latest/mgmt/changing-cluster-encryption.html 在同一个链接中,它说您已经创建了证书。我认为它不是 D,因为它可以在您设置集群时已经配置。(选项 C) 19 / 74 19. (72)一家从遥远的建筑工地监测天气状况的公司正在实施一个系统,该系统将从以下两个气象站收集温度数据。 ✑ A 站,配备十个传感器 ✑ B 站,配备五个传感器 现场主题专家安装了这些气象站。 每个传感器都由一个唯一的 ID 标识。Amazon Kinesis Data Streams 将用于从每个传感器收集数据。 基于传入和传出数据的总吞吐量形成具有两个分片的单个 Amazon Kinesis 数据流。根据站名生成两个分区键。在测试过程中,来自 A 站的数据会遇到瓶颈,而来自 B 站的数据则不会。总流吞吐量经验证小于分配的 Kinesis Data Streams 吞吐量。 如何在不增加系统总成本和复杂性的情况下解决这一瓶颈,同时满足数据收集的质量标准? A. 增加 Kinesis Data Streams 中的分片数量以提高并行度。 B. 使用两个分片为 Station A 创建一个单独的 Kinesis 数据流,并将 Station A 传感器数据流式传输到新流。 C. 修改分区键以使用传感器 ID 而不是站名。 D. 将 A 站的传感器数量从 10 个减少到 5 个。 A、B 和 C 都有效。 但是 C 将有最小的努力和成本。 20 / 74 20. (74)一家保险公司拥有 JSON 格式的原始数据,这些数据通过 Amazon Kinesis Data Firehose 传输流临时传输到 Amazon S3 存储桶。每 8 小时,AWS Glue 爬虫计划更新 S3 存储桶的数据目录中包含的表的架构。数据分析师使用 Apache Spark SQL 分析 Amazon EMR 上的数据,Amazon EMR 使用 AWS Glue 数据目录作为元存储进行配置。据数据分析师称,他们有时会获得过时的数据。数据工程师必须确保用户可以访问最新数据。 哪种解决方案满足这些标准? A. 基于现有 Amazon Redshift 集群上的 AWS Glue 数据目录创建外部架构,以使用 Amazon Redshift Spectrum 查询 Amazon S3 中的新数据。 B. 使用带有 rate (1 hour) 表达式的 Amazon CloudWatch Events 每小时执行一次 AWS Glue 爬虫。 C. 使用 AWS CLI,将 AWS Glue 爬虫的执行计划从 8 小时修改为 1 分钟。 D. 从由 S3 存储桶上的 S3:ObjectCreated:* 事件通知触发的 AWS Lambda 函数运行 AWS Glue 爬网程序。 这是一个教科书问题。 A = 错误,无法工作,因为架构将每 8 小时更新一次。 B = 错误,不是最新的。 C = 错误,最短时间为 5 分钟。 https://aws.amazon.com/blogs/big-data/build-and-automate-a-serverless-data-lake-using-an-aws-glue-trigger-for-the-data-catalog-and-etl-jobs/ 21 / 74 21. (75)一家大型零售商已成功过渡到基于 Amazon S3 的数据湖设计。该公司的营销团队正在使用 Amazon Redshift 和 Amazon QuickSight 来分析数据以生成和展示见解。为确保营销团队获得最新的可操作数据,数据分析师利用前一天数 TB 的更改每晚进行 Amazon Redshift 刷新。 用户声称,在第一次夜间刷新后,在刷新之前执行良好的最受欢迎的仪表板中有一半现在要慢得多。Amazon CloudWatch 不显示任何通知。 以下哪一项是性能下降的最可能原因? A. 仪表板受到低效 SQL 查询的影响。 B. 对于仪表板正在运行的查询,集群规模过小。 C. 由于持续的用户工作负载,每晚的数据刷新导致 Amazon Redshift 无法自动关闭的延迟事务。 D. 每晚的数据刷新使仪表板表需要进行真空操作,由于持续的用户工作负载,Amazon Redshift 无法自动执行该操作。 正确答案是D 22 / 74 22. (76)金融服务机构必须从交易所收集每日股票交易数据并将其存储在数据仓库中。组织需要将数据直接流式传输到数据存储库中,但有时允许基于 SQL 的数据修改。该解决方案应包含复杂的分析查询,这些查询以尽可能少的延迟执行。该解决方案必须包括一个商业智能仪表板,可以识别股票价格异常的主要原因。 哪个选项最能满足企业的需求? A. 使用 Amazon Kinesis Data Firehose 将数据流式传输到 Amazon S3。使用 Amazon Athena 作为 Amazon QuickSight 的数据源来创建商业智能控制面板。 B. 使用 Amazon Kinesis Data Streams 将数据流式传输到 Amazon Redshift。使用 Amazon Redshift 作为 Amazon QuickSight 的数据源来创建商业智能控制面板。 C. 使用 Amazon Kinesis Data Firehose 将数据流式传输到 Amazon Redshift。使用 Amazon Redshift 作为 Amazon QuickSight 的数据源来创建商业智能控制面板。 D. 使用 Amazon Kinesis Data Streams 将数据流式传输到 Amazon S3。使用 Amazon Athena 作为 Amazon QuickSight 的数据源来创建商业智能控制面板。 以最小延迟运行的复杂分析查询 = REDSHIFT KDF 将数据加载到 redshift 答案 = C 23 / 74 23. (79)一家电信企业正在寻找一种检测异常情况的系统,以识别欺诈电话。目前,该公司利用 Amazon Kinesis 将 JSON 格式的电话记录从其本地数据库传输到 Amazon S3。目前的数据集包含 200 列的语音通话记录。为了识别欺诈电话,该解决方案只需要检查其中的五个列。 该组织正在寻找一种利用 AWS 的低成本解决方案,并且需要很少的工作和熟悉异常检测算法。 哪种解决方案满足这些标准? A. 使用 AWS Glue 作业将数据从 JSON 转换为 Apache Parquet。使用 AWS Glue 爬网程序发现架构并构建 AWS Glue 数据目录。使用 Amazon Athena 创建包含列子集的表。使用 Amazon QuickSight 可视化数据,然后使用 Amazon QuickSight 机器学习支持的异常检测。 B. 使用 Kinesis Data Firehose 通过运行 SQL 查询来检测来自 Kinesis 的数据流上的异常,这些查询计算所有调用的异常分数并将输出存储在 Amazon RDS 中。使用 Amazon Athena 构建数据集并使用 Amazon QuickSight 可视化结果。 C. 使用 AWS Glue 作业将数据从 JSON 转换为 Apache Parquet。使用 AWS Glue 爬网程序发现架构并构建 AWS Glue 数据目录。使用 Amazon SageMaker 构建异常检测模型,该模型可以通过从 Amazon S3 提取数据来检测欺诈调用。 D. 使用 Kinesis Data Analytics 通过运行 SQL 查询来检测来自 Kinesis 的数据流上的异常情况,该查询计算所有调用的异常分数。将 Amazon QuickSight 连接到 Kinesis Data Analytics 以可视化异常分数。 选项 A:Amazon QuickSight 使用经过验证的 Amazon 技术在数百万个指标中持续运行 ML 支持的异常检测,以发现数据中隐藏的趋势和异常值。这种异常检测使您能够获得通常隐藏在聚合中并且无法通过手动分析进行扩展的深入见解。 24 / 74 (81)运营团队观察到某个 ETL 应用程序的一些 AWS Glue 任务失败。AWS Glue 任务从 Amazon S3 存储桶中读取大量微小的 JSON 文件,并以其原生 Apache Parquet 格式将它们发布到单独的 S3 存储桶中。进行初步检查后,数据工程师在 AWS Glue 控制台的“历史记录”选项卡中看到以下错误消息:命令退出代码 1 不成功。 进一步检查表明,不成功任务的驱动程序内存配置文件迅速超过了 50% 利用率的安全阈值,并迅速达到 90-95%。所有执行程序的平均内存利用率仍然低于 4%。 此外,在调查关联的 Amazon CloudWatch Logs 时,数据工程师会检测到以下问题。 24. 数据工程师应该采取哪些行动以尽可能最具成本效益的方式解决问题? A. 将工作器类型从标准更改为 G.2X。 B. 修改 AWS Glue ETL 代码以使用“groupFiles”:“inPartition”功能。 C. 使用 AWS Glue 动态框架增加获取大小设置。 D. 修改最大容量以增加使用的总最大数据处理单元 (DPU)。 基于链接,我将选择 B https://awsfeed.com/whats-new/big-data/optimize-memory-management-in-aws-glue 25 / 74 25. (82)一家企业正在开发一种用于监控车队的服务。这家初创公司从每辆汽车上安装的设备收集物联网数据,并将其近乎实时地输入 Amazon Redshift。在一天中的不同时间间隔,车队所有者将包含车辆参考数据的 .csv 文件上传到 Amazon S3。每晚例行程序使用来自 Amazon S3 的汽车参考数据填充 Amazon Redshift。为了启用报告和仪表板,企业将来自设备的物联网数据和车辆参考数据连接起来。当他们的仪表板一天不更新时,车队所有者会感到恼火。 哪种方法会导致将参考数据上传到 Amazon S3 和在所有者的仪表板中看到更新之间的时间间隔最短? A. 当参考数据上传到 Amazon S3 时,使用 S3 事件通知触发 AWS Lambda 函数将车辆参考数据立即复制到 Amazon Redshift。 B. 创建并安排 AWS Glue Spark 作业每 5 分钟运行一次。该作业将参考数据插入 Amazon Redshift。 C. 将参考数据发送到 Amazon Kinesis Data Streams。配置 Kinesis 数据流以将参考数据实时直接加载到 Amazon Redshift。 D. 将参考数据发送到 Amazon Kinesis Data Firehose 传输流。使用 60 秒的缓冲间隔配置 Kinesis,并将数据直接加载到 Amazon Redshift。 答案:A 事件驱动需求 => S3 事件流 26 / 74 26. (83)Amazon 上的 Redshift 数据库保存敏感的用户数据。需要记录以遵守监管义务。数据库身份验证尝试、连接和断开连接必须记录在日志中。此外,日志必须包含对数据库执行的每个查询的记录以及执行每个查询的数据库用户。 哪些操作会导致相关日志的创建? A. 启用 Amazon Redshift 增强型 VPC 路由。启用 VPC 流日志以监控流量。 B. 仅允许使用 AWS IAM 访问 Amazon Redshift 数据库。使用 AWS CloudTrail 进行日志访问。 C. 使用 AWS 管理控制台或 AWS CLI 为 Amazon Redshift 启用审计日志记录。 D. 从 AWS Artifact 启用和下载审计报告。 C正确,增强的 VPC 路由强制 COPY/UNLOAD 以使用 VPC A = 错误,增强型 VPC 路由意味着 VPC 内的数据输入/输出。 B = 错误,CloudTrail 不记录数据事件,只记录配置事件。 D = 错误,胡说八道。这是一个教科书问题。 27 / 74 27. (85)三个数据分析师团队使用 EMR 文件系统 (EMRFS) 在 Amazon EMR 集群上使用 Apache Hive 分析存储在每个团队的 Amazon S3 存储桶中的数据。EMR 集群上启用了 Kerberos,并设置为针对公司 Active Directory 对用户进行身份验证。由于材料非常敏感,因此必须限制每个团队的成员访问。 哪些程序将确保符合安全要求? A. 对于 EMR 集群 Amazon EC2 实例,创建一个不授予对 Amazon S3 访问权限的服务角色。创建三个额外的 IAM 角色,每个角色都授予对每个团队的特定存储桶的访问权限。将其他 IAM 角色添加到 EC2 信任策略的集群 EMR 角色。为每个团队的 Active Directory 用户组的其他 IAM 角色创建安全配置映射。 B. 对于 EMR 集群 Amazon EC2 实例,创建一个不授予对 Amazon S3 访问权限的服务角色。创建三个额外的 IAM 角色,每个角色都授予对每个团队的特定存储桶的访问权限。将 EMR 集群 EC2 实例的服务角色添加到其他 IAM 角色的信任策略中。为每个团队的 Active Directory 用户组的其他 IAM 角色创建安全配置映射。 C. 对于 EMR 集群 Amazon EC2 实例,创建一个授予对 Amazon S3 的完全访问权限的服务角色。创建三个额外的 IAM 角色,每个角色都授予对每个团队的特定存储桶的访问权限。将 EMR 集群 EC2 实例的服务角色添加到其他 IAM 角色的信任策略中。为每个团队的 Active Directory 用户组的其他 IAM 角色创建安全配置映射。 D. 对于 EMR 集群 Amazon EC2 实例,创建一个服务角色,授予对 Amazon S3 的完全访问权限。创建三个额外的 IAM 角色,每个角色都授予对每个团队的特定存储桶的访问权限。将 EMR 集群 EC2 实例的服务角色添加到基本 IAM 角色的信任策略中。为每个团队的 Active Directory 用户组的其他 IAM 角色创建安全配置映射。 毫无疑问是 B。 如果您对 Ec2 实例角色具有完全访问权限并且没有角色匹配,那么它将回退到默认角色 [当集群应用程序通过 EMRFS 向 Amazon S3 发出请求时,EMRFS 会评估顶部的角色映射-降低它们出现在安全配置中的顺序。如果通过 EMRFS 发出的请求与任何标识符都不匹配,EMRFS 将回退到使用集群 EC2 实例的服务角色。] 此外,这已经过全面测试,并且比任何其他选项都更安全 28 / 74 28. (86)跨国公司分为多个子组织,每个子组织在一个单独的国家/地区提供其商品和服务。公司的高级管理层需要迅速确定哪个子组织在每个国家的表现最好。所有销售数据都以 Parquet 格式保存在 Amazon S3 上。 哪种技术可以以最少的努力获得高层领导所需的图像? A. 使用 Amazon QuickSight 和 Amazon Athena 作为数据源。使用热图作为视觉类型。 B. 使用 Amazon QuickSight 和 Amazon S3 作为数据源。使用热图作为视觉类型。 C. 使用 Amazon QuickSight 和 Amazon Athena 作为数据源。使用数据透视表作为视觉类型。 D. 使用 Amazon QuickSight 和 Amazon S3 作为数据源。使用数据透视表作为视觉类型。 是 A。QuickSight 不支持 parquet 格式的 S3 文件,Athena 支持。对于可视化来说,图表比数据透视表更好。 https://docs.aws.amazon.com/athena/latest/ug/when-should-i-use-ate.html https://docs.aws.amazon.com/quicksight/latest/user/supported-data-sources.html 29 / 74 29. (87)Amazon Athena 现在被一家公司用来查询其全球数据库。Amazon S3 用于存储 us-east-1 和 us-west-2 区域中的区域数据。数据没有加密。为了简化和集中查询流程,该组织打算利用 us-west-2 中的 Athena 从两个区域的 Amazon S3 中查询数据。解决方案必须尽可能便宜。 企业应该采取什么行动来实现这一目标? A. 使用 AWS DMS 将 AWS Glue 数据目录从 us-east-1 迁移到 us-west-2。在 us-west-2 中运行 Athena 查询。 B. 在 us-west-2 中运行 AWS Glue 爬网程序以对所有区域中的数据集进行编目。抓取数据后,在 us-west-2 中运行 Athena 查询。 C. 为 us-east-1 中的 S3 存储桶启用跨区域复制,以复制 us-west-2 中的数据。在 us-west-2 中复制数据后,在此处运行 AWS Glue 爬网程序以更新 us-west-2 中的 AWS Glue 数据目录并运行 Athena 查询。 D. 更新 AWS Glue 资源策略以向 us-east-1 AWS Glue 数据目录提供对 us-west-2 的访问权限。一旦 us-west-2 中的目录可以访问 us-east-1 中的目录,请在 us-west-2 中运行 Athena 查询。 B. AWS DMS 不是为了这个目的,所以 A 放弃了。 C 会很昂贵,因为它实际上复制了所有数据。 AWS Glue 中没有“资源策略”,因此 D 被删除。 30 / 74 30. (88)一家企业正在从本地 Apache Hadoop 集群过渡到 Amazon Elastic Map Reduce (EMR) 集群。集群仅在正常工作时间内运行。EMR 集群必须高度可用,以防止由于公司需要避免当日集群故障而导致当日集群故障。当集群在每个工作日结束时终止时,数据必须继续存在。 EMR 集群的哪些配置可以满足这些要求?(选择三个。) A. 用于存储的 EMR 文件系统 (EMRFS) B. 用于存储的 Hadoop 分布式文件系统 (HDFS) C. AWS Glue 数据目录作为 Apache Hive 的元存储 D. 主节点上的 MySQL 数据库作为 Apache Hive 的元存储 E. 单个可用区中的多个主节点 F. 多个可用区中的多个主节点 注意:集群只能驻留在一个可用区或子网中。 https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-ha.html ACE,对于那些对F-EMR集群有疑问的人,只能在单个可用区启动,如果要考虑可用区故障,则将EMR集群的只读副本配置在另一个具有共享存储空间的可用区中。但是这个选项不在选项中。所以 ACE 是正确的答案 https://aws.amazon.com/getting-started/hands-on/optimize-amazon-emr-clusters-with-ec2-spot/ 31 / 74 31. (89)一家公司希望近乎实时地增强应用程序日志,然后分析丰富的数据集。 该应用程序部署在 Amazon EC2 实例上的各个可用区中,并使用 Amazon CloudWatch Logs 记录其活动。 扩充的源保存在 Amazon DynamoDB 数据库中。 哪种解决方案满足事件收集和丰富的要求? A. 使用 CloudWatch Logs 订阅将数据发送到 Amazon Kinesis Data Firehose。使用 AWS Lambda 转换 Kinesis Data Firehose 传输流中的数据,并使用 DynamoDB 表中的数据丰富它。将 Amazon S3 配置为 Kinesis Data Firehose 传输目标。 B. 使用 AWS CLI 每小时将原始日志导出到 Amazon S3。使用 AWS Glue 爬网程序对日志进行编目。为 DynamoDB 表设置 AWS Glue 连接并设置 AWS Glue ETL 作业以丰富数据。将丰富的数据存储在 Amazon S3 中。 C. 将应用程序配置为在本地写入日志并使用 Amazon Kinesis Agent 将数据发送到 Amazon Kinesis Data Streams。使用 Kinesis 数据流作为源配置 Kinesis Data Analytics SQL 应用程序。将 SQL 应用程序输入流与 DynamoDB 记录连接起来,然后使用 Amazon Kinesis Data Firehose 将丰富的输出流存储在 Amazon S3 中。 D. 使用 AWS CLI 每小时将原始日志导出到 Amazon S3。使用 Amazon EMR 上的 Apache Spark SQL 从 Amazon S3 读取日志并使用 DynamoDB 中的数据丰富记录。将丰富的数据存储在 Amazon S3 中。 答案是A 由于他们已经在使用 CloudWatch Logs,因此将 CW 日志发送到 KFH 是有意义的,KFH 将调用 lambda 并将数据发送到 S3 以进行进一步分析。 https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/SubscriptionFilters.html#FirehoseExample B、D 显然是错误的。DynamoDB 不适用于加入 32 / 74 32. (90)企业使用 Amazon Kinesis SDK 将数据写入 Kinesis Data Streams。 根据合规性规定,必须使用可旋转密钥对静态数据进行加密。 该组织希望以尽可能少的编码工作来实现此加密要求。 如何满足这些规定? A. 在 AWS KMS 中创建客户主密钥 (CMK)。为 CMK 分配别名。使用 AWS 加密 SDK,为其提供密钥别名以加密和解密数据。 B. 在 AWS KMS 中创建客户主密钥 (CMK)。为 CMK 分配别名。使用 CMK 别名作为 KMS 主密钥对 Kinesis 数据流启用服务器端加密。 C. 在 AWS KMS 中创建客户主密钥 (CMK)。创建一个 AWS Lambda 函数来加密和解密数据。在函数的环境变量中设置 KMS 密钥 ID。 D. 使用 Kinesis Data Streams 的默认 KMS 密钥对 Kinesis 数据流启用服务器端加密。 答案是B。 https://docs.aws.amazon.com/streams/latest/dev/what-is-sse.html 我认为“可旋转密钥”意味着您可以手动旋转,它应该是 CMK,而不是 AWS 托管密钥。 D 表示“使用默认 KMS 密钥”,表示使用 AWS 托管密钥。所以这是不对的。 33 / 74 33. (93)一个庞大的组织使用中央数据湖跨多个部门进行分析。每个部门都有自己的 AWS 账户和自己的 Amazon S3 存储桶。每个 AWS 账户都有自己的数据目录,即 AWS Glue 数据目录。数据湖的访问要求因工作而异。助理分析师应该只拥有对其部门数据的读取权限。高级数据分析师可能有权访问许多部门的一部分列,包括他们自己的。 哪种解决方案可以满足这些访问要求,同时最大限度地减少费用和管理任务? A. 将所有 AWS 账户合并到一个账户中。为每个部门创建不同的 S3 存储桶,并将所有数据从每个账户移动到中央数据湖账户。将各个数据目录迁移到中央数据目录并应用细化权限,为每个用户授予对 AWS Glue 和 Amazon S3 中的表和数据库的所需访问权限。 B. 保留每个账户的账户结构和单独的 AWS Glue 目录。添加中央数据湖账户并使用 AWS Glue 对来自不同账户的数据进行编目。为 AWS Glue 爬网程序配置跨账户访问以扫描每个部门 S3 存储桶中的数据,以识别架构并填充目录。将高级数据分析师添加到中央账户,并在数据目录和 Amazon S3 中应用非常详细的访问控制。 C. 为中央数据湖设置一个单独的 AWS 账户。使用 AWS Lake Formation 对跨账户位置进行编目。在每个单独的 S3 存储桶上,修改存储桶策略以将 S3 权限授予 Lake Formation 服务相关角色。使用 Lake Formation 权限添加细粒度的访问控制,以允许高级分析师查看特定的表和列。 D. 为中央数据湖设置一个单独的 AWS 账户并配置一个中央 S3 存储桶。使用 AWS Lake Formation 蓝图将数据从各个存储桶移动到中央 S3 存储桶。在每个单独的存储桶上,修改存储桶策略以将 S3 权限授予 Lake Formation 服务相关角色。使用 Lake Formation 权限为助理和高级分析师添加细粒度的访问控制,以查看特定的表和列。 我会选择C。移动数据不是一个好主意,它会使安全性更加复杂+数据存储成本。 34 / 74 34. (94)分析软件即服务 (SaaS) 供应商希望为其客户提供自助式商业智能 (BI) 报告功能。提供商使用 Amazon QuickSight 创建这些报告。尽管报告的数据存储在多租户数据库中,但每个客户都应该只能访问自己的数据。该公司希望为消费者提供两种不同的用户角色: ✑ 只需要检查仪表板的个人可能是只读用户。 ✑ 能够开发新仪表板并与其他用户共享的个人被视为超级用户。 哪个 QuickSught 功能使供应商能够满足这些标准? A. 嵌入式仪表板 B. 表格计算 C. 隔离的命名空间 D. SPICE https://docs.aws.amazon.com/quicksight/latest/user/namespaces.html 35 / 74 35. (96)一家公司构建了一项服务,该服务每天生成数百万条消息并通过 Amazon Kinesis Data Streams 流式传输这些消息。 该公司使用 Kinesis SDK 将数据写入 Kinesis Data Streams。引入几个月后,一位数据分析师发现写入性能急剧下降。数据分析师检查了分析结果,发现 Kinesis 正在限制写入请求。 数据分析师希望在不显着修改架构的情况下处理此问题。 数据分析师应该采取哪些措施来纠正这种情况?(选择两个。) A. 延长 Kinesis Data Streams 保留期以减少限制。 B. 将基于 Kinesis API 的数据摄取机制替换为 Kinesis Agent。 C. 使用 UpdateShardCount API 增加流中的分片数量。 D. 选择分区键的方式会导致跨分片的记录分布均匀。 E. 自定义应用程序代码以包含重试逻辑以提高性能。 CD 如果错误的分区键分布良好,那么重试仍然会命中热分片。 https://aws.amazon.com/blogs/big-data/under-the-hood-scaling-your-kinesis-data-streams/ 36 / 74 36. (99)一家企业创建了许多 AWS Glue 任务来验证和转换来自 Amazon S3 的数据,并将其分批加载到 Amazon RDS for MySQL 中,每天一次。ETL 操作使用 DynamicFrame 来读取 S3 数据。目前,ETL 开发人员很难在每次运行时仅处理增量数据,因为 AWS Glue 作业会在每次运行时处理整个 S3 输入数据。 哪个选项可以使开发人员以尽可能少的编码工作来解决问题? A. 让 ETL 作业使用 DataFrame 从 Amazon S3 读取数据。 B. 在 AWS Glue 作业上启用作业书签。 C. 在 ETL 作业上创建自定义逻辑以跟踪已处理的 S3 对象。 D. 让 ETL 作业在每次运行后从 Amazon S3 中删除已处理的对象或数据。 B 作为书签只接受新数据它停止处理预处理数据 37 / 74 37. (100)一位数据分析师正在使用 AWS Glue 组织、清理、验证和格式化 200 GB 数据集。数据分析师使用标准工作器类型开始执行任务。三小时后,AWS Glue 任务的状态仍为 RUNNING。任务运行日志不包含错误代码。数据分析师希望在不过度配置的情况下缩短完成任务所需的时间。 他或她应该采取哪些数据分析师活动? A. 在 AWS Glue 中启用作业书签以估计数据处理单元 (DPU) 的数量。根据分析的指标,增加 executor-cores 作业参数的值。 B. 在 AWS Glue 中启用作业指标以估计数据处理单元 (DPU) 的数量。根据分析的指标,增加最大容量作业参数的值。 C. 在 AWS Glue 中启用作业指标以估计数据处理单元 (DPU) 的数量。根据分析的指标,增加 spark.yarn.executor.memoryOverhead 作业参数的值。 D. 在 AWS Glue 中启用作业书签以估计数据处理单元 (DPU) 的数量。根据分析的指标,增加 num-executors 作业参数的值。 答案:B B. 在 AWS Glue 中启用作业指标来估计数据处理单元 (DPU) 的数量。根据分析的指标,增加最大容量作业参数的值。 A 和 D = 错误,“书签”这个名字暗示了正在进行的状态的持久性,因此它用于跟踪处理过的数据,而不是用于扩展。 C = 错误,虽然你可以设置这个参数,但作业指标对你没有帮助,而且这个参数对长时间的作业运行时间没有帮助,因为那是由于缺乏计算能力而不是内 38 / 74 38. (106)企业使用 Amazon OpenSearch Service (Amazon Elasticsearch Service) 来存储和分析网站点击流数据。该组织每天使用 Amazon Kinesis Data Firehose 收集 1 TB 数据并将一天的数据存储在 Amazon ES 集群中。 该组织在 Amazon ES 索引上的查询性能非常缓慢,并且在尝试使用 Kinesis Data Firehose 发布到索引时有时会遇到问题。 Amazon ES 集群由十个节点组成,每个节点执行一个索引和三个专用主节点。每个数据节点设置有 1.5 TB 的 Amazon EBS 存储,集群包含 1,000 个分片。有时,集群日志包含 JVMMemoryPressure 问题。 哪个选项将优化 Amazon ES 的性能? A. 增加 Amazon ES 主节点的内存。 B. 减少 Amazon ES 数据节点的数量。 C. 减少索引的 Amazon ES 分片数量。 D. 增加索引的 Amazon ES 分片数量。 我同意选项 C:跨节点的不平衡分片分配或集群中过多的分片会导致 JVMMemoryPressue。 解决方案 - 通过删除旧的或未使用的索引来减少分片的数量。 https://aws.amazon.com/premiumsupport/knowledge-center/high-jvm-memory-pressure-elasticsearch/ 39 / 74 39. (110)一家专门从事智能家居自动化的公司必须有效地摄取和分析来自各种链接设备和传感器的信息。这些通信的大部分由几个小文件组成。 这些消息由 Amazon Kinesis Data Streams 提取,并使用 Kinesis 数据流的消费者应用程序发布到 Amazon S3。然后通过基于 Amazon EMR 的管道处理 Amazon S3 消息数据,并由预定的 PySpark 进程提供支持。 数据平台团队控制数据处理,关注下游数据处理效率和成本。他们希望保持对 PySpark 的使用。 哪种解决方案优化了数据处理效率并且架构完善? A. 将传感器和设备数据直接发送到 Kinesis Data Firehose 传输流,以将数据发送到启用了 Apache Parquet 记录格式转换的 Amazon S3。使用运行 PySpark 的 Amazon EMR 处理 Amazon S3 中的数据。 B. 使用 Python 运行时环境设置 AWS Lambda 函数。使用 Lambda 处理来自连接设备和传感器的单个 Kinesis 数据流消息。 C. 启动 Amazon Redshift 集群。将收集的数据从 Amazon S3 复制到 Amazon Redshift,并将数据处理作业从 Amazon EMR 移动到 Amazon Redshift。 D. 设置 AWS Glue Python 作业以将 Amazon S3 中的小数据文件合并为更大的文件并将它们转换为 Apache Parquet 格式。将下游 PySpark 作业从 Amazon EMR 迁移到 AWS Glue。 他们已经使用了进行数据批处理的 Firehouse,所以 D 没问题 40 / 74 40. (111)出于分析目的,一家航空公司一直在收集有关航班活动的统计数据。最近完成的概念验证强调了该公司如何为数据分析师提供洞察力,以帮助他们提高准时出发。概念证明使用包含 .csv 格式指标的 Amazon S3 对象和用于数据查询的 Amazon Athena。随着数据量的增长,数据分析师希望优化存储解决方案以最大限度地提高查询速度。 随着数据湖规模的扩大,数据分析师应该采取哪些选择来优化性能?(选择三个。) A. 将随机字符串添加到 S3 中键的开头,以获得跨分区的更多吞吐量。 B. 在与 Athena 相同的账户中使用 S3 存储桶。 C. 压缩对象以减少数据传输 I/O。 D. 在与 Athena 相同的区域中使用 S3 存储桶。 E. 将 .csv 数据预处理为 JSON,通过仅获取查询所需的文档键来减少 I/O。 F. 将 .csv 数据预处理到 Apache Parquet 以通过仅获取谓词所需的数据块来减少 I/O。 A 不再是最佳实践。作为最佳实践,S3 和 Athena 应位于同一区域,并且基于帐户和列的性能适合。 [引用] 以前 Amazon S3 性能指南建议使用散列字符随机化前缀命名,以优化频繁数据检索的性能。您不再需要随机化前缀命名以提高性能,并且可以对前缀使用基于日期的顺序命名。[未引用] 41 / 74 41. (113)一组数据科学家想要检查市场趋势数据,以便为他们的组织制定新的投资策略。趋势数据大量来自五个不同的数据源。该团队希望利用 Amazon Kinesis 来促进他们的使用案例。该团队使用类似 SQL 的查询分析趋势,并希望发送警报以响应趋势中某些值得注意的模式。此外,数据科学家希望将数据存储到 Amazon S3 以进行保存和历史再处理,如果可行,可以使用 AWS 托管服务。团队希望尽可能采用最便宜的选择。 哪种解决方案满足这些标准? A. 将数据发布到一个 Kinesis 数据流。使用 Kinesis 客户端库 (KCL) 部署自定义应用程序以分析趋势,并使用 Amazon SNS 发送通知。在 Kinesis 数据流上配置 Kinesis Data Firehose 以将数据持久保存到 S3 存储桶。 B. 将数据发布到一个 Kinesis 数据流。将 Kinesis Data Analytic 部署到流以分析趋势,并将 AWS Lambda 函数配置为输出以使用 Amazon SNS 发送通知。在 Kinesis 数据流上配置 Kinesis Data Firehose 以将数据持久保存到 S3 存储桶。 C. 将数据发布到两个 Kinesis 数据流。将 Kinesis Data Analytics 部署到第一个流以分析趋势,并将 AWS Lambda 函数配置为输出以使用 Amazon SNS 发送通知。在第二个 Kinesis 数据流上配置 Kinesis Data Firehose,以将数据持久保存到 S3 存储桶。 D. 将数据发布到两个 Kinesis 数据流。使用 Kinesis 客户端库 (KCL) 将自定义应用程序部署到第一个流以分析趋势,并使用 Amazon SNS 发送通知。在第二个 Kinesis 数据流上配置 Kinesis Data Firehose,以将数据持久保存到 S3 存储桶。 B 多个应用程序可以从单个 Kinesis Stream 使用 Kinesis Analytics for sql,例如用于分析的查询 Kinesis firhose 可以直接将数据从同一数据流传输到 S3 KCL 是自助服务,所以 A 和 D 不在。 42 / 74 42. (116)零售组织使用 Amazon Athena 对 AWS Glue 数据目录进行临时搜索。数据分析团队负责公司的数据目录和数据访问。数据分析团队希望对查询进行分区并管理在各种工作负载和团队之间执行它们的成本。 在理想情况下,数据分析师希望组织团队内不同用户执行的查询,将查询结果存储在每个团队的唯一 Amazon S3 存储桶中,并对数据目录的搜索施加成本限制。 哪种解决方案满足这些标准? A. 为公司内的每个团队创建 IAM 组和资源标签。设置 IAM 策略来控制用户对数据目录资源的访问和操作。 B. 为公司内的每个团队创建 Athena 资源组,并将用户分配到这些组。将 S3 存储桶名称和其他查询配置添加到资源组的属性列表中。 C. 为公司内的每个团队创建 Athena 工作组。设置 IAM 工作组策略来控制用户访问和对工作组资源的操作。 D. 为公司内的每个团队创建 Athena 查询组并将用户分配到组。 C 我的选项 - 工作组来隔离团队、应用程序或不同工作负载的查询。例如,您可以为组织中的两个不同团队创建单独的工作组 https://docs.aws.amazon.com/athena/latest/ug/workgroups.html 43 / 74 43. (118)一家公司在全国各地的道路上提供收费服务,并收集数据以更好地了解交通模式。分析师一直在寻求进行近实时流量统计的选项。该组织有兴趣开发一个摄取管道,该管道将所有数据输入 Amazon Redshift 集群,并在某个收费站的收费流量低于预定义阈值时通知运营员工。Amazon S3 用于存储站数据和相关的阈值。 在满足这些要求方面,哪种策略最有效? A. 使用 Amazon Kinesis Data Firehose 收集数据并将其同时传送到 Amazon Redshift 和 Amazon Kinesis Data Analytics。在 Kinesis Data Analytics 中创建参考数据源以临时存储来自 Amazon S3 的阈值,并将特定收费站的车辆计数与其相应的阈值进行比较。如果未达到阈值,请使用 AWS Lambda 发布 Amazon Simple Notification Service (Amazon SNS) 通知。 B. 使用 Amazon Kinesis Data Streams 从收费站收集所有数据。在 Kinesis Data Streams 中创建一个流以临时存储来自 Amazon S3 的阈值。将两个流发送到 Amazon Kinesis Data Analytics,以将特定收费站的车辆数量与其相应的阈值进行比较。如果未达到阈值,请使用 AWS Lambda 发布 Amazon Simple Notification Service (Amazon SNS) 通知。将 Amazon Kinesis Data Firehose 连接到 Kinesis Data Streams 以将数据传送到 Amazon Redshift。 C. 使用 Amazon Kinesis Data Firehose 收集数据并将其传送到 Amazon Redshift。然后,自动触发一个 AWS Lambda 函数,该函数在 Amazon Redshift 中查询数据,将特定收费站的车辆数量与其从 Amazon S3 读取的相应阈值进行比较,并发布 Amazon Simple Notification Service (Amazon SNS) 通知,如果未达到阈值。 D. 使用 Amazon Kinesis Data Firehose 收集数据并将其同时传送到 Amazon Redshift 和 Amazon Kinesis Data Analytics。使用 Kinesis Data Analytics 根据存储在 Amazon S3 中的信息,将车辆计数与作为应用程序内流存储在表中的站点的阈值进行比较。将 AWS Lambda 函数配置为应用程序的输出,如果未达到阈值,该应用程序将发布 Amazon Simple Queue Service (Amazon SQS) 通知以提醒操作人员。 44 / 74 44. (121)数据分析师正在使用存储在 Amazon Redshift 中的整合销售数据创建 Amazon QuickSight 控制面板。必须控制仪表板,以便澳大利亚悉尼的销售人员只能访问澳大利亚数据,而纽约的销售人员只能看到来自美国 (US) 的数据。 数据分析师应采取哪些步骤来保证足够的数据安全性? A. 将澳大利亚和美国的数据源放入单独的 SPICE 容量池中。 B. 为澳大利亚和美国设置 Amazon Redshift VPC 安全组。 C. 部署 QuickSight 企业版,对销售表实施行级安全 (RLS)。 D. 部署 QuickSight 企业版,并为澳大利亚和美国设置不同的 VPC 安全组。 答案是 C 在 Amazon QuickSight 的企业版中,您可以通过在数据集上配置行级安全性 (RLS) 来限制对数据集的访问。您可以在共享数据集之前或之后执行此操作。当您通过 RLS 与数据集所有者共享数据集时,他们仍然可以看到所有数据。但是,当您与读者共享时,他们只能看到受权限数据集规则限制的数据。通过添加行级安全性,您可以进一步控制他们的访问。 https://docs.aws.amazon.com/quicksight/latest/user/restrict-access-to-a-data-set-using-row-level-security.html 45 / 74 45. (124)一家金融机构使用 Amazon S3 作为其数据湖,并使用多节点 Amazon Redshift 集群作为其数据仓库,数据中包含的数据文件。 每个数据文件根据其数据源排列在一个文件夹中。使用单独的数据文件,所有数据文件都导入到 Amazon Redshift 集群中的单个表中。 COPY 命令用于数据文件的每个位置。使用此方法将所有数据文件加载到 Amazon Redshift 需要很长时间。用户想要更快的响应时间。 在保持数据文件在 S3 数据湖中的隔离的同时几乎不增加成本的解决方案。 哪种解决方案满足这些标准? A. 使用 Amazon EMR 将所有数据文件复制到一个文件夹中,然后发出 COPY 命令将数据加载到 Amazon Redshift。 B. 将所有数据文件并行加载到 Amazon Aurora,并运行 AWS Glue 作业将数据加载到 Amazon Redshift。 C. 使用 AWS Glue 作业将所有数据文件复制到一个文件夹中,然后发出 COPY 命令将数据加载到 Amazon Redshift。 D. 创建包含数据文件位置的清单文件并发出 COPY 命令以将数据加载到 Amazon Redshift。 您可以使用清单来确保 COPY 命令加载所有必需的文件,并且只有所需的文件,用于数据加载”所以答案是 D A = 错误,没有隔离,增加了成本。 B = 错误,没有隔离,不必要的工作,增加的成本。 C = 错误,没有隔离,增加成本。 这是关于 COPY 命令如何工作的问题。一般来说,您应该只使用一个 COPY 命令,因为 Redshift 将并行加载数据,如果您使用许多 COPY,Redshift 将不得不以顺序方式加载数据。 46 / 74 46. (125)共享工作空间公司的数据工程团队的任务是为空间预订系统创建的所有网络日志开发一个整合的日志系统。该公司运营着一组 Amazon EC2 实例,用于处理基于 Web 的共享空间预订请求。数据工程团队的目标是将所有博客聚合成一个允许近实时搜索的服务。团队对管理日志系统的维护和操作不感兴趣。 哪个选项使数据工程团队能够有效地在 AWS 上配置 Web 日志系统? A. 设置 Amazon CloudWatch 代理以将网络日志流式传输到 CloudWatch 日志并将 Amazon Kinesis 数据流订阅到 CloudWatch。选择 Amazon OpenSearch Service (Amazon Elasticsearch Service) 作为博客的最终目的地。 B. 设置 Amazon CloudWatch 代理以将网络日志流式传输到 CloudWatch 日志并将 Amazon Kinesis Data Firehose 传输流订阅到 CloudWatch。选择 Amazon OpenSearch Service (Amazon Elasticsearch Service) 作为博客的最终目的地。 C. 设置 Amazon CloudWatch 代理以将网络日志流式传输到 CloudWatch 日志并将 Amazon Kinesis 数据流订阅到 CloudWatch。将 Splunk 配置为博客的最终目的地。 D. 设置 Amazon CloudWatch 代理以将网络日志流式传输到 CloudWatch 日志并将 Amazon Kinesis Firehose 传输流订阅到 CloudWatch。将 Amazon DynamoDB 配置为博客的最终目的地。 答案是 B。他们应该使用 Firehose,而不是 Data Streams (A)。这句话给出了它:“团队不想管理日志系统的维护和操作。” 47 / 74 47. (127)一家移动游戏公司希望从他们的游戏应用程序中收集数据,并使其立即可供分析。每条数据记录的大小约为 20 KB。该公司专注于从每个设备中获得尽可能高的吞吐量。此外,该公司打算构建一个能够为每个用户提供专用吞吐量的数据流处理程序。 哪种解决方案可以实现这一目标? A. 让应用程序调用 PutRecords API 以将数据发送到 Amazon Kinesis Data Streams。在使用数据时使用增强的扇出功能。 B. 让应用程序调用 PutRecordBatch API 以将数据发送到 Amazon Kinesis Data Firehose。提交支持案例以启用帐户的专用吞吐量。 C. 让应用程序使用 Amazon Kinesis Producer Library (KPL) 将数据发送到 Kinesis Data Firehose。在使用数据时使用增强的扇出功能。 D. 让应用程序调用 PutRecords API 以将数据发送到 Amazon Kinesis Data Streams。使用 Auto Scaling 在 Amazon EC2 上托管流处理应用程序。 专用吞吐量等于增强的扇出。所以BCD下降了。 https://docs.aws.amazon.com/streams/latest/dev/enhanced-consumers.html 48 / 74 48. (129)一家企业创建了一个 Apache Hive 脚本来批量处理存储在 Amazon S3 中的数据。该脚本必须每天执行一次,并且输出存储在 Amazon S3 中。该公司测试了该脚本,发现它在一个小型的三节点本地集群上运行不到 30 分钟。 哪种方法是调度和运行脚本最便宜的方法? A. 创建一个 AWS Lambda 函数以使用 Hive 执行步骤启动 Amazon EMR 集群。将 KeepJobFlowAliveWhenNoSteps 设置为 false 并禁用终止保护标志。使用 Amazon CloudWatch Events 安排 Lambda 函数每天运行。 B. 使用 AWS 管理控制台使用 Python Hue 启动 Amazon EMR 集群。Hive 和 Apache Oozie。将终止保护标志设置为 true,并将 Spot 实例用于集群的核心节点。在集群中配置 Oozie 工作流以每天调用 Hive 脚本。 C. 使用 Hive 脚本创建 AWS Glue 作业以执行批处理操作。使用基于时间的计划将作业配置为每天运行一次。 D. 使用 AWS Lambda 层并将 Hive 运行时加载到 AWS Lambda 并复制 Hive 脚本。通过使用 AWS Step Functions 创建工作流程,安排 Lambda 函数每天运行。 答案是 A。 不是 B,因为我们不应该在 Spot 实例中运行核心节点,只运行任务节点,而且成本更高,因为使用 oozie 进行调度,我们的集群必须一直处于运行状态。 不是 C,因为胶水不能运行 hive 脚本,也不是 c,因为 lambda 也不能运行 hive 脚本。 D = 错误,Lambda 最长运行时间 15 分钟 https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/RunLambdaSchedule.html 49 / 74 49. (130)一家企业想要对存储在 Amazon S3 上的 Elastic Load Balancing 的日志进行分析。数据分析师必须能够查询特定年份、月份或日期的整个数据库。此外,数据分析师应该能够对列的子集进行查询。该公司的运营成本低,是最具成本效益的选择。 哪种技术可以满足这些日志数据优化和查询的需求? A. 每晚使用 AWS Glue 作业将新日志文件转换为 .csv 格式并按年、月和日进行分区。使用 AWS Glue 爬网程序检测新分区。使用 Amazon Athena 查询数据。 B. 启动一个长期运行的 Amazon EMR 集群,该集群不断地将新日志文件从 Amazon S3 转换到其 Hadoop 分布式文件系统 (HDFS) 存储和按年、月和日划分的分区。使用 Apache Presto 查询优化后的格式。 C. 每晚启动一个瞬态 Amazon EMR 集群,将新日志文件转换为 Apache ORC 格式并按年、月和日进行分区。使用 Amazon Redshift Spectrum 查询数据。 D. 每晚使用 AWS Glue 作业将新日志文件转换为 Apache Parquet 格式并按年、月和日进行分区。使用 AWS Glue 爬网程序检测新分区。使用 Amazon Athena 查询数据。 A - .csv 格式不是最优的 B - 长时间运行的 EMR 不具有成本效益,并且具有集群管理的运营开销 C - 运行 Redshift 集群的 EMR 再次不具有成本效益 所以,答案是选项 D - 低成本并且没有运营开销。Athena 的数据扫描成本可以通过分区修剪和 parquet 文件中的列子集来最小化。 50 / 74 (135)一家企业正在构建数据湖,需要从关系数据库中提取数据,包括时间序列数据。 该公司希望通过使用托管服务来做到这一点。将增量数据从源获取到 Amazon S3 的过程需要每日计划。 在满足这些要求方面,哪种策略最具成本效益? A. 使用 AWS Glue 通过 JDBC 驱动程序连接到数据源。仅使用作业书签摄取增量记录。 B. 使用 AWS Glue 通过 JDBC 驱动程序连接到数据源。将最后更新的密钥存储在 Amazon DynamoDB 表中,并使用更新的密钥作为过滤器提取数据。 C. 使用 AWS Glue 通过 JDBC 驱动程序连接到数据源并摄取整个数据集。使用适当的 Apache Spark 库来比较数据集,并找到增量。 D. 使用 AWS Glue 通过 JDBC 驱动程序连接到数据源并摄取完整数据。使用 AWS DataSync 确保仅将增量写入 Amazon S3。 答案是 A。当 Glue 本身可以根据问题执行所需功能时,为什么要使用其他服务 https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html 51 / 74 51. (142)一家企业打算在 Amazon S3 上建立一个数据湖。该组织希望根据使用模式和成本限制实施分层存储。支持来自旧客户端的 JDBC 连接、支持联合访问控制的元数据管理以及利用 PySpark 和 Scala 的基于批处理的 ETL 都是该解决方案的必需组件。运营管理应该是最小的。 哪个组件组合满足这些要求?(选择三个。) A. 用于元数据管理的 AWS Glue 数据目录 B. Amazon EMR 与 Apache Spark for ETL C. 适用于基于 Scala 的 ETL 的 AWS Glue D. 用于 JDBC 客户端的带有 Apache Hive 的 Amazon EMR E. 使用 JDBC 驱动程序在 Amazon S3 中查询数据的 Amazon Athena F. 带有 Apache Hive 的 Amazon EMR,使用带有兼容 MySQL 的支持元存储的 Amazon RDS 选择 A,C,E 。 Glue 可以做基于 pyspark 和 scala 的 ETL。Glue for Metadata 和 JDBC 驱动程序,用于从 AWS 外部连接 Athena。服务器少。所以,运营管理是有限的 52 / 74 52. (143)一家企业正在以 100 MBps 的速率将其大量计费数据流式传输到 Amazon Kinesis Data Streams。数据分析师按账户 ID 对数据进行分区,以确保与特定账户关联的所有记录都存储在同一个 Kinesis 分片中,并保留该顺序。在使用 Kinesis Java SDK 开发自定义使用者时,数据分析师发现帐户 ID 的消息有时会出现乱序。进一步分析表明,乱序消息似乎来自同一帐户 ID 的不同分片,并且在进行流调整大小时可见。 这种行为的理由是什么,补救措施是什么? A. 一个流中有多个分片,分片中需要维护顺序。数据分析师需要确保流中只有一个分片,并且没有运行流调整大小。 B. 记录的哈希键生成过程无法正常工作。数据分析师应该在生产者端生成一个明确的哈希键,以便将记录准确地定向到适当的分片。 C. Kinesis Data Streams 未按顺序接收记录。生产者应使用 PutRecords API 调用,而不是带有 SequenceNumberForOrdering 参数的 PutRecord API 调用。 D. 在流调整大小后处理子分片之前,消费者没有完全处理父分片。数据分析师应先完全处理父分片,然后再处理子分片。 D:重新分片后剩余的父分片仍可能包含您没有的数据读取尚未在重新分片之前添加到流中的内容。如果您在从父分片读取所有数据之前从子分片读取数据,您可能会按照数据记录的序列号给定的顺序读取特定哈希键的数据。因此,假设数据的顺序很重要,那么在重新分片之后,您应该始终继续从父分片中读取数据,直到用完为止。只有这样,您才应该开始从子分片中读取数据。 https://docs.aws.amazon.com/streams/latest/dev/kinesis-using-sdk-java-after-resharding.html 53 / 74 53. (144)在 AWS 上,软件企业运行一个每周接收更新的应用程序。作为应用程序测试过程的一部分,必须构建一个解决方案来检查每个 Amazon EC2 实例的日志文件,以确保应用程序在每次部署后继续正常运行。收集和分析解决方案应该是高度可访问的,在显示新数据时几乎没有延迟。 公司应该使用哪种技术来收集和分析日志? A. 在 Amazon EC2 上启用详细监控,使用 Amazon CloudWatch 代理将日志存储在 Amazon S3 中,并使用 Amazon Athena 进行快速的交互式日志分析。 B. 使用 Amazon EC2 上的 Amazon Kinesis Producer Library (KPL) 代理收集数据并将其发送到 Kinesis Data Streams,以进一步将数据推送到 Amazon OpenSearch Service (Amazon Elasticsearch Service) 并使用 Amazon QuickSight 进行可视化。 C. 使用 Amazon EC2 上的 Amazon Kinesis Producer Library (KPL) 代理收集数据并将其发送到 Kinesis Data Firehose,以进一步将数据推送到 Amazon OpenSearch Service (Amazon Elasticsearch Service) 和 OpenSearch Dashboards (Kibana)。 D. 使用 Amazon CloudWatch 订阅访问实时日志源,并将日志传送到 Amazon Kinesis Data Streams,以进一步将数据推送到 Amazon OpenSearch Service (Amazon Elasticsearch Service) 和 OpenSearch Dashboards (Kibana)。 答案是“C”。因为您无法将数据从 Kinesis Data Streams 传送到 Amazon ES。 54 / 74 54. (145)一家技术企业正在开发用于可视化和分析时间敏感数据的仪表板。数据将通过 Amazon Kinesis Data Firehose 以 60 秒的黄油间隔摄取。仪表板必须近乎实时地显示数据。 哪种可视化解决方案满足这些标准? A. 选择 Amazon OpenSearch Service (Amazon Elasticsearch Service) 作为 Kinesis Data Firehose 的终端节点。使用 Amazon OpenSearch Service (Amazon ES) 中的数据和所需的分析和可视化设置 OpenSearch Dashboards (Kibana)。 B. 选择 Amazon S3 作为 Kinesis Data Firehose 的终端节点。将数据读入 Amazon SageMaker Jupyter 笔记本并执行所需的分析和可视化。 C. 选择 Amazon Redshift 作为 Kinesis Data Firehose 的终端节点。将带有 SPICE 的 Amazon QuickSight 连接到 Amazon Redshift 以创建所需的分析和可视化。 D. 选择 Amazon S3 作为 Kinesis Data Firehose 的终端节点。使用 AWS Glue 对数据进行编目,并使用 Amazon Athena 对其进行查询。将带有 SPICE 的 Amazon QuickSight 连接到 Athena 以创建所需的分析和可视化。 接近实时的仪表板 -> 操作 => OpenSearch 55 / 74 55. (146)一位数据分析专家正在使用 AWS Glue 自动提取提交到 Amazon S3 存储桶的压缩文件。数据接收管道应该能够进行增量处理。 数据分析专业人员应使用哪个 AWS Glue 功能来完成此任务? A. 工作流程 B. 触发器 C. 工作书签(Job bookmarks) D. 分类器 c 没问题,因为作业书签处理增量数据处理。 56 / 74 56. (150)一家公司利用 AWS 托管一个数据湖,该数据湖从多个业务部门提取数据并使用 Amazon Athena 执行搜索。Amazon S3 与 AWS Glue 数据目录一起用作存储层。该组织希望使其数据科学家和业务分析师能够访问数据。但是,组织必须首先根据用户角色和职责来规范 Athena 的数据访问。 企业应该怎么做才能以尽可能少的运营开销来实施这些访问限制? A. 在 AWS Lake Formation 中按角色为用户和应用程序定义基于安全策略的规则。 B. 在 AWS Identity and Access Management (IAM) 中按角色为用户和应用程序定义基于安全策略的规则。 C. 在 AWS Glue 中按角色为表和列定义基于安全策略的规则。 D. 在 AWS Identity and Access Management (IAM) 中按角色为表和列定义基于安全策略的规则。 正如本主题中已经解释的那样。答案应该是 A。使用 Lake Formation 将数据访问权限分配给角色要容易得多。胶水也可以,但更难。使用 IAM 我认为您无法实现细粒度访问。 57 / 74 57. (151)一家企业在 Amazon S3 上保存了 100 万份扫描文档作为图片文件。这些文件包括打印的申请表,其中包含申请人的姓名、申请日期、申请类型和申请文本等信息。该公司创建了一个机器学习系统,可以从扫描的文档中提取元数据信息。该组织希望使内部数据分析师能够根据申请人的姓名、申请日期或申请内容来检查和定位申请。此外,应下载原始照片。成本管理在查询性能方面处于次要地位。 哪种解决方案可以在满足要求的同时产生洞察力来组织照片和信息? A. 对于每个图像,使用对象标签添加元数据。使用 Amazon S3 Select 根据申请人姓名和申请日期检索文件。 B. 在 Amazon OpenSearch Service (Amazon Elasticsearch Service) 中索引图像文件的元数据和 Amazon S3 位置。允许数据分析师使用 OpenSearch Dashboards (Kibana) 向 Amazon OpenSearch Service (Amazon Elasticsearch Service) 集群提交查询。 C. 将映像文件的元数据和 Amazon S3 位置存储在 Amazon Redshift 表中。允许数据分析师对表运行即席查询。 D. 将图像文件的元数据和 Amazon S3 位置存储在 Amazon S3 的 Apache Parquet 文件中,并在 AWS Glue 数据目录中定义一个表。允许数据分析师使用 Amazon Athena 提交自定义查询。 OpenSearch 扫描所有文本 58 / 74 58. (153)一家公司在全球拥有配备物联网设备的设施。Amazon Kinesis Data Streams 用于将数据从设备发送到 Amazon S3。该组织的运营团队希望从物联网数据中获得洞察力,以便在接收期间检查数据质量。必须近乎实时地提取洞察力,并且必须将输出记录到 Amazon DynamoDB 以供进一步分析。 哪种解决方案满足这些标准? A. 连接 Amazon Kinesis Data Analytics 以分析流数据。使用 Kinesis Data Analytics 的默认输出将输出保存到 DynamoDB。 B. 连接 Amazon Kinesis Data Analytics 以分析流数据。使用 AWS Lambda 函数将输出保存到 DynamoDB。 C. 连接 Amazon Kinesis Data Firehose 以使用 AWS Lambda 函数分析流数据。使用 Kinesis Data Firehose 的默认输出将输出保存到 DynamoDB。 D. 连接 Amazon Kinesis Data Firehose 以使用 AWS Lambda 函数分析流数据。将数据保存到 Amazon S3。然后按计划运行 AWS Glue 作业以将数据摄取到 DynamoDB。 https://aws.amazon.com/about-aws/whats-new/2017/12/amazon-kinesis-data-analytics-can-now-output-real-time-sql-results-to-aws-lambda/ 59 / 74 59. (156)一家在线游戏公司使用源自 Kinesis 数据流的 Amazon Kinesis Data Analytics SQL 应用程序。 源代码为程序提供了三个非空字段:player_id、score 和 us_5_digit_zip_code。 一位数据分析师创建了一个 .csv 映射文件,该文件将有限数量的 us_5_digit_zip_code 值转换为地区代码。 如果存在区域代码,数据分析师必须将其作为 Kinesis Data Analytics 应用程序的额外输出包含在内。 数据分析师应如何在将支出降至最低的同时实现这一目标? A. 将映射文件的内容存储在 Amazon DynamoDB 表中。当记录到达 Kinesis Data Analytics 应用程序时,使用 AWS Lambda 函数对记录进行预处理,该函数获取映射并补充每条记录以包含区域代码(如果存在)。更改应用程序中的 SQL 查询以在 SELECT 语句中包含新字段。 B. 将映射文件存储在 Amazon S3 存储桶中,并为 Kinesis Data Analytics 应用程序中的 .csv 文件配置参考数据列标题。更改应用程序中的 SQL 查询以包括对文件的 S3 Amazon 资源名称 (ARN) 的连接,并将区域代码字段添加到 SELECT 列。 C. 将映射文件存储在 Amazon S3 存储桶中,并将其配置为 Kinesis Data Analytics 应用程序的参考数据源。更改应用程序中的 SQL 查询以包括对引用表的连接,并将地区代码字段添加到 SELECT 列。 D. 将映射文件的内容存储在 Amazon DynamoDB 表中。更改 Kinesis Data Analytics 应用程序以将其输出发送到 AWS Lambda 函数,该函数获取映射并补充每条记录以包含区域代码(如果存在)。将记录从 Lambda 函数转发到原始应用程序目标。 答案:C 说明:由于 Kinesis 数据分析仅使用来自 KDS 和 KDF 的数据,因此可以将 S3 数据引用作为数据源附加到它。 https://docs.aws.amazon.com/kinesisanalytics/latest/dev/app-add-reference-data.html 60 / 74 60. (163)一家媒体组织希望对其 Amazon S3 数据湖中存储的数据进行机器学习和分析。为了让公司的消费者开发报告,必须满足两个数据转换标准: ✑ 每天转换 300 GB 的不同文件格式的数据,并在预定时间登陆 Amazon S3。 ✑ 对驻留在 S3 数据湖中的 TB 级存档数据进行一次性转换。 哪种技术组合在满足公司数据转换需求方面最具成本效益?(选择三个。) A. 对于每日传入的数据,使用 AWS Glue 爬虫来扫描和识别架构。 B. 对于每日传入的数据,使用 Amazon Athena 扫描并识别架构。 C. 对于每日传入的数据,使用 Amazon Redshift 执行转换。 D. 对于每日传入的数据,使用 AWS Glue 工作流和 AWS Glue 作业来执行转换。 E. 对于存档数据,使用 Amazon EMR 执行数据转换。 F. 对于存档数据,使用 Amazon SageMaker 执行数据转换。 ADE。 不是 B。Athena 将使用 Glue(选项 A)而不是 C。 使用 Redshift 进行转换是一种反模式。 不是 F。会选择 EMR 而不是 Sagemaker 进行一次性转换 61 / 74 (56)一家公司希望通过扩展其推荐引擎的功能来提高客户对其智能家居系统的满意度。每个传感器都使用 Java Kinesis Producer Library (KPL) 将其分层 JSON 数据异步提交到 Amazon Kinesis Data Streams。根据从故障传感器集合中收集的统计数据,当传感器发生故障时,其记录的数据并不总是传递到云端。 该组织需要一个能够对最新传感器数据进行近实时分析的系统。 61. 哪种解决方案可以让企业满足这些标准? A. 将 KPL 的 RecordMaxBufferedTime 属性设置为 "-1" 以禁用传感器端的缓冲。使用 Kinesis Data Analytics 根据公司开发的异常检测 SQL 脚本丰富数据。将丰富的数据推送到一组 Kinesis 数据流,并启用数据转换功能来展平 JSON 文件。实例化密集存储 Amazon Redshift 集群并将其用作 Kinesis Data Firehose 传输流的目标。 B. 更新传感器代码以使用来自 Kinesis Data Streams API 的 PutRecord/PutRecords 调用和适用于 Java 的 AWS 开发工具包。使用 Kinesis Data Analytics 根据公司开发的异常检测 SQL 脚本丰富数据。将 KDA 应用程序的输出定向到 Kinesis Data Firehose 传输流,启用数据转换功能以展平 JSON 文件,并将 Kinesis Data Firehose 目标设置为 Amazon OpenSearch Service (Amazon Elasticsearch Service) 集群。 C. 将 KPL 的 RecordMaxBufferedTime 属性设置为“0”以禁用传感器端的缓冲。为每个流连接一个专用的 Kinesis Data Firehose 传输流,并启用数据转换功能以展平 JSON 文件,然后再将其发送到 Amazon S3 存储桶。将 S3 数据加载到 Amazon Redshift 集群中。 D. 更新传感器代码以使用来自 Kinesis Data Streams API 的 PutRecord/PutRecords 调用和适用于 Java 的 AWS 开发工具包。使用 AWS Glue 通过 Kinesis 客户端库 (KCL) 从流中获取和处理数据。实例化一个 Amazon Elasticsearch Service 集群并使用 AWS Lambda 将数据直接推送到其中。 62 / 74 62. (54)一家营销公司希望增强其商业智能和报告能力。该组织在整个规划过程中与主要利益相关者进行了访谈,并了解到以下内容: ✑ 运营团队生成当月数据的每小时报告。 ✑ 销售团队希望使用大量 Amazon QuickSight 控制面板来提供每个类别最近 30 天的滚动视图。此外,销售团队希望在数据到达报告后端时立即访问数据。 ✑ 财务团队每天为上个月的数据生成报告,每月为过去 24 个月的数据生成报告。 目前,该系统有 400 TB 的数据,预计每月增加 100 TB。该组织正在寻找可以想象的最具成本效益的选择。 哪个选项最能满足企业的需求? A. 将最近 24 个月的数据存储在 Amazon Redshift 中。使用 Amazon Redshift 作为数据源配置 Amazon QuickSight。 B. 将最近 2 个月的数据存储在 Amazon Redshift 中,其余月份的数据存储在 Amazon S3 中。为 Amazon Redshift Spectrum 设置外部架构和表。使用 Amazon Redshift 作为数据源配置 Amazon QuickSight。 C. 将最近 24 个月的数据存储在 Amazon S3 中,并使用 Amazon Redshift Spectrum 进行查询。使用 Amazon Redshift Spectrum 作为数据源配置 Amazon QuickSight。 D. 将最近 2 个月的数据存储在 Amazon Redshift 中,其余月份的数据存储在 Amazon S3 中。使用长期运行的 Amazon EMR 和 Apache Spark 集群根据需要查询数据。使用 Amazon EMR 作为数据源配置 Amazon QuickSight。 63 / 74 63. (48)一家企业希望通过查看前三个月的用户活动来进行用户流失研究。每天,数百万用户创建 1.5 TB 的未压缩数据。为了达到查询性能目标,需要一个 30 节点的 Amazon Redshift 集群,每个节点具有 2.56 TB 的固态驱动器 (SSD) 存储。 该公司打算对一年的历史数据进行额外检查,以确定哪些功能最受欢迎。该分析将每周进行一次。 哪种方法最具成本效益? A. 将 Amazon Redshift 集群的大小增加到 120 个节点,这样它就有足够的存储容量来保存 1 年的数据。然后使用 Amazon Redshift 进行额外分析。 B. 将过去 90 天的数据保存在 Amazon Redshift 中。将超过 90 天的数据移动到 Amazon S3 并以按日期分区的 Apache Parquet 格式存储。然后使用 Amazon Redshift Spectrum 进行额外分析。 C. 将过去 90 天的数据保存在 Amazon Redshift 中。将超过 90 天的数据移动到 Amazon S3 并以按日期分区的 Apache Parquet 格式存储。然后预置一个持久的 Amazon EMR 集群并使用 Apache Presto 进行额外的分析。 D. 将集群节点类型调整为密集存储节点类型 (DS2),以便在 Amazon Redshift 集群中的每个单独节点上增加 16 TB 的存储容量。然后使用 Amazon Redshift 进行额外分析。 64 / 74 64. (30)一家企业正在寻求降低其数据和分析平台的成本。该组织正在将各种数据源中的各种 .csv 和 JSON 文件导入 Amazon S3。预计每天将接收 50 GB 的数据。该公司正在使用 Amazon Athena 直接查询 Amazon S3 中的原始数据。大多数搜索汇总了过去 12 个月的数据,而很少访问超过 5 年的数据。一个典型的查询将搜索大约 500 MB 的数据,并应在不到一分钟的时间内提供结果。出于合规目的,必须永久存储原始数据。 哪个选项最能满足企业的需求? A. 使用 AWS Glue ETL 作业将数据压缩、分区并将其转换为列数据格式。使用 Athena 查询处理后的数据集。配置生命周期策略以在对象创建 5 年后将处理后的数据移动到 Amazon S3 标准-不频繁访问 (S3 标准-IA) 存储类中。配置第二个生命周期策略以在对象创建 7 天后将原始数据移动到 Amazon S3 Glacier 以进行长期存档。 B. 使用 AWS Glue ETL 作业对数据进行分区并将其转换为基于行的数据格式。使用 Athena 查询处理后的数据集。配置生命周期策略以在对象创建 5 年后将数据移动到 Amazon S3 标准-不频繁访问 (S3 标准-IA) 存储类。配置第二个生命周期策略以在对象创建 7 天后将原始数据移动到 Amazon S3 Glacier 以进行长期存档。 C. 使用 AWS Glue ETL 作业将数据压缩、分区并将其转换为列数据格式。使用 Athena 查询处理后的数据集。配置生命周期策略以在对象最后一次访问 5 年后将处理后的数据移动到 Amazon S3 标准-不频繁访问 (S3 标准-IA) 存储类中。配置第二个生命周期策略,将原始数据移动到 Amazon S3 Glacier 以在最后一次访问对象后 7 天进行长期存档。 D. 使用 AWS Glue ETL 作业对数据进行分区并将其转换为基于行的数据格式。使用 Athena 查询处理后的数据集。配置生命周期策略以在对象最后一次访问 5 年后将数据移动到 Amazon S3 标准-不频繁访问 (S3 标准-IA) 存储类中。配置第二个生命周期策略,将原始数据移动到 Amazon S3 Glacier 以在最后一次访问对象后 7 天进行长期存档。 65 / 74 65. (147)每天,一家大型拼车公司在全球雇佣数千名司机,为数百万独特的消费者提供服务。该组织已选择 Amazon Redshift 作为迁移现有数据集市的平台。下表包含在当前架构中。 ✑ 关于已完成游乐设施的信息的行程事实表。 ✑ 驱动器配置文件的驱动器尺寸表。 ✑ 包含客户资料信息的客户事实表。 该公司按日期和目的地分析旅行信息,以确定区域盈利能力。司机的信息很少更新。客户资料会定期更新。 哪种表架构可以优化查询性能? A. 对 trips 表使用 DISTSTYLE KEY(目的地)并按日期排序。将 DISTSTYLE ALL 用于驱动程序和客户表。 B. 对 trips 表使用 DISTSTYLE EVEN 并按日期排序。对驱动程序表使用 DISTSTYLE ALL。对客户表使用 DISTSTYLE EVEN。 C. 对 trips 表使用 DISTSTYLE KEY(目的地)并按日期排序。对驱动程序表使用 DISTSTYLE ALL。对客户表使用 DISTSTYLE EVEN。 D. 对驱动程序表使用 DISTSTYLE EVEN 并按日期排序。对两个事实表都使用 DISTSTYLE ALL。 66 / 74 66. (149) 一家医疗保健组织使用 AWS 数据和分析技术收集、摄取和存储其患者的电子健康记录 (EHR) 数据。原始 EHR 数据以 JSON 格式存储在 Amazon S3 中,并且每小时更新一次。该组织希望将数据目录和相关元数据保留在 AWS Glue 数据目录中,以便利用 Amazon Athena 或 Amazon Redshift Spectrum 提供分析。 在数据目录中定义表时适用以下条件: ✑ 选择目录表名称,不要依赖目录表命名算法。 ✑ 使用加载在相应 S3 存储桶前缀中的新分区来更新表。 哪个选项以最少的努力满足这些标准? A. 运行连接到一个或多个数据存储、确定数据结构并将表写入数据目录的 AWS Glue 爬网程序。 B. 使用 AWS Glue 控制台在数据目录中手动创建表并安排 AWS Lambda 函数每小时更新表分区。 C. 使用 AWS Glue API CreateTable 操作在数据目录中创建一个表。创建 AWS Glue 爬网程序并将表指定为源。 投票最多 D. 在 Amazon EMR 中使用 Amazon S3 中的表架构定义创建一个 Apache Hive 目录,并使用计划作业更新表分区。将 Hive 目录迁移到数据目录。 67 / 74 67. (160)一家媒体组织一直在分析其应用程序生成的日志数据。并发分析作业的数量最近有所增加,而旧任务的整体性能随着新作业数量的增加而下降。分区数据存储在 Amazon S3 One Zone-Infrequent Access (S3 One Zone-IA) 存储桶中,分析处理通过启用一致视图的 EMR 文件系统 (EMRFS) 在 Amazon EMR 集群上进行。一位数据分析师发现 EMR 任务节点在 Amazon S3 中列出项目需要更长的时间。 哪一步最有可能提高 Amazon S3 中日志数据访问的性能? A. 在 Amazon S3 中存储日志数据时,使用哈希函数创建一个随机字符串并将其添加到对象前缀的开头。 B. 使用生命周期策略将日志数据的 S3 存储类更改为 S3 标准。 C. 增加共享 Amazon DynamoDB 表的读取容量单位 (RCU)。 D. 将运行缓慢的 EMR 集群重新部署到不同的可用区。 68 / 74 68. (12)一家公用事业公司正在安装数千个智能电表,以获取有关能源使用的实时数据。该公司正在使用 Amazon Kinesis Data Streams 从智能仪表收集数据流。消费者应用程序使用 Kinesis 客户端库 (KCL) 检索流数据。该公司只有一个消费者应用程序可用。 在将记录写入流的时间和消费者应用程序读取记录的时间之间,企业注意到平均延迟一秒。此延迟必须减少到 500 毫秒以下。 哪种解决方案满足这些标准? A. 在 Kinesis Data Streams 中使用增强型扇出。 B. 增加 Kinesis 数据流的分片数量。 C. 通过覆盖 KCL 默认设置来减少传播延迟。 D. 使用 Amazon Kinesis Data Firehose 开发消费者。 69 / 74 69. (10)一家零售组织正在使用 Amazon Redshift 构建其数据仓库解决方案。作为该努力的一部分,该组织现在正在将数百个文件添加到其 Amazon Redshift 集群中建立的事实表中。在将数据加载到公司的事实表中时,公司需要解决方案来实现最佳吞吐量并优化集群资源的使用。 企业应该如何满足这些要求? A. 使用多个 COPY 命令将数据加载到 Amazon Redshift 集群中。 B. 使用 S3DistCp 将多个文件加载到 Hadoop 分布式文件系统 (HDFS) 中,并使用 HDFS 连接器将数据摄取到 Amazon Redshift 集群中。 C. 使用等于 Amazon Redshift 集群节点数量的 LOAD 命令,将数据并行加载到每个节点中。 D. 使用单个 COPY 命令将数据加载到 Amazon Redshift 集群中。 70 / 74 (6)营销组织正在使用 Amazon S3 来存储活动响应数据。每个活动的数据都是从一组一致的来源编译而来的。数据以 .csv 文件的形式上传到 Amazon S3。业务分析师将使用 Amazon Athena 检查每个活动的数据。该组织需要降低使用 Athena 进行持续数据分析的成本。 70. 数据分析专业人员应结合执行哪些步骤来满足这些要求?(选择两个。) A. 将 .csv 文件转换为 Apache Parquet。 B. 将 .csv 文件转换为 Apache Avro。 C. 按活动对数据进行分区。 D. 按源对数据进行分区。 E. 压缩 .csv 文件。 71 / 74 71. (5)一家公司每月使用 gzip 压缩一次 100 MB.csv 文件。该文件托管在 Amazon S3 Glacier 中,包含 50,000 条房产列表记录。 公司的数据分析师需要为某个供应商查询公司的部分数据。 哪种方法最具成本效益? A. 将数据加载到 Amazon S3 并使用 Amazon S3 Select 进行查询。 投票最多 B. 使用 Amazon Glacier Select 直接从 Amazon S3 Glacier 查询数据。 C. 将数据加载到 Amazon S3 并使用 Amazon Athena 进行查询。 D. 将数据加载到 Amazon S3 并使用 Amazon Redshift Spectrum 进行查询。 72 / 74 72. (4)一家人力资源组织使用 10 节点 Amazon Redshift 集群对公司数据运行分析查询。Amazon Redshift 集群包含两张表:一张用于产品,一张用于交易,两者都有一个产品 sku 字段。这些表跨度超过 100 GB。大多数查询都使用这两个表。 组织应该采用哪种分布模式来优化这两个表的查询速度? A. 两个表的 EVEN 分布样式 B. 两个表的 KEY 分布样式 投票最多 C. product 表的 ALL 分布样式和 transactions 表的 EVEN 分布样式 D. product 表的 EVEN 分布样式和 transactions 表的 KEY 分布样式 73 / 74 73. (161)一家企业正在 Amazon S3 上存储历史数据集。该公司的数据工程师希望通过 Amazon Athena 使这些数据集可用于研究。此外,工程师希望利用 AWS 加密技术保护 S3 结果位置中的 Athena 查询结果。以下条件适用于加密查询结果: ✑ 使用自定义密钥对主数据集查询结果进行加密。 ✑ 对所有其他查询结果使用通用加密。 ✑ 为主要数据集查询提供审计跟踪,显示密钥的使用时间和用户。 哪种解决方案满足这些标准? A. 对主数据集使用带有 S3 托管加密密钥 (SSE-S3) 的服务器端加密。对其他数据集使用 SSE-S3。 B. 对主数据集使用带有客户提供的加密密钥 (SSE-C) 的服务器端加密。对其他数据集使用带有 S3 托管加密密钥 (SSE-S3) 的服务器端加密。 C. 对主要数据集使用 AWS KMS 托管客户主密钥 (SSE-KMS CMK) 的服务器端加密。对其他数据集使用带有 S3 托管加密密钥 (SSE-S3) 的服务器端加密。 D. 将客户端加密与 AWS Key Management Service (AWS KMS) 客户托管密钥一起用于主数据集。对其他数据集使用 S3 客户端加密和客户端密钥。 74 / 74 74. (162)一位数据分析师正在开发一个系统,该系统将允许他使用 SQL 和 JDBC 连接以交互方式查询数据集。用户将能够以 Apache ORC 格式将存储在 Amazon S3 中的数据连接到存储在 Amazon OpenSearch Service (Amazon Elasticsearch Service) 和 Amazon Aurora MySQL 中的数据。 哪个选项将提供最新的信息? A. 使用 AWS Glue 作业将来自 Amazon ES 和 Aurora MySQL 的数据 ETL 到 Amazon S3。使用 Amazon Athena 查询数据。 B. 使用 Amazon DMS 将数据从 Amazon ES 和 Aurora MySQL 流式传输到 Amazon Redshift。使用 Amazon Redshift 查询数据。 C. 使用在 AWS Glue 开发人员终端节点上运行的 Apache Spark SQL 查询所有数据集。 D. 使用在 Amazon EMR 上运行的 Apache Presto 查询所有数据集。 Your score is 0% Restart quiz