/47 AWS MLS-C01 AWS Certified Machine Learning - Specialty 适合担负开发或数据科学职责,并在 AWS 云中开发、构架或运行机器学习/深度学习工作负载方面有一年以上经验的个人。 1 / 47 1. (2)一位机器学习专家正在设计一个系统来提高公司的销售额。目的是利用公司掌握的有关用户行为和产品偏好的大量信息,根据用户与其他用户的相似性来预测用户会喜欢哪些产品。 专家应该怎么做才能达到这个目标? A. 在 Amazon EMR 上使用 Apache Spark ML 构建基于内容的过滤推荐引擎 B. 在 Amazon EMR 上使用 Apache Spark ML 构建协同过滤推荐引擎。 C. 在 Amazon EMR 上使用 Apache Spark ML 构建基于模型的过滤推荐引擎 D. 在 Amazon EMR 上使用 Apache Spark ML 构建组合过滤推荐引擎 2 / 47 2. (3)一家移动网络运营商正在构建一个分析平台,以使用 Amazon Athena 和 Amazon S3 分析和优化公司的运营。 源系统以 .CSV 格式实时发送数据。数据工程团队希望在将数据存储到 Amazon S3 之前将其转换为 Apache Parquet 格式。 哪种解决方案实施起来最省力? A. 在 Amazon EC2 实例上使用 Apache Kafka Streams 摄取 .CSV 数据,并使用 Kafka Connect S3 将数据序列化为 Parquet B. 从 Amazon Kinesis Data Streams 提取 .CSV 数据并使用 Amazon Glue 将数据转换为 Parquet。 C. 在 Amazon EMR 集群中使用 Apache Spark Structured Streaming 摄取 .CSV 数据,并使用 Apache Spark 将数据转换为 Parquet。 D. 从 Amazon Kinesis Data Streams 提取 .CSV 数据并使用 Amazon Kinesis Data Firehose 将数据转换为 Parquet。 3 / 47 3. (7)一位机器学习专家正在构建一个模型,该模型将使用 Amazon SageMaker 执行时间序列预测。专家已完成模型训练,现在正计划在端点上执行负载测试,以便他们可以为模型变体配置 Auto Scaling。 哪种方法可以让专家在负载测试期间查看延迟、内存利用率和 CPU 利用率? A. 查看已写入 Amazon S3 的 SageMaker 日志,方法是利用 Amazon Athena 和 Amazon QuickSight 在生成日志时可视化日志。 B. 生成 Amazon CloudWatch 控制面板,为 Amazon SageMaker 输出的延迟、内存利用率和 CPU 利用率指标创建单一视图。 C. 构建自定义 Amazon CloudWatch Logs,然后利用 Amazon ES 和 Kibana 查询和可视化 Amazon SageMaker 生成的日志数据。 D. 将 Amazon SageMaker 生成的 Amazon CloudWatch Logs 发送到 Amazon ES,并使用 Kibana 查询和可视化日志数据。 B 是正确的。不需要使用 Kibana 或 QuickSight。 4 / 47 4. (16)在针对分类问题对神经网络进行小批量训练期间,数据科学家注意到训练准确度会波动。 这个问题最可能的原因是什么? A. 数据集中的类别分布不平衡。 B. 数据集改组被禁用。 C. 批量太大。 D. 学习率很高。 答案是D。应该增加还是减少权重,使误差小于当前值?您需要检查更改量才能知道这一点。因此,我们区分并检查切线的斜率是正还是负,并更新方向上的权重值以减少误差。一遍又一遍地重复该操作,以接近作为目标的最优解。更新量的宽度此时很重要,由学习率决定。 5 / 47 5. (23)一位机器学习专家正在构建一个卷积神经网络 (CNN),它将对 10 种动物进行分类。Specialist 在神经网络中构建了一系列层,这些层将获取动物的输入图像,将其传递给一系列卷积层和池化层,最后传递给具有 10 个节点的密集全连接层。专家希望从神经网络获得输出,该输出是输入图像属于 10 个类别中每个类别的概率分布。 哪个函数将产生所需的输出? A. 辍学 B. 平滑L1损失 C、 Softmax D. 修正线性单元 (ReLU) C可能更适合softmax是把数字变成概率 6 / 47 6. (24)一位机器学习专家训练了一个回归模型,但第一次迭代需要优化。专家需要了解模型是否更频繁地高估或低估目标。 专家可以使用什么选项来确定它是高估还是低估了目标值? A. 均方根误差 (RMSE) B. 残差图 C. 曲线下面积 D. 混淆矩阵 答案是 B。残差图分布表示高估或低估 7 / 47 7. (27)一位机器学习专家正在创建一个新的自然语言处理应用程序,用于处理由 100 万个句子组成的数据集。目的是然后运行 Word2Vec 以生成句子的嵌入并启用不同类型的预测。 以下是数据集中的一个示例: “he quck BROWN FOX jumps over the lazy dog.” 专家需要执行以下哪些操作才能以可重复的方式正确清理和准备数据?(选择三项。) A. 进行词性标注,只保留动作动词和名词。 B. 通过使句子小写来规范化所有单词。 C. 使用英语停用词词典删除停用词。 D. 将“quck”的排版更正为“quick“ E. One-hot 编码句子中的所有单词。 F. 将句子标记为单词。 我将选择 B、C、F 1- 应用词干提取和词形还原 2- 删除停用词 3- 标记句子 8 / 47 8. (29)一家保险公司正在开发一种新的车辆设备,该设备使用摄像头观察司机的行为,并在他们分心时提醒他们。该公司在受控环境中创建了大约 10,000 张训练图像,机器学习专家将使用这些图像来训练和评估机器学习模型。 在模型评估期间,专家注意到训练错误率随着时期数的增加而减少得更快,并且模型无法准确地推断未见过的测试图像。 应使用以下哪项来解决此问题?(选择两项。) A. 给模型添加消失梯度。 B. 对训练数据进行数据扩充。 C. 使神经网络架构复杂化。 D. 在模型中使用梯度检查。 E. 将 L2 正则化添加到模型中。 模型一定是过度拟合了。正则化有助于解决机器学习(以及数据扩充)中的过度拟合问题。正确答案应该是BE。 9 / 47 9. (31)监控服务每分钟生成 1 TB 的规模指标记录数据。研究团队使用 Amazon Athena 对此数据执行查询。由于数据量大,查询运行缓慢,团队需要更好的性能。 应该如何将记录存储在 Amazon S3 中以提高查询性能? A. CSV 文件 B. Parquet files C. 压缩的 JSON D.RecordIO 答案是 B。Athena 最好采用 Parquet 格式。 10 / 47 10. (33)一家游戏公司推出了一款在线游戏,人们可以免费开始玩,但如果他们选择使用某些功能,则需要付费。公司需要建立一个自动化系统来预测新用户是否会在 1 年内成为付费用户。该公司已经从 100 万用户那里收集了一个带标签的数据集。 训练数据集包含 1,000 个正样本(来自 1 年内结束付费的用户)和 999,000 个负样本(来自未使用任何付费功能的用户)。每个数据样本包含 200 个特征,包括用户年龄、设备、位置和游戏模式。 使用此数据集进行训练,数据科学团队训练了一个随机森林模型,该模型在训练集上的收敛准确率超过 99%。但是,测试数据集的预测结果并不令人满意 数据科学团队应采用以下哪些方法来缓解此问题?(选择两项。) A. 在随机森林中加入更深的树,使模型能够学习到更多的特征。 B. 在训练数据集中包含测试数据集中样本的副本。 C. 通过复制正样本并在复制数据中添加少量噪声来生成更多正样本。 D. 改变成本函数,使假阴性比假阳性对成本值的影响更大。 E. 改变成本函数,使误报比漏报对成本值的影响更大。 我认为应该是 CD C: 因为我们需要一个平衡数据集 D: 正样本的数量很大所以模型倾向于对所有导致假阴性问题的情况预测 0(负)。我们应该尽量减少它。我的看法 11 / 47 11. (45)数据科学家需要为高速实时流数据创建无服务器摄取和分析解决方案。 摄取过程必须缓冲传入的记录,并将其从 JSON 转换为查询优化的列式格式,而不会丢失数据。输出数据存储必须高度可用,分析师必须能够对数据运行 SQL 查询并连接到现有的商业智能仪表板。 数据科学家应该构建哪种解决方案来满足要求? A. 在传入数据格式的 AWS Glue 数据目录中创建架构。在交付到 Amazon S3 之前,使用 Amazon Kinesis Data Firehose 传输流流式传输数据并使用 AWS Glue 数据目录将数据转换为 Apache Parquet 或 ORC 格式。让分析师使用 Amazon Athena 直接从 Amazon S3 查询数据,并使用 Athena Java 数据库连接 (JDBC) 连接器连接到 BI 工具。 B. 将每个 JSON 记录写入 Amazon S3 中的暂存位置。使用 S3 Put 事件触发 AWS Lambda 函数,该函数将数据转换为 Apache Parquet 或 ORC 格式并将数据写入 Amazon S3 中经过处理的数据位置。让分析师使用 Amazon Athena 直接从 Amazon S3 查询数据,并使用 Athena Java 数据库连接 (JDBC) 连接器连接到 BI 工具。 C. 将每个 JSON 记录写入 Amazon S3 中的暂存位置。使用 S3 Put 事件触发 AWS Lambda 函数,该函数将数据转换为 Apache Parquet 或 ORC 格式并将其插入到 Amazon RDS PostgreSQL 数据库中。让分析师从 RDS 数据库查询和运行仪表板。 D. 使用 Amazon Kinesis Data Analytics 提取流数据并执行实时 SQL 查询以将记录转换为 Apache Parquet,然后再传送到 Amazon S3。让分析师使用 Amazon Athena 直接从 Amazon S3 查询数据,并使用 Athena Java 数据库连接 (JDBC) 连接器连接到 BI 工具。 Kinesis Data Analytics 没有 PARQET 格式,JSON 不需要存储在 S3 中。RDS 不是无服务器摄取和分析解决方案答案是 A。 12 / 47 12. (46)一家在线经销商拥有一个大型多列数据集,其中一列缺失 30% 的数据。机器学习专家认为数据集中的某些列可用于重建缺失数据。 专家应该使用哪种重建方法来保持数据集的完整性? A. 列表删除 B. 上次观察结转 C. 多重插补 D. 平均替代 C 看起来是正确的,因为可以根据问题中给出的相关变量执行多重插补 13 / 47 13. (48) 一位机器学习专家正在训练一个模型来识别图像中车辆的品牌和型号。专家想要使用迁移学习和在一般对象图像上训练的现有模型。专家整理了一个包含不同车辆品牌和型号的图片的大型自定义数据集。 专家应该如何初始化模型以使用自定义数据对其进行重新训练? A. 在包括最后一个全连接层在内的所有层中使用随机权重初始化模型。 B. 在所有层中使用预训练的权重初始化模型并替换最后一个全连接层。 C. 在所有层中使用随机权重初始化模型并替换最后一个全连接层。 D. 在包括最后一个全连接层在内的所有层中使用预训练的权重初始化模型。 我会选择 B,我们主要关心输出层以获得所需的结果,因此我们需要替换它。 14 / 47 14. (56)机器学习专家正在为 Amazon SageMaker 上的训练准备数据。专家使用 SageMaker 内置算法之一进行训练。数据集以 .CSV 格式存储并转换为 numpy.array,这似乎对训练速度产生了负面影响。 专家应该如何优化用于 SageMaker 训练的数据? A. 使用 SageMaker 批量转换功能将训练数据转换为 DataFrame。 B. 使用 AWS Glue 将数据压缩成 Apache Parquet 格式。 C. 将数据集转换为 RecordIO protobuf 格式。 D. 使用 SageMaker 超参数优化功能自动优化数据。 答案是 C。大多数 Amazon SageMaker 算法在您对训练数据使用优化的 protobuf recordIO 格式时效果最佳。 15 / 47 15. (61)一位机器学习专家正在与一家大型网络安全公司合作,该公司为世界各地的公司实时管理安全事件。该网络安全公司希望设计一种解决方案,使其能够使用机器学习将恶意事件评分为数据被摄取时的异常情况。该公司还希望能够将结果保存在其数据湖中,以供以后处理和分析。 完成这些任务最有效的方法是什么? A. 使用 Amazon Kinesis Data Firehose 提取数据,并使用 Amazon Kinesis Data Analytics 随机砍伐森林 (RCF) 进行异常检测。然后使用 Kinesis Data Firehose 将结果流式传输到 Amazon S3。 B. 使用 Amazon EMR 将数据提取到 Apache Spark Streaming,并使用带有 k-means 的 Spark MLlib 执行异常检测。然后使用复制因子为三的 Amazon EMR 作为数据湖将结果存储在 Apache Hadoop 分布式文件系统 (HDFS) 中。 C. 提取数据并将其存储在 Amazon S3 中。将 AWS Batch 与 AWS 深度学习 AMI 结合使用,以使用 TensorFlow 对 Amazon S3 中的数据训练 k-means 模型。 D. 提取数据并将其存储在 Amazon S3 中。让按需触发的 AWS Glue 作业转换新数据。然后使用 Amazon SageMaker 中内置的随机森林砍伐 (RCF) 模型来检测数据中的异常。 答案是 A。因为 anamoly 这个词在考试中谈到了随机砍伐森林,并且可以使用 Kinesis Data Analytics 以经济高效的方式完成 16 / 47 16. (62)数据科学家想要获得对 GZIP 文件数据流的实时洞察。 哪种解决方案允许使用 SQL 以最少的延迟查询流? A. Amazon Kinesis Data Analytics 使用 AWS Lambda 函数来转换数据。 B. AWS Glue 使用自定义 ETL 脚本来转换数据。 C. 用于转换数据并将其保存到 Amazon ES 集群的 Amazon Kinesis 客户端库。 D. Amazon Kinesis Data Firehose 转换数据并将其放入 Amazon S3 存储桶中。 A是正确的。Kinesis Data Analytics 可以使用 lamda 转换 GZIP,并可以在转换后的数据上运行 SQL。 17 / 47 17. (65)Machine Learning Specialist 正在构建一个模型,以根据广泛的经济因素预测未来的就业率。在探索数据时, 专家注意到输入特征的量级变化很大。Specialist 不希望具有较大量值的变量支配模型。 Specialist 应该如何准备模型训练的数据? A. 应用分位数分箱将数据分组到分类箱中,通过用分布替换量值来保持数据中的任何关系。 B. 应用笛卡尔乘积变换来创建与大小无关的新字段组合。 C. 应用归一化以确保每个字段的均值为 0 且方差为 1 以消除任何重要的幅度。 D. 应用正交稀疏二元组 (OSB) 变换应用固定大小的滑动窗口来生成具有相似量级的新特征。 答案:C;归一化是正确的 18 / 47 18. (66)机器学习专家必须构建一个流程来使用 Amazon Athena 查询 Amazon S3 上的数据集。该数据集包含超过 800,000 条存储为纯文本 CSV 文件的记录。每条记录包含 200 列,大小约为 1.5 MB。大多数查询只会跨越 5 到 10 列。 机器学习专家应该如何转换数据集以最小化查询运行时间? A. 将记录转换为 Apache Parquet 格式。 B. 将记录转换为 JSON 格式。 C. 将记录转换为 GZIP CSV 格式。 D. 将记录转换为 XML 格式。 A(大多数查询只会跨越 5 到 10 列) 19 / 47 19. (69)一家大型消费品制造商出售以下产品: * 34 种不同的牙膏变体 * 48 种不同的牙刷变体 * 43 种不同的漱口水变体 所有这些产品的完整销售历史记录都可以在 Amazon S3 中找到。目前,该公司正在使用定制的自回归综合移动平均 (ARIMA) 模型来预测对这些产品的需求。该公司想要预测对即将推出的新产品的需求。 机器学习专家应该应用哪种解决方案? A. 训练自定义 ARIMA 模型来预测新产品的需求。 B. 训练 Amazon SageMaker DeepAR 算法来预测新产品的需求。 C. 训练 Amazon SageMaker k-means 聚类算法来预测新产品的需求。 D. 训练自定义 XGBoost 模型来预测新产品的需求。 20 / 47 20. (71)数据科学家需要将现有的本地 ETL 流程迁移到云端。当前流程以固定的时间间隔运行,并使用 PySpark 将多个大型数据源组合并格式化为单个合并输出以供下游处理。 数据科学家对云解决方案提出了以下要求: ✑ 结合多个数据源。 ✑ 重用现有的 PySpark 逻辑。 ✑ 按现有计划运行解决方案。 ✑ 尽量减少需要管理的服务器数量。 数据科学家应该使用哪种架构来构建这个解决方案? A. 将原始数据写入 Amazon S3。安排 AWS Lambda 函数以根据现有计划将 Spark 步骤提交到持久性 Amazon EMR 集群。使用现有的 PySpark 逻辑在 EMR 集群上运行 ETL 作业。将结果输出到 Amazon S3 中可供下游使用访问的“已处理”位置。 B. 将原始数据写入 Amazon S3。创建 AWS Glue ETL 作业以对输入数据执行 ETL 处理。在 PySpark 中编写 ETL 作业以利用现有逻辑。创建一个新的 AWS Glue 触发器以根据现有计划触发 ETL 作业。配置 ETL 作业的输出目标以写入 Amazon S3 中可供下游使用访问的“已处理”位置。 C. 将原始数据写入 Amazon S3。安排 AWS Lambda 函数按现有计划运行并处理来自 Amazon S3 的输入数据。用 Python 编写 Lambda 逻辑并实现现有的 PySpark 逻辑以执行 ETL 过程。让 Lambda 函数将结果输出到 Amazon S3 中可供下游使用访问的“已处理”位置。 D. 使用 Amazon Kinesis Data Analytics 流式传输输入数据并对流执行实时 SQL 查询以在流内执行所需的转换。将输出结果传送到 Amazon S3 中可供下游使用的“已处理”位置。 答案是 B,因为他们特别询问有关重用现有 PySpark 的问题,这可以通过 Glue 完成 21 / 47 21. (73)一家飞机发动机制造公司正在测量一个时间序列中的 200 个性能指标。工程师希望在测试期间近乎实时地检测关键制造缺陷。所有数据都需要存储以供离线分析。 执行近实时缺陷检测的最有效方法是什么? A. 使用 AWS IoT Analytics 进行摄取、存储和进一步分析。使用 AWS IoT Analytics 中的 Jupyter 笔记本对异常进行分析。 B. 使用 Amazon S3 进行摄取、存储和进一步分析。使用 Amazon EMR 集群执行 Apache Spark ML k-means 集群以确定异常。 C. 使用 Amazon S3 进行摄取、存储和进一步分析。使用 Amazon SageMaker 随机森林砍伐 (RCF) 算法来确定异常。 D. 使用 Amazon Kinesis Data Firehose 进行摄取,使用 Amazon Kinesis Data Analytics 随机砍伐森林 (RCF) 执行异常检测。使用 Kinesis Data Firehose 将数据存储在 Amazon S3 中以供进一步分析。 选答:D 关键字是“近实时”,这将需要流,而这正是 Kinesis 提供的 22 / 47 22. (78)一位机器学习专家之前在本地机器上使用 scikit-learn 训练了一个逻辑回归模型,现在该专家希望将其部署到生产环境中,仅用于推理。 应采取哪些步骤来确保 Amazon SageMaker 可以托管在本地训练的模型? A. 使用推理代码构建 Docker 镜像。使用注册表主机名标记 Docker 映像并将其上传到 Amazon ECR。 B. 序列化经过训练的模型,以便压缩格式以进行部署。使用注册表主机名标记 Docker 映像并将其上传到 Amazon S3。 C. 序列化经过训练的模型,以便压缩格式以进行部署。构建镜像并将其上传到 Docker Hub。 D. 使用推理代码构建 Docker 镜像。配置 Docker Hub 并将映像上传到 Amazon ECR。 Docker Hub 是一个存储库,因此 ANS D 没有意义。选项A是要走的路。 23 / 47 23. (79)一家卡车运输公司正在从其遍布全球的卡车车队收集实时图像数据。数据增长迅速,每天大约产生 100 GB 的新数据。该公司希望探索机器学习用例,同时确保数据仅供特定 IAM 用户访问。 哪个存储选项提供最大的处理灵活性并且允许使用 IAM 进行访问控制? A. 使用数据库(如 Amazon DynamoDB)存储图像,并设置 IAM 策略以将访问权限限制为仅所需的 IAM 用户。 B. 使用 Amazon S3 支持的数据湖来存储原始图像,并使用存储桶策略设置权限。 C. 使用 Hadoop 分布式文件系统 (HDFS) 设置 Amazon EMR 以存储文件,并使用 IAM 策略限制对 EMR 实例的访问。 D. 使用 IAM 策略配置 Amazon EFS,使数据可用于 IAM 用户拥有的 Amazon EC2 实例。 选答:B B 用作策略存储 C 是负担不起的,因为它是临时存储。 24 / 47 24. (85)给定以下电影分类模型的混淆矩阵,浪漫的真实类别频率和 冒险的预测类别频率是多少? A. Romance 的真实上课频率为 77.56%,Adventure 的预测上课频率为 20.85% B. Romance 的真实上课频率为 57.92%,Adventure 的预测上课频率为 13.12% C. Romance 的真实班级频率为 0.78,Adventure 的预测班级频率为 (0.47-0.32) D. Romance 的真实班级频率为 77.56% ֳ— 0.78,Adventure 的预测班级频率为 20.85% ֳ— 0.32 25 / 47 25. (87)数据科学家需要分析就业数据。该数据集包含对 10 个不同特征的人的大约 1000 万个观察结果。在初步分析期间,数据科学家注意到收入和年龄分布不正常。虽然收入水平如预期的那样呈现右偏态,收入较高的人较少,但年龄分布也呈现右偏态,参与劳动力的老年人较少。 数据科学家可以应用哪些特征转换来修复错误倾斜的数据?(选择两项。) A. 交叉验证 B. 数值分箱 C. 高次多项式变换 D、 对数变换 E. 一次热编码 同意 B&D。两者都是消除倾斜影响的策略 26 / 47 26. (90)一位机器学习专家计划创建一个长期运行的 Amazon EMR 集群。EMR 集群将有 1 个主节点、10 个核心节点和 20 个任务节点。为了节省成本,专家将在 EMR 集群中使用 Spot 实例。 专家应在 Spot 实例上启动哪些节点? A. 主节点 B. 任意一个核心节点 C. 任意一个任务节点 D. 核心节点和任务节点 只有任务节点可以被删除而不会丢失数据 27 / 47 27. (100)一位数据科学家正在开发一个二元分类器,以根据一系列测试结果预测患者是否患有特定疾病。数据科学家拥有 从人群中随机选择的 400 名患者的数据。这种疾病见于 3% 的人口。 数据科学家应该采用哪种交叉验证策略? A. k=5 的 k 折交叉验证策略 B. k=5 的分层 k 折交叉验证策略 C. k=5 和 3 次重复的 k 折交叉验证策略 D. 训练和验证之间的 80/20 分层划分 B - 分层 k 折交叉验证将在每个数据拆分中强制执行类分布,以匹配完整训练数据集中的分布。 28 / 47 28. (108)一位数据科学家正在开发一条管道来摄取流式网络流量数据。数据科学家需要实施一个流程来识别异常的网络流量模式,作为管道的一部分。这些模式将在下游用于警报和事件响应。如果需要,数据科学家可以访问未标记的历史数据以供使用。 该解决方案需要执行以下操作: ✑ 计算每个网络流量条目的异常分数。 随着时间的推移,使异常事件识别适应不断变化的网络模式。 数据科学家应该采用哪种方法来满足这些要求? A. 使用历史 Web 流量数据使用 Amazon SageMaker 随机森林砍伐 (RCF) 内置模型训练异常检测模型。使用 Amazon Kinesis Data Stream 处理传入的 Web 流量数据。附加预处理 AWS Lambda 函数以通过调用 RCF 模型计算每条记录的异常分数来执行数据丰富。 B. 使用历史 Web 流量数据使用 Amazon SageMaker 内置的 XGBoost 模型训练异常检测模型。使用 Amazon Kinesis Data Stream 处理传入的 Web 流量数据。附加预处理 AWS Lambda 函数以通过调用 XGBoost 模型计算每条记录的异常分数来执行数据丰富。 C. 使用 Amazon Kinesis Data Firehose 收集流数据。将交付流映射为 Amazon Kinesis Data Analytics 的输入源。使用 k-最近邻 (kNN) SQL 扩展编写一个 SQL 查询以针对流数据实时运行,以使用滚动窗口计算每条记录的异常分数。 D. 使用 Amazon Kinesis Data Firehose 收集流数据。将交付流映射为 Amazon Kinesis Data Analytics 的输入源。使用 Amazon Random Cut Forest (RCF) SQL 扩展编写 SQL 查询以针对流数据实时运行,以使用滑动窗口计算每条记录的异常分数。 我认为答案是 D - RCF 与 Data Analytics 一起工作,滑动窗口有助于获取新信息 29 / 47 29. (115)一家零售公司正在使用 Amazon Personalize 在营销活动期间为其客户提供个性化产品推荐。该公司发现,在部署新解决方案版本后,向现有客户推荐商品的销售额立即显着增加,但这些销售额在部署后不久就会下降。只有营销活动之前的历史数据可用于培训。 数据科学家应该如何调整解决方案? A. 使用 Amazon Personalize 中的事件跟踪器来包括实时用户交互。 B. 添加用户元数据并使用 Amazon Personalize 中的 HRNN-Metadata 配方。 C. 使用 Amazon SageMaker 中的内置因式分解机 (FM) 算法实施新解决方案。 D. 将事件类型和事件值字段添加到 Amazon Personalize 中的交互数据集。 A 是正确答案。因为在这种情况下,不是现有历史数据(事件价值、事件类型(点击与否))的问题,销售额没有保持增长,现在需要获取更多近期的交互数据。事件跟踪器为新事件数据指定目标数据集组。 30 / 47 30. (121)数据科学家使用 Amazon SageMaker 笔记本实例进行数据探索和分析。这需要在笔记本实例上安装 Amazon SageMaker 上本机不可用的某些 Python 包。 机器学习专家如何确保笔记本实例上自动提供所需的包以供数据科学家使用? A. 在底层 Amazon EC2 实例上安装 AWS Systems Manager 代理,并使用 Systems Manager Automation 执行程序包安装命令。 B. 创建一个 Jupyter 笔记本文件 (.ipynb),其中包含要执行的包安装命令的单元格,并将该文件放在每个 Amazon SageMaker 笔记本实例的 /etc/init 目录下。 C. 使用 Jupyter 笔记本控制台中的 conda 包管理器将必要的 conda 包应用到笔记本的默认内核。 D. 使用包安装命令创建 Amazon SageMaker 生命周期配置,并将生命周期配置分配给笔记本实例。 31 / 47 31. (122)数据科学家需要识别公司电子商务平台的欺诈性用户帐户。该公司希望能够确定新创建的帐户是否与先前已知的欺诈用户相关联。数据科学家正在使用 AWS Glue 在摄取期间清理公司的应用程序日志。 哪种策略可以让数据科学家识别欺诈账户? A. 执行内置的 FindDuplicates Amazon Athena 查询。 B. 在 AWS Glue 中创建 FindMatches 机器学习转换。 C. 创建一个 AWS Glue 爬虫来推断源数据中的重复帐户。 D. 在 AWS Glue 数据目录中搜索重复的账户。 B ,您可以使用 FindMatches 转换来查找源数据中的重复记录。生成或提供标签文件以帮助教授转换。 32 / 47 32. (125)一家金融公司正试图检测信用卡欺诈行为。该公司观察到,平均有 2% 的信用卡交易是欺诈性的。一位数据科学家根据一年的信用卡交易数据训练了一个分类器。该模型需要从常规交易 (负面)中识别欺诈交易(正面)。公司的目标是准确捕捉尽可能多的积极因素。 数据科学家应该使用哪些指标来优化模型?(选择两项。) A. 特异性 B. 误报率 C、 准确性 D. 精确召回曲线下的面积 E. 真阳性率 D、E为答案。我们需要提高召回率(不是准确率)。 33 / 47 33. (129)一家公司将来自网络广告点击的机器学习 (ML) 数据提取到 Amazon S3 数据湖中。点击数据通过使用 Kinesis Producer Library (KPL) 添加到 Amazon Kinesis 数据流。使用 Amazon Kinesis Data Firehose 传输流将数据从数据流加载到 S3 数据湖中。随着数据量的增加,一位 ML 专家注意到引入 Amazon S3 的数据速率相对恒定。Kinesis Data Streams 和 Kinesis Data Firehose 需要摄取的数据积压也越来越多。 下一步哪个最有可能提高 Amazon S3 的数据摄取率? A. 增加要写入的传输流的 S3 前缀数量。 B. 减少数据流的保留期。 C. 增加数据流的分片数。 D. 使用 Kinesis Client Library (KCL) 添加更多消费者。 C是正确答案。# of shard 由以下因素决定: 1. # of transactions per second times 2. data blob 例如。大小为 100 KB 3. 一个分片可以每秒摄取 1 MB 34 / 47 34. (138)一家公司已使用 Amazon SageMaker 托管服务通过端点设置其机器学习 (ML) 模型并将其部署到生产环境中。ML 团队为其 SageMaker 实例配置了自动扩展以支持工作负载变化。在测试期间,团队注意到在新实例准备就绪之前启动了其他实例。这种行为需要尽快改变。 ML 团队如何解决这个问题? A. 减少缩减活动的冷却时间。增加配置的最大实例容量。 B. 使用 SageMaker 将当前终端节点替换为多模型终端节点。 C. 设置 Amazon API Gateway 和 AWS Lambda 以触发 SageMaker 推理端点。 D. 增加横向扩展活动的冷却时间。 选答:D 我认为这是一个与扩展(增加实例数)有关的问题,应该增加冷却时间。 35 / 47 35. (156)一家公司向数千家零售店供应批发服装。数据科学家必须创建一个模型来预测每家商店每件商品的每日销量。数据科学家发现超过一半的商店营业时间不到 6 个月。销售数据每周都高度一致。数据库中的每日数据已每周汇总,当前数据集中省略了没有销售的周数。五年 (100 MB) 的销售数据在 Amazon S3 中可用。 哪些因素会对要开发的预测模型的性能产生不利影响,数据科学家应该采取哪些措施来缓解这些因素? (选择两项。) A. 检测大多数商店的季节性将是一个问题。请求分类数据以将新商店与具有更多历史数据的类似商店相关联。 B. 销售数据没有足够的方差。向其他行业索取外部销售数据,提高模型的泛化能力。 C. 销售数据按周汇总。从源数据库请求每日销售数据以启用构建每日模型。 D. 销售数据缺少项目销售的零条目。请求源数据库中的商品销售数据包含零条目以启用模型构建。 E. Amazon S3 中只有 100 MB 的销售数据可用。请求 10 年的销售数据,这将为模型提供 200 MB 的训练数据。 36 / 47 36. (163)一位机器学习专家正在开发一种回归模型,以根据出租清单预测租金。名为 Wall_Color 的变量表示该属性最突出的外墙颜色。以下是样本数据,不包括所有其他变量: 专家选择了一个需要数值输入数据的模型。 专家应该使用哪些特征工程方法来允许回归模型从 Wall_Color 数据中学习?(选择两项。) A. 应用整数变换并设置红色 = 1,白色 = 5,绿色 = 10。 B. 添加新的列来存储颜色的单热表示。 C. 用长度替换颜色名称字符串。 D. 创建三列以 RGB 格式对颜色进行编码。 E. 用训练集频率替换每个颜色名称。 37 / 47 37. (175)一家全球金融公司正在使用机器学习来自动化其贷款审批流程。公司有一个客户信息数据集。该数据集包含一些分类字段,例如按城市划分的客户位置和住房状况。该数据集还包括不同单位的财务字段,例如以美元为单位的账户余额和以美分为单位的月利息。 该公司的数据科学家正在使用梯度提升回归模型来推断每个客户的信用评分。该模型的训练精度为 99%,测试精度为 75%。数据科学家希望提高模型的测试准确性。 哪个过程最能提高测试精度? A. 对数据集中的分类字段使用单热编码器。对数据集中的财务字段进行标准化。对数据应用 L1 正则化。 B. 使用数据集中分类字段的标记化。对数据集中的财务字段执行装箱。使用 z-score 去除数据中的异常值。 C. 对数据集中的分类字段使用标签编码器。对数据集中的财务字段执行 L1 正则化。对数据应用 L2 正则化。 D. 对数据集中的分类字段使用对数变换。对数据集中的财务字段执行装箱。使用插补来填充数据集中的缺失值。 A:过拟合所以需要正则化,需要在金融数据字段上应用缩放,因为它是针对回归问题;房屋领域城市的一种热编码。 38 / 47 38. (176)机器学习 (ML) 专家需要从文本系列中提取嵌入向量。目标是为数据科学家提供随时可用的特征空间,以开发下游 ML 预测模型。文本由精选的英语句子组成。许多句子使用相似的词,但在不同的上下文中。句子之间有问题和答案,嵌入空间必须区分它们。 哪些选项可以生成捕获单词上下文和顺序 QA 信息所需的嵌入向量?(选择两项。) A. Amazon SageMaker seq2seq 算法 B. Skip-gram 模式下的 Amazon SageMaker BlazingText 算法 C. Amazon SageMaker Object2Vec 算法 D. 连续词袋 (CBOW) 模式下的 Amazon SageMaker BlazingText 算法 E. Batch Skip-gram 模式下的 Amazon SageMaker BlazingText 算法与自定义递归神经网络 (RNN) 的组合 39 / 47 39. (181)一家房地产公司正在推出一种预测新房价格的新产品。属性和价格的历史数据以 .csv 格式存储在 Amazon S3 存储桶中。数据有一个标题、一些分类字段和一些缺失值。该公司的数据科学家使用带有通用开源库的 Python 来用零填充缺失值。数据科学家放弃了所有分类字段,并使用具有默认参数的开源线性回归算法训练了一个模型。 当前模型的预测准确度低于 50%。该公司希望提高模型性能并尽快推出新产品。 哪种解决方案能够以最少的运营开销满足这些要求? A. 为 Amazon Elastic Container Service (Amazon ECS) 创建一个具有 S3 存储桶访问权限的服务相关角色。创建一个基于 AWS Deep Learning Containers 映像的 ECS 集群。编写代码来执行特征工程。训练用于预测价格的逻辑回归模型,指向包含数据集的桶。等待训练作业完成。进行推理。 B. 使用与笔记本关联的新 IAM 角色创建 Amazon SageMaker 笔记本。从 S3 存储桶中拉取数据集。探索特征工程转换、回归算法和超参数的不同组合。比较笔记本中的所有结果,并在端点中部署最准确的配置以进行预测。 C. 创建一个 IAM 角色,可以访问 Amazon S3、Amazon SageMaker 和 AWS Lambda。使用指向包含数据集的存储桶的 SageMaker 内置 XGBoost 模型创建训练作业。指定价格作为目标特征。等待作业完成。将模型工件加载到 Lambda 函数以推断新房价格。 D. 为 Amazon SageMaker 创建一个 IAM 角色,可以访问 S3 存储桶。创建一个 SageMaker AutoML 作业,其中 SageMaker Autopilot 指向包含数据集的存储桶。将价格指定为目标属性。等待作业完成。部署最佳预测模型。 D 是正确的:消除技巧是 A 不能,因为 Logistic 是分类算法,它给出二进制结果。B & C 似乎有很多工作。 40 / 47 40. (192)报纸出版商有一张客户数据表,其中包含多个数字和分类特征,例如年龄和教育历史,以及订阅状态。公司希望建立一个基于表数据预测订阅状态的针对性营销模型。 应该使用哪种 Amazon SageMaker 内置算法来为目标营销建模? A. 随机砍伐森林 (RCF) B. XGBoost C. 神经主题模型 (NTM) D. DeepAR 预测 选答:B 订阅状态是二进制还是多类 XGBoost 可以处理这种情况下的问题。 41 / 47 41. (195)一家地理空间分析公司每天处理数以千计的新卫星图像,以生成用于商业航运的船舶检测数据。该公司将培训数据存储在 Amazon S3 中。训练数据的大小每天都会随着新图像的增加而逐渐增加。 该公司已将 Amazon SageMaker 训练作业配置为使用具有文件输入模式的单个 ml.p2.xlarge 实例来训练内置对象检测算法。上个月的培训过程很成功,但现在由于缺乏存储而失败了。除了增加训练数据外,模型训练过程没有任何变化。 机器学习 (ML) 专家需要更改训练配置以解决问题。该解决方案必须优化性能并且必须最小化培训成本。 哪种解决方案可以满足这些要求? A. 修改训练配置以使用两个 ml.p2.xlarge 实例。 B. 修改训练配置以使用管道输入模式。 C. 修改训练配置以使用单个 ml.p3.2xlarge 实例。 D. 修改训练配置以使用 Amazon Elastic File System (Amazon EFS) 而不是 Amazon S3 来存储输入训练数据。 选答:B 管道模式解决了这个问题,而不会产生额外的存储成本。数据直接流式传输到训练算法,无需存储在 EBS 卷中。 42 / 47 42. (21)机器学习专家正在配置 Amazon SageMaker,以便多个数据科学家可以访问笔记本、训练模型和部署终端节点。为确保最佳操作性能,专家需要能够跟踪科学家部署模型的频率、部署的 SageMaker 端点上的 GPU 和 CPU 利用率,以及调用端点时生成的所有错误。 哪些服务与 Amazon SageMaker 集成以跟踪此信息?(选择两项。) A. AWS CloudTrail B. AWS Health C. AWS Trusted Advisor D. Amazon CloudWatch E. AWS Config 43 / 47 43. (75)机器学习专家想要为端点自动缩放配置确定适当的 SageMakerVariantInvocationsPerInstance 设置。专家对单个实例执行了负载测试,并确定没有服务降级的每秒峰值请求 (RPS) 约为 20 RPS。由于这是第一次部署,专家打算将调用安全系数设置为 0.5。 根据规定的参数,假设每个实例的调用设置是按分钟计算的,专家应该将什么设置为 SageMakerVariantInvocationsPerInstance 设置? A. 10 B. 30 C. 600 D. 2,400 高峰期最大请求=20 RPS=20x60=1200RPM 安全系数0.5=1200*0.5=600参数基本设置=600(每分钟请求数) 44 / 47 44. (147)一家制造公司使用机器学习 (ML) 模型来检测质量问题。这些模型使用公司产品在每个生产步骤结束时拍摄的图像。该公司在生产现场拥有数千台机器,平均每秒生成一幅图像。 该公司使用一台制造机器进行了一次成功的试点。对于试点,ML 专家使用了一台运行 AWS IoT Greengrass 的工业 PC,该 PC 具有长期运行的 AWS Lambda 功能,可将图像上传到 Amazon S3。上传的图像调用了一个用 Python 编写的 Lambda 函数,以使用运行自定义模型的 Amazon SageMaker 终端节点执行推理。推理结果被转发回托管在生产站点的 Web 服务,以防止运送有缺陷的产品。 该公司通过在每台生产机器上安装类似配置的工业 PC,将解决方案扩展到所有制造机器。但是,预测的延迟增加超出了可接受的限度。分析表明互联网连接已达到容量极限。 公司如何才能最具成本效益地解决这个问题? A. 在生产站点和最近的 AWS 区域之间建立 10 Gbps AWS Direct Connect 连接。使用 Direct Connect 连接上传图像。增加 SageMaker 终端节点使用的实例大小和实例数量。 B. 扩展在 AWS IoT Greengrass 上运行的长期运行的 Lambda 函数以压缩图像并将压缩文件上传到 Amazon S3。使用单独的 Lambda 函数解压缩文件,该函数调用现有的 Lambda 函数来运行推理管道。 C. 为 SageMaker 使用自动缩放。在生产站点和最近的 AWS 区域之间建立 AWS Direct Connect 连接。使用 Direct Connect 连接上传图像。 D. 将 Lambda 函数和 ML 模型部署到在每台机器上安装的工业 PC 上运行的 AWS IoT Greengrass 核心上。扩展在 AWS IoT Greengrass 上运行的长期运行的 Lambda 函数,以使用捕获的图像调用 Lambda 函数,并在边缘组件上运行推理,将结果直接转发到 Web 服务。 AC:排除在外,直连很贵 45 / 47 45. (184)一家能源公司拥有风力涡轮机、气象站和可生成遥测数据的太阳能电池板。公司希望对这些设备进行预测性维护。这些设备位于不同的位置并且互联网连接不稳定。 一组数据科学家正在使用遥测数据执行机器学习 (ML),以在设备开始恶化之前进行异常检测和预测维护。该团队需要一种可扩展、安全、高速的数据摄取机制。该团队已决定使用 Amazon S3 作为数据存储位置。 哪种方法满足这些要求? A. 通过对 Amazon EC2 上托管的 Web 服务器使用 HTTP API 调用来摄取数据。在 Elastic Load Balancer 后面的 Auto Scaling 配置中设置 EC2 实例,以将数据加载到 Amazon S3 中。 B. 通过消息队列遥测传输 (MQTT) 将数据提取到 AWS IoT Core。在 AWS IoT Core 中设置规则以使用 Amazon Kinesis Data Firehose 将数据发送到配置为写入 S3 存储桶的 Amazon Kinesis 数据流。 C. 通过消息队列遥测传输 (MQTT) 将数据提取到 AWS IoT Core。在 AWS IoT Core 中设置规则以将所有 MQTT 数据定向到配置为写入 S3 存储桶的 Amazon Kinesis Data Firehose 传输流。 D. 通过消息队列遥测传输 (MQTT) 将数据提取到配置为写入 S3 存储桶的 Amazon Kinesis 数据流。 答案是C。B、D错了,因为Kinesis data stream不能直接写到S3。 46 / 47 46. (185)一家零售公司从社交媒体、公司网站和客户通话记录中收集客户对其产品的评论。一组数据科学家和工程师希望找到共同的主题并确定客户在评论中指的是哪些产品。该团队正在使用自然语言处理 (NLP) 构建模型来帮助进行这种分类。 每个产品都可以分为公司定义的多个类别。这些类别是相关的,但并不相互排斥。例如,如果客户评论文档中提到“Sample Yogurt”,则“Sample Yogurt”应分类为“酸奶”、“零食”、 该团队正在使用 Amazon Comprehend 训练模型,必须尽快完成该项目。 团队应该使用 Amazon Comprehend 的哪些功能来满足这些要求? A. 多类模式的自定义分类 B. 多标签模式自定义分类 C. 自定义实体识别 D. 内置模型 选答:B 答案是B。在多标签模式下,各个类代表不同的类别,但是这些类别之间并不互斥,而在多类模式下各个类是互斥的 47 / 47 47. (198)一家公司想要预测从应用程序创建的文档的分类。新文档每 3 秒保存到 Amazon S3 存储桶中。该公司在 Amazon SageMaker 中开发了三个版本的机器学习 (ML) 模型来对文档文本进行分类。该公司希望部署这三个版本来预测每个文档的分类。 哪种方法能够以最少的运营开销满足这些要求? A. 配置 S3 事件通知,在创建新文档时调用 AWS Lambda 函数。配置 Lambda 函数以创建三个 SageMaker 批量转换作业,每个文档的每个模型一个批量转换作业。 B. 将所有模型部署到单个 SageMaker 端点。将每个模型视为生产变体。配置在创建新文档时调用 AWS Lambda 函数的 S3 事件通知。配置 Lambda 函数以调用每个生产变体并返回每个模型的结果。 C. 将每个模型部署到其自己的 SageMaker 端点配置一个 S3 事件通知,在创建新文档时调用 AWS Lambda 函数。配置 Lambda 函数以调用每个终端节点并返回每个模型的结果。 D. 将每个模型部署到其自己的 SageMaker 端点。创建三个 AWS Lambda 函数。配置每个 Lambda 函数以调用不同的终端节点并返回结果。配置三个 S3 事件通知以在创建新文档时调用 Lambda 函数。 Your score is 0% Restart quiz