■1-50 /15 AWS MLA-C01(CN) 2ー趙専用 AWS Certified Machine Learning Engineer – Associate 认证验证在生产环境中实施机器学习工作负载并实现其运营化的技术能力。提升您的职业形象与信誉,为胜任热门机器学习岗位做好准备。 1 / 15 1. No.95 一家公司部署了一个使用 XGBoost 算法预测产品故障的 ML 模型。该模型托管在 Amazon SageMaker 终端节点上,并根据正常运行数据进行训练。AWS Lambda 函数为公司的应用程序提供预测。 ML 工程师必须实施一种解决方案,使用传入的实时数据来检测模型准确性随时间下降的情况。 哪种解决方案可以满足这些要求? A. 使用 Amazon CloudWatch 创建仪表板,用于监控实时推理数据和模型预测。使用仪表板检测漂移。 B. 修改 Lambda 函数以使用实时推理数据和模型预测来计算模型漂移。对 Lambda 函数进行编程以发送警报。 C. 在 SageMaker Model Monitor 中安排监控作业。使用该作业通过根据训练数据统计和约束的基线分析实时数据来检测漂移。 D. 在 SageMaker Debugger 中安排监控作业。使用该作业通过根据训练数据统计和约束的基线分析实时数据来检测漂移。 答案:C 说明: 就是这个 2 / 15 2. No.91 一家公司运行使用加速实例的 Amazon SageMaker ML 模型。这些模型需要实时响应。每个模型都有不同的扩展要求。公司不得允许模型冷启动。 哪种解决方案可以满足这些要求? A. 为每个模型创建一个 SageMaker 无服务器推理终端节点。对终端节点使用预配置的并发。 B. 为每个模型创建一个 SageMaker 异步推理终端节点。为每个终端节点创建一个自动扩展策略。 C. 创建一个 SageMaker 终端节点。为每个模型创建一个推理组件。在推理组件设置中,指定新创建的终端节点。为每个推理组件创建一个自动扩展策略。将最小副本数的参数设置为至少 1。 D. 创建一个 Amazon S3 存储桶。将所有模型工件存储在 S3 存储桶中。创建一个 SageMaker 多模型终端节点。将终端节点指向 S3 存储桶。为终端节点创建一个自动扩展策略。将最小副本数的参数设置为至少 1。 答案:C 说明: 要求回顾: 实时推理:需要低延迟预测。 加速实例:可能由 GPU 支持,扩展成本高且效率低下。 无冷启动:端点必须始终保持温暖且响应迅速。 每个模型都有不同的扩展需求:必须支持每个模型的独立扩展。 为什么选项 C 是正确的: 推理组件是 SageMaker 的一项新功能,允许: 在单个端点上托管多个模型。 每个模型(组件)的独立扩展。 通过最少数量的副本避免冷启动。 设置最小调用次数或最小副本数≥1 可使模型始终保持温暖,从而消除冷启动。 此解决方案可有效满足所有要求。 3 / 15 3. No.88 制造公司使用 ML 模型来确定产品是否符合质量标准。该模型会输出“通过”或“失败”。机器人使用该模型分析装配线上的照片,将产品分为两类。 公司应使用哪些指标来评估模型的性能?(选择两个。) A. 精度和召回率 B. 均方根误差 (RMSE) 和平均绝对百分比误差 (MAPE) C. 准确率和 F1 分数 D. 双语评估替补 (BLEU) 分数 E. 困惑度 答案:A,C 说明: A. 精度和召回率 C. 准确率和 F1 分数 4 / 15 4. No.83 一家公司希望降低其容器化 ML 应用程序的成本。这些应用程序使用在 Amazon EC2 实例、AWS Lambda 函数和 Amazon Elastic Container Service (Amazon ECS) 集群上运行的 ML 模型。EC2 工作负载和 ECS 工作负载使用 Amazon Elastic Block Store (Amazon EBS) 卷来保存预测和工件。 ML 工程师必须识别使用效率低下的资源。ML 工程师还必须生成建议以降低这些资源的成本。 哪种解决方案能够以最少的开发工作量满足这些要求? A. 创建代码以评估每个实例的内存和计算使用情况。 B. 向资源添加成本分配标签。在 AWS 账单和成本管理中激活标签。 C. 检查 AWS CloudTrail 事件历史记录以了解资源的创建情况。 D. 运行 AWS Compute Optimizer。 答案:D 说明: AWS Compute Optimizer 查找 EC2、EBS 中浪费的资源,并建议节省资金和提高性能的简单方法。 5 / 15 5. No.81 一家公司在生产中有一个二元分类模型。ML 工程师需要开发该模型的新版本。 新模型版本必须最大化正标签和负标签的正确预测。ML 工程师必须使用指标重新校准模型以满足这些要求。 ML 工程师应使用哪个指标进行模型重新校准? A. 准确度 B. 精确度 C. 召回率 D. 特异性 答案:A 说明: A. 准确度:正确选择;最大化真阳性和真阴性。公式:(TP + TN)/ 总预测数 B. 精确度:仅关注真阳性,而不关注负阴性。公式:TP /(TP + FP) C. 召回率:专注于捕获所有真阳性,忽略负阴性。公式:TP /(TP + FN) D. 特异性:仅关注真阴性,忽略阳性。公式:TN /(TN + FP) 6 / 15 6. No.77 ML 工程师使用 AWS Glue DataBrew 中的最小-最大规范化对训练数据进行了规范化。在将生产推理数据传递给模型进行预测之前,ML 工程师必须以与训练数据相同的方式对生产推理数据进行规范化。 哪种解决方案可以满足此要求? A. 应用来自知名数据集的统计数据来规范化生产样本。 B. 保留来自训练集的最小-最大规范化统计数据。使用这些值对生产样本进行规范化。 C. 从一批生产样本中计算一组新的最小-最大规范化统计数据。使用这些值对所有生产样本进行规范化。 D. 从每个生产样本计算一组新的最小-最大标准化统计数据。使用这些值对所有生产样本进行标准化。 答案:B 说明: 模型对数据分布很敏感。准确预测需要一致性,因此选项 B 保持相同的最小-最大标准化统计数据会有所帮助;选项 C 和 D 影响模型性能;选项 A 引入了不一致性 7 / 15 7. No.74 一家公司正在使用 Amazon SageMaker 和数百万个文件来训练 ML 模型。每个文件大小为几兆字节。这些文件存储在 Amazon S3 存储桶中。该公司需要提高训练性能。 哪种解决方案可以在最短的时间内满足这些要求? A. 将数据传输到提供 S3 Express One Zone 存储的新 S3 存储桶。调整训练作业以使用新的 S3 存储桶。 B. 创建 Amazon FSx for Lustre 文件系统。将文件系统链接到现有的 S3 存储桶。调整训练作业以从文件系统读取。 C. 创建 Amazon Elastic File System (Amazon EFS) 文件系统。将现有数据传输到文件系统。调整训练作业以从文件系统读取。 D. 创建 Amazon ElastiCache (Redis OSS) 集群。将 Redis OSS 集群链接到现有 S3 存储桶。将数据从 Redis OSS 集群直接流式传输到训练作业。 答案:B 说明: https://aws.amazon.com/blogs/machine-learning/speed-up-training-on-amazon-sagemaker-using-amazon-efs-or-amazon-fsx-for-lustre-file-systems/ S3 数据 → FSx for Lustre → 高吞吐量和低延迟 → 提高训练性能 8 / 15 8. No.72 一位 ML 工程师正在使用 Amazon SageMaker 训练需要分布式训练的深度学习模型。经过几次训练尝试后,ML 工程师发现实例的表现不如预期。ML 工程师确定了训练实例之间的通信开销。 ML 工程师应该怎么做才能最大限度地减少实例之间的通信开销? A. 将实例放在同一个 VPC 子网中。将数据存储在与部署实例不同的 AWS 区域中。 B. 将实例放在同一个 VPC 子网中,但放在不同的可用区中。将数据存储在与部署实例不同的 AWS 区域中。 C. 将实例放在同一个 VPC 子网中。将数据存储在与部署实例相同的 AWS 区域和可用区中。 D. 将实例放在同一个 VPC 子网中。将数据存储在与部署实例相同的 AWS 区域,但放在不同的可用区中。 答案:C 说明: 分布式训练模型 → 相同的 VPC 子网 → 数据和实例的相同区域和可用区 → 最小化通信开销 9 / 15 9. No.71 一家公司的 ML 工程师已将用于情绪分析的 ML 模型部署到 Amazon SageMaker 终端节点。ML 工程师需要向公司利益相关者说明该模型如何进行预测。 哪种解决方案将为模型的预测提供说明? A. 在部署的模型上使用 SageMaker Model Monitor。 B. 在部署的模型上使用 SageMaker Clarify。 C. 在 Amazon CloudWatch 中显示 A/В 测试的推断分布。 D. 添加影子终端节点。分析样本的预测差异。 答案:B 说明: 情绪分析模型 → SageMaker Clarify → 分析功能影响 → 向利益相关者说明预测 10 / 15 10. No.66 一家公司已使用 Amazon SageMaker 在生产中部署预测 ML 模型。该公司正在模型上使用 SageMaker Model Monitor。模型更新后,ML 工程师在 Model Monitor 检查中注意到数据质量问题。 ML 工程师应该做什么来缓解 Model Monitor 已识别的数据质量问题? A. 调整模型的参数和超参数。 B. 启动使用最新生产数据的手动模型监控作业。 C. 从最新数据集创建新基线。更新模型监控以使用新基线进行评估。 D. 在模型的现有训练集中包含其他数据。重新训练并重新部署模型。 答案:C 说明: 同意 GiorgioGss 的观点 - 如果问题在“模型更新后”开始出现,则 C 是唯一有效的选项。 模型监控给出数据质量问题 --> 创建新基线 --> 验证基线 --> 使用新基线更新模型监控 --> 重新评估数据质量 --> 调查并修复根本原因(如果问题仍然存在) --> 持续监控 11 / 15 11. No.61 一家公司拥有历史数据,显示客户是否需要公司员工的长期支持。该公司需要开发一个 ML 模型来预测新客户是否需要长期支持。 公司应该使用哪种建模方法来满足此要求? A. 异常检测 B. 线性回归 C. 逻辑回归 D. 语义分割 答案:C 说明: A. 异常检测:用于罕见事件,而不是二元分类。 B. 线性回归:用于预测连续数字,而不是“是/否” C. 逻辑回归:非常适合“是/否”预测(二元分类)。 --> 正确 D. 语义分割:用于图像,而不是客户预测。 12 / 15 12. No.59 一家公司有一个应用程序,它使用不同的 API 为输入文本生成嵌入。该公司需要实施一个解决方案,每 3 个月自动轮换一次 API 令牌。 哪种解决方案可以满足此要求? A. 将令牌存储在 AWS Secrets Manager 中。创建一个 AWS Lambda 函数来执行轮换。 B. 将令牌存储在 AWS Systems Manager 参数存储中。创建一个 AWS Lambda 函数来执行轮换。 C. 将令牌存储在 AWS Key Management Service (AWS KMS) 中。使用 AWS 托管密钥执行轮换。 D. 将令牌存储在 AWS Key Management Service (AWS KMS) 中。使用 AWS 拥有的密钥执行轮换。 答案:A 说明: Secret Manager 具有自动轮换功能 13 / 15 13. No.58 一位 ML 工程师在 Amazon SageMaker 上训练了一个 ML 模型,以从闭路电视录像中检测汽车事故。ML 工程师使用 SageMaker Data Wrangler 创建了事故和非事故图像的训练数据集。 该模型在训练和验证期间表现良好。然而,由于来自不同摄像机的图像质量存在差异,该模型在生产中表现不佳。 哪种解决方案可以在最短的时间内提高模型的准确性? A. 从所有摄像机收集更多图像。使用 Data Wrangler 准备新的训练数据集。 B. 使用 Data Wrangler 损坏图像转换重新创建训练数据集。指定脉冲噪声选项。 C. 使用 Data Wrangler 增强图像对比度转换重新创建训练数据集。指定 Gamma 对比度选项。 D. 使用 Data Wrangler 调整图像大小转换重新创建训练数据集。将所有图像裁剪为相同大小。 答案:B 说明: 你们清楚理解了这个问题吗?“该模型在训练和验证期间表现良好。然而,由于不同摄像机的图像质量存在差异,该模型在生产中表现不佳。” https://aws.amazon.com/blogs/machine-learning/prepare-image-data-with-amazon-sagemaker-data-wrangler/ 破坏图像或产生任何类型的噪声有助于使模型更加稳健。即使收到损坏的图像,该模型也可以更准确地进行预测,因为它是使用损坏和未损坏的图像进行训练的。 14 / 15 14. No.53 一家公司使用 Amazon SageMaker Studio 开发 ML 模型。该公司有一个 SageMaker Studio 域。ML 工程师需要实施一种解决方案,当 SageMaker 计算成本达到特定阈值时,该解决方案会提供自动警报。 哪种解决方案可以满足这些要求? A. 通过编辑 SageMaker 域中的 SageMaker 用户配置文件添加资源标记。配置 AWS Cost Explorer 以在达到阈值时发送警报。 B. 通过编辑 SageMaker 域中的 SageMaker 用户配置文件添加资源标记。配置 AWS Budgets 以在达到阈值时发送警报。 C. 通过编辑每个用户的 IAM 配置文件添加资源标记。配置 AWS Cost Explorer 以在达到阈值时发送警报。 D. 通过编辑每个用户的 IAM 配置文件添加资源标记。配置 AWS Budgets 以在达到阈值时发送警报。 答案:B 说明: Sagemaker 用户配置文件标记:https://docs.aws.amazon.com/sagemaker/latest/dg/domain-user-profile-add.html 预算:用于成本跟踪和设置阈值 15 / 15 15. No.51 一家公司部署了一个 ML 模型,该模型可在银行应用程序中实时检测欺诈性信用卡交易。该模型使用 Amazon SageMaker 异步推理。消费者报告称,在接收推理结果时出现延迟。 ML 工程师需要实施解决方案来提高推理性能。当模型质量出现偏差时,解决方案还必须提供通知。 哪种解决方案可以满足这些要求? A. 使用 SageMaker 实时推理进行推理。使用 SageMaker Model Monitor 通知模型质量。 B. 使用 SageMaker 批量转换进行推理。使用 SageMaker Model Monitor 通知模型质量。 C. 使用 SageMaker Serverless Inference 进行推理。使用 SageMaker Inference Recommender 通知模型质量。 D. 继续使用 SageMaker 异步推理进行推理。使用 SageMaker 推理推荐器获取有关模型质量的通知。 答案:A 说明: Sagemaker 实时推理 - 更快的预测以解决延迟问题; 模型监视器跟踪模型质量并发送偏差警报。 Your score is 0% Restart quiz ■51-100 /27 AWS MLA-C01(CN) 1 趙専用 AWS Certified Machine Learning Engineer – Associate 认证验证在生产环境中实施机器学习工作负载并实现其运营化的技术能力。提升您的职业形象与信誉,为胜任热门机器学习岗位做好准备。 1 / 27 1. No.50 一家公司将有关用户点击的时间序列数据存储在 Amazon S3 存储桶中。原始数据每天包含数百万行用户活动。ML 工程师访问数据以开发他们的 ML 模型。 ML 工程师需要使用 Amazon Athena 生成每日报告并分析过去 3 天的点击趋势。公司必须在存档数据之前保留数据 30 天。 哪种解决方案将为数据检索提供最高的性能? A. 将所有时间序列数据保留在 S3 存储桶中而不进行分区。手动将超过 30 天的数据移动到单独的 S3 存储桶中。 B. 创建 AWS Lambda 函数,将时间序列数据复制到单独的 S3 存储桶中。应用 S3 生命周期策略将超过 30 天的数据存档到 S3 Glacier Flexible Retrieval。 C. 在 S3 存储桶中按日期前缀将时间序列数据组织到分区中。应用 S3 生命周期策略将超过 30 天的分区存档到 S3 Glacier Flexible Retrieval。 D. 将每天的时间序列数据放入其自己的 S3 存储桶中。使用 S3 生命周期策略将保存超过 30 天的数据的 S3 存储桶存档到 S3 Glacier Flexible Retrieval。 答案:C 说明: 时间序列数据 → 在 S3 中按日期分区 → 优化 Athena 查询 → S3 生命周期策略 → 将超过 30 天的分区移动到 S3 Glacier Flexible Retrieval 2 / 27 2. No.47 一家公司正在使用 Amazon Redshift 数据库作为其单一数据源。部分数据是敏感数据。 数据科学家需要使用数据库中的部分敏感数据。ML 工程师必须授予数据科学家访问数据的权限,而无需转换源数据,也不必在数据库中存储匿名数据。 哪种解决方案能够以最少的实施工作量满足这些要求? A. 配置动态数据屏蔽策略以控制在查询时如何与数据科学家共享敏感数据。 B. 在数据库顶部创建具有屏蔽逻辑的物化视图。授予数据科学家必要的读取权限。 C. 将 Amazon Redshift 数据卸载到 Amazon S3。使用 Amazon Athena 创建具有屏蔽逻辑的读取模式。与数据科学家共享视图。 D. 将 Amazon Redshift 数据卸载到 Amazon S3。创建 AWS Glue 作业以匿名化数据。与数据科学家共享数据集。 答案:A 说明: Amazon Redshift 数据库 → 敏感数据 → 动态数据屏蔽 → 数据科学家的查询时屏蔽 → 无需转换或额外存储 → 最省力 3 / 27 3. No.45 一家公司已经使用 Amazon SageMaker 训练和部署了一个 ML 模型。该公司需要实施一个解决方案来记录和监控 SageMaker 端点的所有 API 调用事件。当 API 调用事件的数量超过阈值时,该解决方案还必须提供通知。 哪种解决方案可以满足这些要求? A. 使用 SageMaker Debugger 跟踪推理并报告指标。创建自定义规则以在超出阈值时提供通知。 B. 使用 SageMaker Debugger 跟踪推理并报告指标。使用 tensor_variance 内置规则在超出阈值时提供通知。 C. 使用 AWS CloudTrail 记录所有端点调用 API 事件。使用 Amazon CloudWatch 仪表板进行监控。设置 CloudWatch 警报以在超出阈值时提供通知。 D. 将调用指标添加到 Amazon CloudWatch 仪表板进行监控。设置 CloudWatch 警报以在超出阈值时提供通知。 答案:C 说明: 公司需要实施解决方案来记录和监控 SageMaker 端点的所有 API 调用事件。它需要记录所有事件。 4 / 27 4. No.42 一家广告公司使用 AWS Lake Formation 来管理数据湖。数据湖包含结构化数据和非结构化数据。该公司的 ML 工程师被分配到特定的广告活动。 ML 工程师必须通过 Amazon Athena 与数据交互,并直接在 Amazon S3 存储桶中浏览数据。 ML 工程师必须只能访问特定于其分配的广告活动的资源。 哪种解决方案能够以最高效的方式满足这些要求? A. 在 AWS Glue 数据目录上配置 IAM 策略,以根据 ML 工程师的活动限制对 Athena 的访问。 B. 将用户和活动信息存储在 Amazon DynamoDB 表中。配置 DynamoDB Streams 以调用 AWS Lambda 函数来更新 S3 存储桶策略。 C. 使用 Lake Formation 授权 AWS Glue 访问 S3 存储桶。配置 Lake Formation 标签以将 ML 工程师映射到他们的活动。 D. 配置 S3 存储桶策略以根据 ML 工程师的活动限制对 S3 存储桶的访问。 答案:C 说明: AWS Lake Formation → 使用活动标记资源 → 将 ML 工程师映射到活动 → 细粒度访问控制 → 运营效率 5 / 27 5. No.41 ML 工程师需要使用 AWS CloudFormation 创建 Amazon SageMaker 端点将托管的 ML 模型。 ML 工程师应在 CloudFormation 模板中声明哪种资源来满足此要求? A. AWS::SageMaker::Model B. AWS::SageMaker::Endpoint C. AWS::SageMaker::NotebookInstance D. AWS::SageMaker::Pipeline 答案:A 说明: 类型:AWS::SageMaker::Model 属性: 容器: - ContainerDefinition EnableNetworkIsolation:布尔值 ExecutionRoleArn:字符串 InferenceExecutionConfig: InferenceExecutionConfig 模型名称:字符串 PrimaryContainer: ContainerDefinition 标签: - 标签 VpcConfig: VpcConfig 6 / 27 6. No.39 一家公司希望提高其 ML 运营的可持续性。 哪些行动将减少与公司培训工作相关的能源使用和计算资源?(选择两个。) A. 使用 Amazon SageMaker Debugger 在检测到非收敛条件时停止训练作业。 B. 使用 Amazon SageMaker Ground Truth 进行数据标记。 C. 使用 AWS Lambda 函数部署模型。 D. 使用 AWS Trainium 实例进行训练。 E. 使用带有分布式训练选项的 PyTorch 或 TensorFlow。 答案:A、D 说明: 博客:https://aws.amazon.com/blogs/machine-learning/optimizing-mlops-for-sustainability/ 可持续发展目标:实例比同类加速计算 EC2 实例节能高达 25%; https://aws.amazon.com/ai/machine-learning/trainium/ SageMaker 调试器通过检测系统资源利用率不足、识别训练问题以及使用内置规则监控并在检测到错误后立即停止训练作业来帮助优化资源消耗。 7 / 27 7. No.38 ML 工程师需要使用 Amazon EMR 集群批量处理大量数据。任何数据丢失都是不可接受的。 哪种实例购买选项最经济高效地满足这些要求? A. 在按需实例上运行主节点、核心节点和任务节点。 B. 在竞价实例上运行主节点、核心节点和任务节点。 C. 在按需实例上运行主节点。在竞价实例上运行核心节点和任务节点。 D. 在按需实例上运行主节点和核心节点。在竞价实例上运行任务节点。 答案:D 说明: https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-instances-guidelines.html#emr-plan-spot-instances “任务节点处理数据但不在 HDFS 中保存持久数据。如果它们因为现货价格超过最高现货价格而终止,则不会丢失任何数据” 8 / 27 8. No.36 一家公司已实施了一条数据提取管道,用于从其电子商务网站提取销售交易数据。该公司使用 Amazon Data Firehose 将数据提取到 Amazon OpenSearch Service 中。Firehose 流的缓冲间隔设置为 60 秒。OpenSearch 线性模型根据数据生成实时销售预测,并将数据显示在 OpenSearch 仪表板中。 该公司需要优化数据提取管道,以支持实时仪表板的亚秒级延迟。 架构的哪些更改将满足这些要求? A. 在 Firehose 流中使用零缓冲。调整 PutRecordBatch 操作中使用的批处理大小。 B. 用 AWS DataSync 任务替换 Firehose 流。使用增强的扇出消费者配置任务。 C. 将 Firehose 流的缓冲间隔从 60 秒增加到 120 秒。 D. 用 Amazon Simple Queue Service (Amazon SQS) 队列替换 Firehose 流。 答案:A 说明: A. 使用零缓冲通过即时传输数据来最大限度地减少延迟。 调整批处理大小以优化吞吐量并确保实时仪表板的亚秒级交付。 虽然这是一个相当新的解决方案,但 A 可以解决问题: https://aws.amazon.com/about-aws/whats-new/2023/12/amazon-kinesis-data-firehose-zero-buffering/ 9 / 27 9. No.32 一家金融公司从外部提供商处收到大量实时市场数据流。这些流每秒包含数千条 JSON 记录。 该公司需要在 AWS 上实施可扩展的解决方案来识别异常数据点。 哪种解决方案能够以最少的运营开销满足这些要求? A. 将实时数据导入 Amazon Kinesis 数据流。使用 Amazon Managed Service for Apache Flink 中的内置 RANDOM_CUT_FOREST 函数来处理数据流并检测数据异常。 B. 将实时数据导入 Amazon Kinesis 数据流。部署 Amazon SageMaker 终端节点以进行实时异常检测。创建 AWS Lambda 函数来检测异常。使用数据流调用 Lambda 函数。 C. 将实时数据导入 Amazon EC2 实例上的 Apache Kafka。部署 Amazon SageMaker 终端节点以进行实时异常检测。创建 AWS Lambda 函数来检测异常。使用数据流调用 Lambda 函数。 D. 将实时数据发送到 Amazon Simple Queue Service (Amazon SQS) FIFO 队列。创建 AWS Lambda 函数来使用队列消息。对 Lambda 函数进行编程以启动 AWS Glue 提取、转换和加载 (ETL) 作业以进行批处理和异常检测。 答案:A 说明: 选项 A 高容量实时:Kinesis Data Streams 可扩展:托管 Apache Flink 异常检测:RANDOM_CUT_FOREST 低开销:完全托管服务 10 / 27 10. No.30 一家公司在新建 VPC 的公共子网中运行 Amazon SageMaker 域。网络配置正确,ML 工程师可以访问 SageMaker 域。 最近,该公司发现来自特定 IP 地址的域的可疑流量。该公司需要阻止来自特定 IP 地址的流量。 哪个网络配置更新将满足此要求? A. 创建安全组入站规则以拒绝来自特定 IP 地址的流量。将安全组分配给域。 B. 创建网络 ACL 入站规则以拒绝来自特定 IP 地址的流量。将规则分配给域所在子网的默认网络广告。 C. 为域创建影子变体。配置 SageMaker Inference Recommender 以将流量从特定 IP 地址发送到影子端点。 D. 创建 VPC 路由表以拒绝来自特定 IP 地址的入站流量。将路由表分配给域。 答案:B 说明: 子网级别的保护:网络 ACL。可以在入站连接级别拒绝特定 IP 地址。 11 / 27 11. No.27 一家公司使用混合云环境。部署在本地的模型使用 Amazon 53 中的数据为客户提供实时对话引擎。 该模型正在使用敏感数据。ML 工程师需要实施解决方案来识别和删除敏感数据。 哪种解决方案可以以最少的运营开销满足这些要求? A. 在 Amazon SageMaker 上部署模型。创建一组 AWS Lambda 函数来识别和删除敏感数据。 B. 在使用 AWS Fargate 的 Amazon Elastic Container Service (Amazon ECS) 集群上部署模型。创建 AWS Batch 作业来识别和删除敏感数据。 C. 使用 Amazon Macie 识别敏感数据。创建一组 AWS Lambda 函数来删除敏感数据。 D. 使用 Amazon Comprehend 识别敏感数据。启动 Amazon EC2 实例以删除敏感数据。 答案:C 说明: Macie - 识别敏感数据 12 / 27 12. No.26 一家公司希望通过考虑每个广告的配色方案来预测广告活动的成功。一位 ML 工程师正在为神经网络模型准备数据。数据集包含颜色信息作为分类数据。 ML 工程师应该为模型使用哪种特征工程技术? A. 对颜色类别应用标签编码。自动为每种颜色分配一个唯一的整数。 B. 实现填充以确保所有颜色特征向量具有相同的长度。 C. 对颜色类别执行降维。 D. 对颜色类别进行独热编码以将配色方案特征转换为二进制矩阵。 答案:D 说明: 1. 标签编码:序数关系 2. 填充:序列数据 3. 降维:高维数据 4. 独热编码:分类数据(右) 13 / 27 13. No.24 一家公司有一个检索增强生成 (RAG) 应用程序,该应用程序使用矢量数据库来存储文档的嵌入。该公司必须将应用程序迁移到 AWS,并且必须实施提供文本文件语义搜索的解决方案。该公司已将文本存储库迁移到 Amazon S3 存储桶。 哪种解决方案可以满足这些要求? A. 使用 AWS Batch 作业来处理文件并生成嵌入。使用 AWS Glue 存储嵌入。使用 SQL 查询执行语义搜索。 B. 使用自定义 Amazon SageMaker 笔记本运行自定义脚本来生成嵌入。使用 SageMaker Feature Store 存储嵌入。使用 SQL 查询执行语义搜索。 C. 使用 Amazon Kendra S3 连接器将文档从 S3 存储桶提取到 Amazon Kendra。查询 Amazon Kendra 以执行语义搜索。 D. 使用 Amazon Textract 异步作业从 S3 存储桶中提取文档。查询 Amazon Textract 以执行语义搜索。 答案:C 说明: https://docs.aws.amazon.com/kendra/latest/dg/data-source-s3.html 14 / 27 14. No.23 ML 工程师正在训练一个简单的神经网络模型。ML 工程师在验证数据集上跟踪模型随时间的性能。模型的性能最初会大幅提高,然后在特定数量的时期后下降。 哪些解决方案可以缓解此问题?(选择两个。) A. 在模型上启用早期停止。 B. 增加层的 dropout。 C. 增加层数。 D. 增加神经元数量。 E. 调查并减少模型偏差的来源。 答案:A、B 说明: 问题是过度拟合。解决方案:- A. 提前停止:- 当验证性能下降时停止训练 B. 增加 dropout:- 通过随机禁用神经元来减少过度拟合 15 / 27 15. No.22 一位 ML 工程师在 us-east-1 区域的账户 A 中有一个 Amazon Comprehend 自定义模型。ML 工程师需要将模型复制到同一区域的账户 B。 哪种解决方案可以以最少的开发工作量满足此要求? A. 使用 Amazon S3 复制模型。将副本传输到账户 B。 B. 创建基于资源的 IAM 策略。使用 Amazon Comprehend ImportModel API 操作将模型复制到账户 B。 C. 使用 AWS DataSync 将模型从账户 A 复制到账户 B。 D. 在账户 A 和账户 B 之间创建 AWS 站点到站点 VPN 连接以传输模型。 答案:B 说明: Amazon Comprehend - ImportModel API 可促进 AWS 账户之间自定义模型的转移。步骤: 1. 从账户 A 导出模型。 2. 在账户 A 中创建基于资源的 IAM 策略以授予账户 B 访问权限。 3. 使用账户 B 中的 ImportModel API 导入模型。 16 / 27 16. No.20 一家公司拥有一个大型的非结构化数据集。该数据集包含多个关键属性的许多重复记录。 AWS 上的哪种解决方案将以最少的代码开发检测数据集中的重复项? A. 使用 Amazon Mechanical Turk 作业来检测重复项。 B. 使用 Amazon QuickSight ML Insights 构建自定义重复数据删除模型。 C. 使用 Amazon SageMaker Data Wrangler 进行预处理和检测重复项。 D. 使用 AWS Glue FindMatches 转换检测重复项。 答案:D 说明: AWS Glue FindMatches 专门用于识别数据集中的重复或匹配记录,而无需标记的训练数据。它使用机器学习来查找模糊匹配,并允许自定义以微调匹配过程,使其成为此场景的理想选择。 17 / 27 17. No.19 ML 工程师需要处理数千个现有 CSV 对象和上传的新 CSV 对象。CSV 对象存储在中央 Amazon S3 存储桶中,并具有相同数量的列。其中一列是交易日期。ML 工程师必须根据交易日期查询数据。 哪种解决方案可以以最少的运营开销满足这些要求? A. 使用 Amazon Athena CREATE TABLE AS SELECT (CTAS) 语句根据中央 S3 存储桶中的数据中的交易日期创建表。从表中查询对象。 B. 为处理后的数据创建一个新的 S3 存储桶。设置从中央 S3 存储桶到新 S3 存储桶的 S3 复制。使用 S3 Object Lambda 根据交易日期查询对象。 C. 为处理后的数据创建新的 S3 存储桶。使用 AWS Glue for Apache Spark 创建作业以根据交易日期查询 CSV 对象。配置作业以将结果存储在新的 S3 存储桶中。从新的 S3 存储桶查询对象。 D. 为处理后的数据创建新的 S3 存储桶。使用 Amazon Data Firehose 将数据从中央 S3 存储桶传输到新的 S3 存储桶。配置 Firehose 以运行 AWS Lambda 函数以根据交易日期查询数据。 答案:A 说明: Athena 允许使用 SQL 直接查询存储在 Amazon S3 中的数据,而无需移动或转换数据。CTAS(CREATE TABLE AS SELECT):根据过滤或转换后的数据集(例如交易日期)创建新表,并将结果存储在 S3 中。 为什么不选择其他选项? B. S3 Object Lambda 专为即时数据转换而设计,而不是高效查询数据。添加复制会增加复杂性,而不会直接解决查询要求。 C. Glue 适用于复杂的 ETL 工作流,但它会为 Athena 可以更轻松处理的任务带来大量运营开销。 D. Firehose 专为流式传输数据而设计,而不是处理大型现有数据集。 18 / 27 18. No.18 一位 ML 工程师使用随机梯度下降 (SGD) 训练了一个神经网络。神经网络在测试集上表现不佳。训练损失和验证损失的值仍然很高,并显示出振荡模式。这些值在几个时期内下降,然后在几个时期内增加,然后重复相同的循环。 ML 工程师应该做些什么来改进训练过程? A. 引入早期停止。 B. 增加测试集的大小。 C. 增加学习率。 D. 降低学习率。 答案:D 说明: A. 不,提前停止是为了防止过度拟合 B. 不,增加测试不会对震荡损失有帮助 C. 不,增加学习率会使情况恶化 D. 训练中的震荡损失表明训练没有收敛,当学习率过高时可能会发生这种情况。降低学习率会有所帮助 19 / 27 19. No.15 一家公司在生产中部署了一个 XGBoost 预测模型,以预测客户是否有可能取消订阅。该公司使用 Amazon SageMaker Model Monitor 来检测 F1 分数的偏差。 在对模型质量进行基线分析时,该公司记录了 F1 分数的阈值。几个月没有变化后,模型的 F1 分数显着下降。 F1 分数降低的原因可能是什么? A. 用于预测的底层客户数据中发生了概念漂移。 B. 该模型不够复杂,无法捕获原始基线数据中的所有模式。 C. 原始基线数据存在缺失值的数据质量问题。 D. 在计算基线期间向 Model Monitor 提供了错误的地面实况标签。 答案:A 说明: 概念漂移:当用于预测的数据的统计属性随时间变化时发生,导致模型在当前数据上表现不佳。 为什么不选择其他选项? B. 如果模型复杂度不够,问题会在初始评估或基线分析期间被发现,而不是在几个月的稳定性能之后。 C. 数据质量问题会在部署后立即影响模型的性能,而不是几个月后。 D. 基线计算过程中的错误标签可能导致基线 F1 分数不准确,但这无法说明几个月稳定性能之后的大幅下降。 20 / 27 20. No.14 一位 ML 工程师正在 AWS 上开发欺诈检测模型。训练数据集包括来自本地 MySQL 数据库的交易日志、客户资料和表。交易日志和客户资料存储在 Amazon S3 中。 数据集存在类不平衡,影响模型算法的学习。此外,许多特征具有相互依赖性。该算法并未捕获数据中所有所需的底层模式。 ML 工程师需要使用 Amazon SageMaker 内置算法来训练模型。 ML 工程师应使用哪种算法来满足此要求? A. LightGBM B. 线性学习器 C. К-均值聚类 D. 神经主题模型 (NTM) 答案:A 说明: A. LightGBM:处理类别不平衡;捕获特征相互依赖性;对复杂模式进行建模。 B. 线性学习器:相互依赖的特征有限;难以处理复杂模式;适用于线性关系。 C. K-均值聚类:无监督算法;不适合分类;无法处理类别不平衡。 D. 神经主题模型 (NTM):专为主题建模而设计;不适合欺诈检测;无法解决类别不平衡问题。 21 / 27 21. No.13 一位 ML 工程师正在 AWS 上开发欺诈检测模型。训练数据集包括来自本地 MySQL 数据库的交易日志、客户资料和表。交易日志和客户资料存储在 Amazon S3 中。 数据集存在类别不平衡问题,这会影响模型算法的学习。此外,许多功能具有相互依赖性。算法没有捕获数据中所有所需的底层模式。 在 ML 工程师训练模型之前,ML 工程师必须解决数据不平衡的问题。 哪种解决方案可以以最少的运营工作量满足此要求? A. 使用 Amazon Athena 识别导致不平衡的模式。相应地调整数据集。 B. 使用 Amazon SageMaker Studio Classic 内置算法处理不平衡的数据集。 C. 使用 AWS Glue DataBrew 内置功能对少数类进行过采样。 D. 使用 Amazon SageMaker Data Wrangler 平衡数据操作对少数类进行过采样。 答案:D 说明: https://aws.amazon.com/blogs/machine-learning/balance-your-data-for-machine-learning-with-amazon-sagemaker-data-wrangler/ Glue DataBrew 和 Data Wrangler 都允许使用无代码/低代码(即低操作工作量)为 ML 准备数据。但是,Data Wrangler 提供了用于平衡数据集的内置转换(随机过采样、随机欠采样和 smote)https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-transform.html#data-wrangler-transform-balance-data,而 DataBrew 没有提供用于平衡数据集的内置配方步骤,实际上它提供了一组较小的数据科学配方步骤,仅限于二值化、桶化、分类映射、独热编码、缩放、倾斜和标记化https://docs.aws.amazon.com/databrew/latest/dg/recipe-actions.data-science.html 22 / 27 22. No.10 ML 工程师正在 AWS 上开发欺诈检测模型。训练数据集包括来自本地 MySQL 数据库的交易日志、客户资料和表。交易日志和客户资料存储在 Amazon S3 中。 数据集具有类不平衡,这会影响模型算法的学习。此外,许多功能具有相互依赖性。该算法没有捕获数据中所有所需的底层模式。 哪个 AWS 服务或功能可以聚合来自各种数据源的数据? A. Amazon EMR Spark 作业 B. Amazon Kinesis 数据流 C. Amazon DynamoDB D. AWS Lake Formation 答案:D 说明: 又一个措辞不当的 AWS 认证问题。这是我的理由,问题是关于“聚合来自 S3 和本地 mysql 的数据”,我确实打算将“聚合”放在同一个地方,因此: A. 不,虽然 EMR spark 作业可以连接到 S3 和 MySQL(spark 可以连接到 mysql 数据库),但它是处理数据然后在 S3 中存储它们的更好的工具 B. 不,KDS 用于将流数据源传送到特定目的地(S3、OpenSearch...) C. 不,DynamoDB 是一个不太适合这里的 nosql db D. 是的,Lake Formation“将不同类型的结构化和非结构化数据组合到一个集中式存储库中”https://docs.aws.amazon.com/lake-formation/latest/dg/what-is-lake-formation.html 和“使用 Lake Formation,您可以使用工作流导入数据”,并且由于它基于 AWS Glue,因此它同时支持 S3 和 mysql 23 / 27 23. No.9 一位 ML 工程师正在开发一个 ML 模型来预测类似大小的房屋的价格。该模型将根据几个特征进行预测。ML 工程师将使用以下特征工程技术来估算房屋的价格: • 特征分割 • 对数变换 • 独热编码 • 标准化分布 为以下特征列表选择正确的特征工程技术。每种特征工程技术都应选择一次或根本不选择(选择三种)。 城市(名称) [选择…] -------------------------------- 选择… 特征拆分 对数变换 单热编码 标准化分布 Type_year(房屋类型和房屋建造年份) [选择…] -------------------------------- 特征拆分 对数变换 单热编码 标准化分布 建筑物大小(平方英尺或平方米) [选择…] -------------------------------- 特征拆分 对数变换 单热编码 标准化分布 答案: 城市(名称):单热编码 Type_year(房屋类型和房屋建造年份):特征拆分 建筑物大小(平方英尺或平方米):对数变换 说明: 建筑物大小(平方英尺或平方米)= 对数变换 说明:建筑物大小是一个数值特征,通常显示偏斜分布,并且可能与价格具有非线性关系。对数变换之所以适用,是因为: 它有助于使偏斜分布正常化 它有助于使大小和价格之间的关系线性化 它对于遵循指数或乘法模式的特征特别有用 房地产数据通常显示对数正态分布 24 / 27 24. No.8 一位 ML 工程师正在使用大型语言模型 (LLM) 在 Amazon Bedrock 上构建生成式 AI 应用程序。 从以下列表中为每个描述选择正确的生成式 AI 术语。每个术语应选择一次或根本不选择。 (选择三项。) • 嵌入 • 检索增强生成 (RAG) • 温度 • 标记 LLM 处理的基本数据单元的文本表示 [选择…] -------------------------------- 选择… 嵌入 检索增强生成 (RAG) 温度 标记 包含文本语义含义的高维向量 [选择…] -------------------------------- 选择… 嵌入 检索增强生成 (RAG) 温度 标记 从其他数据源丰富信息以改进生成的响应 [选择…] -------------------------------- 选择… 嵌入 检索增强生成 (RAG) 温度 标记 答案: LLM 处理的基本数据单元的文本表示:“标记” 包含文本语义含义的高维向量:“嵌入” 从其他数据源丰富信息以改进生成的响应: 「检索增强生成 (RAG)」 说明: token:表示模型用于处理和生成响应的文本单位。 temperature:控制生成输出的随机性和创造性,允许调整模型的响应样式。 embedding:将文本转换为向量表示以捕获语义含义,增强模型理解和生成连贯内容的能力。 25 / 27 25. No.4 一家公司正在使用 Amazon SageMaker 构建基于 Web 的 AI 应用程序。该应用程序将提供以下功能和特性:ML 实验、训练、中央模型注册表、模型部署和模型监控。 该应用程序必须确保在 ML 生命周期内安全且独立地使用训练数据。训练数据存储在 Amazon S3 中。 该公司需要运行按需工作流来监控从应用程序部署到实时终端的模型的偏差漂移。 哪种操作可以满足此要求? A. 配置应用程序以调用运行 SageMaker Clarify 作业的 AWS Lambda 函数。 B. 调用 AWS Lambda 函数来提取 sagemaker-model-monitor-analyzer 内置 SageMaker 映像。 C. 使用 AWS Glue Data Quality 来监控偏差。 D. 使用 SageMaker 笔记本来比较偏差。 答案:A 说明: A. 是的,Clarify 允许获取偏差 - https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-configure-processing-jobs.html B. 不,内置图像 sagemaker-model-monitor-analyzer 提供了一系列模型监控功能(约束建议、统计数据生成、针对基线的约束验证以及发出 Amazon CloudWatch 指标),但您需要 Clarify 来处理偏差 C. 不,Glue Data Quality 不会分析偏差 D. 不,从 Notebook 中您可以执行几乎所有操作,包括 Clarify Job,但是 Notebook 用于实验和模型开发,而不是用于启用实时应用程序功能 26 / 27 26. No.3 一家公司正在使用 Amazon SageMaker 构建基于 Web 的 AI 应用程序。该应用程序将提供以下功能和特性:ML 实验、训练、中央模型注册表、模型部署和模型监控。 该应用程序必须确保在 ML 生命周期内安全且独立地使用训练数据。训练数据存储在 Amazon S3 中。 公司必须实施基于手动审批的工作流程,以确保只有批准的模型才能部署到生产端点。 哪种解决方案可以满足此要求? A. 使用 SageMaker Experiments 在模型注册期间促进审批流程。 B. 在中央模型注册表上使用 SageMaker ML Lineage Tracking。为审批流程创建跟踪实体。 C. 使用 SageMaker Model Monitor 评估模型的性能并管理审批。 D. 使用 SageMaker Pipelines。注册模型版本后,使用 AWS SDK 将审批状态更改为“已批准”。 答案:D 说明: 这欺骗了我,因为选项 D 的表述不清楚: A. 不,SageMaker Experiments 允许跟踪和组织您的实验,但不允许批准模型 B. 不,SageMaker ML Lineage Tracking 允许跟踪模型谱系,但不允许批准模型 C. 不,SageMaker Model Monitor 允许监控数据质量、模型质量、偏差和特征归因 D. 是的,创建模型版本后,您通常会评估其性能,然后更新模型版本的批准状态。您可以使用 SDK、SageMaker Studio 控制台或 SageMaker AI 管道中的条件步骤来更新模型版本的批准状态 27 / 27 27. No.1 一家公司正在使用 Amazon SageMaker 构建基于 Web 的 AI 应用程序。该应用程序将提供以下功能和特性:ML 实验、训练、中央模型注册表、模型部署和模型监控。 该应用程序必须确保在 ML 生命周期内安全且独立地使用训练数据。训练数据存储在 Amazon S3 中。 该公司需要使用中央模型注册表来管理应用程序中不同版本的模型。 哪种操作可以以最少的运营开销满足此要求? A. 为每个模型创建单独的 Amazon Elastic Container Registry (Amazon ECR) 存储库。 B. 使用 Amazon Elastic Container Registry (Amazon ECR) 和每个模型版本的唯一标签。 C. 使用 SageMaker 模型注册表和模型组对模型进行分类。 D. 使用 SageMaker 模型注册表和每个模型版本的唯一标签。 答案:C 说明: https://docs.aws.amazon.com/sagemaker/latest/dg/model-registry-models.html “模型组中的每个模型包都对应一个经过训练的模型。每个模型包的版本都是一个数值,从 1 开始,随着每个新模型包添加到模型组而递增。例如,如果将 5 个模型包添加到模型组,则模型包版本将为 1、2、3、4 和 5。” Your score is 0% Restart quiz