AWS Certified Machine Learning Engineer – Associate 认证验证在生产环境中实施机器学习工作负载并实现其运营化的技术能力。提升您的职业形象与信誉,为胜任热门机器学习岗位做好准备。 ■AWS MLA-C01(CN) All /114 AWS MLA-C01(CN) All AWS Certified Machine Learning Engineer – Associate 认证验证在生产环境中实施机器学习工作负载并实现其运营化的技术能力。提升您的职业形象与信誉,为胜任热门机器学习岗位做好准备。 1 / 114 1. No.1 一家公司正在使用 Amazon SageMaker 构建基于 Web 的 AI 应用程序。该应用程序将提供以下功能和特性:ML 实验、训练、中央模型注册表、模型部署和模型监控。 该应用程序必须确保在 ML 生命周期内安全且独立地使用训练数据。训练数据存储在 Amazon S3 中。 该公司需要使用中央模型注册表来管理应用程序中不同版本的模型。 哪种操作可以以最少的运营开销满足此要求? A. 为每个模型创建单独的 Amazon Elastic Container Registry (Amazon ECR) 存储库。 B. 使用 Amazon Elastic Container Registry (Amazon ECR) 和每个模型版本的唯一标签。 C. 使用 SageMaker 模型注册表和模型组对模型进行分类。 D. 使用 SageMaker 模型注册表和每个模型版本的唯一标签。 答案:C 说明: https://docs.aws.amazon.com/sagemaker/latest/dg/model-registry-models.html “模型组中的每个模型包都对应一个经过训练的模型。每个模型包的版本都是一个数值,从 1 开始,随着每个新模型包添加到模型组而递增。例如,如果将 5 个模型包添加到模型组,则模型包版本将为 1、2、3、4 和 5。” 2 / 114 2. No.2 一家公司正在使用 Amazon SageMaker 构建基于 Web 的 AI 应用程序。该应用程序将提供以下功能和特性:ML 实验、训练、中央模型注册表、模型部署和模型监控。 该应用程序必须确保在 ML 生命周期内安全且独立地使用训练数据。训练数据存储在 Amazon S3 中。 该公司正在试验连续的训练作业。 公司如何最大限度地缩短这些作业的基础设施启动时间? A. 使用托管 Spot 训练。 B. 使用 SageMaker 托管热池。 C. 使用 SageMaker 训练编译器。 D. 使用 SageMaker 分布式数据并行 (SMDDP) 库。 答案:B 说明: https://docs.aws.amazon.com/sagemaker/latest/dg/train-warm-pools.html#train-warm-pools-how-it-works SageMaker 托管热池可让您在完成训练作业后保留和重用已配置的基础设施,以减少重复性工作负载(例如迭代实验或连续运行许多作业)的延迟。 3 / 114 3. No.3 一家公司正在使用 Amazon SageMaker 构建基于 Web 的 AI 应用程序。该应用程序将提供以下功能和特性:ML 实验、训练、中央模型注册表、模型部署和模型监控。 该应用程序必须确保在 ML 生命周期内安全且独立地使用训练数据。训练数据存储在 Amazon S3 中。 公司必须实施基于手动审批的工作流程,以确保只有批准的模型才能部署到生产端点。 哪种解决方案可以满足此要求? A. 使用 SageMaker Experiments 在模型注册期间促进审批流程。 B. 在中央模型注册表上使用 SageMaker ML Lineage Tracking。为审批流程创建跟踪实体。 C. 使用 SageMaker Model Monitor 评估模型的性能并管理审批。 D. 使用 SageMaker Pipelines。注册模型版本后,使用 AWS SDK 将审批状态更改为“已批准”。 答案:D 说明: 这欺骗了我,因为选项 D 的表述不清楚: A. 不,SageMaker Experiments 允许跟踪和组织您的实验,但不允许批准模型 B. 不,SageMaker ML Lineage Tracking 允许跟踪模型谱系,但不允许批准模型 C. 不,SageMaker Model Monitor 允许监控数据质量、模型质量、偏差和特征归因 D. 是的,创建模型版本后,您通常会评估其性能,然后更新模型版本的批准状态。您可以使用 SDK、SageMaker Studio 控制台或 SageMaker AI 管道中的条件步骤来更新模型版本的批准状态 4 / 114 4. No.4 一家公司正在使用 Amazon SageMaker 构建基于 Web 的 AI 应用程序。该应用程序将提供以下功能和特性:ML 实验、训练、中央模型注册表、模型部署和模型监控。 该应用程序必须确保在 ML 生命周期内安全且独立地使用训练数据。训练数据存储在 Amazon S3 中。 该公司需要运行按需工作流来监控从应用程序部署到实时终端的模型的偏差漂移。 哪种操作可以满足此要求? A. 配置应用程序以调用运行 SageMaker Clarify 作业的 AWS Lambda 函数。 B. 调用 AWS Lambda 函数来提取 sagemaker-model-monitor-analyzer 内置 SageMaker 映像。 C. 使用 AWS Glue Data Quality 来监控偏差。 D. 使用 SageMaker 笔记本来比较偏差。 答案:A 说明: A. 是的,Clarify 允许获取偏差 - https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-configure-processing-jobs.html B. 不,内置图像 sagemaker-model-monitor-analyzer 提供了一系列模型监控功能(约束建议、统计数据生成、针对基线的约束验证以及发出 Amazon CloudWatch 指标),但您需要 Clarify 来处理偏差 C. 不,Glue Data Quality 不会分析偏差 D. 不,从 Notebook 中您可以执行几乎所有操作,包括 Clarify Job,但是 Notebook 用于实验和模型开发,而不是用于启用实时应用程序功能 5 / 114 5. No.5 一家公司将历史数据存储在 Amazon S3 中的 .csv 文件中。.csv 文件中只有部分行和列被填充。列未标记。 ML 工程师需要准备和存储数据,以便公司可以使用数据来训练 ML 模型。 从以下列表中选择并排序正确的步骤来执行此任务。每个步骤应选择一次或根本不选择。(选择并排序三个。) • 创建 Amazon SageMaker 批量转换作业以进行数据清理和特征工程。 • 将结果数据存储回 Amazon S3。 • 使用 Amazon Athena 推断架构和可用列。 • 使用 AWS Glue 爬虫推断架构和可用列。 • 使用 AWS Glue DataBrew 进行数据清理和特征工程。 步骤 1:[选择…] ------------------------- 选择… 创建 Amazon SageMaker 批量转换作业以进行数据清理和特征工程。 将结果数据存储回 Amazon S3。 使用 Amazon Athena 推断架构和可用列。 使用 AWS Glue 爬虫推断架构和可用列。 使用 AWS Glue DataBrew 进行数据清理和特征工程。 步骤 2:[选择…] -------------------------- 选择… 创建 Amazon SageMaker 批量转换作业以进行数据清理和特征工程。 将结果数据存储回 Amazon S3。 使用 Amazon Athena 推断模式和可用列。 使用 AWS Glue 爬虫推断模式和可用列。 使用 AWS Glue DataBrew 进行数据清理和特征工程。 步骤 3:[选择…] -------------------------- 选择… 创建 Amazon SageMaker 批量转换作业以进行数据清理和特征工程。 将结果数据存储回 Amazon S3。 使用 Amazon Athena 推断模式和可用列。 使用 AWS Glue 爬虫推断模式和可用列。 使用 AWS Glue DataBrew 进行数据清理和特征工程。 答案: 步骤 1:使用 AWS Glue 爬虫推断模式和可用列。 步骤 2:使用 AWS Glue DataBrew 进行数据清理和特征工程。 步骤 3:将结果数据存储回 Amazon S3。 说明: 步骤顺序: 使用 AWS Glue 爬虫推断模式和可用列。 使用 AWS Glue DataBrew 进行数据清理和特征工程。 将结果数据存储回 Amazon S3。 6 / 114 6. No.6 ML 工程师需要使用 Amazon SageMaker Feature Store 创建和管理特征以训练模型。 从以下列表中选择并排序步骤以在 Feature Store 中创建和使用特征。每个步骤应选择一次。(选择并排序三个。) • 访问商店以构建用于训练的数据集。 • 创建特征组。 • 提取记录。 步骤 1:[选择…] -------------------------- 选择… 访问商店以构建用于训练的数据集。 创建功能组。 提取记录。 步骤 2:[选择…] -------------------------- 选择… 访问商店以构建用于训练的数据集。 创建功能组。 提取记录。 步骤 3:[选择…] -------------------------- 选择… 访问商店以构建用于训练的数据集。 创建功能组。 提取记录。 答案: 步骤 1:“创建功能组。” 步骤 2:“提取记录。” 步骤 3:“访问商店以构建用于训练的数据集。” 说明: 要使用 Amazon SageMaker Feature Store 创建和管理功能,请按照以下步骤操作: 1)创建功能组:通过定义功能组来组织功能。 2)提取记录:将数据加载到功能组中。 3)访问商店以构建训练数据集:从功能组中检索数据以准备进行模型训练。 7 / 114 7. No.7 一家公司希望在 Amazon SageMaker 上托管 ML 模型。ML 工程师正在 AWS CodePipeline 中配置持续集成和持续交付 (CL/CD) 管道以部署模型。当模型的新训练数据上传到 Amazon S3 存储桶时,管道必须自动运行。 从以下列表中选择并排序管道的正确步骤。每个步骤应选择一次或根本不选择。(选择并排序三个。) • 上传新数据时,S3 事件通知会调用管道。 • 上传新数据时,S3 生命周期规则会调用管道。 • SageMaker 使用 S3 存储桶中的数据重新训练模型。 • 管道将模型部署到 SageMaker 端点。 • 管道将模型部署到 SageMaker 模型注册表。 步骤 1:[选择…] -------------------------- 选择… 上传新数据时,S3 事件通知会调用管道。 上传新数据时,S3 生命周期规则会调用管道。 SageMaker 使用 S3 存储桶中的数据重新训练模型。 管道将模型部署到 SageMaker 端点。 管道将模型部署到 SageMaker 模型注册表。 步骤 2:[选择…] -------------------------- 选择… 上传新数据时,S3 事件通知会调用管道。 上传新数据时,S3 生命周期规则会调用管道。 SageMaker 使用 S3 存储桶中的数据重新训练模型。 管道将模型部署到 SageMaker 端点。 管道将模型部署到 SageMaker 模型注册表。 步骤 3:[选择…] -------------------------- 选择… 上传新数据时,S3 事件通知会调用管道。 上传新数据时,S3 生命周期规则会调用管道。 SageMaker 使用 S3 存储桶中的数据重新训练模型。 管道将模型部署到 SageMaker 端点。 管道将模型部署到 SageMaker 模型注册表。 答案: 步骤 1:“上传新数据时,S3 事件通知会调用管道。” 步骤 2:“SageMaker 使用 S3 存储桶中的数据重新训练模型。” 步骤 3:“管道将模型部署到 SageMaker 端点。” 说明: 前两个步骤很明显。对于最后(第三)步,有两个选择。 1. 管道将模型部署到 SageMaker 端点。 2. 管道将模型部署到 SageMaker 模型注册表。 由于问题说部署模型,因此第 1 个选项是正确的。如果我们将模型添加到模型注册表,它将只存在于目录中,但不会被部署。它需要明确部署到端点。因此 2 是正确的第三步。 8 / 114 8. No.8 一位 ML 工程师正在使用大型语言模型 (LLM) 在 Amazon Bedrock 上构建生成式 AI 应用程序。 从以下列表中为每个描述选择正确的生成式 AI 术语。每个术语应选择一次或根本不选择。 (选择三项。) • 嵌入 • 检索增强生成 (RAG) • 温度 • 标记 LLM 处理的基本数据单元的文本表示 [选择…] -------------------------------- 选择… 嵌入 检索增强生成 (RAG) 温度 标记 包含文本语义含义的高维向量 [选择…] -------------------------------- 选择… 嵌入 检索增强生成 (RAG) 温度 标记 从其他数据源丰富信息以改进生成的响应 [选择…] -------------------------------- 选择… 嵌入 检索增强生成 (RAG) 温度 标记 答案: LLM 处理的基本数据单元的文本表示:“标记” 包含文本语义含义的高维向量:“嵌入” 从其他数据源丰富信息以改进生成的响应: 「检索增强生成 (RAG)」 说明: token:表示模型用于处理和生成响应的文本单位。 temperature:控制生成输出的随机性和创造性,允许调整模型的响应样式。 embedding:将文本转换为向量表示以捕获语义含义,增强模型理解和生成连贯内容的能力。 9 / 114 9. No.9 一位 ML 工程师正在开发一个 ML 模型来预测类似大小的房屋的价格。该模型将根据几个特征进行预测。ML 工程师将使用以下特征工程技术来估算房屋的价格: • 特征分割 • 对数变换 • 独热编码 • 标准化分布 为以下特征列表选择正确的特征工程技术。每种特征工程技术都应选择一次或根本不选择(选择三种)。 城市(名称) [选择…] -------------------------------- 选择… 特征拆分 对数变换 单热编码 标准化分布 Type_year(房屋类型和房屋建造年份) [选择…] -------------------------------- 特征拆分 对数变换 单热编码 标准化分布 建筑物大小(平方英尺或平方米) [选择…] -------------------------------- 特征拆分 对数变换 单热编码 标准化分布 答案: 城市(名称):单热编码 Type_year(房屋类型和房屋建造年份):特征拆分 建筑物大小(平方英尺或平方米):对数变换 说明: 建筑物大小(平方英尺或平方米)= 对数变换 说明:建筑物大小是一个数值特征,通常显示偏斜分布,并且可能与价格具有非线性关系。对数变换之所以适用,是因为: 它有助于使偏斜分布正常化 它有助于使大小和价格之间的关系线性化 它对于遵循指数或乘法模式的特征特别有用 房地产数据通常显示对数正态分布 10 / 114 10. No.10 ML 工程师正在 AWS 上开发欺诈检测模型。训练数据集包括来自本地 MySQL 数据库的交易日志、客户资料和表。交易日志和客户资料存储在 Amazon S3 中。 数据集具有类不平衡,这会影响模型算法的学习。此外,许多功能具有相互依赖性。该算法没有捕获数据中所有所需的底层模式。 哪个 AWS 服务或功能可以聚合来自各种数据源的数据? A. Amazon EMR Spark 作业 B. Amazon Kinesis 数据流 C. Amazon DynamoDB D. AWS Lake Formation 答案:D 说明: 又一个措辞不当的 AWS 认证问题。这是我的理由,问题是关于“聚合来自 S3 和本地 mysql 的数据”,我确实打算将“聚合”放在同一个地方,因此: A. 不,虽然 EMR spark 作业可以连接到 S3 和 MySQL(spark 可以连接到 mysql 数据库),但它是处理数据然后在 S3 中存储它们的更好的工具 B. 不,KDS 用于将流数据源传送到特定目的地(S3、OpenSearch...) C. 不,DynamoDB 是一个不太适合这里的 nosql db D. 是的,Lake Formation“将不同类型的结构化和非结构化数据组合到一个集中式存储库中”https://docs.aws.amazon.com/lake-formation/latest/dg/what-is-lake-formation.html 和“使用 Lake Formation,您可以使用工作流导入数据”,并且由于它基于 AWS Glue,因此它同时支持 S3 和 mysql 11 / 114 11. No.11 一位 ML 工程师正在 AWS 上开发欺诈检测模型。训练数据集包括来自本地 MySQL 数据库的交易日志、客户资料和表。交易日志和客户资料存储在 Amazon S3 中。 数据集的类别不平衡会影响模型算法的学习。此外,许多功能具有相互依赖性。算法没有捕获数据中所有所需的底层模式。 数据聚合后,ML 工程师必须实施解决方案来自动检测数据中的异常并可视化结果。 哪种解决方案可以满足这些要求? A. 使用 Amazon Athena 自动检测异常并可视化结果。 B. 使用 Amazon Redshift Spectrum 自动检测异常。使用 Amazon QuickSight 可视化结果。 C. 使用 Amazon SageMaker Data Wrangler 自动检测异常并可视化结果。 D. 使用 AWS Batch 自动检测异常。使用 Amazon QuickSight 可视化结果。 答案:C 说明: https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-analyses.html “Amazon SageMaker Data Wrangler 包含内置分析,可帮助您在几次点击中生成可视化和数据分析。” 这个问题很棘手,因为它让您认为您需要 Quicksight 来完成“可视化”部分。 12 / 114 12. No.12 ML 工程师正在 AWS 上开发欺诈检测模型。训练数据集包括来自本地 MySQL 数据库的交易日志、客户配置文件和表。交易日志和客户配置文件存储在 Amazon S3 中。 数据集的类不平衡会影响模型算法的学习。此外,许多功能具有相互依赖性。该算法没有捕获数据中所有所需的底层模式。 训练数据集包括分类数据和数值数据。ML 工程师必须准备训练数据集以最大限度地提高模型的准确性。 哪种操作可以以最少的运营开销满足此要求? A. 使用 AWS Glue 将分类数据转换为数值数据。 B. 使用 AWS Glue 将数值数据转换为分类数据。 C. 使用 Amazon SageMaker Data Wrangler 将分类数据转换为数值数据。 D. 使用 Amazon SageMaker Data Wrangler 将数值数据转换为分类数据。 答案:C 说明: https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-transform.html Data Wrangler 可用于编码分类数据,即为类别创建数值表示的过程。分类编码将字符串格式的分类数据编码为整数数组。Data Wrangler 支持序数和独热编码,以及相似性编码(更高级)。 https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-transform.html#data-wrangler-transform-cat-encode AWS Glue 还提供了用于 One Hot Encoding 和 Categorical Mapping 的数据科学配方步骤。 https://docs.aws.amazon.com/databrew/latest/dg/recipe-actions.data-science.html 但是,Data Wrangler 更易于使用,具有可视化和自然语言界面,可减少运营开销 13 / 114 13. No.13 一位 ML 工程师正在 AWS 上开发欺诈检测模型。训练数据集包括来自本地 MySQL 数据库的交易日志、客户资料和表。交易日志和客户资料存储在 Amazon S3 中。 数据集存在类别不平衡问题,这会影响模型算法的学习。此外,许多功能具有相互依赖性。算法没有捕获数据中所有所需的底层模式。 在 ML 工程师训练模型之前,ML 工程师必须解决数据不平衡的问题。 哪种解决方案可以以最少的运营工作量满足此要求? A. 使用 Amazon Athena 识别导致不平衡的模式。相应地调整数据集。 B. 使用 Amazon SageMaker Studio Classic 内置算法处理不平衡的数据集。 C. 使用 AWS Glue DataBrew 内置功能对少数类进行过采样。 D. 使用 Amazon SageMaker Data Wrangler 平衡数据操作对少数类进行过采样。 答案:D 说明: https://aws.amazon.com/blogs/machine-learning/balance-your-data-for-machine-learning-with-amazon-sagemaker-data-wrangler/ Glue DataBrew 和 Data Wrangler 都允许使用无代码/低代码(即低操作工作量)为 ML 准备数据。但是,Data Wrangler 提供了用于平衡数据集的内置转换(随机过采样、随机欠采样和 smote)https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-transform.html#data-wrangler-transform-balance-data,而 DataBrew 没有提供用于平衡数据集的内置配方步骤,实际上它提供了一组较小的数据科学配方步骤,仅限于二值化、桶化、分类映射、独热编码、缩放、倾斜和标记化https://docs.aws.amazon.com/databrew/latest/dg/recipe-actions.data-science.html 14 / 114 14. No.14 一位 ML 工程师正在 AWS 上开发欺诈检测模型。训练数据集包括来自本地 MySQL 数据库的交易日志、客户资料和表。交易日志和客户资料存储在 Amazon S3 中。 数据集存在类不平衡,影响模型算法的学习。此外,许多特征具有相互依赖性。该算法并未捕获数据中所有所需的底层模式。 ML 工程师需要使用 Amazon SageMaker 内置算法来训练模型。 ML 工程师应使用哪种算法来满足此要求? A. LightGBM B. 线性学习器 C. К-均值聚类 D. 神经主题模型 (NTM) 答案:A 说明: A. LightGBM:处理类别不平衡;捕获特征相互依赖性;对复杂模式进行建模。 B. 线性学习器:相互依赖的特征有限;难以处理复杂模式;适用于线性关系。 C. K-均值聚类:无监督算法;不适合分类;无法处理类别不平衡。 D. 神经主题模型 (NTM):专为主题建模而设计;不适合欺诈检测;无法解决类别不平衡问题。 15 / 114 15. No.15 一家公司在生产中部署了一个 XGBoost 预测模型,以预测客户是否有可能取消订阅。该公司使用 Amazon SageMaker Model Monitor 来检测 F1 分数的偏差。 在对模型质量进行基线分析时,该公司记录了 F1 分数的阈值。几个月没有变化后,模型的 F1 分数显着下降。 F1 分数降低的原因可能是什么? A. 用于预测的底层客户数据中发生了概念漂移。 B. 该模型不够复杂,无法捕获原始基线数据中的所有模式。 C. 原始基线数据存在缺失值的数据质量问题。 D. 在计算基线期间向 Model Monitor 提供了错误的地面实况标签。 答案:A 说明: 概念漂移:当用于预测的数据的统计属性随时间变化时发生,导致模型在当前数据上表现不佳。 为什么不选择其他选项? B. 如果模型复杂度不够,问题会在初始评估或基线分析期间被发现,而不是在几个月的稳定性能之后。 C. 数据质量问题会在部署后立即影响模型的性能,而不是几个月后。 D. 基线计算过程中的错误标签可能导致基线 F1 分数不准确,但这无法说明几个月稳定性能之后的大幅下降。 16 / 114 16. No.16 一家公司有一个数据科学家团队,他们使用 Amazon SageMaker 笔记本实例来测试 ML 模型。当数据科学家需要新的权限时,公司会将权限附加到在创建 SageMaker 笔记本实例期间创建的每个单独角色。 公司需要集中管理团队的权限。 哪种解决方案可以满足这一要求? A. 创建一个具有必要权限的 IAM 角色。将角色附加到团队使用的每个笔记本实例。 B. 创建一个 IAM 组。将数据科学家添加到该组。将组与团队使用的每个笔记本实例关联。 C. 创建一个 IAM 用户。将 AdministratorAccess AWS 托管 IAM 策略附加到用户。配置每个笔记本实例以使用 IAM 用户。 D. 创建一个 IAM 组。将数据科学家添加到该组。创建一个 IAM 角色。将 AdministratorAccess AWS 托管 IAM 策略附加到角色。将角色与组关联。将组与团队使用的每个笔记本实例关联。 答案:A 说明: AWS 又一个不清楚的问题……无论如何,我基本上选择 A,因为所有其他选项都不适用或不清楚。 A. 是的,这很有道理 B. 不,您无法将组分配(又称关联)到笔记本实例 C. 不,有两个原因:AdministratorAccess 策略过于宽泛(违反最小特权原则),您无法将 IAM 用户分配给笔记本实例 D. 不,有很多原因:AdministratorAccess 策略过于宽泛,不清楚将角色关联到组意味着什么(也许组有权承担角色……)并且您无法将组分配给笔记本 17 / 114 17. No.17 ML 工程师需要使用 ML 模型来预测特定位置的公寓价格。 ML 工程师应该使用哪个指标来评估模型的性能? A. 准确率 B. ROC 曲线下面积 (AUC) C. F1 分数 D. 平均绝对误差 (MAE) 答案:D 说明: 唯一用于回归的是 D。其他 3 个用于分类。 这是一个回归问题,因此 MAE 是正确答案。准确率、AUC-ROC 和 F1 用于分类。 18 / 114 18. No.18 一位 ML 工程师使用随机梯度下降 (SGD) 训练了一个神经网络。神经网络在测试集上表现不佳。训练损失和验证损失的值仍然很高,并显示出振荡模式。这些值在几个时期内下降,然后在几个时期内增加,然后重复相同的循环。 ML 工程师应该做些什么来改进训练过程? A. 引入早期停止。 B. 增加测试集的大小。 C. 增加学习率。 D. 降低学习率。 答案:D 说明: A. 不,提前停止是为了防止过度拟合 B. 不,增加测试不会对震荡损失有帮助 C. 不,增加学习率会使情况恶化 D. 训练中的震荡损失表明训练没有收敛,当学习率过高时可能会发生这种情况。降低学习率会有所帮助 19 / 114 19. No.19 ML 工程师需要处理数千个现有 CSV 对象和上传的新 CSV 对象。CSV 对象存储在中央 Amazon S3 存储桶中,并具有相同数量的列。其中一列是交易日期。ML 工程师必须根据交易日期查询数据。 哪种解决方案可以以最少的运营开销满足这些要求? A. 使用 Amazon Athena CREATE TABLE AS SELECT (CTAS) 语句根据中央 S3 存储桶中的数据中的交易日期创建表。从表中查询对象。 B. 为处理后的数据创建一个新的 S3 存储桶。设置从中央 S3 存储桶到新 S3 存储桶的 S3 复制。使用 S3 Object Lambda 根据交易日期查询对象。 C. 为处理后的数据创建新的 S3 存储桶。使用 AWS Glue for Apache Spark 创建作业以根据交易日期查询 CSV 对象。配置作业以将结果存储在新的 S3 存储桶中。从新的 S3 存储桶查询对象。 D. 为处理后的数据创建新的 S3 存储桶。使用 Amazon Data Firehose 将数据从中央 S3 存储桶传输到新的 S3 存储桶。配置 Firehose 以运行 AWS Lambda 函数以根据交易日期查询数据。 答案:A 说明: Athena 允许使用 SQL 直接查询存储在 Amazon S3 中的数据,而无需移动或转换数据。CTAS(CREATE TABLE AS SELECT):根据过滤或转换后的数据集(例如交易日期)创建新表,并将结果存储在 S3 中。 为什么不选择其他选项? B. S3 Object Lambda 专为即时数据转换而设计,而不是高效查询数据。添加复制会增加复杂性,而不会直接解决查询要求。 C. Glue 适用于复杂的 ETL 工作流,但它会为 Athena 可以更轻松处理的任务带来大量运营开销。 D. Firehose 专为流式传输数据而设计,而不是处理大型现有数据集。 20 / 114 20. No.20 一家公司拥有一个大型的非结构化数据集。该数据集包含多个关键属性的许多重复记录。 AWS 上的哪种解决方案将以最少的代码开发检测数据集中的重复项? A. 使用 Amazon Mechanical Turk 作业来检测重复项。 B. 使用 Amazon QuickSight ML Insights 构建自定义重复数据删除模型。 C. 使用 Amazon SageMaker Data Wrangler 进行预处理和检测重复项。 D. 使用 AWS Glue FindMatches 转换检测重复项。 答案:D 说明: AWS Glue FindMatches 专门用于识别数据集中的重复或匹配记录,而无需标记的训练数据。它使用机器学习来查找模糊匹配,并允许自定义以微调匹配过程,使其成为此场景的理想选择。 21 / 114 21. No.21 一家公司需要在 Amazon EC2 实例上运行批量数据处理作业。该作业将在周末运行,需要 90 分钟才能完成运行。处理可以处理中断。该公司将在接下来的 6 个月内每个周末运行该作业。 哪种 EC2 实例购买选项将最经济高效地满足这些要求? A. 竞价实例 B. 预留实例 C. 按需实例 D. 专用实例 答案:A 说明: 经济高效 + 中断 + 持续时间短 90 分钟 = 竞价实例 22 / 114 22. No.22 一位 ML 工程师在 us-east-1 区域的账户 A 中有一个 Amazon Comprehend 自定义模型。ML 工程师需要将模型复制到同一区域的账户 B。 哪种解决方案可以以最少的开发工作量满足此要求? A. 使用 Amazon S3 复制模型。将副本传输到账户 B。 B. 创建基于资源的 IAM 策略。使用 Amazon Comprehend ImportModel API 操作将模型复制到账户 B。 C. 使用 AWS DataSync 将模型从账户 A 复制到账户 B。 D. 在账户 A 和账户 B 之间创建 AWS 站点到站点 VPN 连接以传输模型。 答案:B 说明: Amazon Comprehend - ImportModel API 可促进 AWS 账户之间自定义模型的转移。步骤: 1. 从账户 A 导出模型。 2. 在账户 A 中创建基于资源的 IAM 策略以授予账户 B 访问权限。 3. 使用账户 B 中的 ImportModel API 导入模型。 23 / 114 23. No.23 ML 工程师正在训练一个简单的神经网络模型。ML 工程师在验证数据集上跟踪模型随时间的性能。模型的性能最初会大幅提高,然后在特定数量的时期后下降。 哪些解决方案可以缓解此问题?(选择两个。) A. 在模型上启用早期停止。 B. 增加层的 dropout。 C. 增加层数。 D. 增加神经元数量。 E. 调查并减少模型偏差的来源。 答案:A、B 说明: 问题是过度拟合。解决方案:- A. 提前停止:- 当验证性能下降时停止训练 B. 增加 dropout:- 通过随机禁用神经元来减少过度拟合 24 / 114 24. No.24 一家公司有一个检索增强生成 (RAG) 应用程序,该应用程序使用矢量数据库来存储文档的嵌入。该公司必须将应用程序迁移到 AWS,并且必须实施提供文本文件语义搜索的解决方案。该公司已将文本存储库迁移到 Amazon S3 存储桶。 哪种解决方案可以满足这些要求? A. 使用 AWS Batch 作业来处理文件并生成嵌入。使用 AWS Glue 存储嵌入。使用 SQL 查询执行语义搜索。 B. 使用自定义 Amazon SageMaker 笔记本运行自定义脚本来生成嵌入。使用 SageMaker Feature Store 存储嵌入。使用 SQL 查询执行语义搜索。 C. 使用 Amazon Kendra S3 连接器将文档从 S3 存储桶提取到 Amazon Kendra。查询 Amazon Kendra 以执行语义搜索。 D. 使用 Amazon Textract 异步作业从 S3 存储桶中提取文档。查询 Amazon Textract 以执行语义搜索。 答案:C 说明: https://docs.aws.amazon.com/kendra/latest/dg/data-source-s3.html 25 / 114 25. ★No.25 一家公司使用 Amazon Athena 查询 Amazon S3 中的数据集。该数据集具有公司想要预测的目标变量。 该公司需要在解决方案中使用该数据集来确定模型是否可以预测目标变量。 哪种解决方案将以最少的开发工作量提供此信息? A. 使用 Amazon SageMaker Autopilot 创建新模型。报告模型实现的性能。 B. 实施自定义脚本以执行数据预处理、多元线性回归和性能评估。在 Amazon EC2 实例上运行脚本。 C. 配置 Amazon Macie 以分析数据集并创建模型。报告模型实现的性能。 D. 从 Amazon Bedrock 中选择一个模型。使用数据调整模型。报告模型实现的性能。 26 / 114 26. No.26 一家公司希望通过考虑每个广告的配色方案来预测广告活动的成功。一位 ML 工程师正在为神经网络模型准备数据。数据集包含颜色信息作为分类数据。 ML 工程师应该为模型使用哪种特征工程技术? A. 对颜色类别应用标签编码。自动为每种颜色分配一个唯一的整数。 B. 实现填充以确保所有颜色特征向量具有相同的长度。 C. 对颜色类别执行降维。 D. 对颜色类别进行独热编码以将配色方案特征转换为二进制矩阵。 答案:D 说明: 1. 标签编码:序数关系 2. 填充:序列数据 3. 降维:高维数据 4. 独热编码:分类数据(右) 27 / 114 27. No.27 一家公司使用混合云环境。部署在本地的模型使用 Amazon 53 中的数据为客户提供实时对话引擎。 该模型正在使用敏感数据。ML 工程师需要实施解决方案来识别和删除敏感数据。 哪种解决方案可以以最少的运营开销满足这些要求? A. 在 Amazon SageMaker 上部署模型。创建一组 AWS Lambda 函数来识别和删除敏感数据。 B. 在使用 AWS Fargate 的 Amazon Elastic Container Service (Amazon ECS) 集群上部署模型。创建 AWS Batch 作业来识别和删除敏感数据。 C. 使用 Amazon Macie 识别敏感数据。创建一组 AWS Lambda 函数来删除敏感数据。 D. 使用 Amazon Comprehend 识别敏感数据。启动 Amazon EC2 实例以删除敏感数据。 答案:C 说明: Macie - 识别敏感数据 28 / 114 28. No.28 ML 工程师需要在 AWS 上创建数据提取管道和 ML 模型部署管道。所有原始数据都存储在 Amazon S3 存储桶中。 哪种解决方案可以满足这些要求? A. 使用 Amazon Data Firehose 创建数据提取管道。使用 Amazon SageMaker Studio Classic 创建模型部署管道。 B. 使用 AWS Glue 创建数据提取管道。使用 Amazon SageMaker Studio Classic 创建模型部署管道。 C. 使用 Amazon Redshift ML 创建数据提取管道。使用 Amazon SageMaker Studio Classic 创建模型部署管道。 D. 使用 Amazon Athena 创建数据提取管道。使用 Amazon SageMaker 笔记本创建模型部署管道。 答案:B 说明: 数据提取 - Glue;模型部署管道 - sagemaker studio classic 这是 Glu 的主要用例 29 / 114 29. No.29 一家拥有数百名数据科学家的公司正在使用 Amazon SageMaker 创建 ML 模型。这些模型位于 SageMaker 模型注册表中的模型组中。 数据科学家分为三类:计算机视觉、自然语言处理 (NLP) 和语音识别。ML 工程师需要实施解决方案,将现有模型组织到这些组中,以提高模型的大规模可发现性。该解决方案不得影响模型工件及其现有分组的完整性。 哪种解决方案可以满足这些要求? A. 为这三个类别中的每一个创建一个自定义标签。将标签添加到 SageMaker 模型注册表中的模型包中。 B. 为每个类别创建一个模型组。将现有模型移到这些类别模型组中。 C. 使用 SageMaker ML Lineage Tracking 自动识别并标记哪些模型组应包含这些模型。 D. 为这三个类别中的每一个创建一个模型注册表集合。将现有模型组移到集合中。 答案:D 说明: 因为根据文档 - “您对集合执行的任何操作都不会影响它们包含的各个模型组的完整性 - Amazon S3 和 Amazon ECR 中的底层模型组工件不会被修改。” A 也可能是一个有效的选项,但在这里我们看到的正是这一点: https://docs.aws.amazon.com/sagemaker/latest/dg/modelcollections.html “您对集合执行的任何操作都不会影响它们包含的各个模型组的完整性 - Amazon S3 和 Amazon ECR 中的底层模型组工件不会被修改。” 30 / 114 30. No.30 一家公司在新建 VPC 的公共子网中运行 Amazon SageMaker 域。网络配置正确,ML 工程师可以访问 SageMaker 域。 最近,该公司发现来自特定 IP 地址的域的可疑流量。该公司需要阻止来自特定 IP 地址的流量。 哪个网络配置更新将满足此要求? A. 创建安全组入站规则以拒绝来自特定 IP 地址的流量。将安全组分配给域。 B. 创建网络 ACL 入站规则以拒绝来自特定 IP 地址的流量。将规则分配给域所在子网的默认网络广告。 C. 为域创建影子变体。配置 SageMaker Inference Recommender 以将流量从特定 IP 地址发送到影子端点。 D. 创建 VPC 路由表以拒绝来自特定 IP 地址的入站流量。将路由表分配给域。 答案:B 说明: 子网级别的保护:网络 ACL。可以在入站连接级别拒绝特定 IP 地址。 31 / 114 31. No.31 一家公司正在收集各种语言的音频、视频和文本数据。该公司需要使用大型语言模型 (LLM) 来汇总收集到的西班牙语数据。 哪种解决方案可以在最短的时间内满足这些要求? A. 在 Amazon SageMaker 中训练并部署模型,将数据转换为英文文本。在 SageMaker 中训练并部署 LLM 来总结文本。 B. 使用 Amazon Transcribe 和 Amazon Translate 将数据转换为英文文本。使用 Amazon Bedrock 和 Jurassic 模型总结文本。 C. 使用 Amazon Rekognition 和 Amazon Translate 将数据转换为英文文本。使用 Amazon Bedrock 和 Anthropic Claude 模型总结文本。 D. 使用 Amazon Comprehend 和 Amazon Translate 将数据转换为英文文本。使用 Amazon Bedrock 和 Stable Diffusion 模型总结文本。 答案:B 说明: 最短时间 -> A 出局 C 出局,因为 Claude 不适合总结 D 出局,因为那是用于图像生成的。 32 / 114 32. No.32 一家金融公司从外部提供商处收到大量实时市场数据流。这些流每秒包含数千条 JSON 记录。 该公司需要在 AWS 上实施可扩展的解决方案来识别异常数据点。 哪种解决方案能够以最少的运营开销满足这些要求? A. 将实时数据导入 Amazon Kinesis 数据流。使用 Amazon Managed Service for Apache Flink 中的内置 RANDOM_CUT_FOREST 函数来处理数据流并检测数据异常。 B. 将实时数据导入 Amazon Kinesis 数据流。部署 Amazon SageMaker 终端节点以进行实时异常检测。创建 AWS Lambda 函数来检测异常。使用数据流调用 Lambda 函数。 C. 将实时数据导入 Amazon EC2 实例上的 Apache Kafka。部署 Amazon SageMaker 终端节点以进行实时异常检测。创建 AWS Lambda 函数来检测异常。使用数据流调用 Lambda 函数。 D. 将实时数据发送到 Amazon Simple Queue Service (Amazon SQS) FIFO 队列。创建 AWS Lambda 函数来使用队列消息。对 Lambda 函数进行编程以启动 AWS Glue 提取、转换和加载 (ETL) 作业以进行批处理和异常检测。 答案:A 说明: 选项 A 高容量实时:Kinesis Data Streams 可扩展:托管 Apache Flink 异常检测:RANDOM_CUT_FOREST 低开销:完全托管服务 33 / 114 33. No.33 一家公司在产品发布后收集了大量来自客户互动的聊天记录。ML 工程师需要创建一个 ML 模型来分析聊天数据。ML 工程师需要通过查看客户对产品的情绪来确定产品的成功。 ML 工程师应该采取哪些行动才能在最短的时间内完成评估? A. 使用 Amazon Rekognition 分析聊天对话的情绪。 B. 训练朴素贝叶斯分类器来分析聊天对话的情绪。 C. 使用 Amazon Comprehend 分析聊天对话的情绪。 D. 使用随机森林对聊天对话的情绪进行分类。 答案:C 说明: https://docs.aws.amazon.com/comprehend/latest/dg/what-is.htm 预建情绪分析 + 快速设置 + NLP --Comprehend 34 / 114 34. No.34 一家公司有一个对话式 AI 助手,它通过 Amazon Bedrock 向 Anthropic Claude 大型语言模型 (LLM) 发送请求。用户报告说,当他们多次提出类似的问题时,他们有时会收到不同的答案。ML 工程师需要改进响应,使其更加一致且随机性更低。 哪种解决方案可以满足这些要求? A. 增加温度参数和 top_k 参数。 B. 增加温度参数。降低 top_k 参数。 C. 降低温度参数。增加 top_k 参数。 D. 降低温度参数和 top_k 参数。 答案:D 说明: 较低的温度:高可能输出 较低的 Top k:关注可能输出 https://docs.aws.amazon.com/bedrock/latest/userguide/inference-parameters.html 35 / 114 35. No.35 一家公司正在使用 ML 预测农民田地中是否存在特定杂草。该公司正在使用 Amazon SageMaker 线性学习器内置算法,其 predictorjype 超参数的值为 multiclass_dassifier。 公司应该怎么做才能最大限度地减少误报? A. 将权重衰减超参数的值设置为零。 B. 增加训练周期数。 C. 增加 target_precision 超参数的值。 D. 将 predictor_ype 超参数的值更改为 regressor。 答案:C 说明: A. 权重衰减 = 0 → 无正则化,不针对假阳性。 B. 更多时期 → 更长的训练,存在过度拟合的风险,对假阳性没有直接影响。 C. 更高的精度 → 优先考虑正确的阳性,减少假阳性。 D. 回归器 → 预测连续值,不适合分类。 https://docs.aws.amazon.com/sagemaker/latest/dg/ll_hyperparameters.html 36 / 114 36. No.36 一家公司已实施了一条数据提取管道,用于从其电子商务网站提取销售交易数据。该公司使用 Amazon Data Firehose 将数据提取到 Amazon OpenSearch Service 中。Firehose 流的缓冲间隔设置为 60 秒。OpenSearch 线性模型根据数据生成实时销售预测,并将数据显示在 OpenSearch 仪表板中。 该公司需要优化数据提取管道,以支持实时仪表板的亚秒级延迟。 架构的哪些更改将满足这些要求? A. 在 Firehose 流中使用零缓冲。调整 PutRecordBatch 操作中使用的批处理大小。 B. 用 AWS DataSync 任务替换 Firehose 流。使用增强的扇出消费者配置任务。 C. 将 Firehose 流的缓冲间隔从 60 秒增加到 120 秒。 D. 用 Amazon Simple Queue Service (Amazon SQS) 队列替换 Firehose 流。 答案:A 说明: A. 使用零缓冲通过即时传输数据来最大限度地减少延迟。 调整批处理大小以优化吞吐量并确保实时仪表板的亚秒级交付。 虽然这是一个相当新的解决方案,但 A 可以解决问题: https://aws.amazon.com/about-aws/whats-new/2023/12/amazon-kinesis-data-firehose-zero-buffering/ 37 / 114 37. No.37 一家公司已经在 Amazon SageMaker 中训练了一个 ML 模型。该公司需要托管该模型以在生产环境中提供推理。 该模型必须具有高可用性,并且必须以最小的延迟做出响应。每个请求的大小将在 1 KB 到 3 MB 之间。该模型将在白天收到不可预测的请求突发。推理必须根据需求的变化进行比例调整。 公司应如何将模型部署到生产中以满足这些要求? A. 创建 SageMaker 实时推理端点。配置自动扩展。配置终端节点以呈现现有模型。 B. 在 Amazon Elastic Container Service (Amazon ECS) 集群上部署模型。使用基于 ECS 集群 CPU 的 ECS 计划扩展。 C. 在 Amazon Elastic Kubernetes Service (Amazon EKS) 集群上安装 SageMaker Operator。在 Amazon EKS 中部署模型。设置水平 Pod 自动扩展以根据内存指标扩展副本。 D. 使用 Spot 实例和位于应用程序负载均衡器 (ALB) 后面的 Spot 队列进行推理。使用 ALBRequestCountPerTarget 指标作为自动扩展的指标。 答案:A 说明: SageMaker 实时终端节点:专为自动扩展、低延迟、处理突发而构建。 https://aws.amazon.com/blogs/machine-learning/configuring-autoscaling-inference-endpoints-in-amazon-sagemaker/ 38 / 114 38. No.38 ML 工程师需要使用 Amazon EMR 集群批量处理大量数据。任何数据丢失都是不可接受的。 哪种实例购买选项最经济高效地满足这些要求? A. 在按需实例上运行主节点、核心节点和任务节点。 B. 在竞价实例上运行主节点、核心节点和任务节点。 C. 在按需实例上运行主节点。在竞价实例上运行核心节点和任务节点。 D. 在按需实例上运行主节点和核心节点。在竞价实例上运行任务节点。 答案:D 说明: https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-instances-guidelines.html#emr-plan-spot-instances “任务节点处理数据但不在 HDFS 中保存持久数据。如果它们因为现货价格超过最高现货价格而终止,则不会丢失任何数据” 39 / 114 39. No.39 一家公司希望提高其 ML 运营的可持续性。 哪些行动将减少与公司培训工作相关的能源使用和计算资源?(选择两个。) A. 使用 Amazon SageMaker Debugger 在检测到非收敛条件时停止训练作业。 B. 使用 Amazon SageMaker Ground Truth 进行数据标记。 C. 使用 AWS Lambda 函数部署模型。 D. 使用 AWS Trainium 实例进行训练。 E. 使用带有分布式训练选项的 PyTorch 或 TensorFlow。 答案:A、D 说明: 博客:https://aws.amazon.com/blogs/machine-learning/optimizing-mlops-for-sustainability/ 可持续发展目标:实例比同类加速计算 EC2 实例节能高达 25%; https://aws.amazon.com/ai/machine-learning/trainium/ SageMaker 调试器通过检测系统资源利用率不足、识别训练问题以及使用内置规则监控并在检测到错误后立即停止训练作业来帮助优化资源消耗。 40 / 114 40. No.40 一家公司计划创建多个 ML 预测模型。训练数据存储在 Amazon S3 中。整个数据集大小超过 5 TB,由 CSV、JSON、Apache Parquet 和简单文本文件组成。 必须分几个连续步骤处理数据。这些步骤包括复杂的操作,可能需要数小时才能完成运行。一些处理涉及自然语言处理 (NLP) 转换。整个过程必须自动化。 哪种解决方案可以满足这些要求? A. 使用 Amazon SageMaker Data Wrangler 在每个步骤处理数据。使用 Data Wrangler 作业自动化该过程。 B. 在每个数据处理步骤中使用 Amazon SageMaker 笔记本。使用 Amazon EventBridge 自动化该过程。 C. 使用 AWS Lambda 函数在每个步骤处理数据。使用 AWS Step Functions 和 Amazon EventBridge 自动化该过程。 D. 使用 Amazon SageMaker Pipelines 创建数据处理步骤管道。使用 Amazon EventBridge 自动化该管道。 答案:D 说明: 大型数据集 + 多种文件格式 + 复杂的自动化和 ML 工作流编排 + NLP 转换 ---> Sagemaker 管道 + 触发器的事件桥 41 / 114 41. No.41 ML 工程师需要使用 AWS CloudFormation 创建 Amazon SageMaker 端点将托管的 ML 模型。 ML 工程师应在 CloudFormation 模板中声明哪种资源来满足此要求? A. AWS::SageMaker::Model B. AWS::SageMaker::Endpoint C. AWS::SageMaker::NotebookInstance D. AWS::SageMaker::Pipeline 答案:A 说明: 类型:AWS::SageMaker::Model 属性: 容器: - ContainerDefinition EnableNetworkIsolation:布尔值 ExecutionRoleArn:字符串 InferenceExecutionConfig: InferenceExecutionConfig 模型名称:字符串 PrimaryContainer: ContainerDefinition 标签: - 标签 VpcConfig: VpcConfig 42 / 114 42. No.42 一家广告公司使用 AWS Lake Formation 来管理数据湖。数据湖包含结构化数据和非结构化数据。该公司的 ML 工程师被分配到特定的广告活动。 ML 工程师必须通过 Amazon Athena 与数据交互,并直接在 Amazon S3 存储桶中浏览数据。 ML 工程师必须只能访问特定于其分配的广告活动的资源。 哪种解决方案能够以最高效的方式满足这些要求? A. 在 AWS Glue 数据目录上配置 IAM 策略,以根据 ML 工程师的活动限制对 Athena 的访问。 B. 将用户和活动信息存储在 Amazon DynamoDB 表中。配置 DynamoDB Streams 以调用 AWS Lambda 函数来更新 S3 存储桶策略。 C. 使用 Lake Formation 授权 AWS Glue 访问 S3 存储桶。配置 Lake Formation 标签以将 ML 工程师映射到他们的活动。 D. 配置 S3 存储桶策略以根据 ML 工程师的活动限制对 S3 存储桶的访问。 答案:C 说明: AWS Lake Formation → 使用活动标记资源 → 将 ML 工程师映射到活动 → 细粒度访问控制 → 运营效率 43 / 114 43. No.43 ML 工程师需要使用 Amazon SageMaker Canvas 中的数据来训练 ML 模型。数据存储在 Amazon S3 中,结构复杂。ML 工程师必须使用一种可以最大程度缩短数据处理时间的文件格式。 哪种文件格式可以满足这些要求? A. 使用 Snappy 压缩的 CSV 文件 B. JSONL 格式的 JSON 对象 C. 使用 gzip 压缩的 JSON 文件 D. Apache Parquet 文件 答案:D 说明: 最大程度缩短处理时间:-为什么选择 Apache Parquet?列式、快速 I/O;对复杂数据高效;内置压缩;兼容 SageMaker Canvas 44 / 114 44. No.44 一位 ML 工程师正在评估多个 ML 模型,必须选择一个模型用于生产。模型的假阴性预测成本远高于假阳性预测成本。 ML 工程师在选择模型时应该优先考虑哪个指标结果? A. 低精度 B. 高精度 C. 低召回率 D. 高召回率 答案:D 说明: A. 低精度:增加假阳性;此处不太相关。 B. 高精度:减少假阳性;不是优先级。 C. 低召回率:增加假阴性;必须避免。 D. 高召回率:正确;最大限度地减少假阴性。 45 / 114 45. No.45 一家公司已经使用 Amazon SageMaker 训练和部署了一个 ML 模型。该公司需要实施一个解决方案来记录和监控 SageMaker 端点的所有 API 调用事件。当 API 调用事件的数量超过阈值时,该解决方案还必须提供通知。 哪种解决方案可以满足这些要求? A. 使用 SageMaker Debugger 跟踪推理并报告指标。创建自定义规则以在超出阈值时提供通知。 B. 使用 SageMaker Debugger 跟踪推理并报告指标。使用 tensor_variance 内置规则在超出阈值时提供通知。 C. 使用 AWS CloudTrail 记录所有端点调用 API 事件。使用 Amazon CloudWatch 仪表板进行监控。设置 CloudWatch 警报以在超出阈值时提供通知。 D. 将调用指标添加到 Amazon CloudWatch 仪表板进行监控。设置 CloudWatch 警报以在超出阈值时提供通知。 答案:C 说明: 公司需要实施解决方案来记录和监控 SageMaker 端点的所有 API 调用事件。它需要记录所有事件。 46 / 114 46. No.46 一家公司有由 AWS Glue 工作流编排的 AWS Glue 数据处理作业。 AWS Glue 作业可以按计划运行,也可以手动启动。 该公司正在 Amazon SageMaker Pipelines 中开发用于 ML 模型开发的管道。管道将在模型开发的数据处理阶段使用 AWS Glue 作业的输出。ML 工程师需要实施将 AWS Glue 作业与管道集成的解决方案。 哪种解决方案可以以最少的运营开销满足这些要求? A. 使用 AWS Step Functions 来编排管道和 AWS Glue 作业。 B. 使用 SageMaker Pipelines 中的处理步骤。配置指向 AWS Glue 作业的 Amazon 资源名称 (ARN) 的输入。 C. 使用 SageMaker Pipelines 中的回调步骤启动 AWS Glue 工作流并停止管道,直到 AWS Glue 作业完成运行。 D. 使用 Amazon EventBridge 以所需顺序调用管道和 AWS Glue 作业。 答案:C 说明: https://aws.amazon.com/blogs/machine-learning/extend-amazon-sagemaker-pipelines-to-include-custom-steps-using-callback-steps/ 该示例与问题完全相同。 47 / 114 47. No.47 一家公司正在使用 Amazon Redshift 数据库作为其单一数据源。部分数据是敏感数据。 数据科学家需要使用数据库中的部分敏感数据。ML 工程师必须授予数据科学家访问数据的权限,而无需转换源数据,也不必在数据库中存储匿名数据。 哪种解决方案能够以最少的实施工作量满足这些要求? A. 配置动态数据屏蔽策略以控制在查询时如何与数据科学家共享敏感数据。 B. 在数据库顶部创建具有屏蔽逻辑的物化视图。授予数据科学家必要的读取权限。 C. 将 Amazon Redshift 数据卸载到 Amazon S3。使用 Amazon Athena 创建具有屏蔽逻辑的读取模式。与数据科学家共享视图。 D. 将 Amazon Redshift 数据卸载到 Amazon S3。创建 AWS Glue 作业以匿名化数据。与数据科学家共享数据集。 答案:A 说明: Amazon Redshift 数据库 → 敏感数据 → 动态数据屏蔽 → 数据科学家的查询时屏蔽 → 无需转换或额外存储 → 最省力 48 / 114 48. No.48 一位 ML 工程师正在使用训练作业来微调 Amazon SageMaker Studio 中的深度学习模型。ML 工程师之前使用过相同的预训练模型和类似的数据集。ML 工程师预计会出现梯度消失、GPU 利用率不足和过度拟合问题。 ML 工程师需要实施解决方案来检测这些问题,并在问题发生时以预定义的方式做出反应。该解决方案还必须在训练期间提供全面的实时指标。 哪种解决方案能够以最少的运营开销满足这些要求? A. 使用 TensorBoard 监控训练作业。将结果发布到 Amazon Simple Notification Service (Amazon SNS) 主题。创建 AWS Lambda 函数以使用结果并启动预定义操作。 B. 使用 Amazon CloudWatch 默认指标来获取有关训练作业的见解。使用这些指标调用 AWS Lambda 函数来启动预定义操作。 C. 扩展 Amazon CloudWatch 中的指标以包含每个训练步骤中的梯度。使用指标调用 AWS Lambda 函数来启动预定义操作。 D. 使用 SageMaker Debugger 内置规则来监控训练作业。配置规则以启动预定义操作。 答案:D 说明: SageMaker Debugger → 内置规则 → 监控训练(消失梯度、GPU 使用、过度拟合)→ 预定义操作 → 低开销 49 / 114 49. No.49 一家信用卡公司在 Amazon SageMaker 终端上生产欺诈检测模型。该公司开发了该模型的新版本。该公司需要使用实时数据来评估新模型的性能,而不会影响生产最终用户。 哪种解决方案可以满足这些要求? A. 设置 SageMaker Debugger 并创建自定义规则。 B. 设置蓝/绿部署并一次性转移流量。 C. 设置蓝/绿部署并转移金丝雀流量。 D. 使用新模型的影子变体设置影子测试。 答案:D 说明: 影子测试是一种评估新模型性能的技术,它与当前生产模型一起运行,处理相同的实时数据但不影响生产结果。 https://docs.aws.amazon.com/sagemaker/latest/dg/shadow-tests-create.html 50 / 114 50. No.50 一家公司将有关用户点击的时间序列数据存储在 Amazon S3 存储桶中。原始数据每天包含数百万行用户活动。ML 工程师访问数据以开发他们的 ML 模型。 ML 工程师需要使用 Amazon Athena 生成每日报告并分析过去 3 天的点击趋势。公司必须在存档数据之前保留数据 30 天。 哪种解决方案将为数据检索提供最高的性能? A. 将所有时间序列数据保留在 S3 存储桶中而不进行分区。手动将超过 30 天的数据移动到单独的 S3 存储桶中。 B. 创建 AWS Lambda 函数,将时间序列数据复制到单独的 S3 存储桶中。应用 S3 生命周期策略将超过 30 天的数据存档到 S3 Glacier Flexible Retrieval。 C. 在 S3 存储桶中按日期前缀将时间序列数据组织到分区中。应用 S3 生命周期策略将超过 30 天的分区存档到 S3 Glacier Flexible Retrieval。 D. 将每天的时间序列数据放入其自己的 S3 存储桶中。使用 S3 生命周期策略将保存超过 30 天的数据的 S3 存储桶存档到 S3 Glacier Flexible Retrieval。 答案:C 说明: 时间序列数据 → 在 S3 中按日期分区 → 优化 Athena 查询 → S3 生命周期策略 → 将超过 30 天的分区移动到 S3 Glacier Flexible Retrieval 51 / 114 51. No.51 一家公司部署了一个 ML 模型,该模型可在银行应用程序中实时检测欺诈性信用卡交易。该模型使用 Amazon SageMaker 异步推理。消费者报告称,在接收推理结果时出现延迟。 ML 工程师需要实施解决方案来提高推理性能。当模型质量出现偏差时,解决方案还必须提供通知。 哪种解决方案可以满足这些要求? A. 使用 SageMaker 实时推理进行推理。使用 SageMaker Model Monitor 通知模型质量。 B. 使用 SageMaker 批量转换进行推理。使用 SageMaker Model Monitor 通知模型质量。 C. 使用 SageMaker Serverless Inference 进行推理。使用 SageMaker Inference Recommender 通知模型质量。 D. 继续使用 SageMaker 异步推理进行推理。使用 SageMaker 推理推荐器获取有关模型质量的通知。 答案:A 说明: Sagemaker 实时推理 - 更快的预测以解决延迟问题; 模型监视器跟踪模型质量并发送偏差警报。 52 / 114 52. No.52 ML 工程师需要实施解决方案来托管经过训练的 ML 模型。全天对模型的请求率将不一致。 ML 工程师需要一个可扩展的解决方案,以在模型未使用时最大限度地降低成本。该解决方案还必须保持模型在高峰使用期间响应请求的能力。 哪种解决方案可以满足这些要求? A. 创建具有固定并发性的 AWS Lambda 函数来托管模型。将 Lambda 函数配置为根据对模型的请求数量自动扩展。 B. 在使用 AWS Fargate 的 Amazon Elastic Container Service (Amazon ECS) 集群上部署模型。设置静态任务数以在高峰使用期间处理请求。 C. 将模型部署到 Amazon SageMaker 终端节点。将模型的多个副本部署到终端节点。创建应用程序负载均衡器以在终端节点的不同模型副本之间路由流量。 D. 将模型部署到 Amazon SageMaker 终端节点。创建基于 Amazon CloudWatch 指标的 SageMaker 端点自动扩展策略,以动态调整实例数量。 答案:D 说明: Sagemaker 端点托管 ML 模型;Cloudwatch 指标(如 CPU)用于自动扩展。 { “TargetValue”:50.0, “CustomizedMetricSpecification”: { “MetricName”:“CPUUtilization”, “Namespace”:“/aws/sagemaker/Endpoints”, “Dimensions”:[ {“Name”:“EndpointName”,“Value”:“my-endpoint”}, {“Name”:“VariantName”,“Value”:“my-variant”} ], “Statistic”:“Average”, “Unit”:“Percent” } } https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html 53 / 114 53. No.53 一家公司使用 Amazon SageMaker Studio 开发 ML 模型。该公司有一个 SageMaker Studio 域。ML 工程师需要实施一种解决方案,当 SageMaker 计算成本达到特定阈值时,该解决方案会提供自动警报。 哪种解决方案可以满足这些要求? A. 通过编辑 SageMaker 域中的 SageMaker 用户配置文件添加资源标记。配置 AWS Cost Explorer 以在达到阈值时发送警报。 B. 通过编辑 SageMaker 域中的 SageMaker 用户配置文件添加资源标记。配置 AWS Budgets 以在达到阈值时发送警报。 C. 通过编辑每个用户的 IAM 配置文件添加资源标记。配置 AWS Cost Explorer 以在达到阈值时发送警报。 D. 通过编辑每个用户的 IAM 配置文件添加资源标记。配置 AWS Budgets 以在达到阈值时发送警报。 答案:B 说明: Sagemaker 用户配置文件标记:https://docs.aws.amazon.com/sagemaker/latest/dg/domain-user-profile-add.html 预算:用于成本跟踪和设置阈值 54 / 114 54. No.54 一家公司使用 Amazon SageMaker 处理其 ML 工作负载。该公司的 ML 工程师收到一个 50 MB 的 Apache Parquet 数据文件来构建欺诈检测模型。该文件包含几个不需要的相关列。 ML 工程师应该怎么做才能以最少的努力删除文件中不必要的列? A. 将文件下载到本地工作站。使用自定义 Python 脚本执行独热编码。 B. 在 Amazon EMR 上创建使用自定义处理脚本的 Apache Spark 作业。 C. 通过调用 SageMaker Python SDK 创建 SageMaker 处理作业。 D. 在 SageMaker Data Wrangler 中创建数据流。配置转换步骤。 答案:D 说明: Parquet 数据文件 → SageMaker Data Wrangler → 探索数据 → 转换 → 删除不必要的列 → 清理和预处理数据 → 导出到 S3 → 欺诈检测模型 55 / 114 55. No.55 一家公司正在创建一个应用程序,该应用程序将向客户推荐产品。该应用程序将对 Amazon Q Business 进行 API 调用。该公司必须确保来自 Amazon Q Business 的响应不包含公司主要竞争对手的名称。 哪种解决方案可以满足此要求? A. 在 Amazon Q Business 中将竞争对手的名称配置为阻止的短语。 B. 配置 Amazon Q Business 检索器以排除竞争对手的名称。 C. 为 Amazon Q Business 配置 Amazon Kendra 检索器以构建排除竞争对手名称的索引。 D. 在 Amazon Q Business 中配置文档属性提升以降低竞争对手名称的优先级。 答案:A 说明: https://docs.aws.amazon.com/amazonq/latest/api-reference/API_BlockedPhrasesConfiguration.html 56 / 114 56. No.56 ML 工程师需要使用 Amazon SageMaker 对大型语言模型 (LLM) 进行微调,以进行文本摘要。ML 工程师必须遵循低代码无代码 (LCNC) 方法。 哪种解决方案可以满足这些要求? A. 使用 SageMaker Studio 对部署在 Amazon EC2 实例上的 LLM 进行微调。 B. 使用 SageMaker Autopilot 对由自定义 API 端点部署的 LLM 进行微调。 C. 使用 SageMaker Autopilot 对部署在 Amazon EC2 实例上的 LLM 进行微调。 D. 使用 SageMaker Autopilot 对由 SageMaker JumpStart 部署的 LLM 进行微调。 答案:D 说明: LCNC 解决方案:SageMaker Autopilot → SageMaker JumpStart → 部署预训练的 LLM → 微调文本摘要 57 / 114 57. No.57 一家公司有一个 ML 模型,需要每晚运行一次以预测股票价值。模型输入是当天收集的 3 MB 数据。该模型生成第二天的预测。预测过程需要不到 1 分钟即可完成运行。 公司应如何在 Amazon SageMaker 上部署模型以满足这些要求? A. 使用多模型无服务器端点。启用缓存。 B. 使用异步推理端点。将 InitialInstanceCount 参数设置为 0。 C. 使用实时端点。配置自动扩展策略,在模型未使用时将模型缩放到 0。 D. 使用无服务器推理端点。将 MaxConcurrency 参数设置为 1。 答案:D 说明: ServerlessConfig:- MemorySizeInMB:设置为 2048 MB(选项:1024–6144 MB)。 MaxConcurrency:设置为 1(夜间预测的最小值)。 一次性夜间使用高效且经济实惠。 “预测过程只需不到 1 分钟即可完成运行”,那么为什么您要首先配置某些东西 - 使用无服务器。 58 / 114 58. No.58 一位 ML 工程师在 Amazon SageMaker 上训练了一个 ML 模型,以从闭路电视录像中检测汽车事故。ML 工程师使用 SageMaker Data Wrangler 创建了事故和非事故图像的训练数据集。 该模型在训练和验证期间表现良好。然而,由于来自不同摄像机的图像质量存在差异,该模型在生产中表现不佳。 哪种解决方案可以在最短的时间内提高模型的准确性? A. 从所有摄像机收集更多图像。使用 Data Wrangler 准备新的训练数据集。 B. 使用 Data Wrangler 损坏图像转换重新创建训练数据集。指定脉冲噪声选项。 C. 使用 Data Wrangler 增强图像对比度转换重新创建训练数据集。指定 Gamma 对比度选项。 D. 使用 Data Wrangler 调整图像大小转换重新创建训练数据集。将所有图像裁剪为相同大小。 答案:B 说明: 你们清楚理解了这个问题吗?“该模型在训练和验证期间表现良好。然而,由于不同摄像机的图像质量存在差异,该模型在生产中表现不佳。” https://aws.amazon.com/blogs/machine-learning/prepare-image-data-with-amazon-sagemaker-data-wrangler/ 破坏图像或产生任何类型的噪声有助于使模型更加稳健。即使收到损坏的图像,该模型也可以更准确地进行预测,因为它是使用损坏和未损坏的图像进行训练的。 59 / 114 59. No.59 一家公司有一个应用程序,它使用不同的 API 为输入文本生成嵌入。该公司需要实施一个解决方案,每 3 个月自动轮换一次 API 令牌。 哪种解决方案可以满足此要求? A. 将令牌存储在 AWS Secrets Manager 中。创建一个 AWS Lambda 函数来执行轮换。 B. 将令牌存储在 AWS Systems Manager 参数存储中。创建一个 AWS Lambda 函数来执行轮换。 C. 将令牌存储在 AWS Key Management Service (AWS KMS) 中。使用 AWS 托管密钥执行轮换。 D. 将令牌存储在 AWS Key Management Service (AWS KMS) 中。使用 AWS 拥有的密钥执行轮换。 答案:A 说明: Secret Manager 具有自动轮换功能 60 / 114 60. No.60 ML 工程师收到包含缺失值、重复值和极端异常值的数据集。ML 工程师必须将这些数据集合并到单个数据框中,并且必须为 ML 准备数据。 哪种解决方案可以满足这些要求? A. 使用 Amazon SageMaker Data Wrangler 导入数据集并将其合并到单个数据框中。使用清理和丰富功能来准备数据。 B. 使用 Amazon SageMaker Ground Truth 导入数据集并将其合并到单个数据框中。使用人机交互功能来准备数据。 C. 手动导入和合并数据集。将数据集合并到单个数据框中。使用 Amazon Q Developer 生成将准备数据的代码片段。 D. 手动导入和合并数据集。将数据集合并到单个数据框中。使用 Amazon SageMaker 数据标签来准备数据。 答案:A 说明: A:SageMaker Data Wrangler 简化了数据集的合并和清理。(正确答案) B:Ground Truth 用于标记,而不是清理。 C:手动合并速度慢且效率低。 D:数据标记会添加标签,但不会清理数据。 61 / 114 61. No.61 一家公司拥有历史数据,显示客户是否需要公司员工的长期支持。该公司需要开发一个 ML 模型来预测新客户是否需要长期支持。 公司应该使用哪种建模方法来满足此要求? A. 异常检测 B. 线性回归 C. 逻辑回归 D. 语义分割 答案:C 说明: A. 异常检测:用于罕见事件,而不是二元分类。 B. 线性回归:用于预测连续数字,而不是“是/否” C. 逻辑回归:非常适合“是/否”预测(二元分类)。 --> 正确 D. 语义分割:用于图像,而不是客户预测。 62 / 114 62. No.62 ML 工程师在 Amazon SageMaker 之外开发了一个二元分类模型。ML 工程师需要让 SageMaker Canvas 用户访问该模型以进行进一步调整。 模型工件存储在 Amazon S3 存储桶中。ML 工程师和 Canvas 用户属于同一个 SageMaker 域。 必须满足哪些要求组合,ML 工程师才能与 Canvas 用户共享模型?(选择两个。) A. ML 工程师和 Canvas 用户必须位于不同的 SageMaker 域中。 B. Canvas 用户必须具有访问存储模型工件的 S3 存储桶的权限。 C. 该模型必须在 SageMaker 模型注册表中注册。 D. ML 工程师必须在 AWS Marketplace 上托管该模型。 E. ML 工程师必须将模型部署到 SageMaker 端点。 答案:B、C 说明: 对于 Amazon SageMaker 之外的模型,画布用户需要访问 S3;模型 --> 模型注册表 63 / 114 63. No.63 一家公司正在 Amazon SageMaker 上构建深度学习模型。该公司使用大量数据作为训练数据集。该公司需要优化模型的超参数,以最小化验证数据集上的损失函数。 哪种超参数调整策略将以最少的计算时间实现此目标? A. 超频带 B. 网格搜索 C. 贝叶斯优化 D. 随机搜索 答案:A 说明: A. 超频带:高效且最佳 --> 正确答案 B. 网格搜索:详尽并尝试所有组合 C. 贝叶斯优化:智能且具有最佳组合 D. 随机搜索:随机 64 / 114 64. No.64 一家公司计划在其主要 AWS 账户中使用 Amazon Redshift ML。源数据位于辅助账户中的 Amazon S3 存储桶中。 ML 工程师需要在主账户中设置 ML 管道以访问辅助账户中的 S3 存储桶。解决方案不得要求公共 IPv4 地址。 哪种解决方案可以满足这些要求? A. 在主账户中未启用公共访问权限的 VPC 中配置 Redshift 集群和 Amazon SageMaker Studio。在账户之间创建 VPC 对等连接。更新 VPC 路由表以删除到 0.0.0.0/0 的路由。 B. 在主账户中未启用公共访问权限的 VPC 中配置 Redshift 集群和 Amazon SageMaker Studio。创建 AWS Direct Connect 连接和中转网关。将两个账户的 VPC 与中转网关关联。更新 VPC 路由表以删除到 0.0.0.0/0 的路由。 C. 在主账户的 VPC 中配置 Redshift 集群和 Amazon SageMaker Studio。在账户之间使用两个加密的 IPsec 隧道创建 AWS 站点到站点 VPN 连接。为 Amazon S3 设置接口 VPC 终端节点。 D. 在主账户的 VPC 中配置 Redshift 集群和 Amazon SageMaker Studio。创建 S3 网关终端节点。更新 S3 存储桶策略以允许来自主账户的 IAM 主体。为 SageMaker 和 Amazon Redshift 设置接口 VPC 终端节点。 答案:D 说明: 需要 sagemaker 的 VPC 终端节点和 S3 的网关终端节点才能访问,而无需公共访问权限才能连接到 VPC 65 / 114 65. No.65 一家公司正在使用 AWS Lambda 函数来监控来自 ML 模型的指标。ML 工程师需要实施一种解决方案,以便在指标超出阈值时发送电子邮件消息。 哪种解决方案可以满足此要求? A. 将 Lambda 函数中的指标记录到 AWS CloudTrail。配置 CloudTrail 跟踪以发送电子邮件消息。 B. 将 Lambda 函数中的指标记录到 Amazon CloudFront。配置 Amazon CloudWatch 警报以发送电子邮件消息。 C. 将 Lambda 函数中的指标记录到 Amazon CloudWatch。配置 CloudWatch 警报以发送电子邮件消息。 D. 将 Lambda 函数中的指标记录到 Amazon CloudWatch。配置 Amazon CloudFront 规则以发送电子邮件消息。 答案:C 说明: 简单的事件驱动架构。 CloudWatch 警报是关键字;需要警报 66 / 114 66. No.66 一家公司已使用 Amazon SageMaker 在生产中部署预测 ML 模型。该公司正在模型上使用 SageMaker Model Monitor。模型更新后,ML 工程师在 Model Monitor 检查中注意到数据质量问题。 ML 工程师应该做什么来缓解 Model Monitor 已识别的数据质量问题? A. 调整模型的参数和超参数。 B. 启动使用最新生产数据的手动模型监控作业。 C. 从最新数据集创建新基线。更新模型监控以使用新基线进行评估。 D. 在模型的现有训练集中包含其他数据。重新训练并重新部署模型。 答案:C 说明: 同意 GiorgioGss 的观点 - 如果问题在“模型更新后”开始出现,则 C 是唯一有效的选项。 模型监控给出数据质量问题 --> 创建新基线 --> 验证基线 --> 使用新基线更新模型监控 --> 重新评估数据质量 --> 调查并修复根本原因(如果问题仍然存在) --> 持续监控 67 / 114 67. No.67 一家公司有一个 ML 模型,该模型根据客户上传到公司网站的图像生成文本描述。图像总大小最多可达 50 MB。 ML 工程师决定将图像存储在 Amazon S3 存储桶中。 ML 工程师必须实施可扩展以适应需求变化的处理解决方案。 哪种解决方案能够以最少的运营开销满足这些要求? A. 创建一个 Amazon SageMaker 批量转换作业来处理 S3 存储桶中的所有图像。 B. 创建一个 Amazon SageMaker 异步推理终端节点和一个扩展策略。运行脚本为每个图像发出推理请求。 C. 创建一个使用 Karpenter 进行自动扩展的 Amazon Elastic Kubernetes Service (Amazon EKS) 集群。在 EKS 集群上托管模型。运行脚本为每个图像发出推理请求。 D. 创建一个使用 Amazon Elastic Container Service (Amazon ECS) 集群的 AWS Batch 作业。为每个 AWS Batch 作业指定要处理的图像列表。 答案:B 说明: https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference-autoscale.html 要自动扩展异步终端节点 -> 注册模型 -> 定义并应用扩展策略;其他选项实施起来很复杂 68 / 114 68. No.68 ML 工程师需要使用 AWS 服务从文档中识别和提取有意义的唯一关键字。 哪种解决方案能够以最少的运营开销满足这些要求? A. 使用 Amazon EC2 实例上的自然语言工具包 (NLTK) 库进行文本预处理。使用潜在狄利克雷分配 (LDA) 算法识别和提取相关关键字。 B. 使用 Amazon SageMaker 和 BlazingText 算法。应用自定义预处理步骤来提取词干和删除停用词。计算词频-逆文档频率 (TF-IDF) 分数以识别和提取相关关键字。 C. 将文档存储在 Amazon S3 存储桶中。创建 AWS Lambda 函数来处理文档并运行 Python 脚本来提取词干和删除停用词。使用二元组和三元组技术来识别和提取相关关键字。 D. 使用 Amazon Comprehend 自定义实体识别和关键短语提取来识别和提取相关关键字。 答案:D 说明: 关键短语提取和自定义实体识别 - Amazon Comprehend 有助于降低运营开销。 69 / 114 69. No.69 一家公司需要向其 ML 工程师提供适当的训练数据访问权限。ML 工程师必须仅从自己的业务组访问训练数据。ML 工程师不得被允许访问来自其他业务组的训练数据。 该公司使用单个 AWS 账户并将所有训练数据存储在 Amazon S3 存储桶中。所有 ML 模型训练都在 Amazon SageMaker 中进行。 哪种解决方案将为 ML 工程师提供适当的访问权限? A. 启用 S3 存储桶版本控制。 B. 为每个用户配置 S3 对象锁定设置。 C. 向 S3 存储桶添加跨源资源共享 (CORS) 策略。 D. 创建 IAM 策略。将策略附加到 IAM 用户或 IAM 角色。 答案:D 说明: IAM 策略有助于定义所需的访问权限和控制。可以应用于用户或角色。 IAM 具有“细粒度”权限。 70 / 114 70. No.70 一家公司需要托管自定义 ML 模型来执行预测分析。预测分析将在每天的同一 2 小时内以可预测和持续的负载进行。 分析期间的多次调用将需要快速响应。公司需要 AWS 来管理底层基础设施和任何自动扩展活动。 哪种解决方案可以满足这些要求? A. 使用 AWS Lambda 安排 Amazon SageMaker 批量转换作业。 B. 配置 Amazon EC2 实例的 Auto Scaling 组以使用计划扩展。 C. 使用具有预置并发性的 Amazon SageMaker 无服务器推理。 D. 使用 pod 自动扩展在 Amazon EC2 上的 Amazon Elastic Kubernetes Service (Amazon EKS) 集群上运行模型。 答案:C 说明: 负载是可预测和可持续的,使用模式为 2 小时;也需要快速响应;Sagemaker - 预置并发 + 无服务器推理将能够支持它。 https://docs.aws.amazon.com/sagemaker/latest/dg/serverless-endpoints.html 71 / 114 71. No.71 一家公司的 ML 工程师已将用于情绪分析的 ML 模型部署到 Amazon SageMaker 终端节点。ML 工程师需要向公司利益相关者说明该模型如何进行预测。 哪种解决方案将为模型的预测提供说明? A. 在部署的模型上使用 SageMaker Model Monitor。 B. 在部署的模型上使用 SageMaker Clarify。 C. 在 Amazon CloudWatch 中显示 A/В 测试的推断分布。 D. 添加影子终端节点。分析样本的预测差异。 答案:B 说明: 情绪分析模型 → SageMaker Clarify → 分析功能影响 → 向利益相关者说明预测 72 / 114 72. No.72 一位 ML 工程师正在使用 Amazon SageMaker 训练需要分布式训练的深度学习模型。经过几次训练尝试后,ML 工程师发现实例的表现不如预期。ML 工程师确定了训练实例之间的通信开销。 ML 工程师应该怎么做才能最大限度地减少实例之间的通信开销? A. 将实例放在同一个 VPC 子网中。将数据存储在与部署实例不同的 AWS 区域中。 B. 将实例放在同一个 VPC 子网中,但放在不同的可用区中。将数据存储在与部署实例不同的 AWS 区域中。 C. 将实例放在同一个 VPC 子网中。将数据存储在与部署实例相同的 AWS 区域和可用区中。 D. 将实例放在同一个 VPC 子网中。将数据存储在与部署实例相同的 AWS 区域,但放在不同的可用区中。 答案:C 说明: 分布式训练模型 → 相同的 VPC 子网 → 数据和实例的相同区域和可用区 → 最小化通信开销 73 / 114 73. No.73 一家公司正在使用自定义 Python 脚本和专有数据集在本地运行 ML 模型。该公司正在使用 PyTorch。模型构建需要独特的领域知识。该公司需要将模型迁移到 AWS。 哪种解决方案可以以最少的努力满足这些要求? A. 使用 SageMaker 内置算法来训练专有数据集。 B. 使用 SageMaker 脚本模式和预制图像作为 ML 框架。 C. 在 AWS 上构建一个包含自定义包和 ML 框架选择的容器。 D. 通过 AWS Marketplace 购买类似的生产模型。 答案:B 说明: https://aws.amazon.com/blogs/machine-learning/bring-your-own-model-with-amazon-sagemaker-script-mode/ “脚本模式使您能够编写自定义训练和推理代码,同时仍使用常见的 ML 框架容器” 74 / 114 74. No.74 一家公司正在使用 Amazon SageMaker 和数百万个文件来训练 ML 模型。每个文件大小为几兆字节。这些文件存储在 Amazon S3 存储桶中。该公司需要提高训练性能。 哪种解决方案可以在最短的时间内满足这些要求? A. 将数据传输到提供 S3 Express One Zone 存储的新 S3 存储桶。调整训练作业以使用新的 S3 存储桶。 B. 创建 Amazon FSx for Lustre 文件系统。将文件系统链接到现有的 S3 存储桶。调整训练作业以从文件系统读取。 C. 创建 Amazon Elastic File System (Amazon EFS) 文件系统。将现有数据传输到文件系统。调整训练作业以从文件系统读取。 D. 创建 Amazon ElastiCache (Redis OSS) 集群。将 Redis OSS 集群链接到现有 S3 存储桶。将数据从 Redis OSS 集群直接流式传输到训练作业。 答案:B 说明: https://aws.amazon.com/blogs/machine-learning/speed-up-training-on-amazon-sagemaker-using-amazon-efs-or-amazon-fsx-for-lustre-file-systems/ S3 数据 → FSx for Lustre → 高吞吐量和低延迟 → 提高训练性能 75 / 114 75. No.75 一家公司希望使用来自其客户的表格数据来开发 ML 模型。数据包含有意义的有序特征,其中包含不应丢弃的敏感信息。ML 工程师必须确保在另一个团队开始构建模型之前屏蔽敏感数据。 哪种解决方案可以满足这些要求? A. 使用 Amazon Made 对敏感数据进行分类。 B. 使用 AWS Glue DataBrew 准备数据。 C. 运行 AWS Batch 作业将敏感数据更改为随机值。 D. 运行 Amazon EMR 作业将敏感数据更改为随机值。 答案:B 说明: AWS Glue DataBrew(选项 B)是屏蔽敏感信息的最有效且用户友好的解决方案,同时保留表格数据的结构和顺序,使其成为为 ML 模型开发准备数据的理想选择。 AWS Macie 无法屏蔽数据。 76 / 114 76. No.76 ML 工程师需要部署 ML 模型,以异步方式从大型数据集中获取推理。ML 工程师还需要实施对模型数据质量的定期监控。当数据质量发生变化时,ML 工程师必须收到警报。 哪种解决方案可以满足这些要求? A. 使用计划的 AWS Glue 作业部署模型。使用 Amazon CloudWatch 警报监控数据质量并发送警报。 B. 使用计划的 AWS Batch 作业部署模型。使用 AWS CloudTrail 监控数据质量并发送警报。 C. 使用 AWS Fargate 上的 Amazon Elastic Container Service (Amazon ECS) 部署模型。使用 Amazon EventBridge 监控数据质量并发送警报。 D. 使用 Amazon SageMaker 批量转换部署模型。使用 SageMaker Model Monitor 监控数据质量并发送警报。 答案:D 说明: https://docs.aws.amazon.com/sagemaker/latest/dg/model-monitor.html 模型监视器跟踪生产模型的数据质量、模型质量、偏差漂移和特征归因漂移。使用批量转换进行持续监控的模型监视器设置将起作用 77 / 114 77. No.77 ML 工程师使用 AWS Glue DataBrew 中的最小-最大规范化对训练数据进行了规范化。在将生产推理数据传递给模型进行预测之前,ML 工程师必须以与训练数据相同的方式对生产推理数据进行规范化。 哪种解决方案可以满足此要求? A. 应用来自知名数据集的统计数据来规范化生产样本。 B. 保留来自训练集的最小-最大规范化统计数据。使用这些值对生产样本进行规范化。 C. 从一批生产样本中计算一组新的最小-最大规范化统计数据。使用这些值对所有生产样本进行规范化。 D. 从每个生产样本计算一组新的最小-最大标准化统计数据。使用这些值对所有生产样本进行标准化。 答案:B 说明: 模型对数据分布很敏感。准确预测需要一致性,因此选项 B 保持相同的最小-最大标准化统计数据会有所帮助;选项 C 和 D 影响模型性能;选项 A 引入了不一致性 78 / 114 78. No.78 一家公司计划使用 Amazon SageMaker 进行基于图像的分类评级。该公司有 6 ТВ 的训练数据存储在 Amazon FSx for NetApp ONTAP 系统虚拟机 (SVM) 上。SVM 与 SageMaker 位于同一 VPC 中。 ML 工程师必须使 SageMaker 环境中的 ML 模型可以访问训练数据。 哪种解决方案可以满足这些要求? A. 将 FSx for ONTAP 文件系统作为卷挂载到 SageMaker 实例。 B. 创建 Amazon S3 存储桶。使用 Amazon S3 的 Mountpoint 将 S3 存储桶链接到 FSx for ONTAP 文件系统。 C. 创建从 SageMaker Data Wrangler 到 FSx for ONTAP 文件系统的目录连接。 D. 创建从 SageMaker Data Wrangler 到 FSx for ONTAP 文件系统的直接连接。 答案:A 说明: https://docs.netapp.com/us-en/netapp-solutions/ai/mlops_fsxn_sagemaker_integration_training.html#introduction 选项 A 可行,因为您可以将 FSx for ONTAP 直接挂载到 SageMaker,从而可以快速访问同一 VPC 中的 6 TB 数据,而无需额外步骤 79 / 114 79. No.79 一家公司定期从 ML 模型的供应商处收到新的训练数据。供应商每 3-4 天将清理和准备好的数据发送到公司的 Amazon S3 存储桶。 该公司有一个 Amazon SageMaker 管道来重新训练模型。机器学习工程师需要实施一个解决方案,以便在将新数据上传到 S3 存储桶时运行管道。 哪种解决方案能够以最少的运营工作量满足这些要求? A. 创建 S3 生命周期规则,将数据传输到 SageMaker 训练实例并启动训练。 B. 创建扫描 S3 存储桶的 AWS Lambda 函数。对 Lambda 函数进行编程,以在上传新数据时启动管道。 C. 创建具有与 S3 上传匹配的事件模式的 Amazon EventBridge 规则。将管道配置为规则的目标。 D. 使用 Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 在上传新数据时编排管道。 答案:C 说明: 当将新数据上传到 S3 时,Amazon EventBridge 可以自动触发 SageMaker 管道,使其成为一种简单而高效的解决方案。 80 / 114 80. No.80 一位 ML 工程师正在使用 Amazon SageMaker XGBoost 算法开发欺诈检测模型。该模型将交易分为欺诈或合法。 在测试期间,该模型擅长识别训练数据集中的欺诈行为。但是,该模型在识别新交易和未见过的交易中的欺诈行为方面效率低下。 ML 工程师应该做些什么来提高新交易的欺诈检测能力? A. 提高学习率。 B. 从训练数据集中删除一些不相关的特征。 C. 增加 max_depth 超参数的值。 D. 降低 max_depth 超参数的值。 答案:D 说明: 这是过度拟合的情况,它适用于训练数据,但不适用于新数据。减少 max_depth 超参数会使模型不那么复杂,有助于它更好地推广到新数据。 81 / 114 81. No.81 一家公司在生产中有一个二元分类模型。ML 工程师需要开发该模型的新版本。 新模型版本必须最大化正标签和负标签的正确预测。ML 工程师必须使用指标重新校准模型以满足这些要求。 ML 工程师应使用哪个指标进行模型重新校准? A. 准确度 B. 精确度 C. 召回率 D. 特异性 答案:A 说明: A. 准确度:正确选择;最大化真阳性和真阴性。公式:(TP + TN)/ 总预测数 B. 精确度:仅关注真阳性,而不关注负阴性。公式:TP /(TP + FP) C. 召回率:专注于捕获所有真阳性,忽略负阴性。公式:TP /(TP + FN) D. 特异性:仅关注真阴性,忽略阳性。公式:TN /(TN + FP) 82 / 114 82. ★No.82 一家公司正在使用 Amazon SageMaker 创建 ML 模型。公司的数据科学家需要对他们编排的 ML 工作流进行细粒度控制。数据科学家还需要能够将 SageMaker 作业和工作流可视化为有向无环图 (DAG)。数据科学家必须保留模型发现实验的运行历史记录,并且必须建立模型治理以进行审计和合规性验证。 哪种解决方案可以满足这些要求? A. 使用 AWS CodePipeline 及其与 SageMaker Studio 的集成来管理整个 ML 工作流。使用 SageMaker ML Lineage Tracking 来记录实验的运行历史记录以及进行审计和合规性验证。 B. 使用 AWS CodePipeline 及其与 SageMaker Experiments 的集成来管理整个 ML 工作流。使用 SageMaker Experiments 来记录实验的运行历史记录以及进行审计和合规性验证。 C. 使用 SageMaker Pipelines 及其与 SageMaker Studio 的集成来管理整个 ML 工作流。使用 SageMaker ML Lineage Tracking 来记录实验的运行历史记录以及进行审计和合规性验证。 D.使用 SageMaker Pipelines 及其与 SageMaker Experiments 的集成来管理整个 ML 工作流。使用 SageMaker Experiments 来记录实验的运行历史以及进行审计和合规性验证。 83 / 114 83. No.83 一家公司希望降低其容器化 ML 应用程序的成本。这些应用程序使用在 Amazon EC2 实例、AWS Lambda 函数和 Amazon Elastic Container Service (Amazon ECS) 集群上运行的 ML 模型。EC2 工作负载和 ECS 工作负载使用 Amazon Elastic Block Store (Amazon EBS) 卷来保存预测和工件。 ML 工程师必须识别使用效率低下的资源。ML 工程师还必须生成建议以降低这些资源的成本。 哪种解决方案能够以最少的开发工作量满足这些要求? A. 创建代码以评估每个实例的内存和计算使用情况。 B. 向资源添加成本分配标签。在 AWS 账单和成本管理中激活标签。 C. 检查 AWS CloudTrail 事件历史记录以了解资源的创建情况。 D. 运行 AWS Compute Optimizer。 答案:D 说明: AWS Compute Optimizer 查找 EC2、EBS 中浪费的资源,并建议节省资金和提高性能的简单方法。 84 / 114 84. No.84 一家公司需要为公司的所有 ML 模型创建一个中央目录。这些模型位于公司最初开发模型的 AWS 账户中。这些模型托管在 Amazon Elastic Container Registry (Amazon ECR) 存储库中。 哪种解决方案可以满足这些要求? A. 为每个现有 ECR 存储库配置 ECR 跨账户复制。确保每个模型在每个 AWS 账户中都可见。 B. 创建一个新 AWS 账户,将新的 ECR 存储库作为中央目录。在初始 ECR 存储库和中央目录之间配置 ECR 跨账户复制。 C. 使用 Amazon SageMaker Model Registry 为托管在 Amazon ECR 中的模型创建模型组。创建一个新的 AWS 账户。在新账户中,使用 SageMaker Model Registry 作为中央目录。将跨账户资源策略附加到初始 AWS 账户中的每个模型组。 D. 使用 AWS Glue 数据目录存储模型。运行 AWS Glue 爬虫程序将模型从 ECR 存储库迁移到数据目录。配置对数据目录的跨账户访问。 答案:C 说明: 问题要求提供“中央目录”,因此我相信元数据、沿袭跟踪也“包括在内”。ECR 可能不是解决方案。 85 / 114 85. No.85 一家公司开发了一种新的 ML 模型。该公司要求在 10% 的流量上进行在线模型验证,然后才能在生产中完全发布该模型。该公司使用应用程序负载均衡器 (ALB) 后面的 Amazon SageMaker 终端节点来为该模型提供服务。 哪种解决方案将以最少的运营开销设置所需的在线验证? A. 使用生产变体将新模型添加到现有的 SageMaker 终端节点。将新模型的变体权重设置为 0.1。使用 Amazon CloudWatch 监控调用次数。 B. 使用生产变体将新模型添加到现有的 SageMaker 终端节点。将新模型的变体权重设置为 1。使用 Amazon CloudWatch 监控调用次数。 C. 创建新的 SageMaker 终端节点。使用生产变体将新模型添加到新终端节点。使用 Amazon CloudWatch 监控调用次数。 D. 配置 ALB 以将 10% 的流量路由到现有 SageMaker 终端节点的新模型。使用 AWS CloudTrail 监控调用次数。 答案:A 说明: { 'ProductionVariants':[ { 'VariantName':'existing-model', 'ModelName':'existing-model', 'InitialVariantWeight':0.9 }, { 'VariantName':'new-model', 'ModelName':'new-model', 'InitialVariantWeight':0.1 } ] } 86 / 114 86. No.86 一家公司需要开发一个 ML 模型。该模型必须识别图像中的项目,并且必须提供该项目的位置。 哪种 Amazon SageMaker 算法可以满足这些要求? A. 图像分类 B. XGBoost C. 对象检测 D. K-最近邻 (k-NN) 答案:C 说明: https://docs.aws.amazon.com/sagemaker/latest/dg/algo-object-detection-tech-notes.html 87 / 114 87. No.87 一家公司有一个 Amazon S3 存储桶,其中包含来自不同来源的 1TB 文件。S3 存储桶在同一个 S3 文件夹中包含以下文件类型:CSV、JSON、XLSX 和 Apache Parquet。 ML 工程师必须实施使用 AWS Glue DataBrew 来处理数据的解决方案。ML 工程师还必须将最终输出存储在 Amazon S3 中,以便 AWS Glue 将来可以使用该输出。 哪种解决方案可以满足这些要求? A. 使用 DataBrew 处理现有的 S3 文件夹。将输出存储为 Apache Parquet 格式。 B. 使用 DataBrew 处理现有的 S3 文件夹。将输出存储为 AWS Glue Parquet 格式。 C. 将数据分成每种文件类型的不同文件夹。使用 DataBrew 单独处理每个文件夹。将输出存储为 Apache Parquet 格式。 D. 将数据分成每种文件类型的不同文件夹。使用 DataBrew 单独处理每个文件夹。将输出存储为 AWS Glue Parquet 格式。 答案:C 说明: 问题摘要: S3 中的数据是混合文件格式:CSV、JSON、XLSX 和 Parquet — 全部位于一个文件夹中。 您需要使用 AWS Glue DataBrew 来处理数据。 处理后的数据必须存储在 S3 中,以供 AWS Glue 稍后使用。 主要考虑因素: DataBrew 输入要求: DataBrew 数据集必须采用一致的格式(CSV、JSON、XLSX 或 Parquet)。 DataBrew 无法处理单个数据集中的混合格式。您必须按格式拆分数据。 DataBrew 输出格式: Apache Parquet 适用于: 高效存储 AWS Glue 和其他分析工具的更好性能 列式存储在查询和转换中的优势 “AWS Glue Parquet 格式”不存在 — 这是答案选项中的干扰项。 88 / 114 88. No.88 制造公司使用 ML 模型来确定产品是否符合质量标准。该模型会输出“通过”或“失败”。机器人使用该模型分析装配线上的照片,将产品分为两类。 公司应使用哪些指标来评估模型的性能?(选择两个。) A. 精度和召回率 B. 均方根误差 (RMSE) 和平均绝对百分比误差 (MAPE) C. 准确率和 F1 分数 D. 双语评估替补 (BLEU) 分数 E. 困惑度 答案:A,C 说明: A. 精度和召回率 C. 准确率和 F1 分数 89 / 114 89. No.89 ML 工程师需要在 ML 训练作业运行时加密所有传输中的数据。ML 工程师必须确保将传输中的加密应用于 Amazon SageMaker 在训练作业期间使用的流程。 哪种解决方案可以满足这些要求? A. 加密节点之间的通信以进行批处理。 B. 加密训练集群中节点之间的通信。 C. 在创建训练作业请求期间指定 AWS 密钥管理服务 (AWS KMS) 密钥。 D. 在创建 SageMaker 域期间指定 AWS 密钥管理服务 (AWS KMS) 密钥。 答案:B 说明: 就是这个 90 / 114 90. No.90 ML 工程师需要使用指标来评估时间序列预测模型的质量。 哪些指标适用于此模型?(选择两个。) A. 召回率 B. 对数损失 C. 均方根误差 (RMSE) D. 推理延迟 E. 平均加权分位数损失 (wQL) 答案:C、E 说明: 这是正确的 91 / 114 91. No.91 一家公司运行使用加速实例的 Amazon SageMaker ML 模型。这些模型需要实时响应。每个模型都有不同的扩展要求。公司不得允许模型冷启动。 哪种解决方案可以满足这些要求? A. 为每个模型创建一个 SageMaker 无服务器推理终端节点。对终端节点使用预配置的并发。 B. 为每个模型创建一个 SageMaker 异步推理终端节点。为每个终端节点创建一个自动扩展策略。 C. 创建一个 SageMaker 终端节点。为每个模型创建一个推理组件。在推理组件设置中,指定新创建的终端节点。为每个推理组件创建一个自动扩展策略。将最小副本数的参数设置为至少 1。 D. 创建一个 Amazon S3 存储桶。将所有模型工件存储在 S3 存储桶中。创建一个 SageMaker 多模型终端节点。将终端节点指向 S3 存储桶。为终端节点创建一个自动扩展策略。将最小副本数的参数设置为至少 1。 答案:C 说明: 要求回顾: 实时推理:需要低延迟预测。 加速实例:可能由 GPU 支持,扩展成本高且效率低下。 无冷启动:端点必须始终保持温暖且响应迅速。 每个模型都有不同的扩展需求:必须支持每个模型的独立扩展。 为什么选项 C 是正确的: 推理组件是 SageMaker 的一项新功能,允许: 在单个端点上托管多个模型。 每个模型(组件)的独立扩展。 通过最少数量的副本避免冷启动。 设置最小调用次数或最小副本数≥1 可使模型始终保持温暖,从而消除冷启动。 此解决方案可有效满足所有要求。 92 / 114 92. No.92 一家公司使用 Amazon SageMaker 进行 ML 流程。合规性审计发现,用于训练数据的 Amazon S3 存储桶使用带有 S3 托管密钥 (SSE-S3) 的服务器端加密。 该公司需要客户管理密钥。ML 工程师将 S3 存储桶更改为使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密。ML 工程师未进行其他配置更改。 更改加密设置后,SageMaker 训练作业开始失败并出现 AccessDenied 错误。 ML 工程师应该怎么做才能解决这个问题? A. 更新附加到训练作业执行角色的 IAM 策略。包括 s3:ListBucket 和 s3:GetObject 权限。 B. 更新附加到 S3 存储桶的 S3 存储桶策略。将 aws:SecureTransport 条件键的值设置为 True。 C. 更新附加到训练作业执行角色的 IAM 策略。包括 kms:Encrypt 和 kms:Decrypt 权限。 D. 更新附加到创建训练作业的用户的 IAM 策略。包括 kms:CreateGrant 权限。 答案:C 说明: 这是正确的 93 / 114 93. No.93 一家公司使用计算优化实例在 Amazon SageMaker 上运行训练作业。训练运行的需求将在接下来的 55 周内保持不变。该实例需要每周运行 35 小时。该公司需要降低其模型训练成本。 哪种解决方案可以满足这些要求? A. 使用无服务器端点,每周预置并发时间为 35 小时。在端点上运行训练。 B. 使用 SageMaker Edge Manager 进行训练。在边缘设备配置中指定实例要求。运行训练。 C. 使用 SageMaker Training 的异构集群功能。配置 instance_type、instance_count 和 instance_groups 参数以运行训练作业。 D. 选择加入为期 1 年且全额预付款的 SageMaker Savings Plan。在实例上运行 SageMaker Training 作业。 答案:D 说明: SageMaker Savings Plans 为长期使用 SageMaker 实例提供折扣。 94 / 114 94. ★No.94 热点 - 一家公司需要训练一个 ML 模型,该模型将使用历史交易数据来预测客户行为。 从以下列表中选择正确的 AWS 服务以对数据执行每个任务。每个服务应选择一次或根本不选择。 (选择三个。) • Amazon Athena • AWS Glue • Amazon Kinesis 数据流 • Amazon S3 查询数据以进行探索和分析。选择... 选择... Amazon Athena AWS Glue Amazon Kinesis 数据流 Amazon S3 存储数据。选择... 选择... Amazon Athena AWS Glue Amazon Kinesis 数据流 Amazon S3 转换数据。选择... 选择... Amazon Athena AWS Glue Amazon Kinesis 数据流 Amazon S3 Check 95 / 114 95. No.95 一家公司部署了一个使用 XGBoost 算法预测产品故障的 ML 模型。该模型托管在 Amazon SageMaker 终端节点上,并根据正常运行数据进行训练。AWS Lambda 函数为公司的应用程序提供预测。 ML 工程师必须实施一种解决方案,使用传入的实时数据来检测模型准确性随时间下降的情况。 哪种解决方案可以满足这些要求? A. 使用 Amazon CloudWatch 创建仪表板,用于监控实时推理数据和模型预测。使用仪表板检测漂移。 B. 修改 Lambda 函数以使用实时推理数据和模型预测来计算模型漂移。对 Lambda 函数进行编程以发送警报。 C. 在 SageMaker Model Monitor 中安排监控作业。使用该作业通过根据训练数据统计和约束的基线分析实时数据来检测漂移。 D. 在 SageMaker Debugger 中安排监控作业。使用该作业通过根据训练数据统计和约束的基线分析实时数据来检测漂移。 答案:C 说明: 就是这个 96 / 114 96. No.96 一家公司有一个 ML 模型,该模型使用历史交易数据来预测客户行为。ML 工程师正在 Amazon SageMaker 中优化该模型,以提高模型的预测准确性。ML 工程师必须检查输入数据和由此产生的预测,以确定可能在不同人口统计数据中扭曲模型性能的趋势。 哪种解决方案可以提供这种级别的分析? A. 使用 Amazon CloudWatch 监控网络指标和 CPU 指标,以便在模型训练期间进行资源优化。 B. 创建 AWS Glue DataBrew 配方,根据模型输出的统计数据更正数据。 C. 使用 SageMaker Clarify 评估模型和训练数据中可能影响准确性的底层模式。 D. 创建 AWS Lambda 函数以自动化数据预处理并确保模型输入数据的质量一致。 答案:C 说明: 选项 C - SageMaker Clarify 专为偏差检测和可说明性而构建。 它可以分析训练数据和模型预测以识别潜在的偏差。 它提供了有关不同人口群体如何受到模型影响的见解。 97 / 114 97. No.97 一家公司使用 10 个加速实例类型的预留实例来为当前版本的 ML 模型提供服务。ML 工程师需要将新版本的模型部署到 Amazon SageMaker 实时推理终端节点。 该解决方案必须使用原始的 10 个实例来为模型的两个版本提供服务。该解决方案还必须包括一个额外的预留实例,可用于部署过程。版本之间的转换必须没有停机或服务中断。 哪种解决方案可以满足这些要求? A. 配置具有一次性流量转移的蓝/绿部署。 B. 配置具有金丝雀流量转移和 10% 大小的蓝/绿部署。 C. 配置流量采样百分比为 10% 的影子测试。 D. 配置滚动部署,滚动批次大小为 1。 答案:B 说明: 应该是 B。 D 没有提供过渡期间管理流量的明确策略。 98 / 114 98. No.98 一家 IoT 公司使用 Amazon SageMaker 训练和测试 XGBoost 模型以进行对象检测。机器学习工程师在使用超参数变体训练模型时需要监控性能指标。机器学习工程师还需要在训练完成后发送短信服务 (SMS) 文本消息。 哪种解决方案可以满足这些要求? A. 使用 Amazon CloudWatch 监控性能指标。使用 Amazon Simple Queue Service (Amazon SQS) 进行消息传递。 B. 使用 Amazon CloudWatch 监控性能指标。使用 Amazon Simple Notification Service (Amazon SNS) 进行消息传递。 C. 使用 AWS CloudTrail 监控性能指标。使用 Amazon Simple Queue Service (Amazon SQS) 进行消息传递。 D. 使用 AWS CloudTrail 监控性能指标。使用 Amazon Simple Notification Service (Amazon SNS) 传递消息。 答案:B 说明: 选项 A 和 C 不适用(SQS)。Cloudtrail 不监控性能指标。 Cloudwatch 带有 SNS,SQS 用于排队消息而不是发送。 CloudTrail 选项不适用于此处 99 / 114 99. No.99 一家公司正在开展一个 ML 项目,该项目将包括 Amazon SageMaker 笔记本实例。ML 工程师必须确保 SageMaker 笔记本实例不允许 root 访问。 哪种解决方案将阻止允许 root 访问的笔记本实例的部署? A. 使用 IAM 条件键停止允许 root 访问的 SageMaker 笔记本实例的部署。 B. 使用 AWS Key Management Service (AWS KMS) 密钥停止允许 root 访问的 SageMaker 笔记本实例的部署。 C. 使用 Amazon EventBridge 事件监控资源创建。创建一个 AWS Lambda 函数,删除所有允许 root 访问的已部署 SageMaker 笔记本实例。 D. 使用 AWS CloudFormation 事件监控资源创建。创建一个 AWS Lambda 函数,删除所有允许 root 访问的已部署 SageMaker 笔记本实例。 答案:A 说明: 就是这个 100 / 114 100. No.100 一家公司正在使用 Amazon SageMaker 开发 ML 模型。该公司将敏感的训练数据存储在 Amazon S3 存储桶中。模型训练必须与互联网进行网络隔离。 哪种解决方案可以满足此要求? A. 在私有子网中运行 SageMaker 训练作业。创建 NAT 网关。通过 NAT 网关路由训练流量。 B. 在私有子网中运行 SageMaker 训练作业。创建 S3 网关 VPC 终端节点。通过 S3 网关 VPC 终端节点路由训练流量。 C. 在具有附加安全组的公共子网中运行 SageMaker 训练作业。在安全组中,使用入站规则限制来自互联网的流量。使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密来加密 SageMaker 实例存储。 D. 使用包含 aws:SecureTransport 条件键的 True 值的存储桶策略来加密到 Amazon S3 的流量。对 Amazon S3 使用默认的静态加密。使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密来加密 SageMaker 实例存储。 答案:B 说明: 使用私有子网和 S3 网关 VPC 端点绕过公共互联网。 101 / 114 101. No.101 一家公司需要一个 AWS 解决方案,该解决方案将在创建模型时自动创建 ML 模型的版本。 哪种解决方案可以满足此要求? A. Amazon Elastic Container Registry (Amazon ECR) B. 来自 Amazon SageMaker Marketplace 的模型包 C. Amazon SageMaker ML Lineage Tracking D. Amazon SageMaker Model Registry 答案:Ⅾ 说明: 就是这个 102 / 114 102. No.102 一家公司需要使用检索增强生成 (RAG) 来补充在 Amazon Bedrock 上运行的开源大型语言模型 (LLM)。该公司的 RAG 数据是 Amazon S3 存储桶中的一组文档。这些文档由 .csv 文件和 .docx 文件组成。 哪种解决方案可以以最少的运营开销满足这些要求? A. 在 Amazon SageMaker Pipelines 中创建管道以生成新模型。从 Amazon Bedrock 调用新模型执行 RAG 查询。 B. 将数据转换为向量。将数据存储在 Amazon Neptune 数据库中。将数据库连接到 Amazon Bedrock。调用 Amazon Bedrock API 执行 RAG 查询。 C. 使用 Amazon SageMaker 中的 AutoML 作业微调现有 LLM。将 S3 存储桶配置为 AutoML 作业的数据源。将 LLM 部署到 SageMaker 终端节点。使用终端节点执行 RAG 查询。 D. 为 Amazon Bedrock 创建知识库。配置引用 S3 存储桶的数据源。使用 Amazon Bedrock API 执行 RAG 查询。 答案:Ⅾ 说明: D 是正确答案。 A 必须先对 csv 和 docx 文件进行矢量化。除了此选项之外,没有提及任何有关数据的信息 B 和 C 不适用于这种情况。 103 / 114 103. No.103 一家公司计划在 Amazon SageMaker 终端节点上部署用于生产推理的 ML 模型。平均推理负载大小从 100 MB 到 300 MB 不等。推理请求必须在 60 分钟或更短的时间内处理。 哪种 SageMaker 推理选项可以满足这些要求? A. 无服务器推理 B. 异步推理 C. 实时推理 D. 批量转换 答案:B 说明: 同意 B。 一般来说,实时推理支持同步请求的最大负载为 5 MB,而异步推理可以支持更大的负载,通常最大可达 5 GB。 本问题中的用例涉及 100 MB 到 300 MB 的推理负载,需要在 60 分钟内处理,异步推理是处理没有严格实时要求的大型负载的最佳选择。 104 / 114 104. No.104 ML 工程师在图像分类训练作业中注意到类别不平衡。 ML 工程师应该怎么做才能解决这个问题? A. 减小数据集的大小。 B. 转换数据集中的某些图像。 C. 对数据集应用随机过采样。 D. 对数据集应用随机数据拆分。 答案:C 说明: 正确 105 / 114 105. No.105 一家公司每天收到有关客户与其 ML 模型交互的 .csv 文件。该公司将文件存储在 Amazon S3 中,并使用这些文件重新训练模型。ML 工程师需要实施一种解决方案,在重新训练模型之前屏蔽文件中的信用卡号。 哪种解决方案可以以最少的开发工作量满足此要求? A. 在 Amazon Macie 中创建一个发现作业。配置该作业以查找和屏蔽敏感数据。 B. 创建 Apache Spark 代码以在 AWS Glue 作业上运行。使用 AWS Glue 中的敏感数据检测功能来查找和屏蔽敏感数据。 C. 创建 Apache Spark 代码以在 AWS Glue 作业上运行。对代码进行编程以执行正则表达式操作来查找和屏蔽敏感数据。 D. 创建 Apache Spark 代码以在 Amazon EC2 实例上运行。对代码进行编程以执行操作来查找和屏蔽敏感数据。 答案:A 说明: 正确 106 / 114 106. No.106 一家医疗公司正在使用 AWS 构建一种工具来为患者推荐治疗方法。该公司已从患者那里获得了健康记录和自我报告的英文文本信息。该公司需要使用这些信息来深入了解患者。 哪种解决方案可以以最少的开发工作量满足此要求? A. 使用 Amazon SageMaker 构建循环神经网络 (RNN) 来汇总数据。 B. 使用 Amazon Comprehend Medical 来汇总数据。 C. 使用 Amazon Kendra 创建快速搜索工具来查询数据。 D. 使用 Amazon SageMaker 序列到序列 (seq2seq) 算法从数据中创建文本摘要。 答案:B 说明: 正确 107 / 114 107. No.107 一家公司需要从 PDF 文档中提取实体以构建分类器模型。 哪种解决方案将在最短的时间内提取和存储实体? A. 使用 Amazon Comprehend 提取实体。将输出存储在 Amazon S3 中。 B. 使用 Amazon SageMaker 上的开源 AI 光学字符识别 (OCR) 工具提取实体。将输出存储在 Amazon S3 中。 C. 使用 Amazon Textract 提取实体。使用 Amazon Comprehend 将实体转换为文本。将输出存储在 Amazon S3 中。 D. 使用与 Amazon Augmented AI (Amazon A2I) 集成的 Amazon Textract 提取实体。将输出存储在 Amazon S3 中。 答案:C 说明: 同意 C。 通常,如果 pdf 仅包含文本,Amazon Comprehend 就足够了。由于问题没有提到 pdf 文件的确切内容。使用 Amazon Textract 提取文本,然后使用 Amazon Comprehend 进行实体提取会更安全。 108 / 114 108. No.108 一家公司共享可通过 VPN 访问的 Amazon SageMaker Studio 笔记本。该公司必须实施访问控制,以防止恶意行为者利用预签名 URL 访问笔记本。 哪种解决方案可以满足这些要求? A. 使用 aws:sourceIp IAM 策略条件设置 Studio 客户端 IP 验证。 B. 使用 aws:sourceVpc IAM 策略条件设置 Studio 客户端 VPC 验证。 C. 使用 aws:PrimaryTag IAM 策略条件设置 Studio 客户端角色终端节点验证。 D. 使用 aws:PrincipalTag IAM 策略条件设置 Studio 客户端用户终端节点验证。 答案:A 说明: A 是正确的。 https://aws.amazon.com/blogs/machine-learning/secure-amazon-sagemaker-studio-presigned-urls-part-1-foundational-infrastructure/ Studio 支持几种方法来实施访问控制以防止预签名 URL 数据泄露: 使用 IAM 策略条件 aws:sourceIp 进行客户端 IP 验证 使用 IAM 条件 aws:sourceVpc 进行客户端 VPC 验证 使用 IAM 策略条件 aws:sourceVpce 进行客户端 VPC 终端节点验证 上下文: 该公司正在使用 Amazon SageMaker Studio 笔记本。 允许通过 VPN 进行访问,这意味着用户来自已知的固定 IP 范围。 令人担忧的是通过预签名 URL 进行未经授权的访问,这可能会在受信任的网络之外使用。 为什么 aws:sourceIp 是正确的选择: IAM 策略中的 aws:sourceIp 条件允许您根据客户端的 IP 地址限制访问。 这非常适合基于 VPN 的设置,因为您知道 IP 范围。 它确保只有从允许的 IP(例如您的 VPN 子网)访问的用户才能访问 SageMaker Studio 资源,即使他们拥有有效的预签名 URL。 这直接减轻了 VPN 外部 URL 滥用的风险。 109 / 114 109. No.109 ML 工程师需要合并和转换来自两个来源的数据以重新训练现有的 ML 模型。一个数据源由存储在 Amazon S3 存储桶中的 .csv 文件组成。每个 .csv 文件包含数百万条记录。另一个数据源是 Amazon Aurora DB 集群。 合并过程的结果必须写入第二个 S3 存储桶。ML 工程师需要每周执行此合并和转换任务。 哪种解决方案可以以最少的运营开销满足这些要求? A. 每周创建一个临时 Amazon EMR 集群。使用该集群运行 Apache Spark 作业来合并和转换数据。 B. 创建每周使用 Apache Spark 引擎的 AWS Glue 作业。使用 DynamicFrame 本机操作合并和转换数据。 C. 创建每周运行 Apache Spark 代码的 AWS Lambda 函数来合并和转换数据。配置 Lambda 函数以连接到初始 S3 存储桶和 DB 集群。 D. 创建每周在 Amazon EC2 实例上运行 Apache Spark 代码的 AWS Batch 作业。配置 Spark 代码以将数据从 EC2 实例保存到第二个 S3 存储桶。 答案:B 说明: 正确 110 / 114 110. No.110 ML 工程师已将 Amazon SageMaker 模型部署到生产中的无服务器终端节点。该模型由 InvokeEndpoint API 操作调用。 生产中的模型延迟高于测试环境中的基线延迟。ML 工程师认为延迟增加是因为模型启动时间。 ML 工程师应该做什么来确认或否认这个假设? A. 安排 SageMaker 模型监控作业。观察有关模型质量的指标。 B. 安排启用 Amazon CloudWatch 指标的 SageMaker 模型监控作业。 C. 启用 Amazon CloudWatch 指标。观察 SageMaker 命名空间中的 ModelSetupTime 指标。 D. 启用 Amazon CloudWatch 指标。观察 SageMaker 命名空间中的 ModelLoadingWaitTime 指标。 答案:Ⅾ 说明: ModelLoadingWaitTime 指标 测量加载模型所需的时间 111 / 114 111. No.111 ML 工程师需要确保数据集符合个人身份信息 (PII) 的规定。ML 工程师将使用这些数据在 Amazon SageMaker 实例上训练 ML 模型。SageMaker 不得使用任何 PII。 哪种解决方案能够以最高效的方式满足这些要求? A. 使用 Amazon Comprehend DetectPiiEntities API 调用从数据中删除 PII。将数据存储在 Amazon S3 存储桶中。从 SageMaker 实例访问 S3 存储桶进行模型训练。 B. 使用 Amazon Comprehend DetectPiiEntities API 调用从数据中删除 PII。将数据存储在 Amazon Elastic File System (Amazon EFS) 文件系统中。将 EFS 文件系统挂载到 SageMaker 实例进行模型训练。 C. 使用 AWS Glue DataBrew 清除数据集中的 PII。将数据存储在 Amazon Elastic File System (Amazon EFS) 文件系统中。将 EFS 文件系统挂载到 SageMaker 实例以进行模型训练。 D. 使用 Amazon Macie 自动发现数据中的 PII。删除 PII。将数据存储在 Amazon S3 存储桶中。将 S3 存储桶挂载到 SageMaker 实例以进行模型训练。 答案:A 说明: 正确 112 / 114 112. No.112 公司必须在任何新创建的 Amazon SageMaker 笔记本实例上安装自定义脚本。 哪种解决方案可以以最少的运营开销满足此要求? A. 创建生命周期配置脚本以在创建新的 SageMaker 笔记本时安装自定义脚本。将生命周期配置附加到每个新的 SageMaker 笔记本作为创建步骤的一部分。 B. 创建包含自定义脚本的自定义 Amazon Elastic Container Registry (Amazon ECR) 映像。将 ECR 映像推送到 Docker 注册表。将 Docker 映像附加到 SageMaker Studio 域。选择要作为 SageMaker 笔记本的一部分运行的内核。 C. 创建自定义包索引存储库。使用 AWS CodeArtifact 管理自定义脚本的安装。设置 AWS PrivateLink 终端节点以将 CodeArtifact 连接到 SageMaker 实例。安装脚本。 D. 将自定义脚本存储在 Amazon S3 中。创建 AWS Lambda 函数以在新的 SageMaker 笔记本上安装自定义脚本。配置 Amazon EventBridge 以在初始化新的 SageMaker 笔记本时调用 Lambda 函数。 答案:A 说明: 正确 113 / 114 113. ★No.113 一家公司正在为电子商务应用程序构建实时数据处理管道。该应用程序生成大量点击流数据,必须近乎实时地提取、处理和可视化这些数据。该公司需要一个支持 SQL 进行数据处理和 Jupyter 笔记本进行交互式分析的解决方案。 哪种解决方案可以满足这些要求? A. 使用 Amazon Data Firehose 提取数据。创建 AWS Lambda 函数来处理数据。将处理后的数据存储在 Amazon S3 中。使用 Amazon QuickSight 可视化数据。 B. 使用 Amazon Kinesis Data Streams 提取数据。使用 Amazon Data Firehose 转换数据。使用 Amazon Athena 处理数据。使用 Amazon QuickSight 可视化数据。 C. 使用 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 提取数据。使用 AWS Glue 和 PySpark 处理数据。将处理后的数据存储在 Amazon S3 中。使用 Amazon QuickSight 可视化数据。 D. 使用 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 提取数据。使用 Amazon Managed Service for Apache Flink 处理数据。使用内置的 Flink 仪表板可视化数据。 114 / 114 114. No.114 一家医疗公司需要存储临床数据。数据包括个人身份信息 (PII) 和受保护的健康信息 (PHI)。 ML 工程师需要实施解决方案以确保 PII 和 PHI 不用于训练 ML 模型。 哪种解决方案可以满足这些要求? A. 将临床数据存储在 Amazon S3 存储桶中。在将数据用于模型训练之前,使用 AWS Glue DataBrew 屏蔽 PII 和 PHI。 B. 将临床数据上传到 Amazon Redshift 数据库。在将数据用于模型训练之前,使用内置 SQL 存储过程自动分类和屏蔽 PII 和 PHI。 C. 在将数据用于模型训练之前,使用 Amazon Comprehend 检测和屏蔽 PII。在将数据用于模型训练之前,使用 Amazon Comprehend Medical 检测和屏蔽 PHI。 D. 创建 AWS Lambda 函数来加密 PII 和 PHI。对 Lambda 函数进行编程,将加密数据保存到 Amazon S3 存储桶进行模型训练。 答案:C 说明: 正确 Your score is 0% Restart quiz ■AWS MLA-C01(CN) Q.1-100 /100 AWS MLA-C01(CN) 1-100 AWS Certified Machine Learning Engineer – Associate 认证验证在生产环境中实施机器学习工作负载并实现其运营化的技术能力。提升您的职业形象与信誉,为胜任热门机器学习岗位做好准备。 1 / 100 1. No.100 一家公司正在使用 Amazon SageMaker 开发 ML 模型。该公司将敏感的训练数据存储在 Amazon S3 存储桶中。模型训练必须与互联网进行网络隔离。 哪种解决方案可以满足此要求? A. 在私有子网中运行 SageMaker 训练作业。创建 NAT 网关。通过 NAT 网关路由训练流量。 B. 在私有子网中运行 SageMaker 训练作业。创建 S3 网关 VPC 终端节点。通过 S3 网关 VPC 终端节点路由训练流量。 C. 在具有附加安全组的公共子网中运行 SageMaker 训练作业。在安全组中,使用入站规则限制来自互联网的流量。使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密来加密 SageMaker 实例存储。 D. 使用包含 aws:SecureTransport 条件键的 True 值的存储桶策略来加密到 Amazon S3 的流量。对 Amazon S3 使用默认的静态加密。使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密来加密 SageMaker 实例存储。 答案:B 说明: 使用私有子网和 S3 网关 VPC 端点绕过公共互联网。 2 / 100 2. No.99 一家公司正在开展一个 ML 项目,该项目将包括 Amazon SageMaker 笔记本实例。ML 工程师必须确保 SageMaker 笔记本实例不允许 root 访问。 哪种解决方案将阻止允许 root 访问的笔记本实例的部署? A. 使用 IAM 条件键停止允许 root 访问的 SageMaker 笔记本实例的部署。 B. 使用 AWS Key Management Service (AWS KMS) 密钥停止允许 root 访问的 SageMaker 笔记本实例的部署。 C. 使用 Amazon EventBridge 事件监控资源创建。创建一个 AWS Lambda 函数,删除所有允许 root 访问的已部署 SageMaker 笔记本实例。 D. 使用 AWS CloudFormation 事件监控资源创建。创建一个 AWS Lambda 函数,删除所有允许 root 访问的已部署 SageMaker 笔记本实例。 答案:A 说明: 就是这个 3 / 100 3. No.98 一家 IoT 公司使用 Amazon SageMaker 训练和测试 XGBoost 模型以进行对象检测。机器学习工程师在使用超参数变体训练模型时需要监控性能指标。机器学习工程师还需要在训练完成后发送短信服务 (SMS) 文本消息。 哪种解决方案可以满足这些要求? A. 使用 Amazon CloudWatch 监控性能指标。使用 Amazon Simple Queue Service (Amazon SQS) 进行消息传递。 B. 使用 Amazon CloudWatch 监控性能指标。使用 Amazon Simple Notification Service (Amazon SNS) 进行消息传递。 C. 使用 AWS CloudTrail 监控性能指标。使用 Amazon Simple Queue Service (Amazon SQS) 进行消息传递。 D. 使用 AWS CloudTrail 监控性能指标。使用 Amazon Simple Notification Service (Amazon SNS) 传递消息。 答案:B 说明: 选项 A 和 C 不适用(SQS)。Cloudtrail 不监控性能指标。 Cloudwatch 带有 SNS,SQS 用于排队消息而不是发送。 CloudTrail 选项不适用于此处 4 / 100 4. No.97 一家公司使用 10 个加速实例类型的预留实例来为当前版本的 ML 模型提供服务。ML 工程师需要将新版本的模型部署到 Amazon SageMaker 实时推理终端节点。 该解决方案必须使用原始的 10 个实例来为模型的两个版本提供服务。该解决方案还必须包括一个额外的预留实例,可用于部署过程。版本之间的转换必须没有停机或服务中断。 哪种解决方案可以满足这些要求? A. 配置具有一次性流量转移的蓝/绿部署。 B. 配置具有金丝雀流量转移和 10% 大小的蓝/绿部署。 C. 配置流量采样百分比为 10% 的影子测试。 D. 配置滚动部署,滚动批次大小为 1。 答案:B 说明: 应该是 B。 D 没有提供过渡期间管理流量的明确策略。 5 / 100 5. No.96 一家公司有一个 ML 模型,该模型使用历史交易数据来预测客户行为。ML 工程师正在 Amazon SageMaker 中优化该模型,以提高模型的预测准确性。ML 工程师必须检查输入数据和由此产生的预测,以确定可能在不同人口统计数据中扭曲模型性能的趋势。 哪种解决方案可以提供这种级别的分析? A. 使用 Amazon CloudWatch 监控网络指标和 CPU 指标,以便在模型训练期间进行资源优化。 B. 创建 AWS Glue DataBrew 配方,根据模型输出的统计数据更正数据。 C. 使用 SageMaker Clarify 评估模型和训练数据中可能影响准确性的底层模式。 D. 创建 AWS Lambda 函数以自动化数据预处理并确保模型输入数据的质量一致。 答案:C 说明: 选项 C - SageMaker Clarify 专为偏差检测和可说明性而构建。 它可以分析训练数据和模型预测以识别潜在的偏差。 它提供了有关不同人口群体如何受到模型影响的见解。 6 / 100 6. No.95 一家公司部署了一个使用 XGBoost 算法预测产品故障的 ML 模型。该模型托管在 Amazon SageMaker 终端节点上,并根据正常运行数据进行训练。AWS Lambda 函数为公司的应用程序提供预测。 ML 工程师必须实施一种解决方案,使用传入的实时数据来检测模型准确性随时间下降的情况。 哪种解决方案可以满足这些要求? A. 使用 Amazon CloudWatch 创建仪表板,用于监控实时推理数据和模型预测。使用仪表板检测漂移。 B. 修改 Lambda 函数以使用实时推理数据和模型预测来计算模型漂移。对 Lambda 函数进行编程以发送警报。 C. 在 SageMaker Model Monitor 中安排监控作业。使用该作业通过根据训练数据统计和约束的基线分析实时数据来检测漂移。 D. 在 SageMaker Debugger 中安排监控作业。使用该作业通过根据训练数据统计和约束的基线分析实时数据来检测漂移。 答案:C 说明: 就是这个 7 / 100 7. ★No.94 热点 - 一家公司需要训练一个 ML 模型,该模型将使用历史交易数据来预测客户行为。 从以下列表中选择正确的 AWS 服务以对数据执行每个任务。每个服务应选择一次或根本不选择。 (选择三个。) • Amazon Athena • AWS Glue • Amazon Kinesis 数据流 • Amazon S3 查询数据以进行探索和分析。选择... 选择... Amazon Athena AWS Glue Amazon Kinesis 数据流 Amazon S3 存储数据。选择... 选择... Amazon Athena AWS Glue Amazon Kinesis 数据流 Amazon S3 转换数据。选择... 选择... Amazon Athena AWS Glue Amazon Kinesis 数据流 Amazon S3 Check 8 / 100 8. No.93 一家公司使用计算优化实例在 Amazon SageMaker 上运行训练作业。训练运行的需求将在接下来的 55 周内保持不变。该实例需要每周运行 35 小时。该公司需要降低其模型训练成本。 哪种解决方案可以满足这些要求? A. 使用无服务器端点,每周预置并发时间为 35 小时。在端点上运行训练。 B. 使用 SageMaker Edge Manager 进行训练。在边缘设备配置中指定实例要求。运行训练。 C. 使用 SageMaker Training 的异构集群功能。配置 instance_type、instance_count 和 instance_groups 参数以运行训练作业。 D. 选择加入为期 1 年且全额预付款的 SageMaker Savings Plan。在实例上运行 SageMaker Training 作业。 答案:D 说明: SageMaker Savings Plans 为长期使用 SageMaker 实例提供折扣。 9 / 100 9. No.92 一家公司使用 Amazon SageMaker 进行 ML 流程。合规性审计发现,用于训练数据的 Amazon S3 存储桶使用带有 S3 托管密钥 (SSE-S3) 的服务器端加密。 该公司需要客户管理密钥。ML 工程师将 S3 存储桶更改为使用带有 AWS KMS 密钥 (SSE-KMS) 的服务器端加密。ML 工程师未进行其他配置更改。 更改加密设置后,SageMaker 训练作业开始失败并出现 AccessDenied 错误。 ML 工程师应该怎么做才能解决这个问题? A. 更新附加到训练作业执行角色的 IAM 策略。包括 s3:ListBucket 和 s3:GetObject 权限。 B. 更新附加到 S3 存储桶的 S3 存储桶策略。将 aws:SecureTransport 条件键的值设置为 True。 C. 更新附加到训练作业执行角色的 IAM 策略。包括 kms:Encrypt 和 kms:Decrypt 权限。 D. 更新附加到创建训练作业的用户的 IAM 策略。包括 kms:CreateGrant 权限。 答案:C 说明: 这是正确的 10 / 100 10. No.91 一家公司运行使用加速实例的 Amazon SageMaker ML 模型。这些模型需要实时响应。每个模型都有不同的扩展要求。公司不得允许模型冷启动。 哪种解决方案可以满足这些要求? A. 为每个模型创建一个 SageMaker 无服务器推理终端节点。对终端节点使用预配置的并发。 B. 为每个模型创建一个 SageMaker 异步推理终端节点。为每个终端节点创建一个自动扩展策略。 C. 创建一个 SageMaker 终端节点。为每个模型创建一个推理组件。在推理组件设置中,指定新创建的终端节点。为每个推理组件创建一个自动扩展策略。将最小副本数的参数设置为至少 1。 D. 创建一个 Amazon S3 存储桶。将所有模型工件存储在 S3 存储桶中。创建一个 SageMaker 多模型终端节点。将终端节点指向 S3 存储桶。为终端节点创建一个自动扩展策略。将最小副本数的参数设置为至少 1。 答案:C 说明: 要求回顾: 实时推理:需要低延迟预测。 加速实例:可能由 GPU 支持,扩展成本高且效率低下。 无冷启动:端点必须始终保持温暖且响应迅速。 每个模型都有不同的扩展需求:必须支持每个模型的独立扩展。 为什么选项 C 是正确的: 推理组件是 SageMaker 的一项新功能,允许: 在单个端点上托管多个模型。 每个模型(组件)的独立扩展。 通过最少数量的副本避免冷启动。 设置最小调用次数或最小副本数≥1 可使模型始终保持温暖,从而消除冷启动。 此解决方案可有效满足所有要求。 11 / 100 11. No.90 ML 工程师需要使用指标来评估时间序列预测模型的质量。 哪些指标适用于此模型?(选择两个。) A. 召回率 B. 对数损失 C. 均方根误差 (RMSE) D. 推理延迟 E. 平均加权分位数损失 (wQL) 答案:C、E 说明: 这是正确的 12 / 100 12. No.89 ML 工程师需要在 ML 训练作业运行时加密所有传输中的数据。ML 工程师必须确保将传输中的加密应用于 Amazon SageMaker 在训练作业期间使用的流程。 哪种解决方案可以满足这些要求? A. 加密节点之间的通信以进行批处理。 B. 加密训练集群中节点之间的通信。 C. 在创建训练作业请求期间指定 AWS 密钥管理服务 (AWS KMS) 密钥。 D. 在创建 SageMaker 域期间指定 AWS 密钥管理服务 (AWS KMS) 密钥。 答案:B 说明: 就是这个 13 / 100 13. No.88 制造公司使用 ML 模型来确定产品是否符合质量标准。该模型会输出“通过”或“失败”。机器人使用该模型分析装配线上的照片,将产品分为两类。 公司应使用哪些指标来评估模型的性能?(选择两个。) A. 精度和召回率 B. 均方根误差 (RMSE) 和平均绝对百分比误差 (MAPE) C. 准确率和 F1 分数 D. 双语评估替补 (BLEU) 分数 E. 困惑度 答案:A,C 说明: A. 精度和召回率 C. 准确率和 F1 分数 14 / 100 14. No.87 一家公司有一个 Amazon S3 存储桶,其中包含来自不同来源的 1TB 文件。S3 存储桶在同一个 S3 文件夹中包含以下文件类型:CSV、JSON、XLSX 和 Apache Parquet。 ML 工程师必须实施使用 AWS Glue DataBrew 来处理数据的解决方案。ML 工程师还必须将最终输出存储在 Amazon S3 中,以便 AWS Glue 将来可以使用该输出。 哪种解决方案可以满足这些要求? A. 使用 DataBrew 处理现有的 S3 文件夹。将输出存储为 Apache Parquet 格式。 B. 使用 DataBrew 处理现有的 S3 文件夹。将输出存储为 AWS Glue Parquet 格式。 C. 将数据分成每种文件类型的不同文件夹。使用 DataBrew 单独处理每个文件夹。将输出存储为 Apache Parquet 格式。 D. 将数据分成每种文件类型的不同文件夹。使用 DataBrew 单独处理每个文件夹。将输出存储为 AWS Glue Parquet 格式。 答案:C 说明: 问题摘要: S3 中的数据是混合文件格式:CSV、JSON、XLSX 和 Parquet — 全部位于一个文件夹中。 您需要使用 AWS Glue DataBrew 来处理数据。 处理后的数据必须存储在 S3 中,以供 AWS Glue 稍后使用。 主要考虑因素: DataBrew 输入要求: DataBrew 数据集必须采用一致的格式(CSV、JSON、XLSX 或 Parquet)。 DataBrew 无法处理单个数据集中的混合格式。您必须按格式拆分数据。 DataBrew 输出格式: Apache Parquet 适用于: 高效存储 AWS Glue 和其他分析工具的更好性能 列式存储在查询和转换中的优势 “AWS Glue Parquet 格式”不存在 — 这是答案选项中的干扰项。 15 / 100 15. No.86 一家公司需要开发一个 ML 模型。该模型必须识别图像中的项目,并且必须提供该项目的位置。 哪种 Amazon SageMaker 算法可以满足这些要求? A. 图像分类 B. XGBoost C. 对象检测 D. K-最近邻 (k-NN) 答案:C 说明: https://docs.aws.amazon.com/sagemaker/latest/dg/algo-object-detection-tech-notes.html 16 / 100 16. No.85 一家公司开发了一种新的 ML 模型。该公司要求在 10% 的流量上进行在线模型验证,然后才能在生产中完全发布该模型。该公司使用应用程序负载均衡器 (ALB) 后面的 Amazon SageMaker 终端节点来为该模型提供服务。 哪种解决方案将以最少的运营开销设置所需的在线验证? A. 使用生产变体将新模型添加到现有的 SageMaker 终端节点。将新模型的变体权重设置为 0.1。使用 Amazon CloudWatch 监控调用次数。 B. 使用生产变体将新模型添加到现有的 SageMaker 终端节点。将新模型的变体权重设置为 1。使用 Amazon CloudWatch 监控调用次数。 C. 创建新的 SageMaker 终端节点。使用生产变体将新模型添加到新终端节点。使用 Amazon CloudWatch 监控调用次数。 D. 配置 ALB 以将 10% 的流量路由到现有 SageMaker 终端节点的新模型。使用 AWS CloudTrail 监控调用次数。 答案:A 说明: { 'ProductionVariants':[ { 'VariantName':'existing-model', 'ModelName':'existing-model', 'InitialVariantWeight':0.9 }, { 'VariantName':'new-model', 'ModelName':'new-model', 'InitialVariantWeight':0.1 } ] } 17 / 100 17. No.84 一家公司需要为公司的所有 ML 模型创建一个中央目录。这些模型位于公司最初开发模型的 AWS 账户中。这些模型托管在 Amazon Elastic Container Registry (Amazon ECR) 存储库中。 哪种解决方案可以满足这些要求? A. 为每个现有 ECR 存储库配置 ECR 跨账户复制。确保每个模型在每个 AWS 账户中都可见。 B. 创建一个新 AWS 账户,将新的 ECR 存储库作为中央目录。在初始 ECR 存储库和中央目录之间配置 ECR 跨账户复制。 C. 使用 Amazon SageMaker Model Registry 为托管在 Amazon ECR 中的模型创建模型组。创建一个新的 AWS 账户。在新账户中,使用 SageMaker Model Registry 作为中央目录。将跨账户资源策略附加到初始 AWS 账户中的每个模型组。 D. 使用 AWS Glue 数据目录存储模型。运行 AWS Glue 爬虫程序将模型从 ECR 存储库迁移到数据目录。配置对数据目录的跨账户访问。 答案:C 说明: 问题要求提供“中央目录”,因此我相信元数据、沿袭跟踪也“包括在内”。ECR 可能不是解决方案。 18 / 100 18. No.83 一家公司希望降低其容器化 ML 应用程序的成本。这些应用程序使用在 Amazon EC2 实例、AWS Lambda 函数和 Amazon Elastic Container Service (Amazon ECS) 集群上运行的 ML 模型。EC2 工作负载和 ECS 工作负载使用 Amazon Elastic Block Store (Amazon EBS) 卷来保存预测和工件。 ML 工程师必须识别使用效率低下的资源。ML 工程师还必须生成建议以降低这些资源的成本。 哪种解决方案能够以最少的开发工作量满足这些要求? A. 创建代码以评估每个实例的内存和计算使用情况。 B. 向资源添加成本分配标签。在 AWS 账单和成本管理中激活标签。 C. 检查 AWS CloudTrail 事件历史记录以了解资源的创建情况。 D. 运行 AWS Compute Optimizer。 答案:D 说明: AWS Compute Optimizer 查找 EC2、EBS 中浪费的资源,并建议节省资金和提高性能的简单方法。 19 / 100 19. ★No.82 一家公司正在使用 Amazon SageMaker 创建 ML 模型。公司的数据科学家需要对他们编排的 ML 工作流进行细粒度控制。数据科学家还需要能够将 SageMaker 作业和工作流可视化为有向无环图 (DAG)。数据科学家必须保留模型发现实验的运行历史记录,并且必须建立模型治理以进行审计和合规性验证。 哪种解决方案可以满足这些要求? A. 使用 AWS CodePipeline 及其与 SageMaker Studio 的集成来管理整个 ML 工作流。使用 SageMaker ML Lineage Tracking 来记录实验的运行历史记录以及进行审计和合规性验证。 B. 使用 AWS CodePipeline 及其与 SageMaker Experiments 的集成来管理整个 ML 工作流。使用 SageMaker Experiments 来记录实验的运行历史记录以及进行审计和合规性验证。 C. 使用 SageMaker Pipelines 及其与 SageMaker Studio 的集成来管理整个 ML 工作流。使用 SageMaker ML Lineage Tracking 来记录实验的运行历史记录以及进行审计和合规性验证。 D.使用 SageMaker Pipelines 及其与 SageMaker Experiments 的集成来管理整个 ML 工作流。使用 SageMaker Experiments 来记录实验的运行历史以及进行审计和合规性验证。 20 / 100 20. No.81 一家公司在生产中有一个二元分类模型。ML 工程师需要开发该模型的新版本。 新模型版本必须最大化正标签和负标签的正确预测。ML 工程师必须使用指标重新校准模型以满足这些要求。 ML 工程师应使用哪个指标进行模型重新校准? A. 准确度 B. 精确度 C. 召回率 D. 特异性 答案:A 说明: A. 准确度:正确选择;最大化真阳性和真阴性。公式:(TP + TN)/ 总预测数 B. 精确度:仅关注真阳性,而不关注负阴性。公式:TP /(TP + FP) C. 召回率:专注于捕获所有真阳性,忽略负阴性。公式:TP /(TP + FN) D. 特异性:仅关注真阴性,忽略阳性。公式:TN /(TN + FP) 21 / 100 21. No.80 一位 ML 工程师正在使用 Amazon SageMaker XGBoost 算法开发欺诈检测模型。该模型将交易分为欺诈或合法。 在测试期间,该模型擅长识别训练数据集中的欺诈行为。但是,该模型在识别新交易和未见过的交易中的欺诈行为方面效率低下。 ML 工程师应该做些什么来提高新交易的欺诈检测能力? A. 提高学习率。 B. 从训练数据集中删除一些不相关的特征。 C. 增加 max_depth 超参数的值。 D. 降低 max_depth 超参数的值。 答案:D 说明: 这是过度拟合的情况,它适用于训练数据,但不适用于新数据。减少 max_depth 超参数会使模型不那么复杂,有助于它更好地推广到新数据。 22 / 100 22. No.79 一家公司定期从 ML 模型的供应商处收到新的训练数据。供应商每 3-4 天将清理和准备好的数据发送到公司的 Amazon S3 存储桶。 该公司有一个 Amazon SageMaker 管道来重新训练模型。机器学习工程师需要实施一个解决方案,以便在将新数据上传到 S3 存储桶时运行管道。 哪种解决方案能够以最少的运营工作量满足这些要求? A. 创建 S3 生命周期规则,将数据传输到 SageMaker 训练实例并启动训练。 B. 创建扫描 S3 存储桶的 AWS Lambda 函数。对 Lambda 函数进行编程,以在上传新数据时启动管道。 C. 创建具有与 S3 上传匹配的事件模式的 Amazon EventBridge 规则。将管道配置为规则的目标。 D. 使用 Amazon Managed Workflows for Apache Airflow (Amazon MWAA) 在上传新数据时编排管道。 答案:C 说明: 当将新数据上传到 S3 时,Amazon EventBridge 可以自动触发 SageMaker 管道,使其成为一种简单而高效的解决方案。 23 / 100 23. No.78 一家公司计划使用 Amazon SageMaker 进行基于图像的分类评级。该公司有 6 ТВ 的训练数据存储在 Amazon FSx for NetApp ONTAP 系统虚拟机 (SVM) 上。SVM 与 SageMaker 位于同一 VPC 中。 ML 工程师必须使 SageMaker 环境中的 ML 模型可以访问训练数据。 哪种解决方案可以满足这些要求? A. 将 FSx for ONTAP 文件系统作为卷挂载到 SageMaker 实例。 B. 创建 Amazon S3 存储桶。使用 Amazon S3 的 Mountpoint 将 S3 存储桶链接到 FSx for ONTAP 文件系统。 C. 创建从 SageMaker Data Wrangler 到 FSx for ONTAP 文件系统的目录连接。 D. 创建从 SageMaker Data Wrangler 到 FSx for ONTAP 文件系统的直接连接。 答案:A 说明: https://docs.netapp.com/us-en/netapp-solutions/ai/mlops_fsxn_sagemaker_integration_training.html#introduction 选项 A 可行,因为您可以将 FSx for ONTAP 直接挂载到 SageMaker,从而可以快速访问同一 VPC 中的 6 TB 数据,而无需额外步骤 24 / 100 24. No.77 ML 工程师使用 AWS Glue DataBrew 中的最小-最大规范化对训练数据进行了规范化。在将生产推理数据传递给模型进行预测之前,ML 工程师必须以与训练数据相同的方式对生产推理数据进行规范化。 哪种解决方案可以满足此要求? A. 应用来自知名数据集的统计数据来规范化生产样本。 B. 保留来自训练集的最小-最大规范化统计数据。使用这些值对生产样本进行规范化。 C. 从一批生产样本中计算一组新的最小-最大规范化统计数据。使用这些值对所有生产样本进行规范化。 D. 从每个生产样本计算一组新的最小-最大标准化统计数据。使用这些值对所有生产样本进行标准化。 答案:B 说明: 模型对数据分布很敏感。准确预测需要一致性,因此选项 B 保持相同的最小-最大标准化统计数据会有所帮助;选项 C 和 D 影响模型性能;选项 A 引入了不一致性 25 / 100 25. No.76 ML 工程师需要部署 ML 模型,以异步方式从大型数据集中获取推理。ML 工程师还需要实施对模型数据质量的定期监控。当数据质量发生变化时,ML 工程师必须收到警报。 哪种解决方案可以满足这些要求? A. 使用计划的 AWS Glue 作业部署模型。使用 Amazon CloudWatch 警报监控数据质量并发送警报。 B. 使用计划的 AWS Batch 作业部署模型。使用 AWS CloudTrail 监控数据质量并发送警报。 C. 使用 AWS Fargate 上的 Amazon Elastic Container Service (Amazon ECS) 部署模型。使用 Amazon EventBridge 监控数据质量并发送警报。 D. 使用 Amazon SageMaker 批量转换部署模型。使用 SageMaker Model Monitor 监控数据质量并发送警报。 答案:D 说明: https://docs.aws.amazon.com/sagemaker/latest/dg/model-monitor.html 模型监视器跟踪生产模型的数据质量、模型质量、偏差漂移和特征归因漂移。使用批量转换进行持续监控的模型监视器设置将起作用 26 / 100 26. No.75 一家公司希望使用来自其客户的表格数据来开发 ML 模型。数据包含有意义的有序特征,其中包含不应丢弃的敏感信息。ML 工程师必须确保在另一个团队开始构建模型之前屏蔽敏感数据。 哪种解决方案可以满足这些要求? A. 使用 Amazon Made 对敏感数据进行分类。 B. 使用 AWS Glue DataBrew 准备数据。 C. 运行 AWS Batch 作业将敏感数据更改为随机值。 D. 运行 Amazon EMR 作业将敏感数据更改为随机值。 答案:B 说明: AWS Glue DataBrew(选项 B)是屏蔽敏感信息的最有效且用户友好的解决方案,同时保留表格数据的结构和顺序,使其成为为 ML 模型开发准备数据的理想选择。 AWS Macie 无法屏蔽数据。 27 / 100 27. No.74 一家公司正在使用 Amazon SageMaker 和数百万个文件来训练 ML 模型。每个文件大小为几兆字节。这些文件存储在 Amazon S3 存储桶中。该公司需要提高训练性能。 哪种解决方案可以在最短的时间内满足这些要求? A. 将数据传输到提供 S3 Express One Zone 存储的新 S3 存储桶。调整训练作业以使用新的 S3 存储桶。 B. 创建 Amazon FSx for Lustre 文件系统。将文件系统链接到现有的 S3 存储桶。调整训练作业以从文件系统读取。 C. 创建 Amazon Elastic File System (Amazon EFS) 文件系统。将现有数据传输到文件系统。调整训练作业以从文件系统读取。 D. 创建 Amazon ElastiCache (Redis OSS) 集群。将 Redis OSS 集群链接到现有 S3 存储桶。将数据从 Redis OSS 集群直接流式传输到训练作业。 答案:B 说明: https://aws.amazon.com/blogs/machine-learning/speed-up-training-on-amazon-sagemaker-using-amazon-efs-or-amazon-fsx-for-lustre-file-systems/ S3 数据 → FSx for Lustre → 高吞吐量和低延迟 → 提高训练性能 28 / 100 28. No.73 一家公司正在使用自定义 Python 脚本和专有数据集在本地运行 ML 模型。该公司正在使用 PyTorch。模型构建需要独特的领域知识。该公司需要将模型迁移到 AWS。 哪种解决方案可以以最少的努力满足这些要求? A. 使用 SageMaker 内置算法来训练专有数据集。 B. 使用 SageMaker 脚本模式和预制图像作为 ML 框架。 C. 在 AWS 上构建一个包含自定义包和 ML 框架选择的容器。 D. 通过 AWS Marketplace 购买类似的生产模型。 答案:B 说明: https://aws.amazon.com/blogs/machine-learning/bring-your-own-model-with-amazon-sagemaker-script-mode/ “脚本模式使您能够编写自定义训练和推理代码,同时仍使用常见的 ML 框架容器” 29 / 100 29. No.72 一位 ML 工程师正在使用 Amazon SageMaker 训练需要分布式训练的深度学习模型。经过几次训练尝试后,ML 工程师发现实例的表现不如预期。ML 工程师确定了训练实例之间的通信开销。 ML 工程师应该怎么做才能最大限度地减少实例之间的通信开销? A. 将实例放在同一个 VPC 子网中。将数据存储在与部署实例不同的 AWS 区域中。 B. 将实例放在同一个 VPC 子网中,但放在不同的可用区中。将数据存储在与部署实例不同的 AWS 区域中。 C. 将实例放在同一个 VPC 子网中。将数据存储在与部署实例相同的 AWS 区域和可用区中。 D. 将实例放在同一个 VPC 子网中。将数据存储在与部署实例相同的 AWS 区域,但放在不同的可用区中。 答案:C 说明: 分布式训练模型 → 相同的 VPC 子网 → 数据和实例的相同区域和可用区 → 最小化通信开销 30 / 100 30. No.71 一家公司的 ML 工程师已将用于情绪分析的 ML 模型部署到 Amazon SageMaker 终端节点。ML 工程师需要向公司利益相关者说明该模型如何进行预测。 哪种解决方案将为模型的预测提供说明? A. 在部署的模型上使用 SageMaker Model Monitor。 B. 在部署的模型上使用 SageMaker Clarify。 C. 在 Amazon CloudWatch 中显示 A/В 测试的推断分布。 D. 添加影子终端节点。分析样本的预测差异。 答案:B 说明: 情绪分析模型 → SageMaker Clarify → 分析功能影响 → 向利益相关者说明预测 31 / 100 31. No.70 一家公司需要托管自定义 ML 模型来执行预测分析。预测分析将在每天的同一 2 小时内以可预测和持续的负载进行。 分析期间的多次调用将需要快速响应。公司需要 AWS 来管理底层基础设施和任何自动扩展活动。 哪种解决方案可以满足这些要求? A. 使用 AWS Lambda 安排 Amazon SageMaker 批量转换作业。 B. 配置 Amazon EC2 实例的 Auto Scaling 组以使用计划扩展。 C. 使用具有预置并发性的 Amazon SageMaker 无服务器推理。 D. 使用 pod 自动扩展在 Amazon EC2 上的 Amazon Elastic Kubernetes Service (Amazon EKS) 集群上运行模型。 答案:C 说明: 负载是可预测和可持续的,使用模式为 2 小时;也需要快速响应;Sagemaker - 预置并发 + 无服务器推理将能够支持它。 https://docs.aws.amazon.com/sagemaker/latest/dg/serverless-endpoints.html 32 / 100 32. No.69 一家公司需要向其 ML 工程师提供适当的训练数据访问权限。ML 工程师必须仅从自己的业务组访问训练数据。ML 工程师不得被允许访问来自其他业务组的训练数据。 该公司使用单个 AWS 账户并将所有训练数据存储在 Amazon S3 存储桶中。所有 ML 模型训练都在 Amazon SageMaker 中进行。 哪种解决方案将为 ML 工程师提供适当的访问权限? A. 启用 S3 存储桶版本控制。 B. 为每个用户配置 S3 对象锁定设置。 C. 向 S3 存储桶添加跨源资源共享 (CORS) 策略。 D. 创建 IAM 策略。将策略附加到 IAM 用户或 IAM 角色。 答案:D 说明: IAM 策略有助于定义所需的访问权限和控制。可以应用于用户或角色。 IAM 具有“细粒度”权限。 33 / 100 33. No.68 ML 工程师需要使用 AWS 服务从文档中识别和提取有意义的唯一关键字。 哪种解决方案能够以最少的运营开销满足这些要求? A. 使用 Amazon EC2 实例上的自然语言工具包 (NLTK) 库进行文本预处理。使用潜在狄利克雷分配 (LDA) 算法识别和提取相关关键字。 B. 使用 Amazon SageMaker 和 BlazingText 算法。应用自定义预处理步骤来提取词干和删除停用词。计算词频-逆文档频率 (TF-IDF) 分数以识别和提取相关关键字。 C. 将文档存储在 Amazon S3 存储桶中。创建 AWS Lambda 函数来处理文档并运行 Python 脚本来提取词干和删除停用词。使用二元组和三元组技术来识别和提取相关关键字。 D. 使用 Amazon Comprehend 自定义实体识别和关键短语提取来识别和提取相关关键字。 答案:D 说明: 关键短语提取和自定义实体识别 - Amazon Comprehend 有助于降低运营开销。 34 / 100 34. No.67 一家公司有一个 ML 模型,该模型根据客户上传到公司网站的图像生成文本描述。图像总大小最多可达 50 MB。 ML 工程师决定将图像存储在 Amazon S3 存储桶中。 ML 工程师必须实施可扩展以适应需求变化的处理解决方案。 哪种解决方案能够以最少的运营开销满足这些要求? A. 创建一个 Amazon SageMaker 批量转换作业来处理 S3 存储桶中的所有图像。 B. 创建一个 Amazon SageMaker 异步推理终端节点和一个扩展策略。运行脚本为每个图像发出推理请求。 C. 创建一个使用 Karpenter 进行自动扩展的 Amazon Elastic Kubernetes Service (Amazon EKS) 集群。在 EKS 集群上托管模型。运行脚本为每个图像发出推理请求。 D. 创建一个使用 Amazon Elastic Container Service (Amazon ECS) 集群的 AWS Batch 作业。为每个 AWS Batch 作业指定要处理的图像列表。 答案:B 说明: https://docs.aws.amazon.com/sagemaker/latest/dg/async-inference-autoscale.html 要自动扩展异步终端节点 -> 注册模型 -> 定义并应用扩展策略;其他选项实施起来很复杂 35 / 100 35. No.66 一家公司已使用 Amazon SageMaker 在生产中部署预测 ML 模型。该公司正在模型上使用 SageMaker Model Monitor。模型更新后,ML 工程师在 Model Monitor 检查中注意到数据质量问题。 ML 工程师应该做什么来缓解 Model Monitor 已识别的数据质量问题? A. 调整模型的参数和超参数。 B. 启动使用最新生产数据的手动模型监控作业。 C. 从最新数据集创建新基线。更新模型监控以使用新基线进行评估。 D. 在模型的现有训练集中包含其他数据。重新训练并重新部署模型。 答案:C 说明: 同意 GiorgioGss 的观点 - 如果问题在“模型更新后”开始出现,则 C 是唯一有效的选项。 模型监控给出数据质量问题 --> 创建新基线 --> 验证基线 --> 使用新基线更新模型监控 --> 重新评估数据质量 --> 调查并修复根本原因(如果问题仍然存在) --> 持续监控 36 / 100 36. No.65 一家公司正在使用 AWS Lambda 函数来监控来自 ML 模型的指标。ML 工程师需要实施一种解决方案,以便在指标超出阈值时发送电子邮件消息。 哪种解决方案可以满足此要求? A. 将 Lambda 函数中的指标记录到 AWS CloudTrail。配置 CloudTrail 跟踪以发送电子邮件消息。 B. 将 Lambda 函数中的指标记录到 Amazon CloudFront。配置 Amazon CloudWatch 警报以发送电子邮件消息。 C. 将 Lambda 函数中的指标记录到 Amazon CloudWatch。配置 CloudWatch 警报以发送电子邮件消息。 D. 将 Lambda 函数中的指标记录到 Amazon CloudWatch。配置 Amazon CloudFront 规则以发送电子邮件消息。 答案:C 说明: 简单的事件驱动架构。 CloudWatch 警报是关键字;需要警报 37 / 100 37. No.64 一家公司计划在其主要 AWS 账户中使用 Amazon Redshift ML。源数据位于辅助账户中的 Amazon S3 存储桶中。 ML 工程师需要在主账户中设置 ML 管道以访问辅助账户中的 S3 存储桶。解决方案不得要求公共 IPv4 地址。 哪种解决方案可以满足这些要求? A. 在主账户中未启用公共访问权限的 VPC 中配置 Redshift 集群和 Amazon SageMaker Studio。在账户之间创建 VPC 对等连接。更新 VPC 路由表以删除到 0.0.0.0/0 的路由。 B. 在主账户中未启用公共访问权限的 VPC 中配置 Redshift 集群和 Amazon SageMaker Studio。创建 AWS Direct Connect 连接和中转网关。将两个账户的 VPC 与中转网关关联。更新 VPC 路由表以删除到 0.0.0.0/0 的路由。 C. 在主账户的 VPC 中配置 Redshift 集群和 Amazon SageMaker Studio。在账户之间使用两个加密的 IPsec 隧道创建 AWS 站点到站点 VPN 连接。为 Amazon S3 设置接口 VPC 终端节点。 D. 在主账户的 VPC 中配置 Redshift 集群和 Amazon SageMaker Studio。创建 S3 网关终端节点。更新 S3 存储桶策略以允许来自主账户的 IAM 主体。为 SageMaker 和 Amazon Redshift 设置接口 VPC 终端节点。 答案:D 说明: 需要 sagemaker 的 VPC 终端节点和 S3 的网关终端节点才能访问,而无需公共访问权限才能连接到 VPC 38 / 100 38. No.63 一家公司正在 Amazon SageMaker 上构建深度学习模型。该公司使用大量数据作为训练数据集。该公司需要优化模型的超参数,以最小化验证数据集上的损失函数。 哪种超参数调整策略将以最少的计算时间实现此目标? A. 超频带 B. 网格搜索 C. 贝叶斯优化 D. 随机搜索 答案:A 说明: A. 超频带:高效且最佳 --> 正确答案 B. 网格搜索:详尽并尝试所有组合 C. 贝叶斯优化:智能且具有最佳组合 D. 随机搜索:随机 39 / 100 39. No.62 ML 工程师在 Amazon SageMaker 之外开发了一个二元分类模型。ML 工程师需要让 SageMaker Canvas 用户访问该模型以进行进一步调整。 模型工件存储在 Amazon S3 存储桶中。ML 工程师和 Canvas 用户属于同一个 SageMaker 域。 必须满足哪些要求组合,ML 工程师才能与 Canvas 用户共享模型?(选择两个。) A. ML 工程师和 Canvas 用户必须位于不同的 SageMaker 域中。 B. Canvas 用户必须具有访问存储模型工件的 S3 存储桶的权限。 C. 该模型必须在 SageMaker 模型注册表中注册。 D. ML 工程师必须在 AWS Marketplace 上托管该模型。 E. ML 工程师必须将模型部署到 SageMaker 端点。 答案:B、C 说明: 对于 Amazon SageMaker 之外的模型,画布用户需要访问 S3;模型 --> 模型注册表 40 / 100 40. No.61 一家公司拥有历史数据,显示客户是否需要公司员工的长期支持。该公司需要开发一个 ML 模型来预测新客户是否需要长期支持。 公司应该使用哪种建模方法来满足此要求? A. 异常检测 B. 线性回归 C. 逻辑回归 D. 语义分割 答案:C 说明: A. 异常检测:用于罕见事件,而不是二元分类。 B. 线性回归:用于预测连续数字,而不是“是/否” C. 逻辑回归:非常适合“是/否”预测(二元分类)。 --> 正确 D. 语义分割:用于图像,而不是客户预测。 41 / 100 41. No.60 ML 工程师收到包含缺失值、重复值和极端异常值的数据集。ML 工程师必须将这些数据集合并到单个数据框中,并且必须为 ML 准备数据。 哪种解决方案可以满足这些要求? A. 使用 Amazon SageMaker Data Wrangler 导入数据集并将其合并到单个数据框中。使用清理和丰富功能来准备数据。 B. 使用 Amazon SageMaker Ground Truth 导入数据集并将其合并到单个数据框中。使用人机交互功能来准备数据。 C. 手动导入和合并数据集。将数据集合并到单个数据框中。使用 Amazon Q Developer 生成将准备数据的代码片段。 D. 手动导入和合并数据集。将数据集合并到单个数据框中。使用 Amazon SageMaker 数据标签来准备数据。 答案:A 说明: A:SageMaker Data Wrangler 简化了数据集的合并和清理。(正确答案) B:Ground Truth 用于标记,而不是清理。 C:手动合并速度慢且效率低。 D:数据标记会添加标签,但不会清理数据。 42 / 100 42. No.59 一家公司有一个应用程序,它使用不同的 API 为输入文本生成嵌入。该公司需要实施一个解决方案,每 3 个月自动轮换一次 API 令牌。 哪种解决方案可以满足此要求? A. 将令牌存储在 AWS Secrets Manager 中。创建一个 AWS Lambda 函数来执行轮换。 B. 将令牌存储在 AWS Systems Manager 参数存储中。创建一个 AWS Lambda 函数来执行轮换。 C. 将令牌存储在 AWS Key Management Service (AWS KMS) 中。使用 AWS 托管密钥执行轮换。 D. 将令牌存储在 AWS Key Management Service (AWS KMS) 中。使用 AWS 拥有的密钥执行轮换。 答案:A 说明: Secret Manager 具有自动轮换功能 43 / 100 43. No.58 一位 ML 工程师在 Amazon SageMaker 上训练了一个 ML 模型,以从闭路电视录像中检测汽车事故。ML 工程师使用 SageMaker Data Wrangler 创建了事故和非事故图像的训练数据集。 该模型在训练和验证期间表现良好。然而,由于来自不同摄像机的图像质量存在差异,该模型在生产中表现不佳。 哪种解决方案可以在最短的时间内提高模型的准确性? A. 从所有摄像机收集更多图像。使用 Data Wrangler 准备新的训练数据集。 B. 使用 Data Wrangler 损坏图像转换重新创建训练数据集。指定脉冲噪声选项。 C. 使用 Data Wrangler 增强图像对比度转换重新创建训练数据集。指定 Gamma 对比度选项。 D. 使用 Data Wrangler 调整图像大小转换重新创建训练数据集。将所有图像裁剪为相同大小。 答案:B 说明: 你们清楚理解了这个问题吗?“该模型在训练和验证期间表现良好。然而,由于不同摄像机的图像质量存在差异,该模型在生产中表现不佳。” https://aws.amazon.com/blogs/machine-learning/prepare-image-data-with-amazon-sagemaker-data-wrangler/ 破坏图像或产生任何类型的噪声有助于使模型更加稳健。即使收到损坏的图像,该模型也可以更准确地进行预测,因为它是使用损坏和未损坏的图像进行训练的。 44 / 100 44. No.57 一家公司有一个 ML 模型,需要每晚运行一次以预测股票价值。模型输入是当天收集的 3 MB 数据。该模型生成第二天的预测。预测过程需要不到 1 分钟即可完成运行。 公司应如何在 Amazon SageMaker 上部署模型以满足这些要求? A. 使用多模型无服务器端点。启用缓存。 B. 使用异步推理端点。将 InitialInstanceCount 参数设置为 0。 C. 使用实时端点。配置自动扩展策略,在模型未使用时将模型缩放到 0。 D. 使用无服务器推理端点。将 MaxConcurrency 参数设置为 1。 答案:D 说明: ServerlessConfig:- MemorySizeInMB:设置为 2048 MB(选项:1024–6144 MB)。 MaxConcurrency:设置为 1(夜间预测的最小值)。 一次性夜间使用高效且经济实惠。 “预测过程只需不到 1 分钟即可完成运行”,那么为什么您要首先配置某些东西 - 使用无服务器。 45 / 100 45. No.56 ML 工程师需要使用 Amazon SageMaker 对大型语言模型 (LLM) 进行微调,以进行文本摘要。ML 工程师必须遵循低代码无代码 (LCNC) 方法。 哪种解决方案可以满足这些要求? A. 使用 SageMaker Studio 对部署在 Amazon EC2 实例上的 LLM 进行微调。 B. 使用 SageMaker Autopilot 对由自定义 API 端点部署的 LLM 进行微调。 C. 使用 SageMaker Autopilot 对部署在 Amazon EC2 实例上的 LLM 进行微调。 D. 使用 SageMaker Autopilot 对由 SageMaker JumpStart 部署的 LLM 进行微调。 答案:D 说明: LCNC 解决方案:SageMaker Autopilot → SageMaker JumpStart → 部署预训练的 LLM → 微调文本摘要 46 / 100 46. No.55 一家公司正在创建一个应用程序,该应用程序将向客户推荐产品。该应用程序将对 Amazon Q Business 进行 API 调用。该公司必须确保来自 Amazon Q Business 的响应不包含公司主要竞争对手的名称。 哪种解决方案可以满足此要求? A. 在 Amazon Q Business 中将竞争对手的名称配置为阻止的短语。 B. 配置 Amazon Q Business 检索器以排除竞争对手的名称。 C. 为 Amazon Q Business 配置 Amazon Kendra 检索器以构建排除竞争对手名称的索引。 D. 在 Amazon Q Business 中配置文档属性提升以降低竞争对手名称的优先级。 答案:A 说明: https://docs.aws.amazon.com/amazonq/latest/api-reference/API_BlockedPhrasesConfiguration.html 47 / 100 47. No.54 一家公司使用 Amazon SageMaker 处理其 ML 工作负载。该公司的 ML 工程师收到一个 50 MB 的 Apache Parquet 数据文件来构建欺诈检测模型。该文件包含几个不需要的相关列。 ML 工程师应该怎么做才能以最少的努力删除文件中不必要的列? A. 将文件下载到本地工作站。使用自定义 Python 脚本执行独热编码。 B. 在 Amazon EMR 上创建使用自定义处理脚本的 Apache Spark 作业。 C. 通过调用 SageMaker Python SDK 创建 SageMaker 处理作业。 D. 在 SageMaker Data Wrangler 中创建数据流。配置转换步骤。 答案:D 说明: Parquet 数据文件 → SageMaker Data Wrangler → 探索数据 → 转换 → 删除不必要的列 → 清理和预处理数据 → 导出到 S3 → 欺诈检测模型 48 / 100 48. No.53 一家公司使用 Amazon SageMaker Studio 开发 ML 模型。该公司有一个 SageMaker Studio 域。ML 工程师需要实施一种解决方案,当 SageMaker 计算成本达到特定阈值时,该解决方案会提供自动警报。 哪种解决方案可以满足这些要求? A. 通过编辑 SageMaker 域中的 SageMaker 用户配置文件添加资源标记。配置 AWS Cost Explorer 以在达到阈值时发送警报。 B. 通过编辑 SageMaker 域中的 SageMaker 用户配置文件添加资源标记。配置 AWS Budgets 以在达到阈值时发送警报。 C. 通过编辑每个用户的 IAM 配置文件添加资源标记。配置 AWS Cost Explorer 以在达到阈值时发送警报。 D. 通过编辑每个用户的 IAM 配置文件添加资源标记。配置 AWS Budgets 以在达到阈值时发送警报。 答案:B 说明: Sagemaker 用户配置文件标记:https://docs.aws.amazon.com/sagemaker/latest/dg/domain-user-profile-add.html 预算:用于成本跟踪和设置阈值 49 / 100 49. No.52 ML 工程师需要实施解决方案来托管经过训练的 ML 模型。全天对模型的请求率将不一致。 ML 工程师需要一个可扩展的解决方案,以在模型未使用时最大限度地降低成本。该解决方案还必须保持模型在高峰使用期间响应请求的能力。 哪种解决方案可以满足这些要求? A. 创建具有固定并发性的 AWS Lambda 函数来托管模型。将 Lambda 函数配置为根据对模型的请求数量自动扩展。 B. 在使用 AWS Fargate 的 Amazon Elastic Container Service (Amazon ECS) 集群上部署模型。设置静态任务数以在高峰使用期间处理请求。 C. 将模型部署到 Amazon SageMaker 终端节点。将模型的多个副本部署到终端节点。创建应用程序负载均衡器以在终端节点的不同模型副本之间路由流量。 D. 将模型部署到 Amazon SageMaker 终端节点。创建基于 Amazon CloudWatch 指标的 SageMaker 端点自动扩展策略,以动态调整实例数量。 答案:D 说明: Sagemaker 端点托管 ML 模型;Cloudwatch 指标(如 CPU)用于自动扩展。 { “TargetValue”:50.0, “CustomizedMetricSpecification”: { “MetricName”:“CPUUtilization”, “Namespace”:“/aws/sagemaker/Endpoints”, “Dimensions”:[ {“Name”:“EndpointName”,“Value”:“my-endpoint”}, {“Name”:“VariantName”,“Value”:“my-variant”} ], “Statistic”:“Average”, “Unit”:“Percent” } } https://docs.aws.amazon.com/sagemaker/latest/dg/endpoint-auto-scaling.html 50 / 100 50. No.51 一家公司部署了一个 ML 模型,该模型可在银行应用程序中实时检测欺诈性信用卡交易。该模型使用 Amazon SageMaker 异步推理。消费者报告称,在接收推理结果时出现延迟。 ML 工程师需要实施解决方案来提高推理性能。当模型质量出现偏差时,解决方案还必须提供通知。 哪种解决方案可以满足这些要求? A. 使用 SageMaker 实时推理进行推理。使用 SageMaker Model Monitor 通知模型质量。 B. 使用 SageMaker 批量转换进行推理。使用 SageMaker Model Monitor 通知模型质量。 C. 使用 SageMaker Serverless Inference 进行推理。使用 SageMaker Inference Recommender 通知模型质量。 D. 继续使用 SageMaker 异步推理进行推理。使用 SageMaker 推理推荐器获取有关模型质量的通知。 答案:A 说明: Sagemaker 实时推理 - 更快的预测以解决延迟问题; 模型监视器跟踪模型质量并发送偏差警报。 51 / 100 51. No.50 一家公司将有关用户点击的时间序列数据存储在 Amazon S3 存储桶中。原始数据每天包含数百万行用户活动。ML 工程师访问数据以开发他们的 ML 模型。 ML 工程师需要使用 Amazon Athena 生成每日报告并分析过去 3 天的点击趋势。公司必须在存档数据之前保留数据 30 天。 哪种解决方案将为数据检索提供最高的性能? A. 将所有时间序列数据保留在 S3 存储桶中而不进行分区。手动将超过 30 天的数据移动到单独的 S3 存储桶中。 B. 创建 AWS Lambda 函数,将时间序列数据复制到单独的 S3 存储桶中。应用 S3 生命周期策略将超过 30 天的数据存档到 S3 Glacier Flexible Retrieval。 C. 在 S3 存储桶中按日期前缀将时间序列数据组织到分区中。应用 S3 生命周期策略将超过 30 天的分区存档到 S3 Glacier Flexible Retrieval。 D. 将每天的时间序列数据放入其自己的 S3 存储桶中。使用 S3 生命周期策略将保存超过 30 天的数据的 S3 存储桶存档到 S3 Glacier Flexible Retrieval。 答案:C 说明: 时间序列数据 → 在 S3 中按日期分区 → 优化 Athena 查询 → S3 生命周期策略 → 将超过 30 天的分区移动到 S3 Glacier Flexible Retrieval 52 / 100 52. No.49 一家信用卡公司在 Amazon SageMaker 终端上生产欺诈检测模型。该公司开发了该模型的新版本。该公司需要使用实时数据来评估新模型的性能,而不会影响生产最终用户。 哪种解决方案可以满足这些要求? A. 设置 SageMaker Debugger 并创建自定义规则。 B. 设置蓝/绿部署并一次性转移流量。 C. 设置蓝/绿部署并转移金丝雀流量。 D. 使用新模型的影子变体设置影子测试。 答案:D 说明: 影子测试是一种评估新模型性能的技术,它与当前生产模型一起运行,处理相同的实时数据但不影响生产结果。 https://docs.aws.amazon.com/sagemaker/latest/dg/shadow-tests-create.html 53 / 100 53. No.48 一位 ML 工程师正在使用训练作业来微调 Amazon SageMaker Studio 中的深度学习模型。ML 工程师之前使用过相同的预训练模型和类似的数据集。ML 工程师预计会出现梯度消失、GPU 利用率不足和过度拟合问题。 ML 工程师需要实施解决方案来检测这些问题,并在问题发生时以预定义的方式做出反应。该解决方案还必须在训练期间提供全面的实时指标。 哪种解决方案能够以最少的运营开销满足这些要求? A. 使用 TensorBoard 监控训练作业。将结果发布到 Amazon Simple Notification Service (Amazon SNS) 主题。创建 AWS Lambda 函数以使用结果并启动预定义操作。 B. 使用 Amazon CloudWatch 默认指标来获取有关训练作业的见解。使用这些指标调用 AWS Lambda 函数来启动预定义操作。 C. 扩展 Amazon CloudWatch 中的指标以包含每个训练步骤中的梯度。使用指标调用 AWS Lambda 函数来启动预定义操作。 D. 使用 SageMaker Debugger 内置规则来监控训练作业。配置规则以启动预定义操作。 答案:D 说明: SageMaker Debugger → 内置规则 → 监控训练(消失梯度、GPU 使用、过度拟合)→ 预定义操作 → 低开销 54 / 100 54. No.47 一家公司正在使用 Amazon Redshift 数据库作为其单一数据源。部分数据是敏感数据。 数据科学家需要使用数据库中的部分敏感数据。ML 工程师必须授予数据科学家访问数据的权限,而无需转换源数据,也不必在数据库中存储匿名数据。 哪种解决方案能够以最少的实施工作量满足这些要求? A. 配置动态数据屏蔽策略以控制在查询时如何与数据科学家共享敏感数据。 B. 在数据库顶部创建具有屏蔽逻辑的物化视图。授予数据科学家必要的读取权限。 C. 将 Amazon Redshift 数据卸载到 Amazon S3。使用 Amazon Athena 创建具有屏蔽逻辑的读取模式。与数据科学家共享视图。 D. 将 Amazon Redshift 数据卸载到 Amazon S3。创建 AWS Glue 作业以匿名化数据。与数据科学家共享数据集。 答案:A 说明: Amazon Redshift 数据库 → 敏感数据 → 动态数据屏蔽 → 数据科学家的查询时屏蔽 → 无需转换或额外存储 → 最省力 55 / 100 55. No.46 一家公司有由 AWS Glue 工作流编排的 AWS Glue 数据处理作业。 AWS Glue 作业可以按计划运行,也可以手动启动。 该公司正在 Amazon SageMaker Pipelines 中开发用于 ML 模型开发的管道。管道将在模型开发的数据处理阶段使用 AWS Glue 作业的输出。ML 工程师需要实施将 AWS Glue 作业与管道集成的解决方案。 哪种解决方案可以以最少的运营开销满足这些要求? A. 使用 AWS Step Functions 来编排管道和 AWS Glue 作业。 B. 使用 SageMaker Pipelines 中的处理步骤。配置指向 AWS Glue 作业的 Amazon 资源名称 (ARN) 的输入。 C. 使用 SageMaker Pipelines 中的回调步骤启动 AWS Glue 工作流并停止管道,直到 AWS Glue 作业完成运行。 D. 使用 Amazon EventBridge 以所需顺序调用管道和 AWS Glue 作业。 答案:C 说明: https://aws.amazon.com/blogs/machine-learning/extend-amazon-sagemaker-pipelines-to-include-custom-steps-using-callback-steps/ 该示例与问题完全相同。 56 / 100 56. No.45 一家公司已经使用 Amazon SageMaker 训练和部署了一个 ML 模型。该公司需要实施一个解决方案来记录和监控 SageMaker 端点的所有 API 调用事件。当 API 调用事件的数量超过阈值时,该解决方案还必须提供通知。 哪种解决方案可以满足这些要求? A. 使用 SageMaker Debugger 跟踪推理并报告指标。创建自定义规则以在超出阈值时提供通知。 B. 使用 SageMaker Debugger 跟踪推理并报告指标。使用 tensor_variance 内置规则在超出阈值时提供通知。 C. 使用 AWS CloudTrail 记录所有端点调用 API 事件。使用 Amazon CloudWatch 仪表板进行监控。设置 CloudWatch 警报以在超出阈值时提供通知。 D. 将调用指标添加到 Amazon CloudWatch 仪表板进行监控。设置 CloudWatch 警报以在超出阈值时提供通知。 答案:C 说明: 公司需要实施解决方案来记录和监控 SageMaker 端点的所有 API 调用事件。它需要记录所有事件。 57 / 100 57. No.44 一位 ML 工程师正在评估多个 ML 模型,必须选择一个模型用于生产。模型的假阴性预测成本远高于假阳性预测成本。 ML 工程师在选择模型时应该优先考虑哪个指标结果? A. 低精度 B. 高精度 C. 低召回率 D. 高召回率 答案:D 说明: A. 低精度:增加假阳性;此处不太相关。 B. 高精度:减少假阳性;不是优先级。 C. 低召回率:增加假阴性;必须避免。 D. 高召回率:正确;最大限度地减少假阴性。 58 / 100 58. No.43 ML 工程师需要使用 Amazon SageMaker Canvas 中的数据来训练 ML 模型。数据存储在 Amazon S3 中,结构复杂。ML 工程师必须使用一种可以最大程度缩短数据处理时间的文件格式。 哪种文件格式可以满足这些要求? A. 使用 Snappy 压缩的 CSV 文件 B. JSONL 格式的 JSON 对象 C. 使用 gzip 压缩的 JSON 文件 D. Apache Parquet 文件 答案:D 说明: 最大程度缩短处理时间:-为什么选择 Apache Parquet?列式、快速 I/O;对复杂数据高效;内置压缩;兼容 SageMaker Canvas 59 / 100 59. No.42 一家广告公司使用 AWS Lake Formation 来管理数据湖。数据湖包含结构化数据和非结构化数据。该公司的 ML 工程师被分配到特定的广告活动。 ML 工程师必须通过 Amazon Athena 与数据交互,并直接在 Amazon S3 存储桶中浏览数据。 ML 工程师必须只能访问特定于其分配的广告活动的资源。 哪种解决方案能够以最高效的方式满足这些要求? A. 在 AWS Glue 数据目录上配置 IAM 策略,以根据 ML 工程师的活动限制对 Athena 的访问。 B. 将用户和活动信息存储在 Amazon DynamoDB 表中。配置 DynamoDB Streams 以调用 AWS Lambda 函数来更新 S3 存储桶策略。 C. 使用 Lake Formation 授权 AWS Glue 访问 S3 存储桶。配置 Lake Formation 标签以将 ML 工程师映射到他们的活动。 D. 配置 S3 存储桶策略以根据 ML 工程师的活动限制对 S3 存储桶的访问。 答案:C 说明: AWS Lake Formation → 使用活动标记资源 → 将 ML 工程师映射到活动 → 细粒度访问控制 → 运营效率 60 / 100 60. No.41 ML 工程师需要使用 AWS CloudFormation 创建 Amazon SageMaker 端点将托管的 ML 模型。 ML 工程师应在 CloudFormation 模板中声明哪种资源来满足此要求? A. AWS::SageMaker::Model B. AWS::SageMaker::Endpoint C. AWS::SageMaker::NotebookInstance D. AWS::SageMaker::Pipeline 答案:A 说明: 类型:AWS::SageMaker::Model 属性: 容器: - ContainerDefinition EnableNetworkIsolation:布尔值 ExecutionRoleArn:字符串 InferenceExecutionConfig: InferenceExecutionConfig 模型名称:字符串 PrimaryContainer: ContainerDefinition 标签: - 标签 VpcConfig: VpcConfig 61 / 100 61. No.40 一家公司计划创建多个 ML 预测模型。训练数据存储在 Amazon S3 中。整个数据集大小超过 5 TB,由 CSV、JSON、Apache Parquet 和简单文本文件组成。 必须分几个连续步骤处理数据。这些步骤包括复杂的操作,可能需要数小时才能完成运行。一些处理涉及自然语言处理 (NLP) 转换。整个过程必须自动化。 哪种解决方案可以满足这些要求? A. 使用 Amazon SageMaker Data Wrangler 在每个步骤处理数据。使用 Data Wrangler 作业自动化该过程。 B. 在每个数据处理步骤中使用 Amazon SageMaker 笔记本。使用 Amazon EventBridge 自动化该过程。 C. 使用 AWS Lambda 函数在每个步骤处理数据。使用 AWS Step Functions 和 Amazon EventBridge 自动化该过程。 D. 使用 Amazon SageMaker Pipelines 创建数据处理步骤管道。使用 Amazon EventBridge 自动化该管道。 答案:D 说明: 大型数据集 + 多种文件格式 + 复杂的自动化和 ML 工作流编排 + NLP 转换 ---> Sagemaker 管道 + 触发器的事件桥 62 / 100 62. No.39 一家公司希望提高其 ML 运营的可持续性。 哪些行动将减少与公司培训工作相关的能源使用和计算资源?(选择两个。) A. 使用 Amazon SageMaker Debugger 在检测到非收敛条件时停止训练作业。 B. 使用 Amazon SageMaker Ground Truth 进行数据标记。 C. 使用 AWS Lambda 函数部署模型。 D. 使用 AWS Trainium 实例进行训练。 E. 使用带有分布式训练选项的 PyTorch 或 TensorFlow。 答案:A、D 说明: 博客:https://aws.amazon.com/blogs/machine-learning/optimizing-mlops-for-sustainability/ 可持续发展目标:实例比同类加速计算 EC2 实例节能高达 25%; https://aws.amazon.com/ai/machine-learning/trainium/ SageMaker 调试器通过检测系统资源利用率不足、识别训练问题以及使用内置规则监控并在检测到错误后立即停止训练作业来帮助优化资源消耗。 63 / 100 63. No.38 ML 工程师需要使用 Amazon EMR 集群批量处理大量数据。任何数据丢失都是不可接受的。 哪种实例购买选项最经济高效地满足这些要求? A. 在按需实例上运行主节点、核心节点和任务节点。 B. 在竞价实例上运行主节点、核心节点和任务节点。 C. 在按需实例上运行主节点。在竞价实例上运行核心节点和任务节点。 D. 在按需实例上运行主节点和核心节点。在竞价实例上运行任务节点。 答案:D 说明: https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-instances-guidelines.html#emr-plan-spot-instances “任务节点处理数据但不在 HDFS 中保存持久数据。如果它们因为现货价格超过最高现货价格而终止,则不会丢失任何数据” 64 / 100 64. No.37 一家公司已经在 Amazon SageMaker 中训练了一个 ML 模型。该公司需要托管该模型以在生产环境中提供推理。 该模型必须具有高可用性,并且必须以最小的延迟做出响应。每个请求的大小将在 1 KB 到 3 MB 之间。该模型将在白天收到不可预测的请求突发。推理必须根据需求的变化进行比例调整。 公司应如何将模型部署到生产中以满足这些要求? A. 创建 SageMaker 实时推理端点。配置自动扩展。配置终端节点以呈现现有模型。 B. 在 Amazon Elastic Container Service (Amazon ECS) 集群上部署模型。使用基于 ECS 集群 CPU 的 ECS 计划扩展。 C. 在 Amazon Elastic Kubernetes Service (Amazon EKS) 集群上安装 SageMaker Operator。在 Amazon EKS 中部署模型。设置水平 Pod 自动扩展以根据内存指标扩展副本。 D. 使用 Spot 实例和位于应用程序负载均衡器 (ALB) 后面的 Spot 队列进行推理。使用 ALBRequestCountPerTarget 指标作为自动扩展的指标。 答案:A 说明: SageMaker 实时终端节点:专为自动扩展、低延迟、处理突发而构建。 https://aws.amazon.com/blogs/machine-learning/configuring-autoscaling-inference-endpoints-in-amazon-sagemaker/ 65 / 100 65. No.36 一家公司已实施了一条数据提取管道,用于从其电子商务网站提取销售交易数据。该公司使用 Amazon Data Firehose 将数据提取到 Amazon OpenSearch Service 中。Firehose 流的缓冲间隔设置为 60 秒。OpenSearch 线性模型根据数据生成实时销售预测,并将数据显示在 OpenSearch 仪表板中。 该公司需要优化数据提取管道,以支持实时仪表板的亚秒级延迟。 架构的哪些更改将满足这些要求? A. 在 Firehose 流中使用零缓冲。调整 PutRecordBatch 操作中使用的批处理大小。 B. 用 AWS DataSync 任务替换 Firehose 流。使用增强的扇出消费者配置任务。 C. 将 Firehose 流的缓冲间隔从 60 秒增加到 120 秒。 D. 用 Amazon Simple Queue Service (Amazon SQS) 队列替换 Firehose 流。 答案:A 说明: A. 使用零缓冲通过即时传输数据来最大限度地减少延迟。 调整批处理大小以优化吞吐量并确保实时仪表板的亚秒级交付。 虽然这是一个相当新的解决方案,但 A 可以解决问题: https://aws.amazon.com/about-aws/whats-new/2023/12/amazon-kinesis-data-firehose-zero-buffering/ 66 / 100 66. No.35 一家公司正在使用 ML 预测农民田地中是否存在特定杂草。该公司正在使用 Amazon SageMaker 线性学习器内置算法,其 predictorjype 超参数的值为 multiclass_dassifier。 公司应该怎么做才能最大限度地减少误报? A. 将权重衰减超参数的值设置为零。 B. 增加训练周期数。 C. 增加 target_precision 超参数的值。 D. 将 predictor_ype 超参数的值更改为 regressor。 答案:C 说明: A. 权重衰减 = 0 → 无正则化,不针对假阳性。 B. 更多时期 → 更长的训练,存在过度拟合的风险,对假阳性没有直接影响。 C. 更高的精度 → 优先考虑正确的阳性,减少假阳性。 D. 回归器 → 预测连续值,不适合分类。 https://docs.aws.amazon.com/sagemaker/latest/dg/ll_hyperparameters.html 67 / 100 67. No.34 一家公司有一个对话式 AI 助手,它通过 Amazon Bedrock 向 Anthropic Claude 大型语言模型 (LLM) 发送请求。用户报告说,当他们多次提出类似的问题时,他们有时会收到不同的答案。ML 工程师需要改进响应,使其更加一致且随机性更低。 哪种解决方案可以满足这些要求? A. 增加温度参数和 top_k 参数。 B. 增加温度参数。降低 top_k 参数。 C. 降低温度参数。增加 top_k 参数。 D. 降低温度参数和 top_k 参数。 答案:D 说明: 较低的温度:高可能输出 较低的 Top k:关注可能输出 https://docs.aws.amazon.com/bedrock/latest/userguide/inference-parameters.html 68 / 100 68. No.33 一家公司在产品发布后收集了大量来自客户互动的聊天记录。ML 工程师需要创建一个 ML 模型来分析聊天数据。ML 工程师需要通过查看客户对产品的情绪来确定产品的成功。 ML 工程师应该采取哪些行动才能在最短的时间内完成评估? A. 使用 Amazon Rekognition 分析聊天对话的情绪。 B. 训练朴素贝叶斯分类器来分析聊天对话的情绪。 C. 使用 Amazon Comprehend 分析聊天对话的情绪。 D. 使用随机森林对聊天对话的情绪进行分类。 答案:C 说明: https://docs.aws.amazon.com/comprehend/latest/dg/what-is.htm 预建情绪分析 + 快速设置 + NLP --Comprehend 69 / 100 69. No.32 一家金融公司从外部提供商处收到大量实时市场数据流。这些流每秒包含数千条 JSON 记录。 该公司需要在 AWS 上实施可扩展的解决方案来识别异常数据点。 哪种解决方案能够以最少的运营开销满足这些要求? A. 将实时数据导入 Amazon Kinesis 数据流。使用 Amazon Managed Service for Apache Flink 中的内置 RANDOM_CUT_FOREST 函数来处理数据流并检测数据异常。 B. 将实时数据导入 Amazon Kinesis 数据流。部署 Amazon SageMaker 终端节点以进行实时异常检测。创建 AWS Lambda 函数来检测异常。使用数据流调用 Lambda 函数。 C. 将实时数据导入 Amazon EC2 实例上的 Apache Kafka。部署 Amazon SageMaker 终端节点以进行实时异常检测。创建 AWS Lambda 函数来检测异常。使用数据流调用 Lambda 函数。 D. 将实时数据发送到 Amazon Simple Queue Service (Amazon SQS) FIFO 队列。创建 AWS Lambda 函数来使用队列消息。对 Lambda 函数进行编程以启动 AWS Glue 提取、转换和加载 (ETL) 作业以进行批处理和异常检测。 答案:A 说明: 选项 A 高容量实时:Kinesis Data Streams 可扩展:托管 Apache Flink 异常检测:RANDOM_CUT_FOREST 低开销:完全托管服务 70 / 100 70. No.31 一家公司正在收集各种语言的音频、视频和文本数据。该公司需要使用大型语言模型 (LLM) 来汇总收集到的西班牙语数据。 哪种解决方案可以在最短的时间内满足这些要求? A. 在 Amazon SageMaker 中训练并部署模型,将数据转换为英文文本。在 SageMaker 中训练并部署 LLM 来总结文本。 B. 使用 Amazon Transcribe 和 Amazon Translate 将数据转换为英文文本。使用 Amazon Bedrock 和 Jurassic 模型总结文本。 C. 使用 Amazon Rekognition 和 Amazon Translate 将数据转换为英文文本。使用 Amazon Bedrock 和 Anthropic Claude 模型总结文本。 D. 使用 Amazon Comprehend 和 Amazon Translate 将数据转换为英文文本。使用 Amazon Bedrock 和 Stable Diffusion 模型总结文本。 答案:B 说明: 最短时间 -> A 出局 C 出局,因为 Claude 不适合总结 D 出局,因为那是用于图像生成的。 71 / 100 71. No.30 一家公司在新建 VPC 的公共子网中运行 Amazon SageMaker 域。网络配置正确,ML 工程师可以访问 SageMaker 域。 最近,该公司发现来自特定 IP 地址的域的可疑流量。该公司需要阻止来自特定 IP 地址的流量。 哪个网络配置更新将满足此要求? A. 创建安全组入站规则以拒绝来自特定 IP 地址的流量。将安全组分配给域。 B. 创建网络 ACL 入站规则以拒绝来自特定 IP 地址的流量。将规则分配给域所在子网的默认网络广告。 C. 为域创建影子变体。配置 SageMaker Inference Recommender 以将流量从特定 IP 地址发送到影子端点。 D. 创建 VPC 路由表以拒绝来自特定 IP 地址的入站流量。将路由表分配给域。 答案:B 说明: 子网级别的保护:网络 ACL。可以在入站连接级别拒绝特定 IP 地址。 72 / 100 72. No.29 一家拥有数百名数据科学家的公司正在使用 Amazon SageMaker 创建 ML 模型。这些模型位于 SageMaker 模型注册表中的模型组中。 数据科学家分为三类:计算机视觉、自然语言处理 (NLP) 和语音识别。ML 工程师需要实施解决方案,将现有模型组织到这些组中,以提高模型的大规模可发现性。该解决方案不得影响模型工件及其现有分组的完整性。 哪种解决方案可以满足这些要求? A. 为这三个类别中的每一个创建一个自定义标签。将标签添加到 SageMaker 模型注册表中的模型包中。 B. 为每个类别创建一个模型组。将现有模型移到这些类别模型组中。 C. 使用 SageMaker ML Lineage Tracking 自动识别并标记哪些模型组应包含这些模型。 D. 为这三个类别中的每一个创建一个模型注册表集合。将现有模型组移到集合中。 答案:D 说明: 因为根据文档 - “您对集合执行的任何操作都不会影响它们包含的各个模型组的完整性 - Amazon S3 和 Amazon ECR 中的底层模型组工件不会被修改。” A 也可能是一个有效的选项,但在这里我们看到的正是这一点: https://docs.aws.amazon.com/sagemaker/latest/dg/modelcollections.html “您对集合执行的任何操作都不会影响它们包含的各个模型组的完整性 - Amazon S3 和 Amazon ECR 中的底层模型组工件不会被修改。” 73 / 100 73. No.28 ML 工程师需要在 AWS 上创建数据提取管道和 ML 模型部署管道。所有原始数据都存储在 Amazon S3 存储桶中。 哪种解决方案可以满足这些要求? A. 使用 Amazon Data Firehose 创建数据提取管道。使用 Amazon SageMaker Studio Classic 创建模型部署管道。 B. 使用 AWS Glue 创建数据提取管道。使用 Amazon SageMaker Studio Classic 创建模型部署管道。 C. 使用 Amazon Redshift ML 创建数据提取管道。使用 Amazon SageMaker Studio Classic 创建模型部署管道。 D. 使用 Amazon Athena 创建数据提取管道。使用 Amazon SageMaker 笔记本创建模型部署管道。 答案:B 说明: 数据提取 - Glue;模型部署管道 - sagemaker studio classic 这是 Glu 的主要用例 74 / 100 74. No.27 一家公司使用混合云环境。部署在本地的模型使用 Amazon 53 中的数据为客户提供实时对话引擎。 该模型正在使用敏感数据。ML 工程师需要实施解决方案来识别和删除敏感数据。 哪种解决方案可以以最少的运营开销满足这些要求? A. 在 Amazon SageMaker 上部署模型。创建一组 AWS Lambda 函数来识别和删除敏感数据。 B. 在使用 AWS Fargate 的 Amazon Elastic Container Service (Amazon ECS) 集群上部署模型。创建 AWS Batch 作业来识别和删除敏感数据。 C. 使用 Amazon Macie 识别敏感数据。创建一组 AWS Lambda 函数来删除敏感数据。 D. 使用 Amazon Comprehend 识别敏感数据。启动 Amazon EC2 实例以删除敏感数据。 答案:C 说明: Macie - 识别敏感数据 75 / 100 75. No.26 一家公司希望通过考虑每个广告的配色方案来预测广告活动的成功。一位 ML 工程师正在为神经网络模型准备数据。数据集包含颜色信息作为分类数据。 ML 工程师应该为模型使用哪种特征工程技术? A. 对颜色类别应用标签编码。自动为每种颜色分配一个唯一的整数。 B. 实现填充以确保所有颜色特征向量具有相同的长度。 C. 对颜色类别执行降维。 D. 对颜色类别进行独热编码以将配色方案特征转换为二进制矩阵。 答案:D 说明: 1. 标签编码:序数关系 2. 填充:序列数据 3. 降维:高维数据 4. 独热编码:分类数据(右) 76 / 100 76. ★No.25 一家公司使用 Amazon Athena 查询 Amazon S3 中的数据集。该数据集具有公司想要预测的目标变量。 该公司需要在解决方案中使用该数据集来确定模型是否可以预测目标变量。 哪种解决方案将以最少的开发工作量提供此信息? A. 使用 Amazon SageMaker Autopilot 创建新模型。报告模型实现的性能。 B. 实施自定义脚本以执行数据预处理、多元线性回归和性能评估。在 Amazon EC2 实例上运行脚本。 C. 配置 Amazon Macie 以分析数据集并创建模型。报告模型实现的性能。 D. 从 Amazon Bedrock 中选择一个模型。使用数据调整模型。报告模型实现的性能。 77 / 100 77. No.24 一家公司有一个检索增强生成 (RAG) 应用程序,该应用程序使用矢量数据库来存储文档的嵌入。该公司必须将应用程序迁移到 AWS,并且必须实施提供文本文件语义搜索的解决方案。该公司已将文本存储库迁移到 Amazon S3 存储桶。 哪种解决方案可以满足这些要求? A. 使用 AWS Batch 作业来处理文件并生成嵌入。使用 AWS Glue 存储嵌入。使用 SQL 查询执行语义搜索。 B. 使用自定义 Amazon SageMaker 笔记本运行自定义脚本来生成嵌入。使用 SageMaker Feature Store 存储嵌入。使用 SQL 查询执行语义搜索。 C. 使用 Amazon Kendra S3 连接器将文档从 S3 存储桶提取到 Amazon Kendra。查询 Amazon Kendra 以执行语义搜索。 D. 使用 Amazon Textract 异步作业从 S3 存储桶中提取文档。查询 Amazon Textract 以执行语义搜索。 答案:C 说明: https://docs.aws.amazon.com/kendra/latest/dg/data-source-s3.html 78 / 100 78. No.23 ML 工程师正在训练一个简单的神经网络模型。ML 工程师在验证数据集上跟踪模型随时间的性能。模型的性能最初会大幅提高,然后在特定数量的时期后下降。 哪些解决方案可以缓解此问题?(选择两个。) A. 在模型上启用早期停止。 B. 增加层的 dropout。 C. 增加层数。 D. 增加神经元数量。 E. 调查并减少模型偏差的来源。 答案:A、B 说明: 问题是过度拟合。解决方案:- A. 提前停止:- 当验证性能下降时停止训练 B. 增加 dropout:- 通过随机禁用神经元来减少过度拟合 79 / 100 79. No.22 一位 ML 工程师在 us-east-1 区域的账户 A 中有一个 Amazon Comprehend 自定义模型。ML 工程师需要将模型复制到同一区域的账户 B。 哪种解决方案可以以最少的开发工作量满足此要求? A. 使用 Amazon S3 复制模型。将副本传输到账户 B。 B. 创建基于资源的 IAM 策略。使用 Amazon Comprehend ImportModel API 操作将模型复制到账户 B。 C. 使用 AWS DataSync 将模型从账户 A 复制到账户 B。 D. 在账户 A 和账户 B 之间创建 AWS 站点到站点 VPN 连接以传输模型。 答案:B 说明: Amazon Comprehend - ImportModel API 可促进 AWS 账户之间自定义模型的转移。步骤: 1. 从账户 A 导出模型。 2. 在账户 A 中创建基于资源的 IAM 策略以授予账户 B 访问权限。 3. 使用账户 B 中的 ImportModel API 导入模型。 80 / 100 80. No.21 一家公司需要在 Amazon EC2 实例上运行批量数据处理作业。该作业将在周末运行,需要 90 分钟才能完成运行。处理可以处理中断。该公司将在接下来的 6 个月内每个周末运行该作业。 哪种 EC2 实例购买选项将最经济高效地满足这些要求? A. 竞价实例 B. 预留实例 C. 按需实例 D. 专用实例 答案:A 说明: 经济高效 + 中断 + 持续时间短 90 分钟 = 竞价实例 81 / 100 81. No.20 一家公司拥有一个大型的非结构化数据集。该数据集包含多个关键属性的许多重复记录。 AWS 上的哪种解决方案将以最少的代码开发检测数据集中的重复项? A. 使用 Amazon Mechanical Turk 作业来检测重复项。 B. 使用 Amazon QuickSight ML Insights 构建自定义重复数据删除模型。 C. 使用 Amazon SageMaker Data Wrangler 进行预处理和检测重复项。 D. 使用 AWS Glue FindMatches 转换检测重复项。 答案:D 说明: AWS Glue FindMatches 专门用于识别数据集中的重复或匹配记录,而无需标记的训练数据。它使用机器学习来查找模糊匹配,并允许自定义以微调匹配过程,使其成为此场景的理想选择。 82 / 100 82. No.19 ML 工程师需要处理数千个现有 CSV 对象和上传的新 CSV 对象。CSV 对象存储在中央 Amazon S3 存储桶中,并具有相同数量的列。其中一列是交易日期。ML 工程师必须根据交易日期查询数据。 哪种解决方案可以以最少的运营开销满足这些要求? A. 使用 Amazon Athena CREATE TABLE AS SELECT (CTAS) 语句根据中央 S3 存储桶中的数据中的交易日期创建表。从表中查询对象。 B. 为处理后的数据创建一个新的 S3 存储桶。设置从中央 S3 存储桶到新 S3 存储桶的 S3 复制。使用 S3 Object Lambda 根据交易日期查询对象。 C. 为处理后的数据创建新的 S3 存储桶。使用 AWS Glue for Apache Spark 创建作业以根据交易日期查询 CSV 对象。配置作业以将结果存储在新的 S3 存储桶中。从新的 S3 存储桶查询对象。 D. 为处理后的数据创建新的 S3 存储桶。使用 Amazon Data Firehose 将数据从中央 S3 存储桶传输到新的 S3 存储桶。配置 Firehose 以运行 AWS Lambda 函数以根据交易日期查询数据。 答案:A 说明: Athena 允许使用 SQL 直接查询存储在 Amazon S3 中的数据,而无需移动或转换数据。CTAS(CREATE TABLE AS SELECT):根据过滤或转换后的数据集(例如交易日期)创建新表,并将结果存储在 S3 中。 为什么不选择其他选项? B. S3 Object Lambda 专为即时数据转换而设计,而不是高效查询数据。添加复制会增加复杂性,而不会直接解决查询要求。 C. Glue 适用于复杂的 ETL 工作流,但它会为 Athena 可以更轻松处理的任务带来大量运营开销。 D. Firehose 专为流式传输数据而设计,而不是处理大型现有数据集。 83 / 100 83. No.18 一位 ML 工程师使用随机梯度下降 (SGD) 训练了一个神经网络。神经网络在测试集上表现不佳。训练损失和验证损失的值仍然很高,并显示出振荡模式。这些值在几个时期内下降,然后在几个时期内增加,然后重复相同的循环。 ML 工程师应该做些什么来改进训练过程? A. 引入早期停止。 B. 增加测试集的大小。 C. 增加学习率。 D. 降低学习率。 答案:D 说明: A. 不,提前停止是为了防止过度拟合 B. 不,增加测试不会对震荡损失有帮助 C. 不,增加学习率会使情况恶化 D. 训练中的震荡损失表明训练没有收敛,当学习率过高时可能会发生这种情况。降低学习率会有所帮助 84 / 100 84. No.17 ML 工程师需要使用 ML 模型来预测特定位置的公寓价格。 ML 工程师应该使用哪个指标来评估模型的性能? A. 准确率 B. ROC 曲线下面积 (AUC) C. F1 分数 D. 平均绝对误差 (MAE) 答案:D 说明: 唯一用于回归的是 D。其他 3 个用于分类。 这是一个回归问题,因此 MAE 是正确答案。准确率、AUC-ROC 和 F1 用于分类。 85 / 100 85. No.16 一家公司有一个数据科学家团队,他们使用 Amazon SageMaker 笔记本实例来测试 ML 模型。当数据科学家需要新的权限时,公司会将权限附加到在创建 SageMaker 笔记本实例期间创建的每个单独角色。 公司需要集中管理团队的权限。 哪种解决方案可以满足这一要求? A. 创建一个具有必要权限的 IAM 角色。将角色附加到团队使用的每个笔记本实例。 B. 创建一个 IAM 组。将数据科学家添加到该组。将组与团队使用的每个笔记本实例关联。 C. 创建一个 IAM 用户。将 AdministratorAccess AWS 托管 IAM 策略附加到用户。配置每个笔记本实例以使用 IAM 用户。 D. 创建一个 IAM 组。将数据科学家添加到该组。创建一个 IAM 角色。将 AdministratorAccess AWS 托管 IAM 策略附加到角色。将角色与组关联。将组与团队使用的每个笔记本实例关联。 答案:A 说明: AWS 又一个不清楚的问题……无论如何,我基本上选择 A,因为所有其他选项都不适用或不清楚。 A. 是的,这很有道理 B. 不,您无法将组分配(又称关联)到笔记本实例 C. 不,有两个原因:AdministratorAccess 策略过于宽泛(违反最小特权原则),您无法将 IAM 用户分配给笔记本实例 D. 不,有很多原因:AdministratorAccess 策略过于宽泛,不清楚将角色关联到组意味着什么(也许组有权承担角色……)并且您无法将组分配给笔记本 86 / 100 86. No.15 一家公司在生产中部署了一个 XGBoost 预测模型,以预测客户是否有可能取消订阅。该公司使用 Amazon SageMaker Model Monitor 来检测 F1 分数的偏差。 在对模型质量进行基线分析时,该公司记录了 F1 分数的阈值。几个月没有变化后,模型的 F1 分数显着下降。 F1 分数降低的原因可能是什么? A. 用于预测的底层客户数据中发生了概念漂移。 B. 该模型不够复杂,无法捕获原始基线数据中的所有模式。 C. 原始基线数据存在缺失值的数据质量问题。 D. 在计算基线期间向 Model Monitor 提供了错误的地面实况标签。 答案:A 说明: 概念漂移:当用于预测的数据的统计属性随时间变化时发生,导致模型在当前数据上表现不佳。 为什么不选择其他选项? B. 如果模型复杂度不够,问题会在初始评估或基线分析期间被发现,而不是在几个月的稳定性能之后。 C. 数据质量问题会在部署后立即影响模型的性能,而不是几个月后。 D. 基线计算过程中的错误标签可能导致基线 F1 分数不准确,但这无法说明几个月稳定性能之后的大幅下降。 87 / 100 87. No.14 一位 ML 工程师正在 AWS 上开发欺诈检测模型。训练数据集包括来自本地 MySQL 数据库的交易日志、客户资料和表。交易日志和客户资料存储在 Amazon S3 中。 数据集存在类不平衡,影响模型算法的学习。此外,许多特征具有相互依赖性。该算法并未捕获数据中所有所需的底层模式。 ML 工程师需要使用 Amazon SageMaker 内置算法来训练模型。 ML 工程师应使用哪种算法来满足此要求? A. LightGBM B. 线性学习器 C. К-均值聚类 D. 神经主题模型 (NTM) 答案:A 说明: A. LightGBM:处理类别不平衡;捕获特征相互依赖性;对复杂模式进行建模。 B. 线性学习器:相互依赖的特征有限;难以处理复杂模式;适用于线性关系。 C. K-均值聚类:无监督算法;不适合分类;无法处理类别不平衡。 D. 神经主题模型 (NTM):专为主题建模而设计;不适合欺诈检测;无法解决类别不平衡问题。 88 / 100 88. No.13 一位 ML 工程师正在 AWS 上开发欺诈检测模型。训练数据集包括来自本地 MySQL 数据库的交易日志、客户资料和表。交易日志和客户资料存储在 Amazon S3 中。 数据集存在类别不平衡问题,这会影响模型算法的学习。此外,许多功能具有相互依赖性。算法没有捕获数据中所有所需的底层模式。 在 ML 工程师训练模型之前,ML 工程师必须解决数据不平衡的问题。 哪种解决方案可以以最少的运营工作量满足此要求? A. 使用 Amazon Athena 识别导致不平衡的模式。相应地调整数据集。 B. 使用 Amazon SageMaker Studio Classic 内置算法处理不平衡的数据集。 C. 使用 AWS Glue DataBrew 内置功能对少数类进行过采样。 D. 使用 Amazon SageMaker Data Wrangler 平衡数据操作对少数类进行过采样。 答案:D 说明: https://aws.amazon.com/blogs/machine-learning/balance-your-data-for-machine-learning-with-amazon-sagemaker-data-wrangler/ Glue DataBrew 和 Data Wrangler 都允许使用无代码/低代码(即低操作工作量)为 ML 准备数据。但是,Data Wrangler 提供了用于平衡数据集的内置转换(随机过采样、随机欠采样和 smote)https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-transform.html#data-wrangler-transform-balance-data,而 DataBrew 没有提供用于平衡数据集的内置配方步骤,实际上它提供了一组较小的数据科学配方步骤,仅限于二值化、桶化、分类映射、独热编码、缩放、倾斜和标记化https://docs.aws.amazon.com/databrew/latest/dg/recipe-actions.data-science.html 89 / 100 89. No.12 ML 工程师正在 AWS 上开发欺诈检测模型。训练数据集包括来自本地 MySQL 数据库的交易日志、客户配置文件和表。交易日志和客户配置文件存储在 Amazon S3 中。 数据集的类不平衡会影响模型算法的学习。此外,许多功能具有相互依赖性。该算法没有捕获数据中所有所需的底层模式。 训练数据集包括分类数据和数值数据。ML 工程师必须准备训练数据集以最大限度地提高模型的准确性。 哪种操作可以以最少的运营开销满足此要求? A. 使用 AWS Glue 将分类数据转换为数值数据。 B. 使用 AWS Glue 将数值数据转换为分类数据。 C. 使用 Amazon SageMaker Data Wrangler 将分类数据转换为数值数据。 D. 使用 Amazon SageMaker Data Wrangler 将数值数据转换为分类数据。 答案:C 说明: https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-transform.html Data Wrangler 可用于编码分类数据,即为类别创建数值表示的过程。分类编码将字符串格式的分类数据编码为整数数组。Data Wrangler 支持序数和独热编码,以及相似性编码(更高级)。 https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-transform.html#data-wrangler-transform-cat-encode AWS Glue 还提供了用于 One Hot Encoding 和 Categorical Mapping 的数据科学配方步骤。 https://docs.aws.amazon.com/databrew/latest/dg/recipe-actions.data-science.html 但是,Data Wrangler 更易于使用,具有可视化和自然语言界面,可减少运营开销 90 / 100 90. No.11 一位 ML 工程师正在 AWS 上开发欺诈检测模型。训练数据集包括来自本地 MySQL 数据库的交易日志、客户资料和表。交易日志和客户资料存储在 Amazon S3 中。 数据集的类别不平衡会影响模型算法的学习。此外,许多功能具有相互依赖性。算法没有捕获数据中所有所需的底层模式。 数据聚合后,ML 工程师必须实施解决方案来自动检测数据中的异常并可视化结果。 哪种解决方案可以满足这些要求? A. 使用 Amazon Athena 自动检测异常并可视化结果。 B. 使用 Amazon Redshift Spectrum 自动检测异常。使用 Amazon QuickSight 可视化结果。 C. 使用 Amazon SageMaker Data Wrangler 自动检测异常并可视化结果。 D. 使用 AWS Batch 自动检测异常。使用 Amazon QuickSight 可视化结果。 答案:C 说明: https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-analyses.html “Amazon SageMaker Data Wrangler 包含内置分析,可帮助您在几次点击中生成可视化和数据分析。” 这个问题很棘手,因为它让您认为您需要 Quicksight 来完成“可视化”部分。 91 / 100 91. No.10 ML 工程师正在 AWS 上开发欺诈检测模型。训练数据集包括来自本地 MySQL 数据库的交易日志、客户资料和表。交易日志和客户资料存储在 Amazon S3 中。 数据集具有类不平衡,这会影响模型算法的学习。此外,许多功能具有相互依赖性。该算法没有捕获数据中所有所需的底层模式。 哪个 AWS 服务或功能可以聚合来自各种数据源的数据? A. Amazon EMR Spark 作业 B. Amazon Kinesis 数据流 C. Amazon DynamoDB D. AWS Lake Formation 答案:D 说明: 又一个措辞不当的 AWS 认证问题。这是我的理由,问题是关于“聚合来自 S3 和本地 mysql 的数据”,我确实打算将“聚合”放在同一个地方,因此: A. 不,虽然 EMR spark 作业可以连接到 S3 和 MySQL(spark 可以连接到 mysql 数据库),但它是处理数据然后在 S3 中存储它们的更好的工具 B. 不,KDS 用于将流数据源传送到特定目的地(S3、OpenSearch...) C. 不,DynamoDB 是一个不太适合这里的 nosql db D. 是的,Lake Formation“将不同类型的结构化和非结构化数据组合到一个集中式存储库中”https://docs.aws.amazon.com/lake-formation/latest/dg/what-is-lake-formation.html 和“使用 Lake Formation,您可以使用工作流导入数据”,并且由于它基于 AWS Glue,因此它同时支持 S3 和 mysql 92 / 100 92. No.9 一位 ML 工程师正在开发一个 ML 模型来预测类似大小的房屋的价格。该模型将根据几个特征进行预测。ML 工程师将使用以下特征工程技术来估算房屋的价格: • 特征分割 • 对数变换 • 独热编码 • 标准化分布 为以下特征列表选择正确的特征工程技术。每种特征工程技术都应选择一次或根本不选择(选择三种)。 城市(名称) [选择…] -------------------------------- 选择… 特征拆分 对数变换 单热编码 标准化分布 Type_year(房屋类型和房屋建造年份) [选择…] -------------------------------- 特征拆分 对数变换 单热编码 标准化分布 建筑物大小(平方英尺或平方米) [选择…] -------------------------------- 特征拆分 对数变换 单热编码 标准化分布 答案: 城市(名称):单热编码 Type_year(房屋类型和房屋建造年份):特征拆分 建筑物大小(平方英尺或平方米):对数变换 说明: 建筑物大小(平方英尺或平方米)= 对数变换 说明:建筑物大小是一个数值特征,通常显示偏斜分布,并且可能与价格具有非线性关系。对数变换之所以适用,是因为: 它有助于使偏斜分布正常化 它有助于使大小和价格之间的关系线性化 它对于遵循指数或乘法模式的特征特别有用 房地产数据通常显示对数正态分布 93 / 100 93. No.8 一位 ML 工程师正在使用大型语言模型 (LLM) 在 Amazon Bedrock 上构建生成式 AI 应用程序。 从以下列表中为每个描述选择正确的生成式 AI 术语。每个术语应选择一次或根本不选择。 (选择三项。) • 嵌入 • 检索增强生成 (RAG) • 温度 • 标记 LLM 处理的基本数据单元的文本表示 [选择…] -------------------------------- 选择… 嵌入 检索增强生成 (RAG) 温度 标记 包含文本语义含义的高维向量 [选择…] -------------------------------- 选择… 嵌入 检索增强生成 (RAG) 温度 标记 从其他数据源丰富信息以改进生成的响应 [选择…] -------------------------------- 选择… 嵌入 检索增强生成 (RAG) 温度 标记 答案: LLM 处理的基本数据单元的文本表示:“标记” 包含文本语义含义的高维向量:“嵌入” 从其他数据源丰富信息以改进生成的响应: 「检索增强生成 (RAG)」 说明: token:表示模型用于处理和生成响应的文本单位。 temperature:控制生成输出的随机性和创造性,允许调整模型的响应样式。 embedding:将文本转换为向量表示以捕获语义含义,增强模型理解和生成连贯内容的能力。 94 / 100 94. No.7 一家公司希望在 Amazon SageMaker 上托管 ML 模型。ML 工程师正在 AWS CodePipeline 中配置持续集成和持续交付 (CL/CD) 管道以部署模型。当模型的新训练数据上传到 Amazon S3 存储桶时,管道必须自动运行。 从以下列表中选择并排序管道的正确步骤。每个步骤应选择一次或根本不选择。(选择并排序三个。) • 上传新数据时,S3 事件通知会调用管道。 • 上传新数据时,S3 生命周期规则会调用管道。 • SageMaker 使用 S3 存储桶中的数据重新训练模型。 • 管道将模型部署到 SageMaker 端点。 • 管道将模型部署到 SageMaker 模型注册表。 步骤 1:[选择…] -------------------------- 选择… 上传新数据时,S3 事件通知会调用管道。 上传新数据时,S3 生命周期规则会调用管道。 SageMaker 使用 S3 存储桶中的数据重新训练模型。 管道将模型部署到 SageMaker 端点。 管道将模型部署到 SageMaker 模型注册表。 步骤 2:[选择…] -------------------------- 选择… 上传新数据时,S3 事件通知会调用管道。 上传新数据时,S3 生命周期规则会调用管道。 SageMaker 使用 S3 存储桶中的数据重新训练模型。 管道将模型部署到 SageMaker 端点。 管道将模型部署到 SageMaker 模型注册表。 步骤 3:[选择…] -------------------------- 选择… 上传新数据时,S3 事件通知会调用管道。 上传新数据时,S3 生命周期规则会调用管道。 SageMaker 使用 S3 存储桶中的数据重新训练模型。 管道将模型部署到 SageMaker 端点。 管道将模型部署到 SageMaker 模型注册表。 答案: 步骤 1:“上传新数据时,S3 事件通知会调用管道。” 步骤 2:“SageMaker 使用 S3 存储桶中的数据重新训练模型。” 步骤 3:“管道将模型部署到 SageMaker 端点。” 说明: 前两个步骤很明显。对于最后(第三)步,有两个选择。 1. 管道将模型部署到 SageMaker 端点。 2. 管道将模型部署到 SageMaker 模型注册表。 由于问题说部署模型,因此第 1 个选项是正确的。如果我们将模型添加到模型注册表,它将只存在于目录中,但不会被部署。它需要明确部署到端点。因此 2 是正确的第三步。 95 / 100 95. No.6 ML 工程师需要使用 Amazon SageMaker Feature Store 创建和管理特征以训练模型。 从以下列表中选择并排序步骤以在 Feature Store 中创建和使用特征。每个步骤应选择一次。(选择并排序三个。) • 访问商店以构建用于训练的数据集。 • 创建特征组。 • 提取记录。 步骤 1:[选择…] -------------------------- 选择… 访问商店以构建用于训练的数据集。 创建功能组。 提取记录。 步骤 2:[选择…] -------------------------- 选择… 访问商店以构建用于训练的数据集。 创建功能组。 提取记录。 步骤 3:[选择…] -------------------------- 选择… 访问商店以构建用于训练的数据集。 创建功能组。 提取记录。 答案: 步骤 1:“创建功能组。” 步骤 2:“提取记录。” 步骤 3:“访问商店以构建用于训练的数据集。” 说明: 要使用 Amazon SageMaker Feature Store 创建和管理功能,请按照以下步骤操作: 1)创建功能组:通过定义功能组来组织功能。 2)提取记录:将数据加载到功能组中。 3)访问商店以构建训练数据集:从功能组中检索数据以准备进行模型训练。 96 / 100 96. No.5 一家公司将历史数据存储在 Amazon S3 中的 .csv 文件中。.csv 文件中只有部分行和列被填充。列未标记。 ML 工程师需要准备和存储数据,以便公司可以使用数据来训练 ML 模型。 从以下列表中选择并排序正确的步骤来执行此任务。每个步骤应选择一次或根本不选择。(选择并排序三个。) • 创建 Amazon SageMaker 批量转换作业以进行数据清理和特征工程。 • 将结果数据存储回 Amazon S3。 • 使用 Amazon Athena 推断架构和可用列。 • 使用 AWS Glue 爬虫推断架构和可用列。 • 使用 AWS Glue DataBrew 进行数据清理和特征工程。 步骤 1:[选择…] ------------------------- 选择… 创建 Amazon SageMaker 批量转换作业以进行数据清理和特征工程。 将结果数据存储回 Amazon S3。 使用 Amazon Athena 推断架构和可用列。 使用 AWS Glue 爬虫推断架构和可用列。 使用 AWS Glue DataBrew 进行数据清理和特征工程。 步骤 2:[选择…] -------------------------- 选择… 创建 Amazon SageMaker 批量转换作业以进行数据清理和特征工程。 将结果数据存储回 Amazon S3。 使用 Amazon Athena 推断模式和可用列。 使用 AWS Glue 爬虫推断模式和可用列。 使用 AWS Glue DataBrew 进行数据清理和特征工程。 步骤 3:[选择…] -------------------------- 选择… 创建 Amazon SageMaker 批量转换作业以进行数据清理和特征工程。 将结果数据存储回 Amazon S3。 使用 Amazon Athena 推断模式和可用列。 使用 AWS Glue 爬虫推断模式和可用列。 使用 AWS Glue DataBrew 进行数据清理和特征工程。 答案: 步骤 1:使用 AWS Glue 爬虫推断模式和可用列。 步骤 2:使用 AWS Glue DataBrew 进行数据清理和特征工程。 步骤 3:将结果数据存储回 Amazon S3。 说明: 步骤顺序: 使用 AWS Glue 爬虫推断模式和可用列。 使用 AWS Glue DataBrew 进行数据清理和特征工程。 将结果数据存储回 Amazon S3。 97 / 100 97. No.4 一家公司正在使用 Amazon SageMaker 构建基于 Web 的 AI 应用程序。该应用程序将提供以下功能和特性:ML 实验、训练、中央模型注册表、模型部署和模型监控。 该应用程序必须确保在 ML 生命周期内安全且独立地使用训练数据。训练数据存储在 Amazon S3 中。 该公司需要运行按需工作流来监控从应用程序部署到实时终端的模型的偏差漂移。 哪种操作可以满足此要求? A. 配置应用程序以调用运行 SageMaker Clarify 作业的 AWS Lambda 函数。 B. 调用 AWS Lambda 函数来提取 sagemaker-model-monitor-analyzer 内置 SageMaker 映像。 C. 使用 AWS Glue Data Quality 来监控偏差。 D. 使用 SageMaker 笔记本来比较偏差。 答案:A 说明: A. 是的,Clarify 允许获取偏差 - https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-configure-processing-jobs.html B. 不,内置图像 sagemaker-model-monitor-analyzer 提供了一系列模型监控功能(约束建议、统计数据生成、针对基线的约束验证以及发出 Amazon CloudWatch 指标),但您需要 Clarify 来处理偏差 C. 不,Glue Data Quality 不会分析偏差 D. 不,从 Notebook 中您可以执行几乎所有操作,包括 Clarify Job,但是 Notebook 用于实验和模型开发,而不是用于启用实时应用程序功能 98 / 100 98. No.3 一家公司正在使用 Amazon SageMaker 构建基于 Web 的 AI 应用程序。该应用程序将提供以下功能和特性:ML 实验、训练、中央模型注册表、模型部署和模型监控。 该应用程序必须确保在 ML 生命周期内安全且独立地使用训练数据。训练数据存储在 Amazon S3 中。 公司必须实施基于手动审批的工作流程,以确保只有批准的模型才能部署到生产端点。 哪种解决方案可以满足此要求? A. 使用 SageMaker Experiments 在模型注册期间促进审批流程。 B. 在中央模型注册表上使用 SageMaker ML Lineage Tracking。为审批流程创建跟踪实体。 C. 使用 SageMaker Model Monitor 评估模型的性能并管理审批。 D. 使用 SageMaker Pipelines。注册模型版本后,使用 AWS SDK 将审批状态更改为“已批准”。 答案:D 说明: 这欺骗了我,因为选项 D 的表述不清楚: A. 不,SageMaker Experiments 允许跟踪和组织您的实验,但不允许批准模型 B. 不,SageMaker ML Lineage Tracking 允许跟踪模型谱系,但不允许批准模型 C. 不,SageMaker Model Monitor 允许监控数据质量、模型质量、偏差和特征归因 D. 是的,创建模型版本后,您通常会评估其性能,然后更新模型版本的批准状态。您可以使用 SDK、SageMaker Studio 控制台或 SageMaker AI 管道中的条件步骤来更新模型版本的批准状态 99 / 100 99. No.2 一家公司正在使用 Amazon SageMaker 构建基于 Web 的 AI 应用程序。该应用程序将提供以下功能和特性:ML 实验、训练、中央模型注册表、模型部署和模型监控。 该应用程序必须确保在 ML 生命周期内安全且独立地使用训练数据。训练数据存储在 Amazon S3 中。 该公司正在试验连续的训练作业。 公司如何最大限度地缩短这些作业的基础设施启动时间? A. 使用托管 Spot 训练。 B. 使用 SageMaker 托管热池。 C. 使用 SageMaker 训练编译器。 D. 使用 SageMaker 分布式数据并行 (SMDDP) 库。 答案:B 说明: https://docs.aws.amazon.com/sagemaker/latest/dg/train-warm-pools.html#train-warm-pools-how-it-works SageMaker 托管热池可让您在完成训练作业后保留和重用已配置的基础设施,以减少重复性工作负载(例如迭代实验或连续运行许多作业)的延迟。 100 / 100 100. No.1 一家公司正在使用 Amazon SageMaker 构建基于 Web 的 AI 应用程序。该应用程序将提供以下功能和特性:ML 实验、训练、中央模型注册表、模型部署和模型监控。 该应用程序必须确保在 ML 生命周期内安全且独立地使用训练数据。训练数据存储在 Amazon S3 中。 该公司需要使用中央模型注册表来管理应用程序中不同版本的模型。 哪种操作可以以最少的运营开销满足此要求? A. 为每个模型创建单独的 Amazon Elastic Container Registry (Amazon ECR) 存储库。 B. 使用 Amazon Elastic Container Registry (Amazon ECR) 和每个模型版本的唯一标签。 C. 使用 SageMaker 模型注册表和模型组对模型进行分类。 D. 使用 SageMaker 模型注册表和每个模型版本的唯一标签。 答案:C 说明: https://docs.aws.amazon.com/sagemaker/latest/dg/model-registry-models.html “模型组中的每个模型包都对应一个经过训练的模型。每个模型包的版本都是一个数值,从 1 开始,随着每个新模型包添加到模型组而递增。例如,如果将 5 个模型包添加到模型组,则模型包版本将为 1、2、3、4 和 5。” Your score is 0% Restart quiz ■AWS MLA-C01(CN) Q.101-114 /14 AWS MLA-C01(CN) 101-114 AWS Certified Machine Learning Engineer – Associate 认证验证在生产环境中实施机器学习工作负载并实现其运营化的技术能力。提升您的职业形象与信誉,为胜任热门机器学习岗位做好准备。 1 / 14 1. No.101 一家公司需要一个 AWS 解决方案,该解决方案将在创建模型时自动创建 ML 模型的版本。 哪种解决方案可以满足此要求? A. Amazon Elastic Container Registry (Amazon ECR) B. 来自 Amazon SageMaker Marketplace 的模型包 C. Amazon SageMaker ML Lineage Tracking D. Amazon SageMaker Model Registry 答案:Ⅾ 说明: 就是这个 2 / 14 2. No.102 一家公司需要使用检索增强生成 (RAG) 来补充在 Amazon Bedrock 上运行的开源大型语言模型 (LLM)。该公司的 RAG 数据是 Amazon S3 存储桶中的一组文档。这些文档由 .csv 文件和 .docx 文件组成。 哪种解决方案可以以最少的运营开销满足这些要求? A. 在 Amazon SageMaker Pipelines 中创建管道以生成新模型。从 Amazon Bedrock 调用新模型执行 RAG 查询。 B. 将数据转换为向量。将数据存储在 Amazon Neptune 数据库中。将数据库连接到 Amazon Bedrock。调用 Amazon Bedrock API 执行 RAG 查询。 C. 使用 Amazon SageMaker 中的 AutoML 作业微调现有 LLM。将 S3 存储桶配置为 AutoML 作业的数据源。将 LLM 部署到 SageMaker 终端节点。使用终端节点执行 RAG 查询。 D. 为 Amazon Bedrock 创建知识库。配置引用 S3 存储桶的数据源。使用 Amazon Bedrock API 执行 RAG 查询。 答案:Ⅾ 说明: D 是正确答案。 A 必须先对 csv 和 docx 文件进行矢量化。除了此选项之外,没有提及任何有关数据的信息 B 和 C 不适用于这种情况。 3 / 14 3. No.103 一家公司计划在 Amazon SageMaker 终端节点上部署用于生产推理的 ML 模型。平均推理负载大小从 100 MB 到 300 MB 不等。推理请求必须在 60 分钟或更短的时间内处理。 哪种 SageMaker 推理选项可以满足这些要求? A. 无服务器推理 B. 异步推理 C. 实时推理 D. 批量转换 答案:B 说明: 同意 B。 一般来说,实时推理支持同步请求的最大负载为 5 MB,而异步推理可以支持更大的负载,通常最大可达 5 GB。 本问题中的用例涉及 100 MB 到 300 MB 的推理负载,需要在 60 分钟内处理,异步推理是处理没有严格实时要求的大型负载的最佳选择。 4 / 14 4. No.104 ML 工程师在图像分类训练作业中注意到类别不平衡。 ML 工程师应该怎么做才能解决这个问题? A. 减小数据集的大小。 B. 转换数据集中的某些图像。 C. 对数据集应用随机过采样。 D. 对数据集应用随机数据拆分。 答案:C 说明: 正确 5 / 14 5. No.105 一家公司每天收到有关客户与其 ML 模型交互的 .csv 文件。该公司将文件存储在 Amazon S3 中,并使用这些文件重新训练模型。ML 工程师需要实施一种解决方案,在重新训练模型之前屏蔽文件中的信用卡号。 哪种解决方案可以以最少的开发工作量满足此要求? A. 在 Amazon Macie 中创建一个发现作业。配置该作业以查找和屏蔽敏感数据。 B. 创建 Apache Spark 代码以在 AWS Glue 作业上运行。使用 AWS Glue 中的敏感数据检测功能来查找和屏蔽敏感数据。 C. 创建 Apache Spark 代码以在 AWS Glue 作业上运行。对代码进行编程以执行正则表达式操作来查找和屏蔽敏感数据。 D. 创建 Apache Spark 代码以在 Amazon EC2 实例上运行。对代码进行编程以执行操作来查找和屏蔽敏感数据。 答案:A 说明: 正确 6 / 14 6. No.106 一家医疗公司正在使用 AWS 构建一种工具来为患者推荐治疗方法。该公司已从患者那里获得了健康记录和自我报告的英文文本信息。该公司需要使用这些信息来深入了解患者。 哪种解决方案可以以最少的开发工作量满足此要求? A. 使用 Amazon SageMaker 构建循环神经网络 (RNN) 来汇总数据。 B. 使用 Amazon Comprehend Medical 来汇总数据。 C. 使用 Amazon Kendra 创建快速搜索工具来查询数据。 D. 使用 Amazon SageMaker 序列到序列 (seq2seq) 算法从数据中创建文本摘要。 答案:B 说明: 正确 7 / 14 7. No.107 一家公司需要从 PDF 文档中提取实体以构建分类器模型。 哪种解决方案将在最短的时间内提取和存储实体? A. 使用 Amazon Comprehend 提取实体。将输出存储在 Amazon S3 中。 B. 使用 Amazon SageMaker 上的开源 AI 光学字符识别 (OCR) 工具提取实体。将输出存储在 Amazon S3 中。 C. 使用 Amazon Textract 提取实体。使用 Amazon Comprehend 将实体转换为文本。将输出存储在 Amazon S3 中。 D. 使用与 Amazon Augmented AI (Amazon A2I) 集成的 Amazon Textract 提取实体。将输出存储在 Amazon S3 中。 答案:C 说明: 同意 C。 通常,如果 pdf 仅包含文本,Amazon Comprehend 就足够了。由于问题没有提到 pdf 文件的确切内容。使用 Amazon Textract 提取文本,然后使用 Amazon Comprehend 进行实体提取会更安全。 8 / 14 8. No.108 一家公司共享可通过 VPN 访问的 Amazon SageMaker Studio 笔记本。该公司必须实施访问控制,以防止恶意行为者利用预签名 URL 访问笔记本。 哪种解决方案可以满足这些要求? A. 使用 aws:sourceIp IAM 策略条件设置 Studio 客户端 IP 验证。 B. 使用 aws:sourceVpc IAM 策略条件设置 Studio 客户端 VPC 验证。 C. 使用 aws:PrimaryTag IAM 策略条件设置 Studio 客户端角色终端节点验证。 D. 使用 aws:PrincipalTag IAM 策略条件设置 Studio 客户端用户终端节点验证。 答案:A 说明: A 是正确的。 https://aws.amazon.com/blogs/machine-learning/secure-amazon-sagemaker-studio-presigned-urls-part-1-foundational-infrastructure/ Studio 支持几种方法来实施访问控制以防止预签名 URL 数据泄露: 使用 IAM 策略条件 aws:sourceIp 进行客户端 IP 验证 使用 IAM 条件 aws:sourceVpc 进行客户端 VPC 验证 使用 IAM 策略条件 aws:sourceVpce 进行客户端 VPC 终端节点验证 上下文: 该公司正在使用 Amazon SageMaker Studio 笔记本。 允许通过 VPN 进行访问,这意味着用户来自已知的固定 IP 范围。 令人担忧的是通过预签名 URL 进行未经授权的访问,这可能会在受信任的网络之外使用。 为什么 aws:sourceIp 是正确的选择: IAM 策略中的 aws:sourceIp 条件允许您根据客户端的 IP 地址限制访问。 这非常适合基于 VPN 的设置,因为您知道 IP 范围。 它确保只有从允许的 IP(例如您的 VPN 子网)访问的用户才能访问 SageMaker Studio 资源,即使他们拥有有效的预签名 URL。 这直接减轻了 VPN 外部 URL 滥用的风险。 9 / 14 9. No.109 ML 工程师需要合并和转换来自两个来源的数据以重新训练现有的 ML 模型。一个数据源由存储在 Amazon S3 存储桶中的 .csv 文件组成。每个 .csv 文件包含数百万条记录。另一个数据源是 Amazon Aurora DB 集群。 合并过程的结果必须写入第二个 S3 存储桶。ML 工程师需要每周执行此合并和转换任务。 哪种解决方案可以以最少的运营开销满足这些要求? A. 每周创建一个临时 Amazon EMR 集群。使用该集群运行 Apache Spark 作业来合并和转换数据。 B. 创建每周使用 Apache Spark 引擎的 AWS Glue 作业。使用 DynamicFrame 本机操作合并和转换数据。 C. 创建每周运行 Apache Spark 代码的 AWS Lambda 函数来合并和转换数据。配置 Lambda 函数以连接到初始 S3 存储桶和 DB 集群。 D. 创建每周在 Amazon EC2 实例上运行 Apache Spark 代码的 AWS Batch 作业。配置 Spark 代码以将数据从 EC2 实例保存到第二个 S3 存储桶。 答案:B 说明: 正确 10 / 14 10. No.110 ML 工程师已将 Amazon SageMaker 模型部署到生产中的无服务器终端节点。该模型由 InvokeEndpoint API 操作调用。 生产中的模型延迟高于测试环境中的基线延迟。ML 工程师认为延迟增加是因为模型启动时间。 ML 工程师应该做什么来确认或否认这个假设? A. 安排 SageMaker 模型监控作业。观察有关模型质量的指标。 B. 安排启用 Amazon CloudWatch 指标的 SageMaker 模型监控作业。 C. 启用 Amazon CloudWatch 指标。观察 SageMaker 命名空间中的 ModelSetupTime 指标。 D. 启用 Amazon CloudWatch 指标。观察 SageMaker 命名空间中的 ModelLoadingWaitTime 指标。 答案:Ⅾ 说明: ModelLoadingWaitTime 指标 测量加载模型所需的时间 11 / 14 11. No.111 ML 工程师需要确保数据集符合个人身份信息 (PII) 的规定。ML 工程师将使用这些数据在 Amazon SageMaker 实例上训练 ML 模型。SageMaker 不得使用任何 PII。 哪种解决方案能够以最高效的方式满足这些要求? A. 使用 Amazon Comprehend DetectPiiEntities API 调用从数据中删除 PII。将数据存储在 Amazon S3 存储桶中。从 SageMaker 实例访问 S3 存储桶进行模型训练。 B. 使用 Amazon Comprehend DetectPiiEntities API 调用从数据中删除 PII。将数据存储在 Amazon Elastic File System (Amazon EFS) 文件系统中。将 EFS 文件系统挂载到 SageMaker 实例进行模型训练。 C. 使用 AWS Glue DataBrew 清除数据集中的 PII。将数据存储在 Amazon Elastic File System (Amazon EFS) 文件系统中。将 EFS 文件系统挂载到 SageMaker 实例以进行模型训练。 D. 使用 Amazon Macie 自动发现数据中的 PII。删除 PII。将数据存储在 Amazon S3 存储桶中。将 S3 存储桶挂载到 SageMaker 实例以进行模型训练。 答案:A 说明: 正确 12 / 14 12. No.112 公司必须在任何新创建的 Amazon SageMaker 笔记本实例上安装自定义脚本。 哪种解决方案可以以最少的运营开销满足此要求? A. 创建生命周期配置脚本以在创建新的 SageMaker 笔记本时安装自定义脚本。将生命周期配置附加到每个新的 SageMaker 笔记本作为创建步骤的一部分。 B. 创建包含自定义脚本的自定义 Amazon Elastic Container Registry (Amazon ECR) 映像。将 ECR 映像推送到 Docker 注册表。将 Docker 映像附加到 SageMaker Studio 域。选择要作为 SageMaker 笔记本的一部分运行的内核。 C. 创建自定义包索引存储库。使用 AWS CodeArtifact 管理自定义脚本的安装。设置 AWS PrivateLink 终端节点以将 CodeArtifact 连接到 SageMaker 实例。安装脚本。 D. 将自定义脚本存储在 Amazon S3 中。创建 AWS Lambda 函数以在新的 SageMaker 笔记本上安装自定义脚本。配置 Amazon EventBridge 以在初始化新的 SageMaker 笔记本时调用 Lambda 函数。 答案:A 说明: 正确 13 / 14 13. ★No.113 一家公司正在为电子商务应用程序构建实时数据处理管道。该应用程序生成大量点击流数据,必须近乎实时地提取、处理和可视化这些数据。该公司需要一个支持 SQL 进行数据处理和 Jupyter 笔记本进行交互式分析的解决方案。 哪种解决方案可以满足这些要求? A. 使用 Amazon Data Firehose 提取数据。创建 AWS Lambda 函数来处理数据。将处理后的数据存储在 Amazon S3 中。使用 Amazon QuickSight 可视化数据。 B. 使用 Amazon Kinesis Data Streams 提取数据。使用 Amazon Data Firehose 转换数据。使用 Amazon Athena 处理数据。使用 Amazon QuickSight 可视化数据。 C. 使用 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 提取数据。使用 AWS Glue 和 PySpark 处理数据。将处理后的数据存储在 Amazon S3 中。使用 Amazon QuickSight 可视化数据。 D. 使用 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 提取数据。使用 Amazon Managed Service for Apache Flink 处理数据。使用内置的 Flink 仪表板可视化数据。 14 / 14 14. No.114 一家医疗公司需要存储临床数据。数据包括个人身份信息 (PII) 和受保护的健康信息 (PHI)。 ML 工程师需要实施解决方案以确保 PII 和 PHI 不用于训练 ML 模型。 哪种解决方案可以满足这些要求? A. 将临床数据存储在 Amazon S3 存储桶中。在将数据用于模型训练之前,使用 AWS Glue DataBrew 屏蔽 PII 和 PHI。 B. 将临床数据上传到 Amazon Redshift 数据库。在将数据用于模型训练之前,使用内置 SQL 存储过程自动分类和屏蔽 PII 和 PHI。 C. 在将数据用于模型训练之前,使用 Amazon Comprehend 检测和屏蔽 PII。在将数据用于模型训练之前,使用 Amazon Comprehend Medical 检测和屏蔽 PHI。 D. 创建 AWS Lambda 函数来加密 PII 和 PHI。对 Lambda 函数进行编程,将加密数据保存到 Amazon S3 存储桶进行模型训练。 答案:C 说明: 正确 Your score is 0% Restart quiz