新闻动态

  • 首页 新闻动态 使用托管在 Amazon Bedrock 上的多模态基础模型与您的幻灯片进行对话

使用托管在 Amazon Bedrock 上的多模态基础模型与您的幻灯片进行对话

2026-01-27 13:07:44
23

使用Amazon Bedrock与多模态基础模型进行Slide Deck对话

关键要点

在本文中,我们介绍了一种新的方法,利用Amazon Bedrock上的Claude 3 Sonnet模型来生成幻灯片的文本描述,并通过这些描述回答用户问题。这一过程包括获取幻灯片的文本嵌入并存储在向量数据库中,最后使用Claude模型生成响应。下文中,我们还讨论了整个方案的实施步骤和用户交互架构。

在系列的第一部分中,我们展示了如何使用Amazon Titan多模态嵌入模型将幻灯片转换为嵌入并使用LLaVA模型生成响应。在本文中,我们比较了两种方法,这将为后续的第三部分提供结果分析。

解决方案概述

本解决方案实现了基于幻灯片中的文本和视觉元素回答问题的功能。它依赖于检索增强生成RAG的概念,传统上用于大型语言模型处理的文本数据,而在本系列中对此扩展以包括图片,允许强大的搜索功能从视觉内容中提取相关信息。

组件

组件名称说明Amazon Titan文本嵌入模型将自然语言文本转化为数值表示,用于搜索、个性化等场景。Claude 3 SonnetAnthropic发布的下一代模型,支持复杂推理和快速输出。OpenSearch Serverless用于存储由Titan模型生成的嵌入的无服务器向量数据库。Amazon OpenSearch Ingestion (OSI)完全托管的无服务器数据收集器,将数据传送到OpenSearch Service域。

该解决方案包括两个主要部分:数据摄取ingestion和用户交互。在数据摄取阶段,我们将每个幻灯片转换为图像,生成描述和文本嵌入,并将其存储在向量数据库中。在用户交互阶段,用户问题被转化为文本嵌入,匹配相关幻灯片描述,然后利用Claude 3 Sonnet模型生成响应。

用户交互架构

用户交互的工作流程如下:

用户提交与幻灯片相关的问题。将用户输入转化为嵌入,通过OpenSearch进行相似度搜索找出相关描述。结合用户问题与幻灯片描述生成提示,提交给Claude 3 Sonnet。将结果返回给用户。

前提条件

实现本文提供的解决方案,您应具备AWS账户以及对FMs、Amazon Bedrock、SageMaker和OpenSearch Service的熟悉度。

使用托管在 Amazon Bedrock 上的多模态基础模型与您的幻灯片进行对话

确保已在Amazon Bedrock控制台上启用Claude 3 Sonnet和Titan文本嵌入模型的使用。

使用AWS CloudFormation创建解决方案栈

可以使用AWS CloudFormation创建此解决方案栈。如您已经在同一AWS账户中创建了第一部分的解决方案,在创建此栈之前需要先删除该方案。

AWS区域链接useast1创建栈uswest2创建栈

栈创建完成后,请在AWS CloudFormation控制台的Outputs选项卡中记录MultimodalCollectionEndpoint和OpenSearchPipelineEndpoint的值。

飞机加速器app下载

测试解决方案

完成CloudFormation栈的创建后,可以进行测试。按照以下步骤操作:

在SageMaker控制台中选择Notebooks。选择MultimodalNotebookInstance并打开JupyterLab。浏览到notebooks文件夹,查看相应的notebooks和支持文件。选择1dataprepipynb,运行其中的所有单元格。然后选择2dataingestionipynb,再次运行所有单元格以生成索引并存储嵌入。选择3raginferenceipynb,通过运行所有单元格实现RAG解决方案,最终通过Claude 3 Sonnet生成用户问题的答案。

结果示例

以下是用户提问与相应生成结果的示例表格:

问题回答图像Inf2与可比EC2实例在性能上如何比较?需要数据。根据摘要提供的信息,Inf2实例具有更高的吞吐量和更低的延迟。AWS的AI/ML服务提供了什么?AWS的AI/ML服务支持创新并推动广泛应用,形成持续循环的研发与优化。GPT2与GPT3之间参数差异是多少?GPT3拥有1750亿参数,GPT2则为15亿,因此两者的数值差异为1735亿。

结论

通过本方案,企业能够从幻灯片中挖掘信息,利用多模态基础模型等技术发现新的视角和内容。请继续关注系列的第三部分,我们将比较第一部分和第二部分的方法。

部分代码遵循Apache 20 许可。

使用 Amazon Bedrock 代理构建稳健的生成式 AI 应用程序最佳实践  第 1 部分

构建稳健的生成型人工智能应用的最佳实践关键要点在构建能够准确理解和响应用户查询的智能代理时,必须进行仔细的规划与执行。本系列文章讨论在使用 Amazon Bedrock Agents 建立生成型 AI 应用时的最佳实践,包括如何收集真实数据、定义代理的范围、架构解决方案、以及维持用户体验等方面。本篇...



如何医疗保险支付方和计划通过生成式人工智能赋能会员 机器学习博客

如何利用生成性 AI 赋能医疗保健支付者和计划成员作者:Sachin Jain Sanjoy Thanneer 和 Sukhomoy Basak日期:2024 年 9 月 12 日原文链接 关键要点生成性 AI 可以帮助医疗保险计划成员以自然语言获取所需信息,缓解复杂会员门户带来的困扰。传统用户界面...