在 AWS reInvent 2023 上,Amazon Redshift 宣布了一系列新功能,旨在增强大数据分析的能力。这些更新包括提高价格性能、零 ETL 的集成、多数据仓库写入以及创新的分析和机器学习功能,以支持各类业务需求。
在 2013 年,亚马逊网络服务通过推出 Amazon Redshift 彻底改变了数据仓库行业,这是第一个完全托管、可扩展到千兆字节级别的企业级云数据仓库。Amazon Redshift 让用户使用现有的商业智能工具高效分析大量数据变得简单和经济。相较于传统的数据仓库解决方案,Redshift 解决方案更具成本效益且灵活,减少了操作复杂性。
如今,数以万计的客户在 AWS 全球基础设施中使用 Amazon Redshift,每天处理的数据达到 Exabyte 级别,涵盖从仪表盘到自助分析、实时分析、机器学习、数据共享和货币化等多种应用场景。
“从传统本地平台迁移到 Amazon Redshift,让我们数据摄取速度提高了 88,查询速度提高了 3 倍,日常数据加载速度提高了 6 倍,显著简化了运营复杂性。”
Sunil Narayan 全球Foundries 高级分析总监
从一开始,Amazon Redshift 就致力于构建创新能力,帮助用户达到最佳性能,同时降低成本。Redshift 在价格性能方面继续领先,提供比其他云数据仓库高出 6 倍的价格性能,适用于高并发和低延迟的仪表盘应用。我们密切分析查询模式,寻找以客户为中心的创新机会。今年早些时候,我们宣布了处理字符串数据速度提升达 63 倍的能力。在 AWS reInvent 2023 上,我们引入了查询规划和执行的更多性能增强功能,例如提升的布隆过滤器、查询重写和对自动扩展中的写操作的支持。有关性能改进能力的详细信息,请查看下方公告列表。
提到价格和性能,Amazon Redshift Serverless 的新一代 AI 驱动的扩展和优化能力可为可变工作负载提供高达 10 倍的价格性能基于内部测试,且无需手动干预。自 2021 年推出以来,Redshift Serverless 已执行超过十亿次查询,为数千名客户提供数据洞察。这些新的 AI 优化使 Amazon Redshift Serverless 能够在关键维度如数据量、并发用户和查询复杂性变化时主动且自动扩展。
数据共享是 Amazon Redshift 中广泛采用的一项功能,客户每天在共享数据上运行数千万次查询。客户可以在组织和区域之间实时共享一致的数据,避免数据复制或搬迁。我们在 AWS reInvent 2023 上扩展了数据共享能力,推出多数据仓库写入的预览功能。用户可以在几次点击内开始从其他 Redshift 数据仓库向 Redshift 数据库写入数据,从而进一步推动数据协作,并根据价格和性能需求灵活扩展 ETL/数据处理工作负载的计算。
Amazon Redshift 提供行业领先的预测优化,能够持续监控用户工作负载,并通过调整数据布局和计算管理来加速性能和最大化并发能力。我们推出了多维数据布局,一种新的强大表排序机制,可以基于传入的查询过滤器例如特定区域的销售自动对数据进行排序,显著加快表扫描性能。
“通过 Aurora MySQL 的零 ETL 集成,我们实现了 Aurora MySQL 数据库和 Amazon Redshift 之间几乎实时的数据同步,构建分析环境仅需三小时,而以前需要一个月。”
Money Forward i
JOYME 利用 Amazon Redshift 的流入和其他 Amazon 服务来控制用户的财务活动,如充值、退款和奖励。
“借助 Redshift,我们能够实时查看风险对手和数据,而不是按小时统计,显著提高了业务投资回报。”
JOYME 首席技术官 PengBo Yang
构建和管理数据管道可能会带来挑战和高额成本,并导致获取交易数据用于分析的延迟。这种延迟可能导致错失商机,尤其是在交易数据的洞察在短时间内具有高度相关性的情况下。Amazon Redshift 利用 AWS 的零 ETL 方法,使数据仓库与操作数据库以及流媒体数据服务之间能够无缝互通,从而轻松高效地将数据摄取到仓库中。
今年,我们为 Amazon Aurora MySQL 和 Amazon Redshift 提供了零 ETL 集成的全面可用性,实现几乎实时分析和机器学习ML。在事务数据写入 Aurora 后的几秒钟内,该数据便可在 Amazon Redshift 中使用,您无需构建和维护复杂的数据管道进行提取、转换和加载ETL操作。
Amazon Redshift 允许客户对数据仓库和数据湖运行多种工作负载,支持各种开放文件和表格式。在 AWS reInvent 上,我们宣布支持 Apache Iceberg 表的全面可用性,从而可以轻松访问数据湖中的 Apache Iceberg 表,并在需要时与数据仓库中的数据连接。用户可以通过单击访问数据湖表,借助自动挂载的 AWS Glue 数据目录简化体验。我们还通过与 AWS Glue 统计信息集成来改善数据湖查询性能,并引入数据湖数据的物化视图增量刷新预览,以加速重复查询。
了解有关零 ETL 集成、数据湖性能增强和其他公告的更多信息。
“Amazon Redshift 是助力 Jobcase 成长的重要工具。”
Ajay Joshi Jobcase 杰出工程师
整合所有数据后,您可以轻松构建并运行近实时分析,以支持 AI/ML/生成型 AI 应用。以下是本周的一些亮点,完整公告如下。
Amazon Redshift 的查询编辑器是一个易于使用的基于 Web 的 SQL 体验,广受欢迎,用于数据探索、可视化分析和数据协作。在 AWS reInvent 上,我们在 Amazon Redshift 查询编辑器中推出了 Amazon Q 生成 SQL 功能预览,通过自然语言表述查询并获得 SQL 代码建议,简化查询创作。
Amazon Redshift ML 使客户能够使用熟悉的 SQL 命令创建、训练和部署机器学习模型。客户使用 Redshift ML 每天在数据仓库中执行超过 100 亿次预测。在 AWS reInvent 上,我们宣布支持大语言模型LLM的预览版本。您现在可以使用 Amazon SageMaker JumpStart 中的预训练开源 LLM,将 LLM 的强大能力带入分析中。
“数以百万计的公司使用 Stripe 的软件和 API 来接受支付、发送付款以及管理他们的在线业务。访问他们的 Stripe 数据是我们客户的主要需求。通过 Stripe Data Pipeline 为 Amazon Redshift 的集成,我们帮助客户轻松创建直接、可靠的数据管道,促进业务分析和报告。”

Tony Petrossian Stripe 公司工程部负责人
借助 Amazon Redshift,您可以轻松安全地共享数据并进行协作,无论您的团队或数据位于何处。我们提供了精细化权限设置、单点登录体验以及与行业高度监管的身份的支持,确保您的数据安全无虞。
我们宣布了 Amazon Redshift 与 AWS IAM 身份中心的集成,以支持在 Amazon QuickSight、Amazon Redshift 查询编辑器和 Amazon Redshift 之间传递可信身份。客户可以使用组织身份通过第三方身份提供者IdP,如 Microsoft Entra ID、Okta、Ping 和 OneLogin,享受一次性登录的便捷体验。管理员可以使用第三方身份提供者的用户和组来管理各服务之间的精细化访问,便于审计用户级别的访问。
了解更多信息:https//awsamazoncom/redshift
Neeraja Rentachintala 是 Amazon Redshift 的主要产品经理。Neeraja 拥有超过 20 年的产品愿景、战略和领导经验,在数据产品和平台方面工作。接触过数据库、数据集成、应用程序集成、人工智能/机器学习和大规模分布式系统等众多领域。
Sunaina AbdulSalah 负责 Amazon Redshift 的产品营销工作,尤其专注于向客户展示数据仓库和分析的影响。她在 B2B 技术和云计算领域拥有深厚的市场营销和 GTM 背景。工作之余,她
加速器七天试用ios
AWS周报:Amazon Q商业版符合HIPAA标准、Amazon DCV、AWS rePost代理等新动态2024年10月7日by Betty Zheng (郑予彬) on 2024年10月7日 in Amazon Bedrock Amazon Q Amazon Timestream公告 人工智能...
构建稳健的生成型人工智能应用的最佳实践关键要点在构建能够准确理解和响应用户查询的智能代理时,必须进行仔细的规划与执行。本系列文章讨论在使用 Amazon Bedrock Agents 建立生成型 AI 应用时的最佳实践,包括如何收集真实数据、定义代理的范围、架构解决方案、以及维持用户体验等方面。本篇...