本ppt来自于4月23-25日举行的 Spark + AI 2019。本文总结 Spark 社区最近为增强 Spark 2.3 中的列存储而做的工作。列式存储被称为保持列连续性的有效格式。以前版本的 Spark 在一些地方使用了列式存储列存储,并将其作为一种内部数据结构。Spark 2.3 之前使用列式存储来读取 文件并在 SQL 中缓存这些表,但是使用了不同的内部 API 访问这些列式存储,这种差异导致表缓存的性能低效。Spark 2.3 发布了一个抽象类 作为公共 API列存储,使用 可以使得 Spark 有效地支持多个柱状存储,并提高了性能。通过 读取 Arrow 和 ORC 中的数据,而无需额外的数据转换和数据复制。

本文主要内容包括:(1)Spark 2.3 中的 是一个列式存储的公共 API,用于与其他列式存储交换数据。

(2)Spark 2.3 使用 以较低的开销交换 Arrow 和 ORC 格式的数据,并提高性能。

(3)Spark 2.3 及更高版本通过使用 提高了 的性能。

(4)Spark 2.3 及更高版本使用 进行表缓存并提高性能。

关注 技术博文微信公众号并回复spark列式存储获取本文 PPT。


限时特惠:
本站持续每日更新海量各大内部创业课程,一年会员仅需要98元,全站资源免费下载
点击查看详情

站长微信:Jiucxh

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注