本ppt来自于4月23-25日举行的 Spark + AI 2019。本文总结 Spark 社区最近为增强 Spark 2.3 中的列存储而做的工作。列式存储被称为保持列连续性的有效格式。以前版本的 Spark 在一些地方使用了列式存储列存储,并将其作为一种内部数据结构。Spark 2.3 之前使用列式存储来读取 文件并在 SQL 中缓存这些表,但是使用了不同的内部 API 访问这些列式存储,这种差异导致表缓存的性能低效。Spark 2.3 发布了一个抽象类 作为公共 API列存储,使用 可以使得 Spark 有效地支持多个柱状存储,并提高了性能。通过 读取 Arrow 和 ORC 中的数据,而无需额外的数据转换和数据复制。
本文主要内容包括:(1)Spark 2.3 中的 是一个列式存储的公共 API,用于与其他列式存储交换数据。
(2)Spark 2.3 使用 以较低的开销交换 Arrow 和 ORC 格式的数据,并提高性能。
(3)Spark 2.3 及更高版本通过使用 提高了 的性能。
(4)Spark 2.3 及更高版本使用 进行表缓存并提高性能。
关注 技术博文微信公众号并回复spark列式存储获取本文 PPT。
限时特惠:本站持续每日更新海量各大内部创业课程,一年会员仅需要98元,全站资源免费下载
点击查看详情
站长微信:Jiucxh
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。