列存储-Apache Spark 中内存存储演进

本ppt来自于4月23-25日举行的 Spark + AI 2019。本文总结 Spark 社区最近为增强 Spark 2.3 中的列存储而做的工作。列式存储被称为保持列连续性的有效格式。以前版本的 Spark 在一些地方使用了列式存储列存储，并将其作为一种内部数据结构。Spark 2.3 之前使用列式存储来读取文件并在 SQL 中缓存这些表，但是使用了不同的内部 API 访问这些列式存储，这种差异导致表缓存的性能低效。Spark 2.3 发布了一个抽象类作为公共 API列存储，使用可以使得 Spark 有效地支持多个柱状存储，并提高了性能。通过读取 Arrow 和 ORC 中的数据，而无需额外的数据转换和数据复制。

本文主要内容包括：（1）Spark 2.3 中的是一个列式存储的公共 API，用于与其他列式存储交换数据。

（2）Spark 2.3 使用以较低的开销交换 Arrow 和 ORC 格式的数据，并提高性能。

（3）Spark 2.3 及更高版本通过使用提高了的性能。

（4）Spark 2.3 及更高版本使用进行表缓存并提高性能。

关注技术博文微信公众号并回复spark列式存储获取本文 PPT。

限时特惠:本站持续每日更新海量各大内部创业课程，一年会员仅需要98元，全站资源免费下载
点击查看详情

站长微信:Jiucxh

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。