您的位置：名动网 > spark内存优化 Spark Streaming内存调优

spark内存优化 Spark Streaming内存调优

2023-05-23 11:20 Spark编程指南

内存调优

调整内存的使用以及Spark应用程序的垃圾回收行为已经在Spark优化指南中详细介绍。在这一节，我们重点介绍几个强烈推荐的自定义选项，它们可以减少Spark Streaming应用程序垃圾回收的相关暂停，获得更稳定的批处理时间。

Default persistence level of DStreams：和RDDs不同的是，默认的持久化级别是序列化数据到内存中（DStream是StorageLevel.MEMORY_ONLY_SER，RDD是StorageLevel.MEMORY_ONLY）。即使保存数据为序列化形态会增加序列化/反序列化的开销，但是可以明显的减少垃圾回收的暂停。
Clearing persistent RDDs：默认情况下，通过Spark内置策略（LUR），Spark Streaming生成的持久化RDD将会从内存中清理掉。如果spark.cleaner.ttl已经设置了，比这个时间存在更老的持久化RDD将会被定时的清理掉。正如前面提到的那样，这个值需要根据Spark Streaming应用程序的操作小心设置。然而，可以设置配置选项spark.streaming.unpersist为true来更智能的去持久化（unpersist）RDD。这个配置使系统找出那些不需要经常保有的RDD，然后去持久化它们。这可以减少Spark RDD的内存使用，也可能改善垃圾回收的行为。
Concurrent garbage collector：使用并发的标记-清除垃圾回收可以进一步减少垃圾回收的暂停时间。尽管并发的垃圾回收会减少系统的整体吞吐量，但是仍然推荐使用它以获得更稳定的批处理时间。

阅读全文

声明：本站所有文章资源内容，如无特殊说明或标注，均为采集网络资源。如若本站内容侵犯了原著者的合法权益，可联系本站删除。

mongodb索引的实现原理 MongoDB 高级索引

2023-04-20 MongoDB教程

考虑以下文档集合（users ）: { "address": {"city": "Los Angeles","state": "California","pincode": "123" }, "tags": ["musi...
SQLite 简介

2023-04-30 SQLite教程

本教程帮助您了解什么是 SQLite，它与 SQL 之间的不同，为什么需要它，以及它的应用程序数据库处理方式。 SQLite是一个软件库，...
mariadb设置字符集 MariaDB like子句

2023-05-15 MariaDB教程

WHERE子句提供了一种在操作使用完全匹配时检索数据的方法。在需要具有共享特征的多个结果的情况下，LIKE子句适应宽模式匹配...
mariadb备份数据库 MariaDB 备份加载方法

2023-04-21 MariaDB教程

在本章中，我们将了解各种备份加载方法。从备份还原数据库是一个简单，有时非常长的过程。加载数据有三个选项：LOAD DATA语句...
PostgreSQL DocBook

2023-05-26 PostgreSQL DocBook

文档源码是用DocBook编写的，它是一种用XML定义的标记语言。在下文中，虽然术语 DocBook 和XML都被使用，但在技术上它们是不能互...