调整内存的使用以及Spark应用程序的垃圾回收行为已经在Spark优化指南中详细介绍。在这一节,我们重点介绍几个强烈推荐的自定义选项,它们可以减少Spark Streaming应用程序垃圾回收的相关暂停,获得更稳定的批处理时间。
StorageLevel.MEMORY_ONLY_SER
,RDD是StorageLevel.MEMORY_ONLY
)。即使保存数据为序列化形态会增加序列化/反序列化的开销,但是可以明显的减少垃圾回收的暂停。spark.streaming.unpersist
为true来更智能的去持久化(unpersist)RDD。这个配置使系统找出那些不需要经常保有的RDD,然后去持久化它们。这可以减少Spark RDD的内存使用,也可能改善垃圾回收的行为。考虑以下文档集合(users ): { "address": {"city": "Los Angeles","state": "California","pincode": "123" }, "tags": ["musi...
WHERE子句提供了一种在操作使用完全匹配时检索数据的方法。 在需要具有共享特征的多个结果的情况下,LIKE子句适应宽模式匹配...
在本章中,我们将了解各种备份加载方法。 从备份还原数据库是一个简单,有时非常长的过程。 加载数据有三个选项:LOAD DATA语句...
文档源码是用DocBook编写的,它是一种用XML定义的标记语言。在下文中,虽然术语 DocBook 和XML都被使用,但在技术上它们是不能互...