消息压缩

最近更新时间: 2025-10-11 18:10:00

背景描述

由于 Pulsar 限制消息最大为 5MB,消息体过大将会导致消息发送失败。这时需要客户端端需要将大消息进行压缩,以支持20M大小的消息体发送。

Pulsar 大消息处理

Pulsar 的消息最大限制默认是 5MB,Producer发送的消息大小超过5MB会导致消息发送失败。如果客户端发送单条消息大小超过该限制,我们可以采用如下两种方式来处理:

  • Chunk Message:Plusar 提供 Chunk Message 功能,开启 Chunk 机制时,客户端能够自动对大消息进行拆分,并保证消息的完整性,在 Consumer 能自动整合消息。
  • 压缩消息:主要是对消息数据中相同字符序列进行替换,来压缩消息的大小。Pulsar支持 LZ4、ZLIB、ZSTD、SNAPPY四种压缩算法 我们这里推荐压缩消息对大消息进行处理。

压缩算法分析比较

算法介绍

  • LZ4 LZ4是一种无损数据压缩算法,可以提供极快的压缩和解压缩速度,对于 CPU 占用少。
  • ZLIB ZLIB 压缩算法是一种常用的无损数据压缩技术,它可以有效地减少收发数据的大小,从而提高网络传输效率和网络容量。ZLIB 压缩算法是基于 Lempel-Ziv 压缩算法的一种变体,可以将原始数据压缩到原来的一半大小以下,并且支持压缩和解压缩操作。
  • ZSTD ZSTD 压缩算法是一种 Huffman 编码的压缩算法,是 LZ77 的一种变种,可以针对不同数据进行有效压缩。它是一种实时编码算法,在处理大数据时可以更快速、更高效地压缩数据。相比其他压缩算法,ZSTD在提高数据压缩率的同时兼顾压缩速度。
  • SNAPPY SNAPPY 压缩是一种无损压缩技术,它依赖于 LZ77 原理来实现压缩效果。SNAPPY 压缩的核心原理是:只要数据流找到两个字符串之间的重复,就会用一组更短的代码来表示这个字符串,这样就可以减少数据流的大小。

算法对比

压缩算法压缩比压缩速度解压速度
ZLIB 1.2.11 -12.743110MB/S400MB/S
LZ4 1.8.12.101750MB/S3700MB/S
ZSTD 1.3.4-12.877470MB/S1380MB/S
SNAPPY 1.1.42.091530MB/S1800MB/S
  • 吞吐量:LZ4 > SNAPPY > ZSTD > ZLIB
  • 压缩比:ZSTD > ZLIB > LZ4 > SNAPPY
  • 物理资源方面,SNAPPY算法占用的网络带宽最多,ZSTD算法占用的网络带宽最少

各压缩算法测试

测试结果

注意,以下测试结果仅供参考。压缩效果,需要根据具体消息体内容来验证。

消息大小消息压缩算法topic监控消息大小客户端消息压缩耗时消息发送耗时
5M随机消息体LZ4(阀值5M)9.95M31ms0.049ms
ZLIB7.26M31ms0.038ms
ZSTD8.20M31ms0.039ms
SNAPPY(阀值5M)9.70M33ms0.046ms
6M随机消息体ZLIB(阀值6M)8.71M35ms0.044ms
ZSTD(阀值6M)9.84M35ms0.046ms
20M相同消息体LZ40.16M41ms0.006ms
ZLIB0.20M42ms0.006ms
ZSTD0.01M42ms0.003ms
SNAPPY2.47M41ms0.021ms
40M相同消息体LZ40.32M123ms0.008ms
ZLIB0.39M122ms0.008ms
ZSTD0.01M124ms0.004ms
SNAPPY4.95M123ms0.036ms
80M相同消息体LZ40.63M241ms0.009ms
ZLIB0.39M244ms0.01ms
ZSTD0.01M243ms0.004ms
SNAPPY(阀值80M)9.9M243ms0.056ms
160M相同消息体LZ41.26M484ms0.013ms
ZLIB1.56M479ms0.016ms
ZSTD0.03M481ms0.004ms
320M相同消息体LZ42.5M1035ms0.03ms
ZLIB3.1M1008ms0.027ms
ZSTD0.03M949ms0.004ms
585M相同消息体LZ44.59M1705ms0.027ms
ZLIB5.67M1733ms0.03ms
ZSTD0.11M1722ms0.006ms

总结: 1、在纯随机数据流中,四种压缩算法压缩效率都不是很高。消息大小超过 5MB,四种压缩算法都无法将消息压缩到 5MB 以内; 2、在重复数据较多的数据流中,四种压缩算法可以实现很高的压缩速率,其中LZ4、ZLIB、ZSTD压缩算法可以实现将600MB内的消息压缩到5MB以内。

消息压缩 Demo 及使用测试

Demo 代码地址

使用方式

生产端调用参数 java -jar tdmq-sdk-demo-1.0-SNAPSHOT-jar-with-dependencies.jar pulsar://xxxx:6650 eyJrZXlJZCI6ImRlZmF1bHRfa2V5SWQiLCJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJzdXBlcnVzZXIifQ.dYcCfp4XrdWRKdKaWylobY-_xEExfRCi1pMvNyZXbqU pulsar-78ra8ownxb7d/BigMSGSpace/BigMSGTopic subname 1 500 0 1 20480 1 0 消费端调用参数: java -jar tdmq-sdk-demo-1.0-SNAPSHOT-jar-with-dendencies.jar pulsar://xxxx:6650 eyJrZXlJZCI6ImRlZmF1bHRfa2V5SWQiLCJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJzdXBlcnVzZXIifQ.dYcCfp4XrdWRKdKaWylobY-_xEExfRCi1pMvNyZXbqU pulsar-92d7w2mjwmv9/BigMessSpace/BigMessTopic subname 1 500 1