霍夫曼树
背景
对于文本”BADCADFEED”的传输而言,因为重复出现的只有
”ABCDEF”这6个字符,因此可以用下面的方式编码:
接收方可以根据每3个bit进行一次字符解码的方式还原文本信息。但这样的编码方式需要30个bit位才能表示10个字符
那么当传输一篇500个字符的情报时,需要15000个bit位
在战争年代,这种编码方式对于情报的发送和接受是很低效且容易出错的。
如何提高收发效率?
要提高效率,必然要从编码方式的改进入手,要避免每个字符都占用相同的bit位
准则:任一字符的编码都不是另一个字符编码的前缀!
构建过程
1.给定n个数值{ v1, v2, …, vn}
2.根据这n个数值构造二叉树集合F
F = { T1, T2, …, Tn}
Ti的数据域为vi,左右子树为空
3.在F中选取两棵根结点的值最小的树作为左右子树构造一棵新的二叉树,这棵二叉树的根结点中的值为左右子树根结点中的值之和
4.在F中删除这两棵子树,并将构造的新二叉树加入F中
5.重复3和4,直到F中只剩下一个树为止。这棵树即霍夫曼树
示例
假设经过统计ABCDEF在需要传输的报文中出现的概率如下
- 霍夫曼树是一种特殊的二叉树
- 霍夫曼树应用于信息编码和数据压缩领域
- 霍夫曼树是现代压缩算法的基础
相关阅读
1. 霍夫曼树的基本要点判定过程最优的二叉树是霍夫曼树。路径:树中一个结点到另一个结点之间的分支构成这两个结点之间