霍夫曼树
1. 霍夫曼树的基本要点
判定过程最优的二叉树是霍夫曼树。
路径:树中一个结点到另一个结点之间的分支构成这两个结点之间的路径。
路径长度:路径上的分支数目称为路径长度。
树的路径长度:从根结点到每一个叶子结点的路径长度之和就是这棵树的路径长度。
带权值的路径长度:如果树中每一个叶子结点都带有一个权值,则把树中所有叶子的带权路径长度之和称为树的带权路径长度。
树的带权值路径长度:
带权路径最小的二叉树就是判定过程最优二叉树,即霍夫曼二叉树。其中,权值越大的叶子结点越接近根结点。
2. word2vec中霍夫曼树的实现
其中,count存各个词的词频,就是叶子结点的权值;binary存霍夫曼编码,parent_node存各父结点的位置。由于满二叉树的节点数m=2n-1, n为叶子结点数,所以以上3个数组的元素个数均为2*vocab_size-1.前n个存叶子结点,后n-1个存父结点。
具体步骤:
以后各次循环如步骤2,直到2n-1也被赋值,整棵树建立完成。
程序如下:
void CreateBinaryTree() {
long long a, b, i, min1i, min2i, pos1, pos2, point[MAX_CODE_LENGTH];
char code[MAX_CODE_LENGTH];
long long *count = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long)); //节点的权重,叶子节点的权重为cn,父节点的权重为其子结点权重和。
long long *binary = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long)); //表明左右结点,左结点为0,右节点为1.
long long *parent_node = (long long *)calloc(vocab_size * 2 + 1, sizeof(long long)); //父结点。
for (a = 0; a < vocab_size; a++) count[a] = vocab[a].cn;
for (a = vocab_size; a < vocab_size * 2; a++) count[a] = 1e15;
pos1 = vocab_size - 1;
pos2 = vocab_size;
// Following algorithm constructs the Huffman tree by adding one node at a time
for (a = 0; a < vocab_size - 1; a++) {
// First, find two smallest nodes 'min1, min2'
if (pos1 >= 0) {
if (count[pos1] < count[pos2]) { //根据词频来确定位置 词频作为权值?
min1i = pos1;
pos1--;
} else {
min1i = pos2;
pos2++;
}
} else {
min1i = pos2;
pos2++;
}
if (pos1 >= 0) {
if (count[pos1] < count[pos2]) {
min2i = pos1;
pos1--;
} else {
min2i = pos2;
pos2++;
}
} else {
min2i = pos2;
pos2++;
}
count[vocab_size + a] = count[min1i] + count[min2i]; //把权值赋给父结点
parent_node[min1i] = vocab_size + a; //定义上面两点的父结点。
parent_node[min2i] = vocab_size + a;
binary[min2i] = 1; //给右结点贴标签。
}
// Now assign binary code to each vocabulary word
for (a = 0; a < vocab_size; a++) {
b = a;
i = 0;
while (1) {
code[i] = binary[b]; //code存huffman编码。
point[i] = b; //point专门存父结点
i++;
b = parent_node[b];
if (b == vocab_size * 2 - 2) break;
}
vocab[a].codelen = i; //huffman编码的长度。 code和codelen可以用于定位词的位置。
vocab[a].point[0] = vocab_size - 2;
for (b = 0; b < i; b++) { //将每个词对应的huffman路径写到point里。
vocab[a].code[i - b - 1] = code[b];
vocab[a].point[i - b] = point[b] - vocab_size; //每个结点都存入其所有的父结点的位置。
}
}
free(count);
free(binary);
free(parent_node);
}