赫夫曼編譯碼系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

時(shí)間：2011-03-22 09:33:42

關(guān)鍵字：編譯碼 BSP 解碼數(shù)據(jù)結(jié)構(gòu)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]摘要：在信息快速傳輸和存儲(chǔ)過(guò)程中，數(shù)據(jù)壓縮有著重要的作用。從赫夫曼樹(shù)定義及算法出發(fā)，介紹了一個(gè)赫夫曼編譯碼系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)過(guò)程。這對(duì)于深入理解數(shù)據(jù)結(jié)構(gòu)、程序設(shè)計(jì)有益。關(guān)鍵詞：赫夫曼樹(shù)；赫夫曼編碼；赫

摘要：在信息快速傳輸和存儲(chǔ)過(guò)程中，數(shù)據(jù)壓縮有著重要的作用。從赫夫曼樹(shù)定義及算法出發(fā)，介紹了一個(gè)赫夫曼編譯碼系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)過(guò)程。這對(duì)于深入理解數(shù)據(jù)結(jié)構(gòu)、程序設(shè)計(jì)有益。
關(guān)鍵詞：赫夫曼樹(shù)；赫夫曼編碼；赫夫曼譯碼

    在數(shù)據(jù)結(jié)構(gòu)課程的實(shí)踐環(huán)節(jié)中，通常會(huì)讓學(xué)生利用赫夫曼編碼進(jìn)行文本壓縮與解壓縮。由于教材上只是給出了赫夫曼樹(shù)的定義及算法，學(xué)生會(huì)感到無(wú)從下手。本文將從赫夫曼樹(shù)定義及算法出發(fā)，通過(guò)實(shí)例介紹赫夫曼編譯碼系統(tǒng)的具體設(shè)計(jì)與實(shí)現(xiàn)過(guò)程。

1 設(shè)計(jì)內(nèi)容
1．1 赫夫曼編譯碼系統(tǒng)功能模塊
    (1)赫夫曼建樹(shù)模塊：根據(jù)輸入的字符和頻率，完成赫夫曼樹(shù)的構(gòu)造，并根據(jù)赫夫曼樹(shù)求赫夫曼編碼。
    (2)編碼模塊：讀取文本文件進(jìn)行編碼，編碼結(jié)果存入到新文件。
    (3)譯碼模塊：讀取編碼文件并解碼，打開(kāi)存儲(chǔ)編碼的文件，根據(jù)所讀取的編碼文件中的每個(gè)字符，利用赫夫曼樹(shù)進(jìn)行解碼。
    (4)輸出模塊：將解碼后的每個(gè)字母寫(xiě)入到一個(gè)新的文件中。
1．2 測(cè)試數(shù)據(jù)
    用表1給出的字符集和頻度的實(shí)際統(tǒng)計(jì)數(shù)據(jù)建立赫夫曼樹(shù)，并實(shí)現(xiàn)以下報(bào)文的編碼和譯碼：“THISPROGRAM IS MY FAVORITE”。

    設(shè)計(jì)調(diào)試環(huán)境為Microsoft Visual C++6．0系統(tǒng)。

2 設(shè)計(jì)原理及算法分析
    本次要做的赫夫曼編譯碼系統(tǒng)的主要功能是：運(yùn)用二叉樹(shù)來(lái)設(shè)計(jì)二進(jìn)制的前綴編碼。給一個(gè)文件，先統(tǒng)計(jì)文件中每個(gè)字符出現(xiàn)的頻數(shù)，即作為此字符的權(quán)值，然后將里面的字符編碼成相應(yīng)的赫夫曼編碼。最后，根據(jù)赫夫曼譯碼原理把所給二進(jìn)制數(shù)編譯成對(duì)應(yīng)的字符串。
2．1 構(gòu)建赫夫曼樹(shù)
    一般而言，給定n個(gè)實(shí)數(shù)w1，w2，…，w3其中，n≥2，求一個(gè)具有n個(gè)結(jié)點(diǎn)的二叉數(shù)，使其帶權(quán)路徑長(zhǎng)度最小。可以證明赫夫曼樹(shù)的帶權(quán)路徑長(zhǎng)度是最小的。
    (1)根據(jù)與n個(gè)權(quán)值|w1，w2，…，w3|對(duì)應(yīng)的n個(gè)結(jié)點(diǎn)構(gòu)成具有n棵二叉樹(shù)的森林F={HT1，HT2，…，HTn}，其中第i棵二叉樹(shù)HTi(1≤i≤n)都只有一個(gè)權(quán)值為wi的根結(jié)點(diǎn)，其左、右子樹(shù)均為空。
    (2)在森林F中選出兩棵根結(jié)點(diǎn)權(quán)值最小的樹(shù)作為一棵新樹(shù)的左、右子樹(shù)，且置新樹(shù)的根結(jié)點(diǎn)的權(quán)值為其左、右子樹(shù)上根結(jié)點(diǎn)權(quán)值之和。
    (3)從F中刪除構(gòu)成新樹(shù)的那兩棵，同時(shí)把新樹(shù)加入F中。
    (4)重復(fù)第1和第3步，直到F中只含有一棵為止，此樹(shù)便為赫夫曼樹(shù)。
2．2 赫夫曼編碼
    赫夫曼編碼是根據(jù)可變長(zhǎng)最佳編碼定理，應(yīng)用赫夫曼算法而產(chǎn)生的一種編碼，是消除編碼冗余度最常用的方法。它的平均碼字長(zhǎng)度在具有相同輸入概率集合的前提下，比其它任何一種可譯碼都小，因此，也常被稱為緊湊碼。
    (1)給定字符集的赫夫曼樹(shù)生成后，求赫夫曼編碼的具體實(shí)現(xiàn)過(guò)程是：依次以葉子HT[i](0≤i≤n-1)為出發(fā)點(diǎn)，向上回溯至根為止。上溯時(shí)走左孩子則生成代碼0，走右孩子則生成代碼1。
    (2)統(tǒng)計(jì)從根到葉子的路徑上的標(biāo)號(hào)依次相連，便為該葉子所對(duì)應(yīng)字符的編碼。
    (3)用生成的各個(gè)字符的編碼替代原文件中的相應(yīng)的字符，生成decode．txt文件。

    以下是部分編碼的代碼段

2．3 赫夫曼譯碼
    對(duì)壓縮后的數(shù)據(jù)文件進(jìn)行解碼則必須借助于赫夫曼樹(shù)，其過(guò)程是：從decode．txt文件中讀取編碼后的二進(jìn)制碼，從赫夫曼樹(shù)的根結(jié)點(diǎn)出發(fā)，若當(dāng)前為0，則向左孩子；若為1，則向右孩子。到達(dá)某一葉子結(jié)點(diǎn)時(shí)，便譯出相應(yīng)的字符。循環(huán)上步，直至解碼完成。

3 設(shè)計(jì)結(jié)果
    (1)利用Microsoft Visual C++6．0系統(tǒng)進(jìn)行調(diào)試，輸入源程序，編譯、連接后生成赫夫曼編譯碼系統(tǒng)可執(zhí)行文件，如圖1所示。
    (2)運(yùn)行赫夫曼編譯碼系統(tǒng)可執(zhí)行文件，輸入表1字符和頻度，編譯碼后得到運(yùn)行結(jié)果，如圖2所示。

4 結(jié)束語(yǔ)
赫夫曼編碼是已被證明的一種有效的熵編碼方式，在諸如文本、圖像、視頻壓縮及通信、密碼等信息壓縮編碼標(biāo)準(zhǔn)中被廣泛使用。目前廣泛應(yīng)用的許多其他高效數(shù)據(jù)壓縮算法，例如算術(shù)編碼、可預(yù)測(cè)編碼也是在赫夫曼編碼的基礎(chǔ)上發(fā)展起來(lái)的，所以研究赫夫曼編碼的思想，對(duì)于深入理解數(shù)據(jù)結(jié)構(gòu)、程序設(shè)計(jì)學(xué)科中的相關(guān)課題有益。