當前位置:首頁 > 公眾號精選 > 21ic電子網(wǎng)
[導讀]哈夫曼樹(Huffman)又稱為最優(yōu)二叉樹,是指對于一組帶有確定權值的葉子結點所構造的具有帶權路徑長度最短的二叉樹。 那么,這種數(shù)據(jù)結構究竟有什么用呢?我們今天就來揭曉答案。 計算機系統(tǒng)是如何存儲信息的呢? 計算機不是人,它不認識中文和英文,更不認識





哈夫曼樹(Huffman)又稱為最優(yōu)二叉樹,是指對于一組帶有確定權值的葉子結點所構造的具有帶權路徑長度最短的二叉樹。


那么,這種數(shù)據(jù)結構究竟有什么用呢?我們今天就來揭曉答案。一組漫畫告訴你,“哈夫曼編碼”是什么鬼?

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?



計算機系統(tǒng)是如何存儲信息的呢?


計算機不是人,它不認識中文和英文,更不認識圖片和視頻,它唯一“認識”的就是0(低電平)和1(高電平)。


因此,我們在計算機上看到的一切文字、圖像、音頻、視頻,底層都是用二進制來存儲和傳輸?shù)摹?/span>


一組漫畫告訴你,“哈夫曼編碼”是什么鬼?


從狹義上來講,把人類能看懂的各種信息,轉換成計算機能夠識別的二進制形式,被稱為編碼。


編碼的方式可以有很多種,我們大家最熟悉的編碼方式就屬ASCII碼了。


在ASCII碼當中,把每一個字符表示成特定的8位二進制數(shù),比如:

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?


顯然,ASCII碼是一種等長編碼,也就是任何字符的編碼長度都相等。

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?


一組漫畫告訴你,“哈夫曼編碼”是什么鬼?



為什么這么說呢?讓我們來看一個例子:


假如一段信息當中,只有A,B,C,D,E,F(xiàn)這6個字符,如果使用等長編碼,我們可以把每一個字符都設計成長度為3的二進制編碼:


一組漫畫告訴你,“哈夫曼編碼”是什么鬼?


如此一來,給定一段信息 “ABEFCDAED”,就可以編碼成二進制的 “000 001 100 101 010 011 000 100 011”,編碼總長度是27。


一組漫畫告訴你,“哈夫曼編碼”是什么鬼?


但是,這樣的編碼方式是最優(yōu)的設計嗎?如果我們讓不同的字符對應不同長度的編碼,結果會怎樣呢?比如:


一組漫畫告訴你,“哈夫曼編碼”是什么鬼?


如此一來,給定的信息 “ABEFCDAED”,就可以編碼成二進制的 “0 00 10 11 01 1 0 10 1”,編碼的總長度只有14。


一組漫畫告訴你,“哈夫曼編碼”是什么鬼?


一組漫畫告訴你,“哈夫曼編碼”是什么鬼?


一組漫畫告訴你,“哈夫曼編碼”是什么鬼?

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?



哈夫曼編碼(Huffman Coding),同樣是由麻省理工學院的哈夫曼博所發(fā)明,這種編碼方式實現(xiàn)了兩個重要目標:


1.任何一個字符編碼,都不是其他字符編碼的前綴。

2.信息編碼的總長度最小。

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?



哈夫曼編碼的生成過程是什么樣子呢?讓我們看看下面的例子:


假如一段信息里只有A,B,C,D,E,F(xiàn)這6個字符,他們出現(xiàn)的次數(shù)依次是2次,3次,7次,9次,18次,25次,如何設計對應的編碼呢?


我們不妨把這6個字符當做6個葉子結點,把字符出現(xiàn)次數(shù)當做結點的權重,以此來生成一顆哈夫曼樹:


一組漫畫告訴你,“哈夫曼編碼”是什么鬼?


這樣做的意義是什么呢?


哈夫曼樹的每一個結點包括左、右兩個分支,二進制的每一位有0、1兩種狀態(tài),我們可以把這兩者對應起來,結點的左分支當做0,結點的右分支當做1,會產(chǎn)生什么樣的結果?


一組漫畫告訴你,“哈夫曼編碼”是什么鬼?


這樣一來,從哈夫曼樹的根結點到每一個葉子結點的路徑,都可以等價為一段二進制編碼:


一組漫畫告訴你,“哈夫曼編碼”是什么鬼?


上述過程借助哈夫曼樹所生成的二進制編碼,就是哈夫曼編碼。


現(xiàn)在,我們面臨兩個關鍵的問題:


首先,這樣生成的編碼有沒有前綴問題帶來的歧義呢?答案是沒有歧義。


因為每一個字符對應的都是哈夫曼樹的葉子結點,從根結點到這些葉子結點的路徑并沒有包含關系,最終得到的二進制編碼自然也不會是彼此的前綴。


其次,這樣生成的編碼能保證總長度最小嗎?答案是可以保證。


哈夫曼樹的重要特性,就是所有葉子結點的(權重 X 路徑長度)之和最小。


放在信息編碼的場景下,葉子結點的權重對應字符出現(xiàn)的頻次,結點的路徑長度對應字符的編碼長度。


所有字符的(頻次 X 編碼長度)之和最小,自然就說明總的編碼長度最小。


一組漫畫告訴你,“哈夫曼編碼”是什么鬼?


一組漫畫告訴你,“哈夫曼編碼”是什么鬼?

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?



一組漫畫告訴你,“哈夫曼編碼”是什么鬼?

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?


       
  1. privateNode root;

  2. privateNode[] nodes;


  3. //構建哈夫曼樹

  4. publicvoid createHuffmanTree(int[] weights) {

  5. //優(yōu)先隊列,用于輔助構建哈夫曼樹

  6. Queue<Node> nodeQueue = newPriorityQueue<>();

  7. nodes = newNode[weights.length];


  8. //構建森林,初始化nodes數(shù)組

  9. for(int i=0; i<weights.length; i++){

  10. nodes[i] = newNode(weights[i]);

  11. nodeQueue.add(nodes[i]);

  12. }


  13. //主循環(huán),當結點隊列只剩一個結點時結束

  14. while(nodeQueue.size() > 1) {

  15. //從結點隊列選擇權值最小的兩個結點

  16. Node left = nodeQueue.poll();

  17. Node right = nodeQueue.poll();

  18. //創(chuàng)建新結點作為兩結點的父節(jié)點

  19. Node parent = newNode(left.weight + right.weight, left, right);

  20. nodeQueue.add(parent);

  21. }

  22. root = nodeQueue.poll();

  23. }


  24. //輸入字符下表,輸出對應的哈夫曼編碼

  25. publicString convertHuffmanCode(int index) {

  26. return nodes[index].code;

  27. }


  28. //用遞歸的方式,填充各個結點的二進制編碼

  29. publicvoid encode(Node node, String code){

  30. if(node == null){

  31. return;

  32. }

  33. node.code = code;

  34. encode(node.lChild, node.code+"0");

  35. encode(node.rChild, node.code+"1");

  36. }


  37. publicstaticclassNodeimplementsComparable<Node>{

  38. int weight;

  39. //結點對應的二進制編碼

  40. String code;

  41. Node lChild;

  42. Node rChild;


  43. publicNode(int weight) {

  44. this.weight = weight;

  45. }


  46. publicNode(int weight, Node lChild, Node rChild) {

  47. this.weight = weight;

  48. this.lChild = lChild;

  49. this.rChild = rChild;

  50. }


  51. @Override

  52. publicint compareTo(Node o) {

  53. returnnewInteger(this.weight).compareTo(newInteger(o.weight));

  54. }

  55. }


  56. publicstaticvoid main(String[] args) {

  57. char[] chars = {'A','B','C','D','E','F'};

  58. int[] weights = {2,3,7,9,18,25};

  59. HuffmanCode huffmanCode = newHuffmanCode();

  60. huffmanCode.createHuffmanTree(weights);

  61. huffmanCode.encode(huffmanCode.root, "");

  62. for(int i=0; i<chars.length; i++){

  63. System.out.println(chars[i] +":"+ huffmanCode.convertHuffmanCode(i));

  64. }

  65. }



這段代碼中,Node類增加了一個新字段code,用于記錄結點所對應的二進制編碼。


當哈夫曼樹構建之后,就可以通過遞歸的方式,從根結點向下,填充每一個結點的code值。

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?



—————END—————




作者:小灰

來源:程序員小灰


推薦閱讀

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?

你和大牛工程師之間到底差了啥?
加入技術交流群,與高手面對面 
添加管理員微信
一組漫畫告訴你,“哈夫曼編碼”是什么鬼?
加入“中國電子網(wǎng)微信群”交流

一組漫畫告訴你,“哈夫曼編碼”是什么鬼?
具體加群詳情請戳

免責聲明:本文內容由21ic獲得授權后發(fā)布,版權歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!

21ic電子網(wǎng)

掃描二維碼,關注更多精彩內容

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉