Aufgaben:Aufgabe 2.7Z: Huffman-Codierung für Zweiertupel einer Ternärquelle: Unterschied zwischen den Versionen

Version vom 28. September 2018, 14:08 Uhr

Huffman–Baum für Ternärquelle

Wir betrachten den gleichen Sachverhalt wie in der Aufgabe A2.7: Der Huffman–Algorithmus führt zu einem besseren Ergebnis, das heißt zu einer kleineren mittleren Codewortlänge $L_{\rm M}$, wenn man ihn nicht auf einzelne Symbole anwendet, sondern vorher $k$–Tupel bildet. Dadurch erhöht man den Symbolumfang von $M$ auf $M' = M^k$.

Für die hier betrachtete Nachrichtenquelle gilt:

Symbolumfang: $M = 3$,
Symbolvorrat: $\{$ $\rm X$, $\rm Y$, $\rm Z$ $\}$,
Wahrscheinlichkeiten: $p_{\rm X} = 0.7$, $p_{\rm Y} = 0.2$, $p_{\rm Z} = 0.1$,
Entropie: $H = 1.157 \ \rm bit/Ternärsymbol$.

Die Grafik zeigt den Huffman–Baum, wenn man den Huffman–Algorithmus auf Einzelsymbole anwendet, also den Fall $k= 1$. In der Teilaufgabe (2) sollen Sie den entsprechenden Huffman–Code angeben, wenn vorher Zweiertupel gebildet werden $(k=2)$.

Hinweise:

Die Aufgabe gehört zum Kapitel Entropiecodierung nach Huffman.
Insbesondere wird auf die Seite Anwendung der Huffman-Codierung auf k-Tupel Bezug genommen.
Eine vergleichbare Aufgabenstellung mit binären Eingangssymbolen wird in der Aufgabe 2.7 behandelt.
Bezeichnen Sie die möglichen Zweiertupel mit $\rm XX = A$, $\rm XY = B$, $\rm XZ = C$, $\rm YX = D$, $\rm YY = E$, $\rm YZ = F$, $\rm ZX = G$, $\rm ZY = H$, $\rm ZZ = I$.

Fragebogen

$\underline{k=1}\text{:} \hspace{0.25cm}L_{\rm M} \ = \ $

$\ \rm bit/Quellensymbol$

$p_{\rm A} = \rm Pr(XX)\ = \ $

$p_{\rm B} = \rm Pr(XY)\ = \ $

$p_{\rm C} = \rm Pr(XZ)\ = \ $

$\underline{k=2}\text{:} \hspace{0.25cm}L_{\rm M} \ = \ $

$\ \rm bit/Quellensymbol$

	$L_{\rm M}$ fällt monoton mit steigendem $k$ ab.
	$L_{\rm M}$ ändert sich nicht, wenn man $k$ erhöht.
	Für $k= 3$ erhält man $L_{\rm M} = 1.05 \ \rm bit/Quellensymbol$.

Musterlösung

(1) Die mittlere Codewortlänge ergibt sich mit $p_{\rm X} = 0.7$, $L_{\rm X} = 1$, $p_{\rm Y} = 0.2$, $L_{\rm Y} = 2$, $p_{\rm Z} = 0.1$, $L_{\rm Z} = 2$ zu

$$L_{\rm M} = p_{\rm X} \cdot 1 + (p_{\rm Y} + p_{\rm Z}) \cdot 2 \hspace{0.15cm}\underline{= 1.3\,\,{\rm bit/Quellensymbol}}\hspace{0.05cm}. $$

Dieser Wert liegt noch deutlich über der Quellenentropie $H = 1.157$ bit/Quellensymbol.

(2) Es gibt $M' = M^k = 3^2$ = 9 Zweiertupel mit folgenden Wahrscheinlichkeiten:

Huffman–Baum für Ternärquelle und Zweiertupel

$$p_{\rm A} = \rm Pr(XX) = 0.7 \cdot 0.7\hspace{0.15cm}\underline{= 0.49},$$

$$p_{\rm B} = \rm Pr(XY) = 0.7 \cdot 0.2\hspace{0.15cm}\underline{= 0.14},$$

$$p_{\rm C} = \rm Pr(XZ) = 0.7 \cdot 0.1\hspace{0.15cm}\underline{= 0.07},$$

$$p_{\rm D} = \rm Pr(YX) = 0.2 \cdot 0.7 = 0.14,$$

$$p_{\rm E} = \rm Pr(YY) = 0.2 \cdot 0.2 = 0.04,$$

$$p_{\rm F} = \rm Pr(YZ) = 0.2 \cdot 0.1 = 0.02,$$

$$p_{\rm G} = \rm Pr(ZX) = 0.1 \cdot 0.7 = 0.07,$$

$$p_{\rm H} = \rm Pr(ZY) = 0.1 \cdot 0.2 = 0.02,$$

$$p_{\rm I} = \rm Pr(ZZ) = 0.1 \cdot 0.1 = 0.01.$$

(3) Die Grafik zeigt den Huffman–Baum für die Anwendung mit $k = 2$.

Damit erhält man

für die einzelnen Zweiertupels folgende Binärcodierungen:

$\rm XX = A$ → 0, $\rm XY = B$ → 111, $\rm XZ = C$ → 1011,

$\rm YX = D$ → 110, $\rm YY = E$ → 1000, $\rm YZ = F$ → 10010,

$\rm ZX = G$ → 1010, $\rm ZY = H$ → 100111, $\rm ZZ =I$ → 100110.

für die mittlere Codewortlänge:

$$L_{\rm M}\hspace{0.01cm}' =0.49 \cdot 1 + (0.14 + 0.14) \cdot 3 + (0.07 + 0.04 + 0.07) \cdot 4 + 0.02 \cdot 5 + (0.02 + 0.01) \cdot 6 = 2.33\,\,{\rm bit/Zweiertupel}$$

$$\Rightarrow\hspace{0.3cm}L_{\rm M} = {L_{\rm M}\hspace{0.01cm}'}/{2}\hspace{0.15cm}\underline{ = 1.165\,\,{\rm bit/Quellensymbol}}\hspace{0.05cm}.$$

(4) Richtig ist die Aussage 1, auch wenn $L_{\rm M}$ mit wachsendem $k$ nur sehr langsam abfällt.

Die letzte Aussage ist falsch, da $L_{\rm M}$ auch für $k → ∞$ nicht kleiner sein kann als $H = 1.157$ bit/Quellensymbol.
Aber auch die zweite Aussage ist nicht unbedingt richtig: Da mit $k = 2$ weiterhin $L_{\rm M} > H$ gilt, kann $k = 3$ zu einer weiteren Verbesserung führen.

@@ Zeile 61: / Zeile 61: @@
 '''(1)'''&nbsp; Die mittlere Codewortlänge ergibt sich mit &nbsp;$p_{\rm X} = 0.7$, &nbsp;$L_{\rm X} = 1$, &nbsp;$p_{\rm Y} = 0.2$, &nbsp;$L_{\rm Y} = 2$, &nbsp;$p_{\rm Z} = 0.1$, &nbsp;$L_{\rm Z} = 2$ zu
 :$$L_{\rm M} = p_{\rm X} \cdot 1 + (p_{\rm Y} + p_{\rm Z}) \cdot 2 \hspace{0.15cm}\underline{= 1.3\,\,{\rm bit/Quellensymbol}}\hspace{0.05cm}. $$
-Dieser Wert liegt noch deutlich über der Quellenentropie <i>H</i> = 1.157 bit/Quellensymbol.
+Dieser Wert liegt noch deutlich über der Quellenentropie $H = 1.157$ bit/Quellensymbol.
-'''(2)'''&nbsp; Es gibt <i>M</i><sup>&nbsp;</sup>&prime; = <i>M</i><sup>&nbsp;2</sup> = 3<sup>2</sup> = 9 Zweiertupel mit folgenden Wahrscheinlichkeiten:
+'''(2)'''&nbsp; Es gibt $M' = M^k = 3^2$ = 9 Zweiertupel mit folgenden Wahrscheinlichkeiten:
-: &nbsp; &nbsp;  <i>p</i><sub>A</sub> = Pr(<b>XX</b>) <u>= 0.49</u>,&nbsp;&nbsp;&nbsp;<i>p</i><sub>B</sub> = Pr(<b>XY</b>) <u>= 0.14</u>,&nbsp;&nbsp;&nbsp; <i>p</i><sub>C</sub> = Pr(<b>XZ</b>) <u>= 0.07</u>,
+[[Datei:P_ID2459__Inf_Z_2_7c.png|right|frame|Huffman–Baum für Ternärquelle und Zweiertupel]]
-: &nbsp; &nbsp;  <i>p</i><sub>D</sub> = Pr(<b>YX</b>) = 0.14,&nbsp;&nbsp;&nbsp; <i>p</i><sub>E</sub> = Pr(<b>YY</b>) = 0.04,&nbsp;&nbsp;&nbsp; <i>p</i><sub>F</sub> = Pr(<b>YZ</b>) = 0.02,
+:$$p_{\rm A} = \rm Pr(XX) = 0.7 \cdot 0.7\hspace{0.15cm}\underline{= 0.49},$$
-: &nbsp; &nbsp;  <i>p</i><sub>G</sub> = Pr(<b>YX</b>) = 0.07,&nbsp;&nbsp;&nbsp; <i>p</i><sub>H</sub> = Pr(<b>YY</b>) = 0.02,&nbsp;&nbsp;&nbsp; <i>p</i><sub>I</sub> = Pr(<b>YZ</b>) = 0.01.
+:$$p_{\rm B} = \rm Pr(XY) = 0.7 \cdot 0.2\hspace{0.15cm}\underline{= 0.14},$$
+:$$p_{\rm C} = \rm Pr(XZ) = 0.7 \cdot 0.1\hspace{0.15cm}\underline{= 0.07},$$
+:$$p_{\rm D} = \rm Pr(YX) = 0.2 \cdot 0.7 = 0.14,$$
+:$$p_{\rm E} = \rm Pr(YY) = 0.2 \cdot 0.2 = 0.04,$$
+:$$p_{\rm F} = \rm Pr(YZ) = 0.2 \cdot 0.1 = 0.02,$$
+:$$p_{\rm G} = \rm Pr(ZX) = 0.1 \cdot 0.7 = 0.07,$$
+:$$p_{\rm H} = \rm Pr(ZY) = 0.1 \cdot 0.2 = 0.02,$$
+:$$p_{\rm I} = \rm Pr(ZZ) = 0.1 \cdot 0.1 = 0.01.$$
-'''(3)'''&nbsp; Die Grafik zeigt den Huffman&ndash;Baum für die Anwendung mit <i>k</i> = 2.
+'''(3)'''&nbsp; Die Grafik zeigt den Huffman&ndash;Baum für die Anwendung mit $k = 2$.
-[[Datei:P_ID2459__Inf_Z_2_7c.png|Huffman–Baum für Ternärquelle und Zweiertupel]]
 Damit erhält man
 * für die einzelnen Zweiertupels folgende Binärcodierungen: <br>
-:  &nbsp; &nbsp;  <b>XX</b> = <b>A</b> &#8594; <b>0</b>,&nbsp;&nbsp;&nbsp;<b>XY</b> = <b>B</b> &#8594; <b>111</b>,&nbsp;&nbsp;&nbsp;<b>XZ</b> = <b>C</b> &#8594; <b>1011</b>,&nbsp;&nbsp;&nbsp; <b>YX</b> = <b>D</b> &#8594; <b>110</b>,&nbsp;&nbsp;&nbsp;<b>YY</b> = <b>E</b> &#8594; <b>1000</b>, <br>
+: &nbsp; &nbsp;  $\rm XX = A$ &nbsp; &#8594; &nbsp; '''0''', &nbsp; &nbsp;  $\rm XY = B$ &nbsp; &#8594; &nbsp; '''111''', &nbsp; &nbsp;  $\rm XZ = C$ &nbsp; &#8594; &nbsp; <b>1011</b>,
-:  &nbsp; &nbsp;  <b>YZ</b> = <b>F</b> &#8594; <b>10010</b>,&nbsp;&nbsp;&nbsp; <b>ZX</b> = <b>G</b> &#8594; <b>1010</b>,&nbsp;&nbsp;&nbsp;<b>ZY</b> = <b>H</b> &#8594; <b>100111</b>,&nbsp;&nbsp;&nbsp;<b>ZZ</b> = <b>I</b> &#8594; <b>100110</b> .
+: &nbsp; &nbsp;  $\rm YX = D$ &nbsp; &#8594; &nbsp; <b>110</b>, &nbsp; &nbsp;  $\rm YY = E$ &nbsp; &#8594; &nbsp; <b>1000</b>, &nbsp; &nbsp;  $\rm YZ = F$ &nbsp; &#8594; &nbsp; <b>10010</b>,
+: &nbsp; &nbsp;  $\rm ZX = G$ &nbsp; &#8594; &nbsp; <b>1010</b>, &nbsp; &nbsp;  $\rm ZY = H$ &nbsp; &#8594; &nbsp; <b>100111</b>, &nbsp; &nbsp;  $\rm ZZ =I$ &nbsp; &#8594; &nbsp; <b>100110</b>.
 * für die mittlere Codewortlänge:
-:$$L_{\rm M}' =0.49 \cdot 1 + (0.14 + 0.14) \cdot 3 + (0.07 + 0.04 + 0.07) \cdot 4 + 0.02 \cdot 5 + (0.02 + 0.01) \cdot 6 = 2.33\,\,{\rm bit/Zweiertupel}$$
+:$$L_{\rm M}\hspace{0.01cm}' =0.49 \cdot 1 + (0.14 + 0.14) \cdot 3 + (0.07 + 0.04 + 0.07) \cdot 4 + 0.02 \cdot 5 + (0.02 + 0.01) \cdot 6 = 2.33\,\,{\rm bit/Zweiertupel}$$
-:$$\Rightarrow\hspace{0.3cm}L_{\rm M} = {L_{\rm M}'}/{2}\hspace{0.15cm}\underline{  = 1.165\,\,{\rm bit/Quellensymbol}}\hspace{0.05cm}.$$
+:$$\Rightarrow\hspace{0.3cm}L_{\rm M} = {L_{\rm M}\hspace{0.01cm}'}/{2}\hspace{0.15cm}\underline{  = 1.165\,\,{\rm bit/Quellensymbol}}\hspace{0.05cm}.$$
-'''(4)'''&nbsp; Richtig ist <u>Aussage 1</u>, auch wenn <i>L</i><sub>M</sub> mit wachsendem <i>k</i> nur sehr langsam abfällt.
+'''(4)'''&nbsp; Richtig ist die <u>Aussage 1</u>, auch wenn $L_{\rm M}$ mit wachsendem $k$ nur sehr langsam abfällt.
-* Die letzte Aussage ist falsch, da <i>L</i><sub>M</sub> auch für <i>k</i> &#8594; &#8734; nicht kleiner sein kann als <i>H</i> = 1.157 bit/Quellensymbol.
+* Die letzte Aussage ist falsch, da $L_{\rm M}$ auch für $k &#8594; &#8734;$ nicht kleiner sein kann als $H = 1.157$ bit/Quellensymbol.
-* Aber auch die zweite Aussage ist nicht unbedingt richtig: Da mit <i>k</i> = 2 weiterhin <i>L</i><sub>M</sub> > <i>H</i> gilt, kann <i>k</i> = 3 zu einer weiteren Verbesserung führen.
+* Aber auch die zweite Aussage ist nicht unbedingt richtig: &nbsp; Da mit $k = 2$ weiterhin $L_{\rm M} > H$ gilt, kann $k = 3$ zu einer weiteren Verbesserung führen.
 {{ML-Fuß}}