Informationstheorie/Verschiedene Entropien zweidimensionaler Zufallsgrößen: Unterschied zwischen den Versionen

Aus LNTwww
Wechseln zu:Navigation, Suche
 
(41 dazwischenliegende Versionen von 5 Benutzern werden nicht angezeigt)
Zeile 7: Zeile 7:
  
  
==Definition der Entropie unter Verwendung von $\text{supp}(P_{XY})$==
+
==Definition der Entropie unter Verwendung von supp(<i>P<sub>XY</sub></i>)==  
Wir fassen die Ergebnisse des letzten Abschnitts nochmals kurz zusammen, wobei wir von der zweidimensionalen Zufallsgröße $XY$ mit der Wahrscheinlichkeitsfunktion $P_{XY}(X, Y)$ ausgehen. Gleichzeitig verwenden wir die Schreibweise
+
<br>
 +
Wir fassen die Ergebnisse des letzten Kapitels nochmals kurz zusammen, wobei wir von der zweidimensionalen Zufallsgröße&nbsp; $XY$&nbsp; mit der Wahrscheinlichkeitsfunktion&nbsp; $P_{XY}(X,\ Y)$&nbsp; ausgehen.&nbsp; Gleichzeitig verwenden wir die Schreibweise
 
   
 
   
Mit dieser Teilmenge $\text{supp}(P_{XY}) ⊂ P_{XY}$ gilt für
+
:$${\rm supp} (P_{XY}) = \big \{ \hspace{0.05cm}(x,\ y) \in XY \hspace{0.05cm},
*die '''Verbundentropie''' (englisch: ''Joint Entropy''):
+
\hspace{0.3cm} {\rm wobei} \hspace{0.15cm} P_{XY}(X,\ Y) \ne 0 \hspace{0.05cm} \big \} \hspace{0.05cm}.$$
 +
 
 +
{{BlaueBox|TEXT=
 +
$\text{Zusammenfassende Darstellung des letzten Kapitels:}$&nbsp; Mit dieser Teilmenge&nbsp; $\text{supp}(P_{XY}) ⊂ P_{XY}$&nbsp; gilt für
 +
*die&nbsp; '''Verbundentropie'''&nbsp; (englisch:&nbsp; "Joint Entropy"):
 
   
 
   
*die '''Entropien der 1D–Zufallsgrößen''' $X$ und $Y$:
+
:$$H(XY) = {\rm E}\hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{XY}(X, Y)}\right ] =\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.05cm})}
 +
\hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{XY}(x, y)} \hspace{0.05cm}.$$
 +
 
 +
*die&nbsp; '''Entropien der 1D–Zufallsgrößen'''&nbsp; $X$&nbsp; und&nbsp; $Y$:
 
    
 
    
 +
:$$H(X) = {\rm E}\hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{X}(X)}\right ] =\hspace{-0.2cm} \sum_{x \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{X})}
 +
\hspace{-0.2cm} P_{X}(x) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{X}(x)} \hspace{0.05cm},$$
 +
:$$H(Y) = {\rm E}\hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{Y}(Y)}\right ] =\hspace{-0.2cm} \sum_{y \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{Y})}
 +
\hspace{-0.2cm} P_{Y}(y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{Y}(y)} \hspace{0.05cm}.$$}}
 +
 +
 +
{{GraueBox|TEXT=
 +
$\text{Beispiel 1:}$&nbsp; Wir beziehen uns nochmals auf die Beispiele auf der Seite&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|Verbundwahrscheinlichkeit und Verbundentropie]]&nbsp; im letzten Kapitel. 
 +
 +
Bei der 2D–Wahrscheinlichkeitsfunktion&nbsp; $P_{RB}(R, B)$&nbsp; im dortigen&nbsp;  [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|$\text{Beispiel 5}$]]&nbsp; mit den Parametern 
 +
*$R$ &nbsp; &rArr; &nbsp;  Augenzahl des roten Würfels und
 +
*$B$ &nbsp; &rArr; &nbsp;  Augenzahl des blauen Würfels
 +
 +
 +
sind die Mengen&nbsp; $P_{RB}$&nbsp; und&nbsp; $\text{supp}(P_{RB})$&nbsp; identisch.&nbsp; Hier sind alle&nbsp; $6^2 = 36$&nbsp; Felder mit Werten ungleich Null belegt.
 +
 +
Bei der 2D&ndash;Wahrscheinlichkeitsfunktion&nbsp; $P_{RS}(R, S)$&nbsp;  im&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|$\text{Beispiel 6}$]]&nbsp; mit den Parametern 
 +
*$R$ &nbsp; &rArr; &nbsp;  Augenzahl des roten Würfels und 
 +
*$S = R + B$ &nbsp; &rArr; &nbsp; Summe der beiden Würfel
 +
  
{{Beispiel}}
+
gibt es&nbsp; $6 · 11 = 66$ Felder, von denen allerdings viele leer sind, also für die  Wahrscheinlichkeit&nbsp; &bdquo;0&rdquo;&nbsp; stehen.  
Bei der zweidimensionalen (2D) Wahrscheinlichkeitsfunktion PRS(R, S) unseres Würfel–Experimentes mit
+
*Die Teilmenge&nbsp; $\text{supp}(P_{RS})$&nbsp; beinhaltet dagegen nur die&nbsp; $36$&nbsp; schraffierten Felder mit von Null verschiedenen Wahrscheinlichkeiten.
* $R$:  Augenzahl des roten Würfels,
+
*Die Entropie bleibt gleich, ganz egal, ob man die Mittelung über alle Elemente von&nbsp; $P_{RS}$&nbsp; oder nur über die Elemente von&nbsp; $\text{supp}(P_{RS})$&nbsp; erstreckt,&nbsp; da für&nbsp; $x → 0$&nbsp; der Grenzwert&nbsp; $x · \log_2 ({1}/{x}) = 0$&nbsp;  ist.}}
* $S$:  Summe der beiden Würfel $R$ und $B$
 
gibt es 6 · 11 = 66 Felder, von denen viele leer sind Wahrscheinlichkeit 0. Die Teilmenge $\text{supp}(P_{RS})$ beinhaltet dagegen nur die 36 schraffierten Felder mit von 0 verschiedenen Wahrscheinlichkeiten.
 
Die Entropie bleibt gleich, ganz egal, ob man die Mittelung über alle Elemente von PRS oder nur über die Elemente von $\text{supp}(P_{RS})$) erstreckt, da $x$ · \log_2 (\frac{1}{x})$ für $x$ → 0 gleich 0 ergibt.
 
Dagegen sind bei der 2D–Wahrscheinlichkeitsfunktion PRB(R, B) mit
 
* $R$:  Augenzahl des roten Würels,
 
* $B$:  Augenzahl des blauen Würfels
 
die Mengen $P_{RB}$ und $\text{supp}(P_{RB})$ identisch. Hier sind alle $6^2 = 36$ Felder mit Werten ≠ 0 belegt.
 
 
{{end}}
 
  
  
 
==Bedingte Wahrscheinlichkeit und bedingte Entropie ==  
 
==Bedingte Wahrscheinlichkeit und bedingte Entropie ==  
 +
<br>
 +
Im Buch &bdquo;Stochastische Signaltheorie&rdquo; wurden für den Fall zweier Ereignisse&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; die folgenden&nbsp; [[Stochastische_Signaltheorie/Statistische_Abhängigkeit_und_Unabhängigkeit#Bedingte_Wahrscheinlichkeit|bedingten Wahrscheinlichkeiten]]&nbsp; angegeben &nbsp;  ⇒  &nbsp; '''Satz von Bayes''':
 +
 +
:$${\rm Pr} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y)  = \frac{{\rm Pr} (X \cap  Y)}{{\rm Pr} (Y)} \hspace{0.05cm}, \hspace{0.5cm}
 +
{\rm Pr} (Y \hspace{-0.05cm}\mid \hspace{-0.05cm} X)  = \frac{{\rm Pr} (X \cap  Y)}{{\rm Pr} (X)} \hspace{0.05cm}.$$
  
Im Buch „Stochastische Signaltheorie” wurden für den Fall zweier Ereignisse $X$ und $Y$ die folgenden bedingten Wahrscheinlichkeiten angegeben  ⇒  Satz von Bayes:
 
 
 
Angewendet auf  Wahrscheinlichkeitsfunktionen erhält man somit:
 
Angewendet auf  Wahrscheinlichkeitsfunktionen erhält man somit:
 
   
 
   
Analog zur Verbundentropie $H(XY)$ lassen sich hier folgende Entropiefunktionen ableiten:
+
:$$P_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y)  = \frac{P_{XY}(X, Y)}{P_{Y}(Y)} \hspace{0.05cm}, \hspace{0.5cm}
 +
P_{\hspace{0.03cm}Y \mid \hspace{0.03cm} X} (Y \hspace{-0.05cm}\mid \hspace{-0.05cm} X) =  \frac{P_{XY}(X, Y)}{P_{X}(X)} \hspace{0.05cm}.$$
  
 +
Analog zur&nbsp; [[Informationstheorie/Verschiedene_Entropien_zweidimensionaler_Zufallsgrößen#Definition_der_Entropie_unter_Verwendung_von_supp.28PXY.29|Verbundentropie]]&nbsp; $H(XY)$&nbsp; lassen sich hier folgende Entropiefunktionen ableiten:
  
{{Definition}}
+
{{BlaueBox|TEXT=
Die '''bedingte Entropie''' (englisch: ''Conditional Entropy'') der Zufallsgröße $X$ lautet unter der Bedingung $Y$:
+
$\text{Definitionen:}$&nbsp;
 +
*Die&nbsp; '''bedingte Entropie'''&nbsp; (englisch:&nbsp; "Conditional Entropy")&nbsp; der Zufallsgröße&nbsp; $X$&nbsp; unter der Bedingung&nbsp; $Y$&nbsp; lautet:
 
   
 
   
In gleicher Weise erhält man für die zweite bedingte Entropie:
+
:$$H(X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm}\frac{1}{P_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y)}\right ] = \hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})}
 +
\hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (x \hspace{-0.05cm}\mid \hspace{-0.05cm} y)}=\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})}
 +
\hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_{Y}(y)}{P_{XY}(x, y)}
 +
\hspace{0.05cm}.$$
 +
 
 +
*In gleicher Weise erhält man für die&nbsp; '''zweite bedingte Entropie''':
 
   
 
   
 +
:$$H(Y \hspace{-0.1cm}\mid \hspace{-0.05cm} X) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm}\frac{1}{P_{\hspace{0.03cm}Y\hspace{0.03cm} \mid \hspace{0.01cm} X} (Y \hspace{-0.08cm}\mid \hspace{-0.05cm}X)}\right ] =\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})}
 +
\hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.03cm}Y\hspace{-0.03cm} \mid \hspace{-0.01cm} X} (y \hspace{-0.05cm}\mid \hspace{-0.05cm} x)}=\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})}
 +
\hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_{X}(x)}{P_{XY}(x, y)}
 +
\hspace{0.05cm}.$$}}
  
{{end}}
 
  
 +
Im Argument der Logarithmusfunktion steht stets eine bedingte Wahrscheinlichkeitsfunktion &nbsp; ⇒ &nbsp; $P_{X\hspace{0.03cm}| \hspace{0.03cm}Y}(·)$&nbsp; bzw.&nbsp; $P_{Y\hspace{0.03cm}|\hspace{0.03cm}X}(·)$, während zur Erwartungswertbildung die Verbundwahrscheinlichkeit &nbsp; ⇒ &nbsp; $P_{XY}(·)$ benötigt wird.
  
Im Argument der Logarithmusfunktion steht stets eine bedingte Wahrscheinlichkeitsfunktion ⇒ $P_{X|Y}(·)$ bzw. $P_{Y|X}(·)$, während zur Erwartungswertbildung die Verbundwahrscheinlichkeit $P_{XY}(·)$ benötigt wird.
 
 
Für die bedingten Entropien gibt es folgende Begrenzungen:
 
Für die bedingten Entropien gibt es folgende Begrenzungen:
*Sowohl $H(X|Y)$ als auch $H(Y|X)$ sind stets größer oder gleich 0. Aus $H(X|Y)$ = 0 folgt direkt auch $H(Y|X)$ = 0. Beides ist nur für disjunkte Mengen $X$ und $Y$ möglich.
+
*Sowohl&nbsp; $H(X|Y)$&nbsp; als auch&nbsp; $H(Y|X)$&nbsp; sind stets größer oder gleich Null.&nbsp; Aus&nbsp; $H(X|Y) = 0$&nbsp; folgt direkt auch&nbsp; $H(Y|X) = 0$.&nbsp; Beides ist nur für&nbsp; [[Stochastische_Signaltheorie/Mengentheoretische_Grundlagen#Disjunkte_Mengen|disjunkte Mengen]]&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; möglich.
*Es gilt stets $H(X|Y) ≤ H(X)$ sowie $H(Y|X) ≤ H(Y)$. Diese Aussage ist einleuchtend, wenn man sich bewusst macht, dass man für Entropie synonym auch Unsicherheit verwenden kann.
+
*Es gilt stets&nbsp; $H(X|Y) ≤ H(X)$&nbsp; sowie&nbsp; $H(Y|X) ≤ H(Y)$.&nbsp; Diese Aussagen sind einleuchtend, wenn man sich bewusst macht, dass man für &bdquo;Entropie&rdquo; synonym auch &bdquo;Unsicherheit&rdquo; verwenden kann.&nbsp; Denn: &nbsp; Die Unsicherheit bezüglich der Menge&nbsp;  $X$&nbsp; kann nicht dadurch größer werden, dass man&nbsp; $Y$&nbsp; kennt.&nbsp;
*Denn: Die Unsicherheit bezüglich $X$ kann nicht dadurch größer werden, dass man $Y$ kennt. Außer bei statistischer Unabhängigkeit  ⇒  $H(X|Y)$ = $H(X)$ gilt stets $H(X|Y) < H(X)$.
+
*Außer bei statistischer Unabhängigkeit  &nbsp; &nbsp;   $H(X|Y) = H(X)$&nbsp; gilt stets&nbsp; $H(X|Y) < H(X)$.&nbsp; Wegen&nbsp; $H(X) ≤ H(XY)$&nbsp; und&nbsp; $H(Y) ≤ H(XY)$&nbsp; gilt somit auch&nbsp; $H(X|Y) ≤ H(XY)$&nbsp; und&nbsp; $H(Y|X) ≤ H(XY)$.&nbsp; Eine bedingte Entropie kann also nie größer werden als die Verbundentropie.
*Wegen $H(X) ≤ H(XY)$, $H(Y) ≤ H(XY)$ gilt somit auch $H(X|Y) ≤ H(XY)$ und $H(Y|X) ≤ H(XY)$. Eine bedingte Entropie kann also nie größer werden als die Verbundentropie.
+
 
  
 +
{{GraueBox|TEXT=
 +
$\text{Beispiel 2:}$&nbsp; Wir betrachten die Verbundwahrscheinlichkeiten&nbsp; $P_{RS}(·)$&nbsp; unseres Würfelexperiments, die im&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|letzten Kapitel]]&nbsp; als&nbsp; $\text{Beispiel 6}$&nbsp; ermittelt wurden.&nbsp; In der Mitte der folgenden Grafik ist die damals berechnete Verbundwahrscheinlichkeit&nbsp; $P_{RS}(·)$&nbsp; nochmals angegeben.
  
{{Beispiel}}
+
[[Datei:P_ID2764__Inf_T_3_2_S3.png|right|frame|Verbundwahrscheinlichkeiten&nbsp; $P_{RS}$&nbsp; und bedingte Wahrscheinlichkeiten&nbsp;  $P_{S \vert R}$&nbsp; und&nbsp; $P_{R \vert S}$]]
  
''Beispiel F'': Wir betrachten die Verbundwahrscheinlichkeiten $P_{RS}(·)$ unseres Würfelexperiments, die im Beispiel D ermittelt wurden. In der Mitte der folgenden Grafik ist $P_{RS}(·)$ nochmals angegeben.
+
Außen sind die beiden bedingten Wahrscheinlichkeitsfunktionen dargestellt:
  
Außen sind die beiden bedingten Wahrscheinlichkeitsfunktionen gezeichnet:
+
$\rm Links$&nbsp; angegeben ist die bedingte Wahrscheinlichkeitsfunktion&nbsp;
*Links dargestellt ist die bedingte Wahrscheinlichkeitsfunktion $P_{S|R}(⋅)$ = $P_{SR}(⋅)/P_R(⋅)$. Wegen $P_R(R)$ = [1/6, 1/6, 1/6, 1/6, 1/6, 1/6] steht hier in allen schraffierten Feldern $\text{supp}(P_{S|R})$ = $\text{supp}(P_{R|S})$ der gleiche Wahrscheinlichkeitswert 1/6. Daraus folgt für die bedingte Entropie:
+
:$$P_{S \vert R}(⋅) = P_{SR}(⋅)/P_R(⋅).$$
 +
*Wegen&nbsp; $P_R(R) = \big [1/6, \ 1/6, \ 1/6, \ 1/6, \ 1/6, \ 1/6 \big ]$&nbsp; steht hier in allen schraffierten Feldern &nbsp; &nbsp; $\text{supp}(P_{S\vert R}) = \text{supp}(P_{R\vert S})$&nbsp; der gleiche Wahrscheinlichkeitswert&nbsp; $1/6$.&nbsp;
 +
*Daraus folgt für die bedingte Entropie:
 
   
 
   
*Für die andere bedingte Wahrscheinlichkeitsfunktion $P_{R|S}(⋅)$ = $P_{RS}(⋅)/P_S(⋅)$ mit $P_S(⋅)$ gemäß Beispiel D ergeben sich die gleichen Felder ungleich 0 ⇒ $\text{supp}(P_{R|S})$ = $\text{supp}(P_{S|R})$. Die Wahrscheinlichkeitswerte nehmen nun aber von der Mitte (1/6) zu den Rändern hin bis zur Wahrscheinlichkeit 1 in den Ecken kontinuierlich zu. Daraus folgt:
+
:$$H(S \hspace{-0.1cm}\mid \hspace{-0.13cm} R) = \hspace{-0.2cm} \sum_{(r, s) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{RS})}
 +
\hspace{-0.6cm} P_{RS}(r, s) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.03cm}S \hspace{0.03cm} \mid \hspace{0.03cm} R} (s \hspace{-0.05cm}\mid \hspace{-0.05cm} r)} $$
 +
:$$\Rightarrow \hspace{0.3cm}H(S \hspace{-0.1cm}\mid \hspace{-0.13cm} R) =
 +
36 \cdot \frac{1}{36} \cdot {\rm log}_2 \hspace{0.1cm} (6) = 2.585\ {\rm bit}
 +
\hspace{0.05cm}.$$
 +
 
 +
$\rm Rechts$&nbsp; ist&nbsp; $P_{R\vert S}(⋅) = P_{RS}(⋅)/P_S(⋅)$&nbsp; angegeben, wobei&nbsp; $P_S(⋅)$&nbsp; gemäß&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|$\text{Beispiel 6}$]]&nbsp; einzusetzen ist.&nbsp;
 +
*Es  ergeben sich die gleichen Felder ungleich Null &nbsp; &nbsp; $\text{supp}(P_{R\vert S}) = \text{supp}(P_{S\vert R})$.&nbsp;
 +
* Die Wahrscheinlichkeitswerte nehmen nun aber von der Mitte&nbsp; $(1/6)$&nbsp; zu den Rändern hin bis zur Wahrscheinlichkeit&nbsp; $1$&nbsp; in den Ecken kontinuierlich zu.&nbsp; Daraus folgt:
 
   
 
   
Dagegen ergibt sich für die Zufallsgröße $RB$ gemäß Beispiel C wegen $P_{RB}(⋅)$ = $P_R(⋅) · P_B(⋅)$:
+
:$$H(R \hspace{-0.1cm}\mid \hspace{-0.13cm} S)  = \frac{1}{36} \cdot {\rm log}_2 \hspace{0.1cm} (6) +
 +
\frac{2}{36} \cdot  \sum_{i=1}^5 \big [ i \cdot {\rm log}_2 \hspace{0.1cm} (i) \big ]= 1.896\ {\rm bit} \hspace{0.05cm}.$$
 +
 
 +
Für die bedingten Wahrscheinlichkeiten der 2D&ndash;Zufallsgröße&nbsp; $RB$&nbsp; gemäß&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|$\text{Beispiel 5}$]]&nbsp; erhält man  dagegen wegen&nbsp; $P_{RB}(⋅) = P_R(⋅) · P_B(⋅)$:
 
   
 
   
 +
:$$\begin{align*}H(B \hspace{-0.1cm}\mid \hspace{-0.13cm} R)  \hspace{-0.15cm} & =  \hspace{-0.15cm} H(B) = {\rm log}_2 \hspace{0.1cm} (6) = 2.585\ {\rm bit} \hspace{0.05cm},\\
 +
H(R \hspace{-0.1cm}\mid \hspace{-0.13cm} B)  \hspace{-0.15cm} & = \hspace{-0.15cm} H(R) = {\rm log}_2 \hspace{0.1cm} (6) = 2.585\ {\rm bit} \hspace{0.05cm}.\end{align*}$$}}
  
{{end}}
 
 
 
 
 
  
==Transinformation zwischen zwei Zufallsgrößen ==  
+
==Transinformation zwischen zwei Zufallsgrößen==  
 +
<br>
 +
Wir betrachten die Zufallsgröße&nbsp; $XY$&nbsp; mit der 2D–Wahrscheinlichkeitsfunktion&nbsp; $P_{XY}(X, Y)$.&nbsp; Bekannt seien auch die 1D–Funktionen&nbsp; $P_X(X)$&nbsp; und&nbsp; $P_Y(Y)$.
 +
 
 +
Nun stellen sich folgende Fragen:
 +
*Wie vermindert die Kenntnis der Zufallsgröße&nbsp; $Y$&nbsp; die Unsicherheit bezüglich&nbsp; $X$?
 +
*Wie vermindert die Kenntnis der Zufallsgröße&nbsp; $X$&nbsp; die Unsicherheit bezüglich&nbsp; $Y$?
 +
 
  
Wir betrachten die Zufallsgröße $XY$ mit der 2D–Wahrscheinlichkeitsfunktion $P_{XY}(X, Y)$. Bekannt seien auch die 1D–Funktionen $P_X(X)$ und $P_Y(Y)$. Nun stellen sich folgende Fragen:
 
*Wie vermindert die Kenntnis der Zufallsgröße $Y$ die Unsicherheit bezüglich $X$?
 
*Wie vermindert die Kenntnis der Zufallsgröße $X$ die Unsicherheit bezüglich $Y$?
 
 
Zur Beantwortung benötigen wir eine für die Informationstheorie substantielle Definition:
 
Zur Beantwortung benötigen wir eine für die Informationstheorie substantielle Definition:
  
{{Definition}}
+
{{BlaueBox|TEXT=
Die '''Transinformation''' (englisch: ''Mutual Information'') zwischen den Zufallsgrößen $X$ und $Y$ – beide über dem gleichen Alphabet – ist gegeben durch den Ausdruck
+
$\text{Definition:}$&nbsp; Die&nbsp; '''Transinformation'''&nbsp; (englisch:&nbsp; "Mutual Information")&nbsp; zwischen den Zufallsgrößen&nbsp; $X$&nbsp; und&nbsp; $Y$ – beide über dem gleichen Alphabet – ist wie folgt gegeben:
 +
 +
:$$I(X;\ Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.08cm} \frac{P_{XY}(X, Y)}
 +
{P_{X}(X) \cdot P_{Y}(Y) }\right ] =\hspace{-0.25cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY})}
 +
\hspace{-0.8cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.08cm} \frac{P_{XY}(x, y)}
 +
{P_{X}(x) \cdot P_{Y}(y) } \hspace{0.01cm}.$$
 +
 
 +
Ein Vergleich mit dem&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Einf.C3.BChrungsbeispiel_zur_statistischen_Abh.C3.A4ngigkeit_von_Zufallsgr.C3.B6.C3.9Fen|letzten Kapitel]]&nbsp; zeigt, dass die Transinformation auch als&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Relative_Entropie_.E2.80.93_Kullback.E2.80.93Leibler.E2.80.93Distanz|Kullback–Leibler–Distanz]]&nbsp; zwischen der 2D–PMF&nbsp; $P_{XY}$&nbsp; und dem Produkt&nbsp; $P_X · P_Y$&nbsp; geschrieben werden kann:
 +
 +
:$$I(X;Y) = D(P_{XY} \hspace{0.05cm}\vert \vert \hspace{0.05cm} P_X \cdot P_Y) \hspace{0.05cm}.$$
 +
 
 +
Es ist somit offensichtlich, dass stets&nbsp; $I(X;\ Y) ≥ 0$&nbsp; gilt.&nbsp; Wegen der Symmetrie ist auch&nbsp; $I(Y;\ X)$ = $I(X;\ Y)$.}}
 +
 
 +
 
 +
Sucht man in einem Wörterbuch die Übersetzung für „mutual”, so findet man unter Anderem die Begriffe „gemeinsam”, „gegenseitig”, „beidseitig” und „wechselseitig”.&nbsp; Und ebenso sind in Fachbüchern für&nbsp; $I(X; Y)$&nbsp; auch die Bezeichnungen&nbsp; „gemeinsame Entropie”&nbsp; und&nbsp; „'gegenseitige Entropie”&nbsp; üblich.&nbsp; Wir sprechen aber im Folgenden durchgängig von der&nbsp; „Transinformation”&nbsp; $I(X; Y)$&nbsp; und versuchen nun eine Interpretation dieser Größe:
 +
*Durch Aufspalten des&nbsp; $\log_2$–Arguments entsprechend
 
   
 
   
Ein Vergleich mit Kapitel 3.1 zeigt, dass die Transinformation auch als Kullback–Leibler–Distanz zwischen der 2D–PMF $P_{XY}()$ und dem Produkt $P_X() · P_Y()$ geschrieben werden kann:
+
:$$I(X;Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm} \frac{1}
 +
{P_{X}(X)  }\right ] - {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm} \frac
 +
{P_{Y}(Y) }{P_{XY}(X, Y)} \right ] $$
 +
 
 +
:erhält man unter Verwendung von&nbsp; $P_{X|Y}(\cdot) = P_{XY}(\cdot)/P_Y(Y)$:
 
   
 
   
Es ist offensichtlich, dass stets $I(X; Y)$ 0 gilt. Wegen der Symmetrie ist auch $I(Y; X)$ = $I(X; Y)$.
+
:$$I(X;Y) = H(X) - H(X \hspace{-0.1cm}\mid \hspace{-0.1cm} Y) \hspace{0.05cm}.$$
 +
 
 +
*Das heißt: &nbsp; Die Unsicherheit hinsichtlich der Zufallsgröße&nbsp; $X$  &nbsp; ⇒  &nbsp;  Entropie&nbsp; $H(X)$&nbsp; vermindert sich bei Kenntnis von&nbsp; $Y$&nbsp; um den Betrag&nbsp; $H(X|Y)$.&nbsp; Der Rest ist die Transinformation&nbsp; $I(X; Y)$.
 +
*Bei anderer Aufspaltung kommt man zum Ergebnis
 +
:$$I(X;Y) = H(Y) - H(Y \hspace{-0.1cm}\mid \hspace{-0.1cm} X) \hspace{0.05cm}.$$
 +
*Ergo: &nbsp; Die Transinformation&nbsp; $I(X; Y)$&nbsp; ist symmetrisch  &nbsp; ⇒ &nbsp;  $X$&nbsp; sagt genau so viel über&nbsp; $Y$&nbsp; aus wie&nbsp; $Y$&nbsp; über&nbsp; $X$  &nbsp; ⇒ &nbsp; gegenseitige Information. Das Semikolon weist auf die Gleichberechtigung hin.
 +
 
 +
 
 +
{{BlaueBox|TEXT=
 +
$\text{Fazit:}$&nbsp;
 +
Oft werden die hier genannten Gleichungen durch ein Schaubild verdeutlicht, so auch in den folgenden Beispielen.&nbsp; Daraus erkennt man, dass auch folgende Gleichungen zutreffen:
 +
 +
:$$I(X;\ Y) = H(X) + H(Y) - H(XY) \hspace{0.05cm},$$
 +
:$$I(X;\ Y) = H(XY) -
 +
H(X \hspace{-0.1cm}\mid \hspace{-0.1cm} Y) - H(Y \hspace{-0.1cm}\mid \hspace{-0.1cm} X)
 +
\hspace{0.05cm}.$$}}
 +
 
 +
 
 +
{{GraueBox|TEXT=
 +
$\text{Beispiel 3:}$&nbsp; Wir kommen (letztmalig) auf das&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Einf.C3.BChrungsbeispiel_zur_statistischen_Abh.C3.A4ngigkeit_von_Zufallsgr.C3.B6.C3.9Fen|Würfel–Experiment]]&nbsp; mit dem roten&nbsp; $(R)$&nbsp; und dem blauen&nbsp; $(B)$&nbsp; Würfel zurück.&nbsp; Die Zufallsgröße&nbsp; $S$&nbsp; gibt die Summe der beiden Würfel an:&nbsp; $S = R + B$.&nbsp;
 +
Wir betrachten hier die 2D–Zufallsgröße&nbsp; $RS$.&nbsp; In früheren Beispielen haben wir berechnet:
 +
*die Entropien&nbsp; $H(R) = 2.585 \ \rm  bit$&nbsp; und&nbsp; $H(S) = 3.274 \ \rm bit$ &nbsp; ⇒  &nbsp;[[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|Beispiel 6]]&nbsp; im letzten Kapitel,
 +
*die Verbundentropie&nbsp; $H(RS) = 5.170 \ \rm bit$  &nbsp; ⇒  &nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|Beispiel 6]]&nbsp; im letzten Kapitel,
 +
*die bedingten Entropien&nbsp; $H(S \hspace{0.05cm} \vert \hspace{0.05cm} R) = 2.585 \ \rm bit$&nbsp; und&nbsp; $H(R \hspace{0.05cm} \vert \hspace{0.05cm}  S) = 1.896 \ \rm bit$  &nbsp; ⇒  &nbsp;  [[Informationstheorie/Verschiedene_Entropien_zweidimensionaler_Zufallsgrößen#Bedingte_Wahrscheinlichkeit_und_bedingte_Entropie|Beispiel 2]]&nbsp; im vorherigen Abschnitt.
 +
 
 +
 
 +
[[Datei:P_ID2765__Inf_T_3_2_S3_neu.png|frame|Schaubild aller Entropien des „Würfelexperiments” ]]
 +
 
 +
Diese Größen sind in der Grafik zusammengestellt, wobei die Zufallsgröße&nbsp; $R$&nbsp; durch die Grundfarbe „Rot” und die Summe&nbsp; $S$&nbsp; durch die Grundfarbe „Grün” markiert sind.&nbsp; Bedingte Entropien sind schraffiert.
 +
Man erkennt aus dieser Darstellung:
 +
*Die Entropie&nbsp; $H(R) = \log_2 (6) = 2.585\ \rm bit$&nbsp; ist genau halb so groß wie die Verbundentropie&nbsp; $H(RS)$.&nbsp; Denn:&nbsp; Kennt man&nbsp; $R$, so liefert&nbsp; $S$&nbsp; genau die gleiche Information wie die Zufallsgröße&nbsp; $B$, nämlich&nbsp; $H(S \hspace{0.05cm} \vert \hspace{0.05cm}  R) = H(B) = \log_2 (6) = 2.585\ \rm bit$.&nbsp;
 +
*'''Hinweis''':&nbsp; $H(R)$ = $H(S \hspace{0.05cm} \vert \hspace{0.05cm}  R)$&nbsp; '''gilt allerdings  nicht allgemein''', sondern nur in diesem Beispiel.
 +
*Die Entropie&nbsp; $H(S) = 3.274 \ \rm bit$&nbsp; ist im vorliegenden Beispiel erwartungsgemäß größer als&nbsp; $H(R)= 2.585\ \rm bit$.&nbsp; Wegen&nbsp; $H(S) + H(R \hspace{0.05cm} \vert \hspace{0.05cm}  S) = H(R) + H(S \hspace{0.05cm} \vert \hspace{0.05cm}  R)$&nbsp; muss deshalb&nbsp; $H(R \hspace{0.05cm} \vert \hspace{0.05cm}  S)$&nbsp; gegenüber&nbsp; $H(S \hspace{0.05cm} \vert \hspace{0.05cm} R)$&nbsp; um den gleichen Betrag&nbsp; $I(R;\ S) = 0.689 \ \rm bit$&nbsp; kleiner sein als&nbsp; $H(R)$&nbsp; gegenüber&nbsp; $H(S)$.
 +
*Die Transinformation&nbsp; (englisch:&nbsp; '''Mutual Information''')&nbsp; zwischen den Zufallsgrößen&nbsp; $R$&nbsp; und&nbsp; $S$&nbsp; ergibt sich aber auch aus der Gleichung
 +
:$$I(R;\ S) = H(R) + H(S) - H(RS) =  2.585\ {\rm bit} + 3.274\ {\rm bit} - 5.170\ {\rm bit} = 0.689\ {\rm bit} \hspace{0.05cm}. $$}}
  
{{end}}
 
  
 +
==Bedingte Transinformation  ==
 +
<br>
 +
Wir betrachten nun drei Zufallsgrößen&nbsp; $X$,&nbsp; $Y$&nbsp; und&nbsp; $Z$, die zueinander in Beziehung stehen (können).
  
Sucht man in einem Wörterbuch die Übersetzung für „mutual”, so findet man unter Anderem die Begriffe „gemeinsam”, „gegenseitig”, „beidseitig” und „wechselseitig”. Und ebenso sind in Fachbüchern für $I(X; Y)$ auch die Bezeichnungen ''gemeinsame Entropie'' und ''gegenseitige Entropie'' üblich. Wir sprechen aber im Folgenden durchgängig von der ''Transinformation'' $I(X; Y)$ und interpretieren nun diese Größe:
+
{{BlaueBox|TEXT=
*Durch Aufspalten des log2–Arguments entsprechend
+
$\text{Definition:}$&nbsp; Die&nbsp; '''bedingte Transinformation'''&nbsp; (englisch:&nbsp; "Conditional Mutual Information")&nbsp; zwischen den Zufallsgrößen&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; '''bei gegebenem'''&nbsp; $Z = z$&nbsp; lautet:
 
   
 
   
erhält man unter Verwendung von $P_{X|Y}(⋅)$ = $P_{XY}(⋅)/_PY(Y)$:
+
:$$I(X;Y \hspace{0.05cm}\vert\hspace{0.05cm} Z = z) = H(X\hspace{0.05cm}\vert\hspace{0.05cm} Z = z) - H(X\vert\hspace{0.05cm}Y ,\hspace{0.05cm} Z = z) \hspace{0.05cm}.$$
 +
 
 +
Man bezeichnet als die&nbsp; '''bedingte Transinformation'''&nbsp; zwischen den Zufallsgrößen&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; für die Zufallsgröße&nbsp; $Z$&nbsp; '''allgemein''' nach Mittelung über alle&nbsp; $z \in Z$:
 
   
 
   
Das heißt: Die Unsicherheit hinsichtlich der Zufallsgröße $X$  ⇒  Entropie $H(X)$ vermindert sich bei Kenntnis von $Y$ um den Betrag $H(X|Y)$. Der Rest ist die Transinformation $I(X; Y)$.
+
:$$I(X;Y \hspace{0.05cm}\vert\hspace{0.05cm} Z ) =  H(X\hspace{0.05cm}\vert\hspace{0.05cm} Z ) - H(X\vert\hspace{0.05cm}Y  Z )= \hspace{-0.3cm}
*Bei anderer Aufspaltung kommt man zum Ergebnis:
+
\sum_{z \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{Z})} \hspace{-0.25cm} P_{Z}(z) \cdot 
 +
I(X;Y \hspace{0.05cm}\vert\hspace{0.05cm} Z = z)
 +
\hspace{0.05cm}.$$
 +
 
 +
$P_Z(Z)$&nbsp; ist die Wahrscheinlichkeitsfunktion&nbsp; $\rm (PMF)$&nbsp; der Zufallsgröße&nbsp; $Z$&nbsp; und&nbsp; $P_Z(z)$&nbsp; die Wahrscheinlichkeit für die Realisierung&nbsp; $Z = z$.}}
 +
 
 +
 
 +
{{BlaueBox|TEXT=
 +
$\text{Bitte beachten Sie:}$&nbsp;
 +
*Für die bedingte Entropie gilt bekanntlich die Größenrelation&nbsp; $H(X\hspace{0.05cm}\vert\hspace{0.05cm}Z) ≤ H(X)$.
 +
*Für die Transinformation gilt diese Größenrelation nicht unbedingt:
 +
*$I(X; Y\hspace{0.05cm}\vert\hspace{0.05cm}Z)$&nbsp; kann '''kleiner, gleich, aber auch größer sein'''&nbsp; als&nbsp; $I(X; Y)$.}}
 +
 
 +
 
 +
[[Datei:P_ID2824__Inf_T_3_2_S4a.png|right|frame|2D–PMF&nbsp; $P_{XZ}$ ]]
 +
{{GraueBox|TEXT=
 +
$\text{Beispiel 4:}$&nbsp;
 +
Wir betrachten die binären Zufallsgrößen&nbsp; $X$,&nbsp; $Y$&nbsp; und&nbsp; $Z$&nbsp; mit folgenden Eigenschaften:
 +
* $X$&nbsp; und&nbsp; $Y$&nbsp; seien statistisch unabhängig.&nbsp; Für ihre Wahrscheinlichkeitsfunktionen gelte: 
 +
:$$P_X(X) = \big [1/2, \ 1/2 \big], \hspace{0.2cm} P_Y(Y) = \big[1– p, \ p \big] \  ⇒  H(X) = 1\ {\rm bit},  \hspace{0.2cm}  H(Y) = H_{\rm bin}(p).$$
 +
* $Z$&nbsp; ist die Modulo–2–Summe von&nbsp; $X$&nbsp; und&nbsp; $Y$: &nbsp;  $Z = X ⊕ Y$.
 +
 
 +
 
 +
Aus der Verbund–Wahrscheinlichkeitsfunktion&nbsp; $P_{XZ}$&nbsp; gemäß der oberen Grafik folgt:
 +
*Durch Summation der Spalten–Wahrscheinlichkeiten ergibt sich&nbsp; $P_Z(Z) = \big [1/2, \  1/2 \big ]$ &nbsp;  ⇒ &nbsp; $H(Z) = 1\ {\rm bit}$.
 +
* $X$&nbsp; und&nbsp; $Z$&nbsp; sind ebenfalls statistisch unabhängig, da für die 2D–PMF&nbsp; $P_{XZ}(X, Z) = P_X(X) · P_Z(Z)$&nbsp; gilt.&nbsp;
 +
*Daraus folgt: &nbsp; $H(Z\hspace{0.05cm}\vert\hspace{0.05cm}  X) = H(Z)$ &nbsp; und &nbsp; $H(X \hspace{0.05cm}\vert\hspace{0.05cm}  Z) = H(X)$ &nbsp; sowie &nbsp; $I(X; Z) = 0$.
 +
[[Datei:P_ID2826__Inf_T_3_2_S4b.png|right|frame|Bedingte  2D–PMF $P_{X\hspace{0.05cm}\vert\hspace{0.05cm}YZ}$]]
 +
<br><br>Aus der bedingten Wahrscheinlichkeitsfunktion&nbsp; $P_{X\vert YZ}$&nbsp; gemäß der unteren Grafik lassen sich berechnen:
 +
* $H(X\hspace{0.05cm}\vert\hspace{0.05cm} YZ) = 0$,&nbsp; da alle&nbsp; $P_{X\hspace{0.05cm}\vert\hspace{0.05cm} YZ}$–Einträge entweder&nbsp; $0$&nbsp; oder&nbsp; $1$&nbsp; sind  &nbsp;  ⇒ &nbsp;  &bdquo;bedingte Entropie&rdquo;,
 +
* $I(X; YZ) = H(X) - H(X\hspace{0.05cm}\vert\hspace{0.05cm} YZ) = H(X)= 1 \ {\rm bit}$ &nbsp;  ⇒ &nbsp;  &bdquo;Transinformation&rdquo;,
 +
* $I(X; Y\vert Z) = H(X\hspace{0.05cm}\vert\hspace{0.05cm} Z) =H(X)=1 \ {\rm bit} $ &nbsp;  ⇒ &nbsp;  &bdquo;bedingte Transinformation&rdquo;.
 +
 
 +
 
 +
'''Im vorliegenden Beispiel ist'''&nbsp; also
 +
*'''die bedingte Transinformation'''&nbsp; $I(X; Y\hspace{0.05cm}\vert\hspace{0.05cm} Z) = 1$
 +
*'''größer als die herkömmliche Transinformation'''&nbsp; &nbsp;$I(X; Y) = 0$. }}
 +
 
 +
 +
 +
==Kettenregel der Transinformation ==
 +
<br>
 +
Bisher haben wir die Transinformation nur zwischen zwei eindimensionalen Zufallsgrößen betrachtet.&nbsp; Nun erweitern wir die Definition auf insgesamt&nbsp; $n + 1$&nbsp; Zufallsgrößen, die wir aus Darstellungsgründen mit&nbsp; $X_1$,&nbsp; ... ,&nbsp; $X_n$&nbsp; sowie&nbsp; $Z$&nbsp; bezeichnen.&nbsp; Dann gilt:
 +
 
 +
{{BlaueBox|TEXT=
 +
$\text{Kettenregel der Transinformation:}$&nbsp;
 
   
 
   
Ergo: Die Transinformation $I(X; Y)$ ist symmetrisch: $X$ sagt genau so viel über $Y$ aus wie $Y$ über $X$ ⇒  gegenseitige Information. Das Semikolon weist auf die Gleichberechtigung hin.
+
Die Transinformation zwischen der&nbsp; $n$–dimensionalen Zufallsgröße&nbsp; $X_1 X_2  \hspace{0.05cm}\text{...} \hspace{0.05cm}  X_n$&nbsp; und der Zufallsgröße&nbsp; $Z$&nbsp; lässt sich wie folgt darstellen und berechnen:
 +
 +
:$$I(X_1\hspace{0.05cm}X_2\hspace{0.05cm}\text{...} \hspace{0.1cm}X_n;Z) =
 +
I(X_1;Z) + I(X_2;Z \vert X_1) + \hspace{0.05cm}\text{...} \hspace{0.1cm}+
 +
I(X_n;Z\vert X_1\hspace{0.05cm}X_2\hspace{0.05cm}\text{...} \hspace{0.1cm}X_{n-1}) = \sum_{i = 1}^{n}
 +
I(X_i;Z \vert X_1\hspace{0.05cm}X_2\hspace{0.05cm}\text{...} \hspace{0.1cm}X_{i-1})
 +
\hspace{0.05cm}.$$}}
 +
 
  
Oft werden die hier genannten Gleichungen durch ein Schaubild verdeutlicht, so auch in den folgenden Beispielen. Daraus erkennt man, dass auch folgende Gleichungen zutreffen:
+
{{BlaueBox|TEXT=
 +
$\text{Beweis:}$&nbsp;
 +
Wir beschränken uns hier auf den Fall&nbsp; $n = 2$, also auf insgesamt drei Zufallsgrößen, und ersetzen&nbsp; $X_1$&nbsp; durch $X$ und&nbsp; $X_2$&nbsp; durch&nbsp;  $Y$.&nbsp; Dann erhalten wir:
 
   
 
   
{{Beispiel}}
+
:$$\begin{align*}I(X\hspace{0.05cm}Y;Z)  & = H(XY) - H(XY\hspace{0.05cm} \vert \hspace{0.05cm}Z) = \\
''Beispiel F'': Wir kommen nochmals auf das Würfel–Experiment mit dem roten $(R)$ und dem blauen $(B)$ Würfel zurück. Die Zufallsgröße $S$ gibt die Summe der beiden Würfel an: $S = R + B$.
+
& =  \big [  H(X)+ H(Y\hspace{0.05cm} \vert \hspace{0.05cm} X)\big ]  - \big [  H(X\hspace{0.05cm} \vert \hspace{0.05cm} Z) + H(Y\hspace{0.05cm} \vert \hspace{0.05cm} XZ)\big ]  =\\
Wir betrachten hier die 2D–Zufallsgröße RS. In früheren Beispielen haben wir berechnet:
+
& =   \big [  H(X)- H(X\hspace{0.05cm} \vert \hspace{0.05cm} Z)\big ]  - \big [  H(Y\hspace{0.05cm} \vert \hspace{0.05cm} X) + H(Y\hspace{0.05cm} \vert \hspace{0.05cm}XZ)\big ]=\\
*die Entropien $H(R)$ = 2.585 bit und $H(S)$ = 3.274 bit  ⇒  Beispiel D,
+
& =  I(X;Z) + I(Y;Z \hspace{0.05cm} \vert \hspace{0.05cm} X) \hspace{0.05cm}.\end{align*}$$}}
*die Verbundentropie $H(RS)$ = 5.170 bit  ⇒  Beispiel D,
+
 
*die bedingten Entropien $H(S|R)$ = 2.585 bit und $H(R|S)$ = 1.896 bit  ⇒  Beispiel F.
+
 
 +
Aus dieser Gleichung erkennt man, dass die die Größenrelation &nbsp;$I(X Y; Z) ≥ I(X; Z)$&nbsp; immer gegeben ist.  
 +
*Gleichheit ergibt sich für die bedingte Transinformation&nbsp; $I(Y; Z \hspace{0.05cm} \vert  \hspace{0.05cm} X) = 0$,&nbsp;
 +
* also dann, wenn die Zufallsgrößen&nbsp; $Y$&nbsp; und&nbsp; $Z$&nbsp; für ein gegebenes&nbsp; $X$&nbsp; statistisch unabhängig sind.
 +
 
  
Diese Größen sind in der Grafik zusammengestellt, wobei die Zufallsgröße $R$ durch die Grundfarbe „Rot” und die Summe $S$ durch die Grundfarbe „grün” markiert sind. Bedingte Entropien sind schraffiert.
+
{{GraueBox|TEXT=
Man erkennt aus dieser Darstellung:
+
$\text{Beispiel 5:}$&nbsp;  Wir betrachten die&nbsp; [[Stochastische_Signaltheorie/Markovketten|Markovkette]] &nbsp; $X → Y → Z$.&nbsp; Für eine solche Konstellation gilt stets das&nbsp; '''Data Processing Theorem'''&nbsp; mit der folgenden Konsequenz, die sich aus der Kettenregel der Transinformation ableiten lässt:
*Hier ist $H(R)$ = $\log_2 $(6) = 2.585 bit genau halb so groß wie die Verbundentropie $H(RS)$. Kennt man $R$, so liefert $S$ genau die gleiche Information wie die Zufallsgröße $B$, nämlich $H(S|R)$ = $H(B)$ = $\log_2(6)$ = 2.585 bit. Hinweis: $H(R)$ = $H(S|R)$ gilt nicht allgemein.
 
*Die Entropie $H(S)$ = 3.274 bit ist im vorliegenden Beispiel erwartungsgemäß größer als $H(R)$. Wegen $H(S) + H(R|S) = H(R) + H(S|R)$ muss deshalb $H(R|S)$ gegenüber $H(S|R)$ um den gleichen Betrag $I(R; S)$ = 0.689 bit kleiner sein wie $H(R)$ gegenüber $H(S)$.
 
*Die Transinformation (englisch: ''Mutual Information'') zwischen den Zufallsgrößen $R$ und $S$ ergibt sich aber auch aus der Gleichung
 
 
   
 
   
{{end}}
+
:$$I(X;Z) \hspace{-0.05cm}  \le  \hspace{-0.05cm}I(X;Y ) \hspace{0.05cm},$$
==Bedingte Transinformation  ==
+
:$$I(X;Z) \hspace{-0.05cm}  \le  \hspace{-0.05cm} I(Y;Z ) \hspace{0.05cm}.$$
==Kettenregel der Transinformation ==
+
 
== Aufgaben zu Kapitel 3.2  ==
+
Das Theorem besagt somit:
 +
*Man kann durch Manipulation&nbsp; $($"Processing"&nbsp; $Z)$&nbsp; der Daten&nbsp; $Y$&nbsp; keine zusätzliche Information über den Eingang&nbsp; $X$&nbsp; gewinnen.
 +
*Die Datenverarbeitung&nbsp; $Y → Z$&nbsp; $($durch einen zweiten Prozessor$)$ dient nur dem Zweck, die Information über&nbsp; $X$&nbsp; besser sichtbar zu machen.
 +
 
 +
 
 +
Weitere Informationen zum&nbsp; "Data Processing Theorem"&nbsp; finden Sie in der&nbsp; [[Aufgaben:Aufgabe_3.15:_Data_Processing_Theorem|Aufgabe 3.15]].}}
 +
 
 +
 
 +
==Aufgaben zum Kapitel==
 +
<br>
 +
[[Aufgaben:3.7 Einige Entropieberechnungen|Aufgabe 3.7: Einige Entropieberechnungen]]
 +
 
 +
[[Aufgaben:3.8 Nochmals Transinformation|Aufgabe 3.8: Nochmals Transinformation]]
 +
 
 +
[[Aufgaben:3.8Z Tupel aus ternären Zufallsgrößen|Aufgabe 3.8Z: Tupel aus ternären Zufallsgrößen]]
 +
 
 +
[[Aufgaben:3.9 Bedingte Transinformation|Aufgabe 3.9: Bedingte Transinformation]]
 +
 
  
  
 
{{Display}}
 
{{Display}}

Aktuelle Version vom 19. Juli 2021, 17:25 Uhr


Definition der Entropie unter Verwendung von supp(PXY)


Wir fassen die Ergebnisse des letzten Kapitels nochmals kurz zusammen, wobei wir von der zweidimensionalen Zufallsgröße  $XY$  mit der Wahrscheinlichkeitsfunktion  $P_{XY}(X,\ Y)$  ausgehen.  Gleichzeitig verwenden wir die Schreibweise

$${\rm supp} (P_{XY}) = \big \{ \hspace{0.05cm}(x,\ y) \in XY \hspace{0.05cm}, \hspace{0.3cm} {\rm wobei} \hspace{0.15cm} P_{XY}(X,\ Y) \ne 0 \hspace{0.05cm} \big \} \hspace{0.05cm}.$$

$\text{Zusammenfassende Darstellung des letzten Kapitels:}$  Mit dieser Teilmenge  $\text{supp}(P_{XY}) ⊂ P_{XY}$  gilt für

  • die  Verbundentropie  (englisch:  "Joint Entropy"):
$$H(XY) = {\rm E}\hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{XY}(X, Y)}\right ] =\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.05cm})} \hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{XY}(x, y)} \hspace{0.05cm}.$$
  • die  Entropien der 1D–Zufallsgrößen  $X$  und  $Y$:
$$H(X) = {\rm E}\hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{X}(X)}\right ] =\hspace{-0.2cm} \sum_{x \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{X})} \hspace{-0.2cm} P_{X}(x) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{X}(x)} \hspace{0.05cm},$$
$$H(Y) = {\rm E}\hspace{-0.1cm} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{Y}(Y)}\right ] =\hspace{-0.2cm} \sum_{y \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{Y})} \hspace{-0.2cm} P_{Y}(y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{Y}(y)} \hspace{0.05cm}.$$


$\text{Beispiel 1:}$  Wir beziehen uns nochmals auf die Beispiele auf der Seite  Verbundwahrscheinlichkeit und Verbundentropie  im letzten Kapitel.

Bei der 2D–Wahrscheinlichkeitsfunktion  $P_{RB}(R, B)$  im dortigen  $\text{Beispiel 5}$  mit den Parametern

  • $R$   ⇒   Augenzahl des roten Würfels und
  • $B$   ⇒   Augenzahl des blauen Würfels


sind die Mengen  $P_{RB}$  und  $\text{supp}(P_{RB})$  identisch.  Hier sind alle  $6^2 = 36$  Felder mit Werten ungleich Null belegt.

Bei der 2D–Wahrscheinlichkeitsfunktion  $P_{RS}(R, S)$  im  $\text{Beispiel 6}$  mit den Parametern

  • $R$   ⇒   Augenzahl des roten Würfels und
  • $S = R + B$   ⇒   Summe der beiden Würfel


gibt es  $6 · 11 = 66$ Felder, von denen allerdings viele leer sind, also für die Wahrscheinlichkeit  „0”  stehen.

  • Die Teilmenge  $\text{supp}(P_{RS})$  beinhaltet dagegen nur die  $36$  schraffierten Felder mit von Null verschiedenen Wahrscheinlichkeiten.
  • Die Entropie bleibt gleich, ganz egal, ob man die Mittelung über alle Elemente von  $P_{RS}$  oder nur über die Elemente von  $\text{supp}(P_{RS})$  erstreckt,  da für  $x → 0$  der Grenzwert  $x · \log_2 ({1}/{x}) = 0$  ist.


Bedingte Wahrscheinlichkeit und bedingte Entropie


Im Buch „Stochastische Signaltheorie” wurden für den Fall zweier Ereignisse  $X$  und  $Y$  die folgenden  bedingten Wahrscheinlichkeiten  angegeben   ⇒   Satz von Bayes:

$${\rm Pr} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y) = \frac{{\rm Pr} (X \cap Y)}{{\rm Pr} (Y)} \hspace{0.05cm}, \hspace{0.5cm} {\rm Pr} (Y \hspace{-0.05cm}\mid \hspace{-0.05cm} X) = \frac{{\rm Pr} (X \cap Y)}{{\rm Pr} (X)} \hspace{0.05cm}.$$

Angewendet auf Wahrscheinlichkeitsfunktionen erhält man somit:

$$P_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y) = \frac{P_{XY}(X, Y)}{P_{Y}(Y)} \hspace{0.05cm}, \hspace{0.5cm} P_{\hspace{0.03cm}Y \mid \hspace{0.03cm} X} (Y \hspace{-0.05cm}\mid \hspace{-0.05cm} X) = \frac{P_{XY}(X, Y)}{P_{X}(X)} \hspace{0.05cm}.$$

Analog zur  Verbundentropie  $H(XY)$  lassen sich hier folgende Entropiefunktionen ableiten:

$\text{Definitionen:}$ 

  • Die  bedingte Entropie  (englisch:  "Conditional Entropy")  der Zufallsgröße  $X$  unter der Bedingung  $Y$  lautet:
$$H(X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm}\frac{1}{P_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (X \hspace{-0.05cm}\mid \hspace{-0.05cm} Y)}\right ] = \hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})} \hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.03cm}X \mid \hspace{0.03cm} Y} (x \hspace{-0.05cm}\mid \hspace{-0.05cm} y)}=\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})} \hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_{Y}(y)}{P_{XY}(x, y)} \hspace{0.05cm}.$$
  • In gleicher Weise erhält man für die  zweite bedingte Entropie:
$$H(Y \hspace{-0.1cm}\mid \hspace{-0.05cm} X) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm}\frac{1}{P_{\hspace{0.03cm}Y\hspace{0.03cm} \mid \hspace{0.01cm} X} (Y \hspace{-0.08cm}\mid \hspace{-0.05cm}X)}\right ] =\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})} \hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.03cm}Y\hspace{-0.03cm} \mid \hspace{-0.01cm} X} (y \hspace{-0.05cm}\mid \hspace{-0.05cm} x)}=\hspace{-0.2cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY}\hspace{-0.08cm})} \hspace{-0.6cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_{X}(x)}{P_{XY}(x, y)} \hspace{0.05cm}.$$


Im Argument der Logarithmusfunktion steht stets eine bedingte Wahrscheinlichkeitsfunktion   ⇒   $P_{X\hspace{0.03cm}| \hspace{0.03cm}Y}(·)$  bzw.  $P_{Y\hspace{0.03cm}|\hspace{0.03cm}X}(·)$, während zur Erwartungswertbildung die Verbundwahrscheinlichkeit   ⇒   $P_{XY}(·)$ benötigt wird.

Für die bedingten Entropien gibt es folgende Begrenzungen:

  • Sowohl  $H(X|Y)$  als auch  $H(Y|X)$  sind stets größer oder gleich Null.  Aus  $H(X|Y) = 0$  folgt direkt auch  $H(Y|X) = 0$.  Beides ist nur für  disjunkte Mengen  $X$  und  $Y$  möglich.
  • Es gilt stets  $H(X|Y) ≤ H(X)$  sowie  $H(Y|X) ≤ H(Y)$.  Diese Aussagen sind einleuchtend, wenn man sich bewusst macht, dass man für „Entropie” synonym auch „Unsicherheit” verwenden kann.  Denn:   Die Unsicherheit bezüglich der Menge  $X$  kann nicht dadurch größer werden, dass man  $Y$  kennt. 
  • Außer bei statistischer Unabhängigkeit   ⇒   $H(X|Y) = H(X)$  gilt stets  $H(X|Y) < H(X)$.  Wegen  $H(X) ≤ H(XY)$  und  $H(Y) ≤ H(XY)$  gilt somit auch  $H(X|Y) ≤ H(XY)$  und  $H(Y|X) ≤ H(XY)$.  Eine bedingte Entropie kann also nie größer werden als die Verbundentropie.


$\text{Beispiel 2:}$  Wir betrachten die Verbundwahrscheinlichkeiten  $P_{RS}(·)$  unseres Würfelexperiments, die im  letzten Kapitel  als  $\text{Beispiel 6}$  ermittelt wurden.  In der Mitte der folgenden Grafik ist die damals berechnete Verbundwahrscheinlichkeit  $P_{RS}(·)$  nochmals angegeben.

Verbundwahrscheinlichkeiten  $P_{RS}$  und bedingte Wahrscheinlichkeiten  $P_{S \vert R}$  und  $P_{R \vert S}$

Außen sind die beiden bedingten Wahrscheinlichkeitsfunktionen dargestellt:

$\rm Links$  angegeben ist die bedingte Wahrscheinlichkeitsfunktion 

$$P_{S \vert R}(⋅) = P_{SR}(⋅)/P_R(⋅).$$
  • Wegen  $P_R(R) = \big [1/6, \ 1/6, \ 1/6, \ 1/6, \ 1/6, \ 1/6 \big ]$  steht hier in allen schraffierten Feldern   ⇒   $\text{supp}(P_{S\vert R}) = \text{supp}(P_{R\vert S})$  der gleiche Wahrscheinlichkeitswert  $1/6$. 
  • Daraus folgt für die bedingte Entropie:
$$H(S \hspace{-0.1cm}\mid \hspace{-0.13cm} R) = \hspace{-0.2cm} \sum_{(r, s) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{RS})} \hspace{-0.6cm} P_{RS}(r, s) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.03cm}S \hspace{0.03cm} \mid \hspace{0.03cm} R} (s \hspace{-0.05cm}\mid \hspace{-0.05cm} r)} $$
$$\Rightarrow \hspace{0.3cm}H(S \hspace{-0.1cm}\mid \hspace{-0.13cm} R) = 36 \cdot \frac{1}{36} \cdot {\rm log}_2 \hspace{0.1cm} (6) = 2.585\ {\rm bit} \hspace{0.05cm}.$$

$\rm Rechts$  ist  $P_{R\vert S}(⋅) = P_{RS}(⋅)/P_S(⋅)$  angegeben, wobei  $P_S(⋅)$  gemäß  $\text{Beispiel 6}$  einzusetzen ist. 

  • Es ergeben sich die gleichen Felder ungleich Null   ⇒   $\text{supp}(P_{R\vert S}) = \text{supp}(P_{S\vert R})$. 
  • Die Wahrscheinlichkeitswerte nehmen nun aber von der Mitte  $(1/6)$  zu den Rändern hin bis zur Wahrscheinlichkeit  $1$  in den Ecken kontinuierlich zu.  Daraus folgt:
$$H(R \hspace{-0.1cm}\mid \hspace{-0.13cm} S) = \frac{1}{36} \cdot {\rm log}_2 \hspace{0.1cm} (6) + \frac{2}{36} \cdot \sum_{i=1}^5 \big [ i \cdot {\rm log}_2 \hspace{0.1cm} (i) \big ]= 1.896\ {\rm bit} \hspace{0.05cm}.$$

Für die bedingten Wahrscheinlichkeiten der 2D–Zufallsgröße  $RB$  gemäß  $\text{Beispiel 5}$  erhält man dagegen wegen  $P_{RB}(⋅) = P_R(⋅) · P_B(⋅)$:

$$\begin{align*}H(B \hspace{-0.1cm}\mid \hspace{-0.13cm} R) \hspace{-0.15cm} & = \hspace{-0.15cm} H(B) = {\rm log}_2 \hspace{0.1cm} (6) = 2.585\ {\rm bit} \hspace{0.05cm},\\ H(R \hspace{-0.1cm}\mid \hspace{-0.13cm} B) \hspace{-0.15cm} & = \hspace{-0.15cm} H(R) = {\rm log}_2 \hspace{0.1cm} (6) = 2.585\ {\rm bit} \hspace{0.05cm}.\end{align*}$$


Transinformation zwischen zwei Zufallsgrößen


Wir betrachten die Zufallsgröße  $XY$  mit der 2D–Wahrscheinlichkeitsfunktion  $P_{XY}(X, Y)$.  Bekannt seien auch die 1D–Funktionen  $P_X(X)$  und  $P_Y(Y)$.

Nun stellen sich folgende Fragen:

  • Wie vermindert die Kenntnis der Zufallsgröße  $Y$  die Unsicherheit bezüglich  $X$?
  • Wie vermindert die Kenntnis der Zufallsgröße  $X$  die Unsicherheit bezüglich  $Y$?


Zur Beantwortung benötigen wir eine für die Informationstheorie substantielle Definition:

$\text{Definition:}$  Die  Transinformation  (englisch:  "Mutual Information")  zwischen den Zufallsgrößen  $X$  und  $Y$ – beide über dem gleichen Alphabet – ist wie folgt gegeben:

$$I(X;\ Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.08cm} \frac{P_{XY}(X, Y)} {P_{X}(X) \cdot P_{Y}(Y) }\right ] =\hspace{-0.25cm} \sum_{(x, y) \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{XY})} \hspace{-0.8cm} P_{XY}(x, y) \cdot {\rm log}_2 \hspace{0.08cm} \frac{P_{XY}(x, y)} {P_{X}(x) \cdot P_{Y}(y) } \hspace{0.01cm}.$$

Ein Vergleich mit dem  letzten Kapitel  zeigt, dass die Transinformation auch als  Kullback–Leibler–Distanz  zwischen der 2D–PMF  $P_{XY}$  und dem Produkt  $P_X · P_Y$  geschrieben werden kann:

$$I(X;Y) = D(P_{XY} \hspace{0.05cm}\vert \vert \hspace{0.05cm} P_X \cdot P_Y) \hspace{0.05cm}.$$

Es ist somit offensichtlich, dass stets  $I(X;\ Y) ≥ 0$  gilt.  Wegen der Symmetrie ist auch  $I(Y;\ X)$ = $I(X;\ Y)$.


Sucht man in einem Wörterbuch die Übersetzung für „mutual”, so findet man unter Anderem die Begriffe „gemeinsam”, „gegenseitig”, „beidseitig” und „wechselseitig”.  Und ebenso sind in Fachbüchern für  $I(X; Y)$  auch die Bezeichnungen  „gemeinsame Entropie”  und  „'gegenseitige Entropie”  üblich.  Wir sprechen aber im Folgenden durchgängig von der  „Transinformation”  $I(X; Y)$  und versuchen nun eine Interpretation dieser Größe:

  • Durch Aufspalten des  $\log_2$–Arguments entsprechend
$$I(X;Y) = {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm} \frac{1} {P_{X}(X) }\right ] - {\rm E} \hspace{-0.1cm}\left [ {\rm log}_2 \hspace{0.1cm} \frac {P_{Y}(Y) }{P_{XY}(X, Y)} \right ] $$
erhält man unter Verwendung von  $P_{X|Y}(\cdot) = P_{XY}(\cdot)/P_Y(Y)$:
$$I(X;Y) = H(X) - H(X \hspace{-0.1cm}\mid \hspace{-0.1cm} Y) \hspace{0.05cm}.$$
  • Das heißt:   Die Unsicherheit hinsichtlich der Zufallsgröße  $X$   ⇒   Entropie  $H(X)$  vermindert sich bei Kenntnis von  $Y$  um den Betrag  $H(X|Y)$.  Der Rest ist die Transinformation  $I(X; Y)$.
  • Bei anderer Aufspaltung kommt man zum Ergebnis
$$I(X;Y) = H(Y) - H(Y \hspace{-0.1cm}\mid \hspace{-0.1cm} X) \hspace{0.05cm}.$$
  • Ergo:   Die Transinformation  $I(X; Y)$  ist symmetrisch   ⇒   $X$  sagt genau so viel über  $Y$  aus wie  $Y$  über  $X$   ⇒   gegenseitige Information. Das Semikolon weist auf die Gleichberechtigung hin.


$\text{Fazit:}$  Oft werden die hier genannten Gleichungen durch ein Schaubild verdeutlicht, so auch in den folgenden Beispielen.  Daraus erkennt man, dass auch folgende Gleichungen zutreffen:

$$I(X;\ Y) = H(X) + H(Y) - H(XY) \hspace{0.05cm},$$
$$I(X;\ Y) = H(XY) - H(X \hspace{-0.1cm}\mid \hspace{-0.1cm} Y) - H(Y \hspace{-0.1cm}\mid \hspace{-0.1cm} X) \hspace{0.05cm}.$$


$\text{Beispiel 3:}$  Wir kommen (letztmalig) auf das  Würfel–Experiment  mit dem roten  $(R)$  und dem blauen  $(B)$  Würfel zurück.  Die Zufallsgröße  $S$  gibt die Summe der beiden Würfel an:  $S = R + B$.  Wir betrachten hier die 2D–Zufallsgröße  $RS$.  In früheren Beispielen haben wir berechnet:

  • die Entropien  $H(R) = 2.585 \ \rm bit$  und  $H(S) = 3.274 \ \rm bit$   ⇒  Beispiel 6  im letzten Kapitel,
  • die Verbundentropie  $H(RS) = 5.170 \ \rm bit$   ⇒   Beispiel 6  im letzten Kapitel,
  • die bedingten Entropien  $H(S \hspace{0.05cm} \vert \hspace{0.05cm} R) = 2.585 \ \rm bit$  und  $H(R \hspace{0.05cm} \vert \hspace{0.05cm} S) = 1.896 \ \rm bit$   ⇒   Beispiel 2  im vorherigen Abschnitt.


Schaubild aller Entropien des „Würfelexperiments”

Diese Größen sind in der Grafik zusammengestellt, wobei die Zufallsgröße  $R$  durch die Grundfarbe „Rot” und die Summe  $S$  durch die Grundfarbe „Grün” markiert sind.  Bedingte Entropien sind schraffiert. Man erkennt aus dieser Darstellung:

  • Die Entropie  $H(R) = \log_2 (6) = 2.585\ \rm bit$  ist genau halb so groß wie die Verbundentropie  $H(RS)$.  Denn:  Kennt man  $R$, so liefert  $S$  genau die gleiche Information wie die Zufallsgröße  $B$, nämlich  $H(S \hspace{0.05cm} \vert \hspace{0.05cm} R) = H(B) = \log_2 (6) = 2.585\ \rm bit$. 
  • Hinweis:  $H(R)$ = $H(S \hspace{0.05cm} \vert \hspace{0.05cm} R)$  gilt allerdings nicht allgemein, sondern nur in diesem Beispiel.
  • Die Entropie  $H(S) = 3.274 \ \rm bit$  ist im vorliegenden Beispiel erwartungsgemäß größer als  $H(R)= 2.585\ \rm bit$.  Wegen  $H(S) + H(R \hspace{0.05cm} \vert \hspace{0.05cm} S) = H(R) + H(S \hspace{0.05cm} \vert \hspace{0.05cm} R)$  muss deshalb  $H(R \hspace{0.05cm} \vert \hspace{0.05cm} S)$  gegenüber  $H(S \hspace{0.05cm} \vert \hspace{0.05cm} R)$  um den gleichen Betrag  $I(R;\ S) = 0.689 \ \rm bit$  kleiner sein als  $H(R)$  gegenüber  $H(S)$.
  • Die Transinformation  (englisch:  Mutual Information)  zwischen den Zufallsgrößen  $R$  und  $S$  ergibt sich aber auch aus der Gleichung
$$I(R;\ S) = H(R) + H(S) - H(RS) = 2.585\ {\rm bit} + 3.274\ {\rm bit} - 5.170\ {\rm bit} = 0.689\ {\rm bit} \hspace{0.05cm}. $$


Bedingte Transinformation


Wir betrachten nun drei Zufallsgrößen  $X$,  $Y$  und  $Z$, die zueinander in Beziehung stehen (können).

$\text{Definition:}$  Die  bedingte Transinformation  (englisch:  "Conditional Mutual Information")  zwischen den Zufallsgrößen  $X$  und  $Y$  bei gegebenem  $Z = z$  lautet:

$$I(X;Y \hspace{0.05cm}\vert\hspace{0.05cm} Z = z) = H(X\hspace{0.05cm}\vert\hspace{0.05cm} Z = z) - H(X\vert\hspace{0.05cm}Y ,\hspace{0.05cm} Z = z) \hspace{0.05cm}.$$

Man bezeichnet als die  bedingte Transinformation  zwischen den Zufallsgrößen  $X$  und  $Y$  für die Zufallsgröße  $Z$  allgemein nach Mittelung über alle  $z \in Z$:

$$I(X;Y \hspace{0.05cm}\vert\hspace{0.05cm} Z ) = H(X\hspace{0.05cm}\vert\hspace{0.05cm} Z ) - H(X\vert\hspace{0.05cm}Y Z )= \hspace{-0.3cm} \sum_{z \hspace{0.1cm}\in \hspace{0.1cm}{\rm supp} (P_{Z})} \hspace{-0.25cm} P_{Z}(z) \cdot I(X;Y \hspace{0.05cm}\vert\hspace{0.05cm} Z = z) \hspace{0.05cm}.$$

$P_Z(Z)$  ist die Wahrscheinlichkeitsfunktion  $\rm (PMF)$  der Zufallsgröße  $Z$  und  $P_Z(z)$  die Wahrscheinlichkeit für die Realisierung  $Z = z$.


$\text{Bitte beachten Sie:}$ 

  • Für die bedingte Entropie gilt bekanntlich die Größenrelation  $H(X\hspace{0.05cm}\vert\hspace{0.05cm}Z) ≤ H(X)$.
  • Für die Transinformation gilt diese Größenrelation nicht unbedingt:
  • $I(X; Y\hspace{0.05cm}\vert\hspace{0.05cm}Z)$  kann kleiner, gleich, aber auch größer sein  als  $I(X; Y)$.


2D–PMF  $P_{XZ}$

$\text{Beispiel 4:}$  Wir betrachten die binären Zufallsgrößen  $X$,  $Y$  und  $Z$  mit folgenden Eigenschaften:

  • $X$  und  $Y$  seien statistisch unabhängig.  Für ihre Wahrscheinlichkeitsfunktionen gelte:
$$P_X(X) = \big [1/2, \ 1/2 \big], \hspace{0.2cm} P_Y(Y) = \big[1– p, \ p \big] \ ⇒ \ H(X) = 1\ {\rm bit}, \hspace{0.2cm} H(Y) = H_{\rm bin}(p).$$
  • $Z$  ist die Modulo–2–Summe von  $X$  und  $Y$:   $Z = X ⊕ Y$.


Aus der Verbund–Wahrscheinlichkeitsfunktion  $P_{XZ}$  gemäß der oberen Grafik folgt:

  • Durch Summation der Spalten–Wahrscheinlichkeiten ergibt sich  $P_Z(Z) = \big [1/2, \ 1/2 \big ]$   ⇒   $H(Z) = 1\ {\rm bit}$.
  • $X$  und  $Z$  sind ebenfalls statistisch unabhängig, da für die 2D–PMF  $P_{XZ}(X, Z) = P_X(X) · P_Z(Z)$  gilt. 
  • Daraus folgt:   $H(Z\hspace{0.05cm}\vert\hspace{0.05cm} X) = H(Z)$   und   $H(X \hspace{0.05cm}\vert\hspace{0.05cm} Z) = H(X)$   sowie   $I(X; Z) = 0$.
Bedingte 2D–PMF $P_{X\hspace{0.05cm}\vert\hspace{0.05cm}YZ}$



Aus der bedingten Wahrscheinlichkeitsfunktion  $P_{X\vert YZ}$  gemäß der unteren Grafik lassen sich berechnen:

  • $H(X\hspace{0.05cm}\vert\hspace{0.05cm} YZ) = 0$,  da alle  $P_{X\hspace{0.05cm}\vert\hspace{0.05cm} YZ}$–Einträge entweder  $0$  oder  $1$  sind   ⇒   „bedingte Entropie”,
  • $I(X; YZ) = H(X) - H(X\hspace{0.05cm}\vert\hspace{0.05cm} YZ) = H(X)= 1 \ {\rm bit}$   ⇒   „Transinformation”,
  • $I(X; Y\vert Z) = H(X\hspace{0.05cm}\vert\hspace{0.05cm} Z) =H(X)=1 \ {\rm bit} $   ⇒   „bedingte Transinformation”.


Im vorliegenden Beispiel ist  also

  • die bedingte Transinformation  $I(X; Y\hspace{0.05cm}\vert\hspace{0.05cm} Z) = 1$
  • größer als die herkömmliche Transinformation   $I(X; Y) = 0$.


Kettenregel der Transinformation


Bisher haben wir die Transinformation nur zwischen zwei eindimensionalen Zufallsgrößen betrachtet.  Nun erweitern wir die Definition auf insgesamt  $n + 1$  Zufallsgrößen, die wir aus Darstellungsgründen mit  $X_1$,  ... ,  $X_n$  sowie  $Z$  bezeichnen.  Dann gilt:

$\text{Kettenregel der Transinformation:}$ 

Die Transinformation zwischen der  $n$–dimensionalen Zufallsgröße  $X_1 X_2 \hspace{0.05cm}\text{...} \hspace{0.05cm} X_n$  und der Zufallsgröße  $Z$  lässt sich wie folgt darstellen und berechnen:

$$I(X_1\hspace{0.05cm}X_2\hspace{0.05cm}\text{...} \hspace{0.1cm}X_n;Z) = I(X_1;Z) + I(X_2;Z \vert X_1) + \hspace{0.05cm}\text{...} \hspace{0.1cm}+ I(X_n;Z\vert X_1\hspace{0.05cm}X_2\hspace{0.05cm}\text{...} \hspace{0.1cm}X_{n-1}) = \sum_{i = 1}^{n} I(X_i;Z \vert X_1\hspace{0.05cm}X_2\hspace{0.05cm}\text{...} \hspace{0.1cm}X_{i-1}) \hspace{0.05cm}.$$


$\text{Beweis:}$  Wir beschränken uns hier auf den Fall  $n = 2$, also auf insgesamt drei Zufallsgrößen, und ersetzen  $X_1$  durch $X$ und  $X_2$  durch  $Y$.  Dann erhalten wir:

$$\begin{align*}I(X\hspace{0.05cm}Y;Z) & = H(XY) - H(XY\hspace{0.05cm} \vert \hspace{0.05cm}Z) = \\ & = \big [ H(X)+ H(Y\hspace{0.05cm} \vert \hspace{0.05cm} X)\big ] - \big [ H(X\hspace{0.05cm} \vert \hspace{0.05cm} Z) + H(Y\hspace{0.05cm} \vert \hspace{0.05cm} XZ)\big ] =\\ & = \big [ H(X)- H(X\hspace{0.05cm} \vert \hspace{0.05cm} Z)\big ] - \big [ H(Y\hspace{0.05cm} \vert \hspace{0.05cm} X) + H(Y\hspace{0.05cm} \vert \hspace{0.05cm}XZ)\big ]=\\ & = I(X;Z) + I(Y;Z \hspace{0.05cm} \vert \hspace{0.05cm} X) \hspace{0.05cm}.\end{align*}$$


Aus dieser Gleichung erkennt man, dass die die Größenrelation  $I(X Y; Z) ≥ I(X; Z)$  immer gegeben ist.

  • Gleichheit ergibt sich für die bedingte Transinformation  $I(Y; Z \hspace{0.05cm} \vert \hspace{0.05cm} X) = 0$, 
  • also dann, wenn die Zufallsgrößen  $Y$  und  $Z$  für ein gegebenes  $X$  statistisch unabhängig sind.


$\text{Beispiel 5:}$  Wir betrachten die  Markovkette   $X → Y → Z$.  Für eine solche Konstellation gilt stets das  Data Processing Theorem  mit der folgenden Konsequenz, die sich aus der Kettenregel der Transinformation ableiten lässt:

$$I(X;Z) \hspace{-0.05cm} \le \hspace{-0.05cm}I(X;Y ) \hspace{0.05cm},$$
$$I(X;Z) \hspace{-0.05cm} \le \hspace{-0.05cm} I(Y;Z ) \hspace{0.05cm}.$$

Das Theorem besagt somit:

  • Man kann durch Manipulation  $($"Processing"  $Z)$  der Daten  $Y$  keine zusätzliche Information über den Eingang  $X$  gewinnen.
  • Die Datenverarbeitung  $Y → Z$  $($durch einen zweiten Prozessor$)$ dient nur dem Zweck, die Information über  $X$  besser sichtbar zu machen.


Weitere Informationen zum  "Data Processing Theorem"  finden Sie in der  Aufgabe 3.15.


Aufgaben zum Kapitel


Aufgabe 3.7: Einige Entropieberechnungen

Aufgabe 3.8: Nochmals Transinformation

Aufgabe 3.8Z: Tupel aus ternären Zufallsgrößen

Aufgabe 3.9: Bedingte Transinformation