Aufgaben:Aufgabe 3.15: Data Processing Theorem: Unterschied zwischen den Versionen

Aus LNTwww
Wechseln zu:Navigation, Suche
(Die Seite wurde neu angelegt: „ {{quiz-Header|Buchseite=Informationstheorie/Anwendung auf die Digitalsignalübertragung }} [[Datei:|right|]] ===Fragebogen=== <quiz display=simple> {Multi…“)
 
 
(17 dazwischenliegende Versionen von 3 Benutzern werden nicht angezeigt)
Zeile 3: Zeile 3:
 
}}
 
}}
  
[[Datei:|right|]]
+
[[Datei:P_ID2818__Inf_A_3_14.png|right|frame|Zum Data Processing Theorem]]
 +
Wir betrachten die folgende Datenverarbeitungskette:
 +
* Binäre Eingangsdaten&nbsp; $X$&nbsp; werden durch den Prozessor&nbsp; $1$&nbsp; (obere Hälfte in der Grafik)&nbsp; verarbeitet, der durch bedingte Wahrscheinlichkeiten &nbsp; &rArr; &nbsp; $P_{Y\hspace{0.03cm}|\hspace{0.03cm}X}(\cdot)$&nbsp; beschreibbar ist.&nbsp; Dessen Ausgangsgröße ist&nbsp; $Y$.
 +
* Ein zweiter Prozessor mit der Zufallsgröße&nbsp; $Y$&nbsp; am Eingang und der Zufallsgröße&nbsp; $Z$&nbsp; am Ausgang ist durch&nbsp; $P_{Z\hspace{0.03cm}|\hspace{0.03cm}Y}(\cdot)$&nbsp; gegeben&nbsp;  (untere Hälfte in der Grafik).&nbsp; $Z$&nbsp; hängt allein von&nbsp; $Y$&nbsp; ab&nbsp; (deterministisch oder stochastisch)&nbsp; und ist unabhängig von&nbsp; $X$:
 +
:$$P_{Z\hspace{0.05cm}|\hspace{0.03cm} XY\hspace{-0.03cm}}(z\hspace{0.03cm}|\hspace{0.03cm} x, y) =P_{Z\hspace{0.05cm}|\hspace{0.03cm} Y\hspace{-0.03cm}}(z\hspace{0.03cm}|\hspace{0.03cm} y) \hspace{0.05cm}.$$
 +
Für diese Beschreibung wurde folgende Nomenklatur benutzt:
 +
:$$x \in X = \{0, 1\}\hspace{0.02cm},\hspace{0.3cm} y \in Y = \{0,1\}\hspace{0.02cm},\hspace{0.3cm} z \in Z = \{0, 1\}\hspace{0.02cm}.$$
 +
Die Verbund–Wahrscheinlichkeitsfunktion&nbsp; (englisch:&nbsp; "Joint Probability Mass Function")&nbsp; lautet:
 +
:$$P_{XYZ}(x, y, z) = P_{X}(x) \cdot P_{Y\hspace{0.05cm}|\hspace{0.03cm} X\hspace{-0.03cm}}(y\hspace{0.03cm}|\hspace{0.03cm} x)\cdot P_{Z\hspace{0.05cm}|\hspace{0.03cm} Y\hspace{-0.03cm}}(z\hspace{0.03cm}|\hspace{0.03cm} y) \hspace{0.05cm}.$$
 +
Das bedeutet auch:
 +
 
 +
$X → Y → Z$&nbsp; bilden eine&nbsp; [[Stochastische_Signaltheorie/Markovketten|Markovkette]].&nbsp; Für eine solche gilt das&nbsp; "Data Processing Theorem"&nbsp; mit folgender Konsequenz:
 +
:$$I(X;Z)  \le  I(X;Y ) \hspace{0.05cm}, $$
 +
:$$I(X;Z)  \le  I(Y;Z ) \hspace{0.05cm}.$$
 +
Das Theorem besagt somit:
 +
:* Man kann durch Manipulation&nbsp; ("Processing")&nbsp; der Daten&nbsp; $Y$&nbsp; keine zusätzliche Information über den Eingang&nbsp; $X$&nbsp; gewinnen.
 +
:* Datenverarbeitung&nbsp; (durch den Prozessor &nbsp; $1$)&nbsp; dient nur dem Zweck, die in&nbsp; $X$&nbsp; enthaltene Information besser sichtbar zu machen.
 +
 
 +
 
 +
 
 +
 
 +
 
 +
 
 +
 
 +
 
 +
''Hinweise:''
 +
*Die Aufgabe gehört zum  Kapitel&nbsp; [[Informationstheorie/Anwendung_auf_die_Digitalsignalübertragung|Anwendung auf die Digitalsignalübertragung]].
 +
*Bezug genommen wird auch auf die Seite&nbsp; [[Informationstheorie/Verschiedene_Entropien_zweidimensionaler_Zufallsgrößen#Kettenregel_der_Transinformation|Kettenregel der Transinformation]]&nbsp; im vorherigen Kapitel.
 +
 +
 
  
  
Zeile 9: Zeile 38:
  
 
<quiz display=simple>
 
<quiz display=simple>
{Multiple-Choice Frage
+
{Wie lässt sich das Ergebnis &nbsp;$I(X; Y) = 1 - H_{\rm bin}(p)$&nbsp; interpretieren?
 
|type="[]"}
 
|type="[]"}
- Falsch
+
+ Die Herleitung erfolgt über die Eigenschaften eines streng symmetrischen Kanals.
+ Richtig
+
- Ausgenutzt wird,&nbsp; dass &nbsp;$H_{\rm bin}(p)$&nbsp; eine konkave Funktion ist.
 +
- Das Ergebnis gilt für jede Wahrscheinlichkeitsfunktion &nbsp;$P_X(X)$.
  
  
{Input-Box Frage
+
{Welche Transinformation &nbsp;$I(X; Y)$&nbsp; ergibt sich für den ersten Prozessor mit &nbsp;$p = 0.1$?
 
|type="{}"}
 
|type="{}"}
$\alpha$ = { 0.3 }
+
$ I(X; Y) \ = \ $ { 0.531 3% } $\ \rm bit$
  
 +
{Welche Transinformation &nbsp;$I(Y; Z)$&nbsp; ergibt sich für den zweiten Prozessor mit &nbsp;$q = 0.2$?
 +
|type="{}"}
 +
$I(Y; Z)  \ = \ $ { 0.278 3% } $\ \rm bit$
  
 +
{Welche Transinformation &nbsp;$I(X; Z)$&nbsp; ergibt sich für das Gesamtsystem  mit&nbsp; $p = 0.1$ &nbsp;und&nbsp; $q = 0.2$?
 +
|type="{}"}
 +
$I(X; Z) \ = \ $ { 0.173 3% } $\ \rm bit$
  
 +
{Erfüllt dieses Beispiel das&nbsp; &bdquo;Data Processing Theorem&rdquo;?
 +
|type="()"}
 +
+ Ja,
 +
- Nein.
 
</quiz>
 
</quiz>
  
 
===Musterlösung===
 
===Musterlösung===
 
{{ML-Kopf}}
 
{{ML-Kopf}}
'''1.'''
+
'''(1)'''&nbsp; Richtig ist nur der <u>Lösungsvorschlag 1</u>:
'''2.'''
+
* Beide Prozessoren beschreiben streng symmetrische Kanäle &nbsp; &rArr; &nbsp;  sowohl gleichmäßig dispersiv als auch gleichmäßig fokussierend.
'''3.'''
+
* Für einen solchen Binärkanal gilt mit&nbsp; $Y = \{0, 1\} \ ⇒ \ |Y| = 2$:
'''4.'''
+
:$$I(X;Y) = 1 + \sum_{y \hspace{0.05cm}\in\hspace{0.05cm} Y} \hspace{0.1cm} P_{Y\hspace{0.03cm}|\hspace{0.03cm} X}(y\hspace{0.03cm}|\hspace{0.03cm}x) \cdot {\rm log}_2 \hspace{0.1cm}P_{\hspace{0.01cm}Y \hspace{0.03cm}|\hspace{0.03cm} X}(y\hspace{0.03cm}|\hspace{0.03cm}x) \hspace{0.05cm}.$$
'''5.'''
+
*Hierbei ist es völlig egal, ob man von&nbsp; $X = 0$&nbsp; oder von&nbsp; $X = 1$&nbsp; ausgeht.&nbsp;
'''6.'''
+
*Für&nbsp; $X = 0$&nbsp; erhält man mit&nbsp; $P_{Y\hspace{0.03cm}|\hspace{0.03cm}X}(Y = 1\hspace{0.03cm}|\hspace{0.03cm}X = 0) = p$  &nbsp;und&nbsp;  $P_{Y\hspace{0.03cm}|\hspace{0.03cm}X}(Y = 0\hspace{0.03cm}|\hspace{0.03cm}X = 0) = 1 – p\hspace{0.05cm}$:
'''7.'''
+
:$$ I(X;Y) = 1 + p \cdot {\rm log}_2 \hspace{0.1cm} (p) + (1-p) \cdot {\rm log}_2 \hspace{0.1cm} (1-p) = 1 - H_{\rm bin}(p)\hspace{0.05cm},
 +
\hspace{1.0cm}H_{\rm bin}(p)= p \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{p}+ (1-p) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{1-p}\hspace{0.05cm}.$$
 +
*Das Ergebnis gilt allerdings nur für&nbsp; $P_X(X) = (0.5, \ 0.5)$ &nbsp; &rArr; &nbsp; maximale Transinformation &nbsp; &rArr; &nbsp; Kanalkapazität.
 +
*Andernfalls ist&nbsp; $I(X; Y)$&nbsp; kleiner.&nbsp; &nbsp; &nbsp;Beispielsweise gilt für $P_X(X) = (1, \ 0)$: &nbsp;  $H(X) = 0$  &nbsp; &rArr; &nbsp;  $I(X; Y) = 0.$
 +
*Die binäre Entropiefunktion ist zwar konkav, aber diese Eigenschaft wurde bei der Herleitung nicht benutzt &nbsp; &rArr; &nbsp;  Antwort 2 ist falsch.
 +
 
 +
 
 +
 
 +
'''(2)'''&nbsp; Für den Prozessor&nbsp; $1$&nbsp; ergibt sich mit&nbsp; $p = 0.1\hspace{0.05cm}$:
 +
:$$ I(X;Y) = 1 - H_{\rm bin}(0.1) = 1 - 0.469 \hspace{0.15cm} \underline {=0.531 \,{\rm (bit)}} \hspace{0.05cm}.$$
 +
 
 +
 
 +
'''(3)'''&nbsp; Entsprechend gilt für den zweiten Prozessor mit&nbsp; $q = 0.2\hspace{0.05cm}$:
 +
:$$I(Y;Z) = 1 - H_{\rm bin}(0.2) = 1 - 0.722 \hspace{0.15cm} \underline {=0.278 \,{\rm (bit)}} \hspace{0.05cm}.$$
 +
 
 +
 
 +
'''(4)'''&nbsp; Die Wahrscheinlichkeit für&nbsp; $Z = 0$&nbsp; unter der Bedingung&nbsp; $X = 0$&nbsp; ergibt sich über zwei Wege zu
 +
:$$P(\hspace{0.01cm}Z\hspace{-0.05cm} = 0\hspace{0.03cm} | \hspace{0.03cm} X\hspace{-0.05cm} = \hspace{-0.05cm}0) = (1-p) \cdot (1-q) + p \cdot q = 1 - p - q + 2pq \stackrel{!}{=} 1 - \varepsilon \hspace{0.05cm}.$$
 +
*Das Gesamtsystem hat dann die genau gleiche BSC–Struktur wie die Prozessoren $1$ und $2$, aber nun mit der Verfälschungswahrscheinlichkeit&nbsp; $\varepsilon = p + q - 2pq \hspace{0.05cm}.$
 +
*Für&nbsp; $p = 0.1$&nbsp; und&nbsp; $q = 0.2$&nbsp; erhält man:
 +
:$$ \varepsilon = 0.1 + 0.2 - 2\cdot 0.1 \cdot 0.2 = 0.26 \hspace{0.3cm}\Rightarrow \hspace{0.3cm} I(X;Z) = 1 - H_{\rm bin}(0.26) = 1 - 0.827 \hspace{0.15cm} \underline {=0.173 \,{\rm (bit)}} \hspace{0.05cm}.$$
 +
 
 +
 
 +
'''(5)'''&nbsp; Die Antwort ist natürlich&nbsp; <u>JA</u>, da beim&nbsp; "Data Processing Theorem" genau von den hier gegebenen Voraussetzungen ausgegangen wird.
 +
 
 +
Wir wollen aber zusätzlich einige numerische Ergebnisse auswerten:
 +
* Gilt&nbsp; $0 ≤ p < 0.5$ &nbsp;und&nbsp; $0 ≤ q < 0.5$, so erhält man:
 +
:$$\varepsilon = p + q \cdot (1-2p) > p \hspace{0.3cm}\Rightarrow \hspace{0.3cm} I(X;Z) < I(X;Y) \hspace{0.05cm},$$
 +
:$$\varepsilon = q + p \cdot (1-2q) > q \hspace{0.3cm}\Rightarrow \hspace{0.3cm} I(X;Z) < I(Y;Z) \hspace{0.05cm}.$$
 +
*Für &nbsp;$p = 0.5$&nbsp; gilt unabhängig von &nbsp;$q$,&nbsp; da&nbsp; $I(X; Z)$&nbsp; nicht größer sein kann als&nbsp; $I(X; Y)$:
 +
:$$\varepsilon = 0.5 + q \cdot (1-1) = 0.5 \hspace{0.3cm}\Rightarrow \hspace{0.3cm} I(X;Y) = 0 \hspace{0.3cm}\Rightarrow \hspace{0.3cm} I(X;Z) = 0 \hspace{0.05cm}.$$
 +
*Ebenso erhält man mit &nbsp;$q = 0.5$&nbsp; unabhängig von &nbsp;$p$:
 +
:$$\varepsilon = 0.5 + p \cdot (1-1) = 0.5 \hspace{0.3cm}\Rightarrow \hspace{0.3cm} I(Y;Z) = 0 \hspace{0.3cm}\Rightarrow \hspace{0.3cm} I(X;Z) = 0 \hspace{0.05cm}.$$
 +
*Auch für &nbsp;$p < 0.5$&nbsp; und &nbsp;$q > 0.5$&nbsp; wird das Data Processing Theorem nicht verletzt, was hier nur an einem Beispiel gezeigt werden soll:
 +
::Mit &nbsp;$p = 0.1$&nbsp; und &nbsp;$q = 0.8$&nbsp; erhält man das gleiche Ergebnis wie in Teilaufgabe&nbsp; '''(4)''':
 +
::$$\varepsilon = 0.1 + 0.8 - 2\cdot 0.1 \cdot 0.8 = 0.74  \hspace{0.3cm}
 +
\Rightarrow \hspace{0.3cm} I(X;Z) = 1 - H_{\rm bin}(0.74) = 1 - H_{\rm bin}(0.26) =0.173 \,{\rm (bit)} \hspace{0.05cm}.$$
 
{{ML-Fuß}}
 
{{ML-Fuß}}
  
  
  
[[Category:Aufgaben zu  Informationstheorie|^3.3 Anwendung auf die Digitalsignalübertragung^]]
+
[[Category:Aufgaben zu  Informationstheorie|^3.3 Anwendung auf DSÜ-Kanäle^]]

Aktuelle Version vom 24. September 2021, 13:50 Uhr

Zum Data Processing Theorem

Wir betrachten die folgende Datenverarbeitungskette:

  • Binäre Eingangsdaten  $X$  werden durch den Prozessor  $1$  (obere Hälfte in der Grafik)  verarbeitet, der durch bedingte Wahrscheinlichkeiten   ⇒   $P_{Y\hspace{0.03cm}|\hspace{0.03cm}X}(\cdot)$  beschreibbar ist.  Dessen Ausgangsgröße ist  $Y$.
  • Ein zweiter Prozessor mit der Zufallsgröße  $Y$  am Eingang und der Zufallsgröße  $Z$  am Ausgang ist durch  $P_{Z\hspace{0.03cm}|\hspace{0.03cm}Y}(\cdot)$  gegeben  (untere Hälfte in der Grafik).  $Z$  hängt allein von  $Y$  ab  (deterministisch oder stochastisch)  und ist unabhängig von  $X$:
$$P_{Z\hspace{0.05cm}|\hspace{0.03cm} XY\hspace{-0.03cm}}(z\hspace{0.03cm}|\hspace{0.03cm} x, y) =P_{Z\hspace{0.05cm}|\hspace{0.03cm} Y\hspace{-0.03cm}}(z\hspace{0.03cm}|\hspace{0.03cm} y) \hspace{0.05cm}.$$

Für diese Beschreibung wurde folgende Nomenklatur benutzt:

$$x \in X = \{0, 1\}\hspace{0.02cm},\hspace{0.3cm} y \in Y = \{0,1\}\hspace{0.02cm},\hspace{0.3cm} z \in Z = \{0, 1\}\hspace{0.02cm}.$$

Die Verbund–Wahrscheinlichkeitsfunktion  (englisch:  "Joint Probability Mass Function")  lautet:

$$P_{XYZ}(x, y, z) = P_{X}(x) \cdot P_{Y\hspace{0.05cm}|\hspace{0.03cm} X\hspace{-0.03cm}}(y\hspace{0.03cm}|\hspace{0.03cm} x)\cdot P_{Z\hspace{0.05cm}|\hspace{0.03cm} Y\hspace{-0.03cm}}(z\hspace{0.03cm}|\hspace{0.03cm} y) \hspace{0.05cm}.$$

Das bedeutet auch:

$X → Y → Z$  bilden eine  Markovkette.  Für eine solche gilt das  "Data Processing Theorem"  mit folgender Konsequenz:

$$I(X;Z) \le I(X;Y ) \hspace{0.05cm}, $$
$$I(X;Z) \le I(Y;Z ) \hspace{0.05cm}.$$

Das Theorem besagt somit:

  • Man kann durch Manipulation  ("Processing")  der Daten  $Y$  keine zusätzliche Information über den Eingang  $X$  gewinnen.
  • Datenverarbeitung  (durch den Prozessor   $1$)  dient nur dem Zweck, die in  $X$  enthaltene Information besser sichtbar zu machen.





Hinweise:



Fragebogen

1

Wie lässt sich das Ergebnis  $I(X; Y) = 1 - H_{\rm bin}(p)$  interpretieren?

Die Herleitung erfolgt über die Eigenschaften eines streng symmetrischen Kanals.
Ausgenutzt wird,  dass  $H_{\rm bin}(p)$  eine konkave Funktion ist.
Das Ergebnis gilt für jede Wahrscheinlichkeitsfunktion  $P_X(X)$.

2

Welche Transinformation  $I(X; Y)$  ergibt sich für den ersten Prozessor mit  $p = 0.1$?

$ I(X; Y) \ = \ $

$\ \rm bit$

3

Welche Transinformation  $I(Y; Z)$  ergibt sich für den zweiten Prozessor mit  $q = 0.2$?

$I(Y; Z) \ = \ $

$\ \rm bit$

4

Welche Transinformation  $I(X; Z)$  ergibt sich für das Gesamtsystem mit  $p = 0.1$  und  $q = 0.2$?

$I(X; Z) \ = \ $

$\ \rm bit$

5

Erfüllt dieses Beispiel das  „Data Processing Theorem”?

Ja,
Nein.


Musterlösung

(1)  Richtig ist nur der Lösungsvorschlag 1:

  • Beide Prozessoren beschreiben streng symmetrische Kanäle   ⇒   sowohl gleichmäßig dispersiv als auch gleichmäßig fokussierend.
  • Für einen solchen Binärkanal gilt mit  $Y = \{0, 1\} \ ⇒ \ |Y| = 2$:
$$I(X;Y) = 1 + \sum_{y \hspace{0.05cm}\in\hspace{0.05cm} Y} \hspace{0.1cm} P_{Y\hspace{0.03cm}|\hspace{0.03cm} X}(y\hspace{0.03cm}|\hspace{0.03cm}x) \cdot {\rm log}_2 \hspace{0.1cm}P_{\hspace{0.01cm}Y \hspace{0.03cm}|\hspace{0.03cm} X}(y\hspace{0.03cm}|\hspace{0.03cm}x) \hspace{0.05cm}.$$
  • Hierbei ist es völlig egal, ob man von  $X = 0$  oder von  $X = 1$  ausgeht. 
  • Für  $X = 0$  erhält man mit  $P_{Y\hspace{0.03cm}|\hspace{0.03cm}X}(Y = 1\hspace{0.03cm}|\hspace{0.03cm}X = 0) = p$  und  $P_{Y\hspace{0.03cm}|\hspace{0.03cm}X}(Y = 0\hspace{0.03cm}|\hspace{0.03cm}X = 0) = 1 – p\hspace{0.05cm}$:
$$ I(X;Y) = 1 + p \cdot {\rm log}_2 \hspace{0.1cm} (p) + (1-p) \cdot {\rm log}_2 \hspace{0.1cm} (1-p) = 1 - H_{\rm bin}(p)\hspace{0.05cm}, \hspace{1.0cm}H_{\rm bin}(p)= p \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{p}+ (1-p) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{1-p}\hspace{0.05cm}.$$
  • Das Ergebnis gilt allerdings nur für  $P_X(X) = (0.5, \ 0.5)$   ⇒   maximale Transinformation   ⇒   Kanalkapazität.
  • Andernfalls ist  $I(X; Y)$  kleiner.     Beispielsweise gilt für $P_X(X) = (1, \ 0)$:   $H(X) = 0$   ⇒   $I(X; Y) = 0.$
  • Die binäre Entropiefunktion ist zwar konkav, aber diese Eigenschaft wurde bei der Herleitung nicht benutzt   ⇒   Antwort 2 ist falsch.


(2)  Für den Prozessor  $1$  ergibt sich mit  $p = 0.1\hspace{0.05cm}$:

$$ I(X;Y) = 1 - H_{\rm bin}(0.1) = 1 - 0.469 \hspace{0.15cm} \underline {=0.531 \,{\rm (bit)}} \hspace{0.05cm}.$$


(3)  Entsprechend gilt für den zweiten Prozessor mit  $q = 0.2\hspace{0.05cm}$:

$$I(Y;Z) = 1 - H_{\rm bin}(0.2) = 1 - 0.722 \hspace{0.15cm} \underline {=0.278 \,{\rm (bit)}} \hspace{0.05cm}.$$


(4)  Die Wahrscheinlichkeit für  $Z = 0$  unter der Bedingung  $X = 0$  ergibt sich über zwei Wege zu

$$P(\hspace{0.01cm}Z\hspace{-0.05cm} = 0\hspace{0.03cm} | \hspace{0.03cm} X\hspace{-0.05cm} = \hspace{-0.05cm}0) = (1-p) \cdot (1-q) + p \cdot q = 1 - p - q + 2pq \stackrel{!}{=} 1 - \varepsilon \hspace{0.05cm}.$$
  • Das Gesamtsystem hat dann die genau gleiche BSC–Struktur wie die Prozessoren $1$ und $2$, aber nun mit der Verfälschungswahrscheinlichkeit  $\varepsilon = p + q - 2pq \hspace{0.05cm}.$
  • Für  $p = 0.1$  und  $q = 0.2$  erhält man:
$$ \varepsilon = 0.1 + 0.2 - 2\cdot 0.1 \cdot 0.2 = 0.26 \hspace{0.3cm}\Rightarrow \hspace{0.3cm} I(X;Z) = 1 - H_{\rm bin}(0.26) = 1 - 0.827 \hspace{0.15cm} \underline {=0.173 \,{\rm (bit)}} \hspace{0.05cm}.$$


(5)  Die Antwort ist natürlich  JA, da beim  "Data Processing Theorem" genau von den hier gegebenen Voraussetzungen ausgegangen wird.

Wir wollen aber zusätzlich einige numerische Ergebnisse auswerten:

  • Gilt  $0 ≤ p < 0.5$  und  $0 ≤ q < 0.5$, so erhält man:
$$\varepsilon = p + q \cdot (1-2p) > p \hspace{0.3cm}\Rightarrow \hspace{0.3cm} I(X;Z) < I(X;Y) \hspace{0.05cm},$$
$$\varepsilon = q + p \cdot (1-2q) > q \hspace{0.3cm}\Rightarrow \hspace{0.3cm} I(X;Z) < I(Y;Z) \hspace{0.05cm}.$$
  • Für  $p = 0.5$  gilt unabhängig von  $q$,  da  $I(X; Z)$  nicht größer sein kann als  $I(X; Y)$:
$$\varepsilon = 0.5 + q \cdot (1-1) = 0.5 \hspace{0.3cm}\Rightarrow \hspace{0.3cm} I(X;Y) = 0 \hspace{0.3cm}\Rightarrow \hspace{0.3cm} I(X;Z) = 0 \hspace{0.05cm}.$$
  • Ebenso erhält man mit  $q = 0.5$  unabhängig von  $p$:
$$\varepsilon = 0.5 + p \cdot (1-1) = 0.5 \hspace{0.3cm}\Rightarrow \hspace{0.3cm} I(Y;Z) = 0 \hspace{0.3cm}\Rightarrow \hspace{0.3cm} I(X;Z) = 0 \hspace{0.05cm}.$$
  • Auch für  $p < 0.5$  und  $q > 0.5$  wird das Data Processing Theorem nicht verletzt, was hier nur an einem Beispiel gezeigt werden soll:
Mit  $p = 0.1$  und  $q = 0.8$  erhält man das gleiche Ergebnis wie in Teilaufgabe  (4):
$$\varepsilon = 0.1 + 0.8 - 2\cdot 0.1 \cdot 0.8 = 0.74 \hspace{0.3cm} \Rightarrow \hspace{0.3cm} I(X;Z) = 1 - H_{\rm bin}(0.74) = 1 - H_{\rm bin}(0.26) =0.173 \,{\rm (bit)} \hspace{0.05cm}.$$