Applets:Korrelation und Regressionsgerade: Unterschied zwischen den Versionen

Aus LNTwww
Wechseln zu:Navigation, Suche
K (Textersetzung - „Biografien_und_Bibliografien/Beteiligte_der_Professur_Leitungsgebundene_%C3%9Cbertragungstechnik#Tasn.C3.A1d_Kernetzky.2C_M.Sc._.28bei_L.C3.9CT_seit_2014.29“ durch „Biografien_und_Bibliografien/An_LNTwww_beteiligte_LÜT-Angehörige#Dr.-Ing._Tasn.C3.A1d_Kernetzky_.28bei_L.C3.9CT_von_2014-2022.29“)
 
(40 dazwischenliegende Versionen von 3 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
{{LntAppletLink|verteilungen}}  
+
{{LntAppletLink|correlation}}
 +
  
 
==Programmbeschreibung==
 
==Programmbeschreibung==
 
<br>
 
<br>
In diesem Applet werden binäre&nbsp; $(M=2)$&nbsp; und ternäre&nbsp; $(M=3)$&nbsp; Kanalmodelle ohne Gedächtnis betrachtet mit jeweils&nbsp; $M$&nbsp; Eingängen&nbsp; $X$&nbsp; und&nbsp; $M$&nbsp; Ausgängen&nbsp; $Y$.&nbsp; Ein solches Nachrichtensystem ist durch die Wahrscheinlichkeitsfunktion&nbsp; $P_X(X)$&nbsp; und die Matrix&nbsp; $P_{\hspace{0.01cm}Y\hspace{0.03cm} \vert \hspace{0.01cm}X}(Y\hspace{0.03cm}  \vert \hspace{0.03cm} X)$&nbsp; der Übergangswahrscheinlichkeiten vollständig bestimmt.
+
Als einfaches Beispiel einer 2D-Zufallsgröße&nbsp; $(X, Y)$&nbsp; betrachten wir den Fall, dass diese nur vier Werte annehmen kann:
 
+
*Punkt&nbsp; $1$&nbsp; bei&nbsp; $(x_1, \ y_1)$&nbsp; mit Wahrscheinlichkeit&nbsp; $p_1$: &nbsp; Die Parameter&nbsp; $x_1, \ y_1, \ p_1$&nbsp; sind im Applet per Slider einstellbar.
Für diese binären bzw. ternären Systeme werden folgende informationstheoretische Beschreibungsgrößen hergeleitet und verdeutlicht:
+
*Punkt&nbsp; $2$&nbsp; bei&nbsp; $(x_2, \ y_2)$&nbsp; mit Wahrscheinlichkeit&nbsp; $p_2$: &nbsp; Die Parameter liegen durch den Punkt&nbsp; $1$&nbsp; fest: &nbsp; $x_2=-x_1, \ y_2=-y_1, \ p_2=p_1$.
*die&nbsp; ''Quellenentropie'' &nbsp; $H(X)$&nbsp; und die&nbsp; ''Sinkenentropie'' &nbsp; $H(Y)$,
+
*Punkt&nbsp; $3$&nbsp; bei&nbsp; $(+1, +1)$&nbsp; mit Wahrscheinlichkeit&nbsp; $p_3 = 0.5-p_1$: &nbsp; Die Lage dieses Punktes ist im Applet fest vorgegeben.
*die&nbsp; ''Äquivokation'' &nbsp; (&bdquo;Rückschlussentropie&rdquo;)&nbsp; $H(X|Y)$&nbsp; und die &nbsp; ''Irrelevanz'' (&bdquo;Streuentropie&rdquo;)&nbsp; $H(Y|X)$,
+
*Punkt&nbsp; $4$&nbsp; bei&nbsp; $(-1, -1)$&nbsp; mit Wahrscheinlichkeit&nbsp; $p_4 = p_3$: &nbsp; Dieser Punkt liegt ebenso wie der Punkt&nbsp; $3$&nbsp; auf der Winkelhalbierenden.
*die&nbsp; ''Verbundentropie'' &nbsp; $H(XY)$&nbsp; sowie die ''Transinformation''&nbsp; (englisch:&nbsp; ''Mutual Information'')&nbsp; $I(X; Y)$,
 
*die&nbsp; ''Kanalkapazität'' &nbsp; als die entscheidende Kenngröße digitaler Kanalmodelle ohne Gedächtnis:
 
:$$C = \max_{P_X(X)} \hspace{0.15cm}  I(X;Y)  \hspace{0.05cm}.$$
 
  
Diese informationstheoretische Größen können sowohl in analytische geschlossener Form berechnet oder durch Auswertung von Quellen&ndash; und Sinkensymbolfolge simulativ ermittelt werden. 
 
  
==Theoretischer Hintergrund==
+
Für diese Konstellation werden im Applet folgende Gerade durch den Nullpunkt dargestellt:
<br>
+
* Die Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; unter dem Winkel&nbsp; $\theta_{X \to Y}$ &nbsp; &rArr; &nbsp; blaue Kurve,
===Erwartungswerte zweidimensionaler Zufallsgrößen===
+
* die Regressionsgerade&nbsp; $R_{Y \to X}$&nbsp; unter dem Winkel&nbsp; $\theta_{Y \to X}$ &nbsp; &rArr; &nbsp; rote Kurve, 
<br>
+
* eine Hilfsgerade&nbsp; &bdquo;$\rm (HG)$&rdquo; unter dem Winkel&nbsp; $\theta_{\rm HG}$ &nbsp; &rArr; &nbsp; grüne Kurve, optional.  
Ein Sonderfall der statistischen Abhängigkeit ist die ''Korrelation''.
 
 
 
{{BlaueBox|TEXT= 
 
$\text{Definition:}$&nbsp; Unter&nbsp; '''Korrelation'''&nbsp; versteht man eine ''lineare Abhängigkeit''&nbsp; zwischen den Einzelkomponenten&nbsp; $x$&nbsp; und&nbsp; $y$.
 
*Korrelierte Zufallsgrößen sind damit stets auch statistisch abhängig.
 
*Aber nicht jede statistische Abhängigkeit bedeutet gleichzeitig eine Korrelation.}}
 
  
  
Zur quantitativen Erfassung der Korrelation verwendet man verschiedene Erwartungswerte der 2D-Zufallsgröße&nbsp; $(x, y)$.  
+
Als Zahlenwerte werden die zur Berechnung von&nbsp; $\theta_{X \to Y}$&nbsp; und&nbsp; $\theta_{Y \to X}$&nbsp; benötigten statistischen Kenngrößen ausgegeben:
 +
* die Streuungen (Standardabweichungen)&nbsp; $\sigma_X$&nbsp; und&nbsp; $\sigma_Y$&nbsp; der Komponenten&nbsp; $X$&nbsp; bzw.&nbsp; $Y$,
 +
*die Kovarianz&nbsp; $\mu_{XY}$&nbsp; &rArr; &nbsp; Zentralmoment erster Ordnung der 2D-Zufallsgröße&nbsp; $(X, Y)$,
 +
*der Korrelationskoeffizient&nbsp; $\rho_{XY}$&nbsp; zwischen den 2D-Zufallsgröße&nbsp; $X$&nbsp; und&nbsp; $Y$.
  
Diese sind analog  definiert zum eindimensionalen Fall 
 
*gemäß&nbsp; [[Stochastische_Signaltheorie/Momente_einer_diskreten_Zufallsgröße|Kapitel 2]]&nbsp; (bei wertdiskreten Zufallsgrößen)
 
*bzw.&nbsp; [[Stochastische_Signaltheorie/Erwartungswerte_und_Momente|Kapitel 3]]&nbsp; (bei wertkontinuierlichen Zufallsgrößen):
 
 
   
 
   
 +
Mit Hilfe der (optionalen) Hilfsgeraden sowie der gestrichelt eingezeichneten Abstände der Punkte in $x$&ndash; und $y$&ndash;Richtung zu dieser lässt sich nachvollziehen, dass
  
{{BlaueBox|TEXT= 
+
* die rote Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; die Eigenschaft hat, dass der mittlere quadrische Abstand  aller Punkte in&nbsp; $y$&ndash;Richtung &nbsp; &rArr; &nbsp; ${\rm MQA}_Y$&nbsp; von dieser  minimal ist,  
$\text{Definition:}$&nbsp; Für die (nichtzentrierten)&nbsp; '''Momente'''&nbsp; gilt die Beziehung:
+
* während für die blaue Regressionsgerade&nbsp; $R_{Y \to X}$&nbsp; der mittlere quadrische Abstand aller Punkte in&nbsp; $x$&ndash;Richtung &nbsp; &rArr; &nbsp; ${\rm MQA}_X$&nbsp; zum Minimum führt.  
:$$m_{kl}={\rm E}\big[x^k\cdot y^l\big]=\int_{-\infty}^{+\infty}\hspace{0.2cm}\int_{-\infty}^{+\infty} x\hspace{0.05cm}^{k} \cdot y\hspace{0.05cm}^{l} \cdot f_{xy}(x,y) \, {\rm d}x\, {\rm d}y.$$
 
Die beiden linearen Mittelwerte sind somit&nbsp; $m_x = m_{10}$&nbsp; und&nbsp; $m_y = m_{01}.$ }}
 
 
 
  
{{BlaueBox|TEXT= 
 
$\text{Definition:}$&nbsp; Die auf&nbsp; $m_x$&nbsp; bzw.&nbsp; $m_y$&nbsp; bezogenen&nbsp; '''Zentralmomente'''&nbsp; lauten:
 
:$$\mu_{kl} = {\rm E}\big[(x-m_{x})\hspace{0.05cm}^k \cdot (y-m_{y})\hspace{0.05cm}^l\big] .$$
 
In dieser allgemein gültigen Definitionsgleichung sind die Varianzen&nbsp; $σ_x^2$&nbsp; und&nbsp; $σ_y^2$&nbsp; der zwei Einzelkomponenten durch&nbsp; $\mu_{20}$&nbsp; bzw.&nbsp; $\mu_{02}$&nbsp; mit enthalten. }}
 
  
 
{{BlaueBox|TEXT= 
 
$\text{Definition:}$&nbsp; Besondere Bedeutung besitzt die&nbsp;  '''Kovarianz'''&nbsp; $(k = l = 1)$, die ein Maß für die ''lineare statistische Abhängigkeit''&nbsp; zwischen den Zufallsgrößen&nbsp; $x$&nbsp; und&nbsp; $y$&nbsp; ist:
 
:$$\mu_{11} = {\rm E}\big[(x-m_{x})\cdot(y-m_{y})\big] = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} (x-m_{x}) \cdot (y-m_{y})\cdot f_{xy}(x,y) \,{\rm d}x \,  {\rm d}y .$$
 
Im Folgenden bezeichnen wir die Kovarianz&nbsp; $\mu_{11}$&nbsp; teilweise auch mit&nbsp; $\mu_{xy}$, falls sich die Kovarianz auf die Zufallsgrößen&nbsp; $x$&nbsp; und&nbsp; $y$&nbsp; bezieht.}}
 
 
 
''Anmerkungen:''
 
*Die Kovarianz&nbsp; $\mu_{11}=\mu_{xy}$&nbsp; hängt wie folgt mit dem nichtzentrierten Moment $m_{11} = m_{xy} = {\rm E}\big[x · y\big]$ zusammen:
 
:$$\mu_{xy} = m_{xy} -m_{x }\cdot m_{y}.$$
 
 
*Diese Gleichung ist für numerische Auswertungen enorm vorteilhaft, da&nbsp; $m_{xy}$,&nbsp; $m_x$&nbsp; und&nbsp; $m_y$&nbsp; aus den Folgen&nbsp; $〈x_v〉$&nbsp; und&nbsp; $〈y_v〉$&nbsp; in einem einzigen Durchlauf gefunden werden können.
 
*Würde man dagegen die Kovarianz&nbsp; $\mu_{xy}$&nbsp; entsprechend der oberen Definitionsgleichung berechnen, so müsste man in einem ersten Durchlauf die Mittelwerte&nbsp; $m_x$&nbsp; und&nbsp; $m_y$&nbsp; ermitteln und könnte dann erst in einem zweiten Durchlauf den Erwartungswert&nbsp; ${\rm E}\big[(x - m_x) · (y - m_y)\big]$&nbsp; berechnen.
 
 
 
[[Datei:P_ID628__Sto_T_4_1_S6Neu.png |right|frame| Beispielhafte 2D-Erwartungswerte]]
 
{{GraueBox|TEXT= 
 
$\text{Beispiel 4:}$&nbsp; In den beiden ersten Zeilen der Tabelle sind die jeweils ersten Elemente zweier Zufallsfolgen&nbsp; $〈x_ν〉$&nbsp; und&nbsp; $〈y_ν〉$&nbsp; eingetragen.&nbsp; In der letzten Zeile sind die jeweiligen Produkte&nbsp; $x_ν · y_ν$&nbsp; angegeben.
 
 
   
 
   
*Durch Mittelung über die jeweils zehn Folgenelemente erhält man&nbsp;
 
:$$m_x =0.5,\ \ m_y = 1, \ \ m_{xy} = 0.69.$$
 
*Daraus ergibt sich direkt der Wert für die Kovarianz:
 
:$$\mu_{xy} = 0.69 - 0.5 · 1 = 0.19.$$
 
<br clear=all>
 
Ohne Kenntnis der Gleichung&nbsp; $\mu_{xy} = m_{xy} - m_x · m_y$&nbsp; hätte man zunächst im ersten Durchlauf die Mittelwerte&nbsp; $m_x$&nbsp; und&nbsp; $m_y$&nbsp; ermitteln müssen, <br>um dann in einem zweiten Durchlauf die Kovarianz&nbsp; $\mu_{xy}$&nbsp; als Erwartungswert des Produkts der mittelwertfreien Größen bestimmen zu können.}}
 
  
===Korrelationskoeffizient===
+
==English Description==
 
<br>
 
<br>
Bei statististischer Unabhängigkeit der beiden Komponenten&nbsp; $x$&nbsp; und&nbsp; $y$&nbsp; ist die Kovarianz&nbsp; $\mu_{xy} \equiv 0$.&nbsp; Dieser Fall wurde bereits im&nbsp; $\text{Beispiel 2}$&nbsp; auf der Seite&nbsp; [[Stochastische_Signaltheorie/Zweidimensionale_Zufallsgrößen#WDF_und_VTF_bei_statistisch_unabh.C3.A4ngigen_Komponenten|WDF und VTF bei statistisch unabhängigen Komponenten]]&nbsp; betrachtet.
+
As a simple example of a two-dimensional random variable&nbsp; $(X, Y)$&nbsp; consider the case where it can take only four values:
 +
*Point&nbsp; $1$&nbsp; at&nbsp; $(x_1, \ y_1)$&nbsp; with probability&nbsp; $p_1$: &nbsp; The parameters&nbsp; $x_1, \ y_1, \ p_1$&nbsp; are adjustable in the applet by slider.
 +
*Point&nbsp; $2$&nbsp; at&nbsp; $(x_2, \ y_2)$&nbsp; with probability&nbsp; $p_2$: &nbsp; The parameters are fixed by the point&nbsp; $1$&nbsp; &nbsp; $x_2=-x_1, \ y_2=-y_1, \ p_2=p_1$.
 +
*Point&nbsp; $3$&nbsp; at&nbsp; $(+1, +1)$&nbsp; with probability&nbsp; $p_3 = 0.5-p_1$: &nbsp; The location of this point is fixed in the applet.
 +
*Point&nbsp; $4$&nbsp; at&nbsp; $(-1, -1)$&nbsp; with probability&nbsp; $p_4 = p_3$: &nbsp; This point lies on the bisector as does the point&nbsp; $3$&nbsp;.
  
*Das Ergebnis&nbsp; $\mu_{xy} = 0$&nbsp; ist aber auch bei statistisch abhängigen Komponenten&nbsp; $x$&nbsp; und&nbsp; $y$&nbsp; möglich, nämlich dann, wenn diese unkorreliert, also&nbsp;    ''linear unabhängig''&nbsp; sind.
 
*Die  statistische Abhängigkeit ist dann nicht von erster, sondern von höherer Ordnung, zum Beispiel entsprechend der Gleichung&nbsp; $y=x^2.$
 
  
 +
For this constellation the following straight line through the zero point is shown in the applet:
 +
* the regression line&nbsp; $R_{X \to Y}$&nbsp; under the angle&nbsp; $\theta_{X \to Y}$ &nbsp; &rArr; &nbsp; blue curve,
 +
* the regression line&nbsp; $R_{Y \to X}$&nbsp; at angle&nbsp; $\theta_{Y \to X}$ &nbsp; &rArr; &nbsp; red curve, 
 +
* an auxiliary straight line&nbsp; &bdquo;$\rm (HG)$&rdquo; at the angle&nbsp; $\theta_{\rm HG}$ &nbsp; &rArr; &nbsp; green curve, optional.   
  
Man spricht von&nbsp; '''vollständiger Korrelation''', wenn die (deterministische) Abhängigkeit zwischen&nbsp; $x$&nbsp; und&nbsp;  $y$&nbsp;  durch die Gleichung&nbsp; $y = K · x$&nbsp; ausgedrückt wird. Dann ergibt sich  für die Kovarianz:
 
* $\mu_{xy} = σ_x · σ_y$&nbsp; bei positivem Wert von&nbsp; $K$,
 
* $\mu_{xy} = - σ_x · σ_y$&nbsp; bei negativem&nbsp; $K$&ndash;Wert. 
 
  
 +
The statistical parameters needed to calculate&nbsp; $\theta_{X \to Y}$&nbsp; and&nbsp; $\theta_{Y \to X}$&nbsp; are output as numerical values:
 +
*the standard deviations&nbsp; $\sigma_X$&nbsp; and&nbsp; $\sigma_Y$&nbsp; of the components&nbsp; $X$&nbsp; and&nbsp; $Y$, respectively,
 +
*the covariance&nbsp; $\mu_{XY}$&nbsp; &rArr; &nbsp; first-order central moment of the two-dimensional random variable&nbsp; $(X, Y)$,
 +
*the correlation coefficient&nbsp; $\rho_{XY}$&nbsp; between the two-dimensional random variables&nbsp; $X$&nbsp; and&nbsp; $Y$.
  
Deshalb verwendet man häufig als Beschreibungsgröße anstelle der Kovarianz den so genannten Korrelationskoeffizienten.  
+
 +
With the help of the (optional) auxiliary straight line as well as the dashed distances of the points in $x$&ndash; and $y$&ndash;direction to it, it can be understood that.
  
{{BlaueBox|TEXT= 
+
* the red regression line&nbsp; $R_{X \to Y}$&nbsp; has the property that the mean square distance of all points in&nbsp; $y$&ndash;direction &nbsp; &rArr; &nbsp; ${\rm MQA}_Y$&nbsp; from it is minimal,
$\text{Definition:}$&nbsp; Der&nbsp; '''Korrelationskoeffizient'''&nbsp; ist der Quotient aus der Kovarianz&nbsp; $\mu_{xy}$&nbsp; und dem Produkt der Effektivwerte&nbsp; $σ_x$&nbsp; und&nbsp; $σ_y$&nbsp; der beiden Komponenten:
+
* while for the blue regression line&nbsp; $R_{Y \to X}$&nbsp; the mean square distance of all points in&nbsp; $x$&ndash;direction &nbsp; &rArr; &nbsp; ${\rm MQA}_X$&nbsp; leads to the minimum.  
:$$\rho_{xy}=\frac{\mu_{xy} }{\sigma_x \cdot \sigma_y}.$$}}
 
  
  
Der Korrelationskoeffizient&nbsp; $\rho_{xy}$&nbsp; weist folgende Eigenschaften auf:
+
==Theoretischer Hintergrund==
*Aufgrund der Normierung gilt stets&nbsp;  $-1 \le  ρ_{xy}  ≤ +1$.
+
<br>
*Sind die beiden Zufallsgrößen&nbsp; $x$&nbsp; und&nbsp; $y$&nbsp; unkorreliert, so ist&nbsp; $ρ_{xy} = 0$.
+
===Erwartungswerte von 2D&ndash;Zufallsgrößen und Korrelationskoeffizient===
*Bei strenger linearer Abhängigkeit zwischen&nbsp; $x$&nbsp; und&nbsp; $y$&nbsp; ist&nbsp; $ρ_{xy}= ±1$ &nbsp; &rArr; &nbsp; vollständige Korrelation.
 
*Ein positiver Korrelationskoeffizient bedeutet, dass bei größerem&nbsp; $x$–Wert im statistischen Mittel auch&nbsp; $y$&nbsp; größer ist als bei kleinerem&nbsp; $x$.
 
*Dagegen drückt ein negativer Korrelationskoeffizient aus, dass&nbsp; $y$&nbsp; mit steigendem&nbsp; $x$&nbsp; im Mittel kleiner wird. 
 
 
 
 
 
[[Datei:P_ID232__Sto_T_4_1_S7a_neu.png |right|frame| Gaußsche 2D-WDF mit Korrelation]]
 
{{GraueBox|TEXT= 
 
$\text{Beispiel 5:}$&nbsp;  Es gelten folgende Voraussetzungen:
 
*Die betrachteten Komponenten&nbsp; $x$&nbsp; und&nbsp; $y$&nbsp; besitzen jeweils eine gaußförmige WDF.
 
*Die beiden Streuungen sind unterschiedlich&nbsp; $(σ_y < σ_x)$.
 
*Der Korrelationskoeffizient beträgt&nbsp; $ρ_{xy} = 0.8$.
 
 
 
 
 
Im Unterschied zum&nbsp; [[Stochastische_Signaltheorie/Zweidimensionale_Zufallsgrößen#WDF_und_VTF_bei_statistisch_unabh.C3.A4ngigen_Komponenten| Beispiel 2]]&nbsp; mit statistisch unabhängigen Komponenten &nbsp; &rArr; &nbsp; $ρ_{xy} = 0$&nbsp; $($trotz&nbsp; $σ_y < σ_x)$&nbsp; erkennt man, dass hier bei größerem&nbsp; $x$–Wert im statistischen Mittel auch&nbsp; $y$&nbsp; größer ist als bei kleinerem&nbsp; $x$.}}
 
  
 +
Wir betrachten eine zweidimensionale&nbsp; $\rm (2D)$&ndash;Zufallsgröße&nbsp; $(X,\ Y)$&nbsp; mit der Wahrscheinlichkeitsdichtefunktion&nbsp; $\rm (WDF)$&nbsp; $f_{XY}(x, y)$, wobei zwischen den Einzelkomponenten&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; statistische Abhängigkeiten bestehen.&nbsp;  Ein Sonderfall ist die ''Korrelation''.
  
===Korrelationsgerade===
 
<br>
 
[[Datei: P_ID1089__Sto_T_4_1_S7b_neu.png  |frame| Gaußsche 2D-WDF mit Korrelationsgerade]]
 
 
{{BlaueBox|TEXT=   
 
{{BlaueBox|TEXT=   
$\text{Definition:}$&nbsp; Als&nbsp; '''Korrelationsgerade'''&nbsp; bezeichnet man die Gerade&nbsp; $y = K(x)$&nbsp;  in der&nbsp; $(x, y)$&ndash;Ebene durch den „Mittelpunkt”&nbsp; $(m_x, m_y)$. Manchmal wird diese Gerade auch&nbsp;  ''Regressionsgerade''&nbsp; genannt.
+
$\text{Definition:}$&nbsp; Unter&nbsp; '''Korrelation'''&nbsp; versteht man eine ''lineare Abhängigkeit''&nbsp; zwischen den Einzelkomponenten&nbsp; $X$&nbsp; und&nbsp; $Y$.  
 +
*Korrelierte Zufallsgrößen sind damit stets auch statistisch abhängig.
 +
*Aber nicht jede statistische Abhängigkeit bedeutet gleichzeitig eine Korrelation.}}
  
Die Korrelationsgerade besitzt folgende Eigenschaften: 
 
  
*Die mittlere quadratische Abweichung von dieser Geraden – in&nbsp; $y$&ndash;Richtung betrachtet und über alle&nbsp; $N$&nbsp; Punkte gemittelt – ist minimal:  
+
Für das Folgende setzen wir voraus, dass&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; mittelwertfrei seien &nbsp; &rArr; &nbsp; ${\rm E}\big [ X \big ] = {\rm E}\big [ Y \big ]=0$.&nbsp; Zur Beschreibung der Korrelation genügen dann folgende Erwartungswerte:
:$$\overline{\varepsilon_y^{\rm 2} }=\frac{\rm 1}{N} \cdot \sum_{\nu=\rm 1}^{N}\; \;\big [y_\nu - K(x_{\nu})\big ]^{\rm 2}={\rm Minimum}.$$
+
* die&nbsp; '''Varianzen'''&nbsp; in&nbsp; $X$&ndash;&nbsp; bzw. in&nbsp; $Y$&ndash;Richtung:
*Die Korrelationsgerade kann als eine Art&nbsp; „statistische Symmetrieachse“&nbsp; interpretiert werden. Die Geradengleichung lautet:  
+
:$$\sigma_X^2= {\rm E}\big [ X^2 \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}x^2 \cdot f_{X}(x) \, {\rm d}x\hspace{0.05cm},\hspace{0.5cm}\sigma_Y^2= {\rm E}\big [Y^2 \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}y^2 \cdot f_{Y}(y) \, {\rm d}y\hspace{0.05cm};$$
:$$y=K(x)=\frac{\sigma_y}{\sigma_x}\cdot\rho_{xy}\cdot(x - m_x)+m_y.$$}}
+
* die&nbsp; '''Kovarianz'''&nbsp; zwischen den Einzelkomponenten&nbsp; $X$&nbsp; und&nbsp; $Y$:
 +
:$$\mu_{XY}= {\rm E}\big [ X \cdot Y \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}\int_{-\infty}^{+\infty} x\ \cdot y \cdot f_{XY}(x,y) \, {\rm d}x\, {\rm d}y\hspace{0.05cm}.$$
  
 +
Bei statistischer Unabhängigkeit der beiden Komponenten&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; ist die Kovarianz&nbsp; $\mu_{XY} \equiv 0$.&nbsp;
  
Der Winkel, den die Korrelationsgerade zur&nbsp; $x$&ndash;Achse einnimmt, beträgt:
+
*Das Ergebnis&nbsp; $\mu_{XY} = 0$&nbsp; ist auch bei statistisch abhängigen Komponenten&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; möglich, nämlich dann, wenn diese unkorreliert, also&nbsp;    ''linear unabhängig''&nbsp; sind.
:$$\theta_{y\hspace{0.05cm}\rightarrow \hspace{0.05cm}x}={\rm arctan}\ (\frac{\sigma_{y} }{\sigma_{x} }\cdot \rho_{xy}).$$
+
*Die  statistische Abhängigkeit ist dann nicht von erster, sondern von höherer Ordnung, zum Beispiel entsprechend der Gleichung&nbsp; $Y=X^2.$
  
Durch diese Nomenklatur soll deutlich gemacht werden, dass es sich hier um die Regression von&nbsp; $y$&nbsp; auf&nbsp; $x$&nbsp; handelt.
 
  
*Die Regression in Gegenrichtung – also von&nbsp; $x$&nbsp; auf&nbsp; $y$ – bedeutet dagegen die Minimierung der mittleren quadratischen Abweichung in&nbsp; $x$–Richtung.  
+
Man spricht dann  von&nbsp; '''vollständiger Korrelation''', wenn die (deterministische) Abhängigkeit zwischen&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp;  durch die Gleichung&nbsp; $Y = K · X$&nbsp; ausgedrückt wird.  
  
*Das interaktive Applet&nbsp; [[Applets:Korrelationskoeffizient_%26_Regressionsgerade|Korrelationskoeffizient und Regressionsgerade]]&nbsp; verdeutlicht, dass sich im Allgemeinen&nbsp; $($falls&nbsp; $σ_y \ne σ_x)$&nbsp; für die Regression von&nbsp; $x$&nbsp; auf&nbsp; $y$&nbspein anderer Winkel und damit auch eine andere Regressionsgerade ergeben wird:
+
Dann ergibt sich für die Kovarianz:
:$$\theta_{x\hspace{0.05cm}\rightarrow \hspace{0.05cm} y}={\rm arctan}\ (\frac{\sigma_{x}}{\sigma_{y}}\cdot \rho_{xy}).$$
+
* $\mu_{XY} = σ_X · σ_Y$&nbsp; bei positivem Wert von&nbsp; $K$,
===Zugrunde liegendes Modell der Digitalsignalübertragung ===
+
* $\mu_{XY} = -σ_X · σ_Y$&nbsp; bei negativem&nbsp; $K$&ndash;Wert.  
  
Die Menge der möglichen&nbsp; '''Quellensymbole'''&nbsp; wird durch die diskrete Zufallsgröße&nbsp; $X$&nbsp; charakterisiert.&nbsp;
 
*Im binären Fall &nbsp; &rArr; &nbsp; $M_X= |X| = 2$&nbsp; gilt&nbsp; $X = \{\hspace{0.05cm}{\rm A}, \hspace{0.15cm} {\rm B} \hspace{0.05cm}\}$&nbsp; mit der Wahrscheinlichkeitsfunktion&nbsp; $($englisch:&nbsp; ''Probability Mass Function'',&nbsp; $\rm PMF)$  &nbsp; $P_X(X)= \big (p_{\rm A},\hspace{0.15cm}p_{\rm B}\big)$&nbsp; sowie den Quellensymbolwahrscheinlichkeiten&nbsp; $p_{\rm A}$&nbsp; und&nbsp; $p_{\rm B}=1- p_{\rm A}$.
 
*Entsprechend gilt für eine Ternärquelle&nbsp; &rArr; &nbsp; $M_X= |X| = 3$: &nbsp; &nbsp; $X = \{\hspace{0.05cm}{\rm A}, \hspace{0.15cm} {\rm B}, \hspace{0.15cm} {\rm C} \hspace{0.05cm}\}$, &nbsp; &nbsp; $P_X(X)= \big (p_{\rm A},\hspace{0.15cm}p_{\rm B},\hspace{0.15cm}p_{\rm C}\big)$, &nbsp; &nbsp; $p_{\rm C}=1- p_{\rm A}-p_{\rm B}$.
 
  
 +
Deshalb verwendet man häufig als Beschreibungsgröße anstelle der Kovarianz den so genannten Korrelationskoeffizienten.
  
Die Menge der möglichen&nbsp; '''Sinkensymbole'''&nbsp; wird durch die diskrete Zufallsgröße&nbsp; $Y$&nbsp; charakterisiert.&nbsp; Diese entstammen der gleichen Symbolmenge wie die Quellensymbole &nbsp; &rArr; &nbsp; $M_Y=M_X = M$.&nbsp; Zur Vereinfachung der nachfolgenden Beschreibung bezeichnen wir diese mit Kleinbuchstaben, zum Beispiel für&nbsp; $M=3$: &nbsp;&nbsp; $Y = \{\hspace{0.05cm}{\rm a}, \hspace{0.15cm} {\rm b}, \hspace{0.15cm} {\rm c} \hspace{0.05cm}\}$. 
+
{{BlaueBox|TEXT= 
 +
$\text{Definition:}$&nbsp; Der&nbsp; '''Korrelationskoeffizient'''&nbsp; ist der Quotient aus der Kovarianz&nbsp; $\mu_{XY}$&nbsp; und dem Produkt der Effektivwerte&nbsp; $σ_X$&nbsp; und&nbsp; $σ_Y$&nbsp; der beiden Komponenten:
 +
:$$\rho_{XY}=\frac{\mu_{XY} } {\sigma_X \cdot \sigma_Y}.$$}}
  
Der Zusammenhang zwischen den Zufallsgrößen&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; ist durch ein&nbsp; '''digitales Kanalmodell ohne Gedächtnis'''&nbsp; $($englisch:&nbsp; ''Discrete Memoryless Channel'',&nbsp; $\rm DMC)$&nbsp; festgelegt. Die linke  Grafik zeigt dieses für&nbsp; $M=2$&nbsp; und die rechte  Grafik für&nbsp; $M=3$.
 
  
[[Datei:Transinf_1_neu.png|center|frame|Digitales Kanalmodell für&nbsp; $M=2$&nbsp; (links) und für&nbsp; $M=3$&nbsp; (rechts). <br>Bitte beachten Sie:&nbsp; In der rechten Grafik sind nicht alle Übergänge beschriftet]]
+
Der Korrelationskoeffizient&nbsp; $\rho_{XY}$&nbsp; weist folgende Eigenschaften auf:  
 +
*Aufgrund der Normierung gilt stets&nbsp;  $-1 \le  ρ_{XY}  ≤ +1$.  
 +
*Sind die beiden Zufallsgrößen&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; unkorreliert, so ist&nbsp; $ρ_{XY} = 0$.
 +
*Bei strenger linearer Abhängigkeit zwischen&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; ist&nbsp; $ρ_{XY}= ±1$ &nbsp; &rArr; &nbsp; vollständige Korrelation.
 +
*Ein positiver Korrelationskoeffizient bedeutet, dass bei größerem&nbsp; $X$–Wert im statistischen Mittel auch&nbsp; $Y$&nbsp; größer ist als bei kleinerem&nbsp; $X$.  
 +
*Dagegen drückt ein negativer Korrelationskoeffizient aus, dass&nbsp; $Y$&nbsp; mit steigendem&nbsp; $X$&nbsp; im Mittel kleiner wird. 
  
Die folgende Beschreibung gilt für den einfacheren Fall&nbsp; $M=2$.&nbsp; Für die Berechnung aller informationstheoretischer Größen im nächsten Abschnitt benötigen wir außer&nbsp; $P_X(X)$&nbsp; und&nbsp;  $P_Y(Y)$&nbsp; noch die zweidimensionalen Wahrscheinlichkeitsfunktionen&nbsp; $($jeweils eine&nbsp; $2\times2$&ndash;Matrix$)$&nbsp; aller
 
#&nbsp; [[Stochastische_Signaltheorie/Statistische_Abhängigkeit_und_Unabhängigkeit#Bedingte_Wahrscheinlichkeit|bedingten Wahrscheinlichkeiten]] &nbsp; &rArr; &nbsp; $P_{\hspace{0.01cm}Y\hspace{0.03cm} \vert \hspace{0.01cm}X}(Y\hspace{0.03cm}  \vert \hspace{0.03cm} X)$ &nbsp; &rArr; &nbsp; durch das DMC&ndash;Modell vorgegeben;
 
#&nbsp; [[Informationstheorie/Einige_Vorbemerkungen_zu_zweidimensionalen_Zufallsgrößen#Verbundwahrscheinlichkeit_und_Verbundentropie|Verbundwahrscheinlichkeiten]]&nbsp; &rArr; &nbsp; $P_{XY}(X,\hspace{0.1cm}Y)$;
 
#&nbsp; [[Stochastische_Signaltheorie/Statistische_Abhängigkeit_und_Unabhängigkeit#R.C3.BCckschlusswahrscheinlichkeit|Rückschlusswahrscheinlichkeiten]] &nbsp; &rArr; &nbsp; $P_{\hspace{0.01cm}X\hspace{0.03cm} \vert \hspace{0.03cm}Y}(X\hspace{0.03cm}  \vert \hspace{0.03cm} Y)$.
 
 
  
[[Datei:Transinf_2.png|right|frame|Betrachtetes Modell des Binärkanals]]
+
[[Datei:Korrelation_1c.png|right|frame| 2D-WDF&nbsp; $f_{XY}(x, y)$&nbsp; sowie die zugehörigen Randwahrscheinlichkeitsdichten&nbsp; $f_{X}(x)$&nbsp; und&nbsp; $f_{Y}(y)$]]
{{GraueBox|TEXT=
+
{{GraueBox|TEXT=
$\text{Beispiel 1}$:&nbsp; Wir betrachten den skizzierten Binärkanal.
+
$\text{Beispiel 1:}$&nbsp; Die 2D&ndash;Zufallsgröße&nbsp; $(X,\ Y)$&nbsp; sei diskret und kann nur vier verschiedene Werte annehmen:
* Die Verfälschungswahrscheinlichkeiten seien:
+
*$(+0.5,\ 0)$&nbsp; sowie $(-0.5,\ 0)$&nbsp; jeweils mit der Wahrscheinlichkeit&nbsp; $0.3$,
 
+
*$(+1,\ +\hspace{-0.09cm}1)$&nbsp; sowie $(-1,\ -\hspace{-0.09cm}1)$&nbsp; jeweils mit der Wahrscheinlichkeit&nbsp; $0.2$.
:$$\begin{align*}p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}A}  & =  {\rm Pr}(Y\hspace{-0.1cm} = {\rm a}\hspace{0.05cm}\vert X \hspace{-0.1cm}= {\rm A}) = 0.95\hspace{0.05cm},\hspace{0.8cm}p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}A}  =  {\rm Pr}(Y\hspace{-0.1cm} = {\rm b}\hspace{0.05cm}\vert X \hspace{-0.1cm}= {\rm A}) = 0.05\hspace{0.05cm},\\
 
p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}B}  & =  {\rm Pr}(Y\hspace{-0.1cm} = {\rm a}\hspace{0.05cm}\vert X \hspace{-0.1cm}= {\rm B}) = 0.40\hspace{0.05cm},\hspace{0.8cm}p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}B}  =  {\rm Pr}(Y\hspace{-0.1cm} = {\rm b}\hspace{0.05cm}\vert X \hspace{-0.1cm}= {\rm B}) = 0.60\end{align*}$$
 
  
:$$\Rightarrow \hspace{0.3cm}  P_{\hspace{0.01cm}Y\hspace{0.05cm} \vert \hspace{0.05cm}X}(Y\hspace{0.05cm}  \vert \hspace{0.05cm} X) =
 
\begin{pmatrix}
 
0.95  & 0.05\\
 
0.4 & 0.6
 
\end{pmatrix} \hspace{0.05cm}.$$
 
  
*Außerdem gehen wir von nicht gleichwahrscheinlichen Quellensymbolen aus:
+
$\rm (A)$&nbsp; Die Varianzen bzw. die Streuungen können aus &nbsp; $f_{X}(x)$&nbsp; und&nbsp; $f_{Y}(y)$&nbsp; berechnet werden:  
+
:$$\sigma_X^2 = 2 \cdot \big [0.2 \cdot 1^2 + 0.3 \cdot 0.5^2 \big] = 0.55\hspace{0.3cm}\Rightarrow\hspace{0.3cm}\sigma_X = 0.7416,$$
:$$P_X(X) = \big ( p_{\rm A},\ p_{\rm B} \big )=
+
:$$\sigma_Y^2 =  \big [0.2 \cdot (-1)^2 + 0.6 \cdot 0^2 +0.2 \cdot (+1)^2 \big] = 0.4\hspace{0.3cm}\Rightarrow\hspace{0.3cm}\sigma_Y = 0.6325.$$
\big ( 0.1,\ 0.9 \big )
 
\hspace{0.05cm}.$$
 
  
*Für die Wahrscheinlichkeitsfunktion der Sinke ergibt sich somit:
+
$\rm (B)$&nbsp; Für die Kovarianz ergibt sich der folgende Erwartungswert:
 
+
:$$\mu_{XY}= {\rm E}\big [ X \cdot Y \big ] = 2 \cdot \big [0.2 \cdot 1 \cdot 1 + 0.3 \cdot 0.5 \cdot 0 \big] = 0.4.$$
:$$P_Y(Y) = \big [ {\rm Pr}( Y\hspace{-0.1cm} = {\rm a})\hspace{0.05cm}, \ {\rm Pr}( Y \hspace{-0.1cm}= {\rm b}) \big ] = \big ( 0.1\hspace{0.05cm},\ 0.9 \big ) \cdot  
 
\begin{pmatrix}
 
0.95  & 0.05\\
 
0.4 & 0.6
 
\end{pmatrix} $$
 
  
:$$\Rightarrow \hspace{0.3cm} {\rm Pr}( Y \hspace{-0.1cm}= {\rm a}) = 
+
$\rm (C)$&nbsp; Damit erhält man für den Korrelationskoeffizienten:
0.1 \cdot 0.95 + 0.9 \cdot 0.4 = 0.455\hspace{0.05cm},\hspace{1.0cm}
+
:$$\rho_{XY}=\frac{\mu_{XY} } {\sigma_X \cdot \sigma_Y}=\frac{0.4 } {0.7416 \cdot 0.6325 }\approx 0.8528.
{\rm Pr}( Y \hspace{-0.1cm}= {\rm b})  =  1 - {\rm Pr}( Y \hspace{-0.1cm}= {\rm a}) = 0.545.$$
+
$$}}
 +
<br clear=all>
  
*Die Verbundwahrscheinlichkeiten&nbsp; $p_{\mu \kappa} = \text{Pr}\big[(X = μ) ∩ (Y = κ)\big]$&nbsp; zwischen Quelle und Sinke sind:
+
===Eigenschaften der Regressionsgeraden===
+
[[Datei:Korrelation_5_neu.png|frame|Gaußsche 2D-WDF mit Korrelationsgerade&nbsp; $K$]]
:$$\begin{align*}p_{\rm Aa} & =  p_{\rm a} \cdot p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}A} = 0.095\hspace{0.05cm},\hspace{0.5cm}p_{\rm Ab} =  p_{\rm b} \cdot p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}A} = 0.005\hspace{0.05cm},\\
+
Ziel der linearen Regression ist es, einen einfachen (linearen) Zusammenhang zwischen zwei Zufallsgrößen&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; anzugeben, deren $\text{2D-WDF}$&nbsp; $f_{XY}(x, y)$&nbsp; durch Punkte &nbsp;$(x_1, y_1 )$&nbsp; ...&nbsp; $(x_N, y_N )$&nbsp; in der&nbsp; $(x,\ y)$&ndash;Ebene vorgegeben ist.&nbsp; Die Skizze zeigt das Prinzip am Beispiel mittelwertfreier Größen:&nbsp;
p_{\rm Ba} & =   p_{\rm a} \cdot p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}B} = 0.360\hspace{0.05cm},
+
:Gesucht ist die Gleichung der Geraden&nbsp; $K$&nbsp; &rArr; &nbsp; $y=c_{\rm opt} \cdot x$&nbsp; mit der Eigenschaft, dass der mittlere quadratische (Euklidische) Abstand&nbsp; $\rm (MQA)$&nbsp; aller Punkte von dieser Geraden minimal ist. Man bezeichnet diese Gerade auch als&nbsp; ''Korrelationsgerade''. Diese kann als eine  Art&nbsp; „statistische Symmetrieachse“&nbsp; interpretiert werden.  
\hspace{0.5cm}p_{\rm Bb} =  p_{\rm b} \cdot p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}B} = 0.540\hspace{0.05cm}.
 
\end{align*}$$
 
  
:$$\Rightarrow \hspace{0.3cm}  P_{XY}(X,\hspace{0.1cm}Y) =
+
Bei einer großen Menge&nbsp; $N$&nbsp; empirischer Daten ist der mathematische Aufwand beträchtlich, den bestmöglichen Parameter&nbsp; $C = c_{\rm opt}$&nbsp; zu ermitteln. Der Aufwand wird deutlich reduziert, wenn man den Abstand nur in&nbsp; $x$&ndash; oder in&nbsp; $y$&ndash;Richtung definiert.
\begin{pmatrix}  
 
0.095  & 0.005\\
 
0.36 & 0.54
 
\end{pmatrix} \hspace{0.05cm}.$$
 
 
* Für die Rückschlusswahrscheinlichkeiten erhält man:
 
  
:$$\begin{align*}p_{\rm A\hspace{0.03cm}\vert \hspace{0.03cm}a} & =  p_{\rm Aa}/p_{\rm a} = 0.095/0.455 = 0.2088\hspace{0.05cm},\hspace{0.5cm}p_{\rm A\hspace{0.03cm}\vert \hspace{0.03cm}b}  =  p_{\rm Ab}/p_{\rm b} = 0.005/0.545 = 0.0092\hspace{0.05cm},\\
+
Im Sonderfall Gaußscher 2D-Zufallsgrößen wie in der Skizze verwendet ist die Korrelationsgerade&nbsp; $K$&nbsp; identisch mit der Ellipsenhauptachse bei Darstellung der 2D-WDF in Form von Höhenlinien&nbsp; (siehe [[Applets:Korrelation_und_Regressionsgerade#Der_Sonderfall_Gau.C3.9Fscher_2D.E2.80.93Zufallsgr.C3.B6.C3.9Fen|Abschnitt 2.3]]).  
p_{\rm B\hspace{0.03cm}\vert \hspace{0.03cm}a} & =  p_{\rm Ba}/p_{\rm a} = 0.36/0.455 = 0.7912\hspace{0.05cm},\hspace{0.5cm}p_{\rm B\hspace{0.03cm}\vert \hspace{0.03cm}b}  =  p_{\rm Bb}/p_{\rm b} = 0.54/0.545 = 0.9908\hspace{0.05cm}
 
\end{align*}$$
 
  
:$$\Rightarrow \hspace{0.3cm}  P_{\hspace{0.01cm}X\hspace{0.05cm} \vert \hspace{0.05cm}Y}(X\hspace{0.05cm}  \vert \hspace{0.05cm} Y) =
 
\begin{pmatrix}
 
0.2088  & 0.0092\\
 
0.7912 & 0.9908
 
\end{pmatrix} \hspace{0.05cm}.$$ }}
 
<br clear=all><br><br>
 
===Definition und Interpretation verschiedener Entropiefunktionen ===
 
  
Im&nbsp; [[Informationstheorie/Verschiedene_Entropien_zweidimensionaler_Zufallsgrößen|$\rm LNTwww$&ndash;Theorieteil]]&nbsp; werden alle für 2D&ndash;Zufallsgrößen relevanten Entropien definiert, die auch für die Digitalsignalübertragung gelten.&nbsp; Zudem finden Sie dort zwei Schaubilder, die den Zusammenhang zwischen den einzelnen Entropien illustrieren.&nbsp;
+
$\text{(a)}\hspace{0.5cm}  \text{Regressionsgerade }R_{Y \to X}$ &nbsp; &nbsp; (rote Gerade in der App)
*Für die Digitalsignalübertragung ist die rechte Darstellung zweckmäßig, bei der die Richtung von der Quelle&nbsp; $X$&nbsp; zur Sinke&nbsp; $Y$&nbsp; erkennbar ist.&nbsp;
 
*Wir interpretieren nun ausgehend von dieser Grafik die einzelnen informationstheoretischen Größen.
 
 
 
 
 
[[Datei:P_ID2781__Inf_T_3_3_S2.png|center|frame|Zwei informationstheoretische Modelle für die Digitalsignalübertragung.
 
<br>Bitte beachten Sie:&nbsp; In der rechten Grafik ist&nbsp; $H_{XY}$&nbsp; nicht darstellbar]]
 
 
 
*Die&nbsp; '''Quellenentropie'''&nbsp; (englisch:&nbsp; ''Source Entropy''&nbsp;)&nbsp; $H(X)$&nbsp; bezeichnet den mittleren Informationsgehalt der Quellensymbolfolge.&nbsp; Mit dem Symbolumfang&nbsp; $|X|$&nbsp; gilt:
 
 
   
 
   
:$$H(X) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_X(X)}\right ] \hspace{0.1cm}
+
Hier wird der&nbsp; $y$&ndash;Wert auf den&nbsp; $x$&ndash;Wert zurückgeführt, was in etwa einer der möglichen Bedeutungen &bdquo;Zurückfallen&rdquo; des Wortes &bdquo;Regression&rdquo; entspricht.
= -{\rm E} \big [ {\rm log}_2 \hspace{0.1cm}{P_X(X)}\big ] \hspace{0.2cm}
 
=\hspace{0.2cm} \sum_{\mu = 1}^{|X|}
 
P_X(x_{\mu}) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_X(x_{\mu})} \hspace{0.05cm}.$$
 
  
*Die&nbsp; '''Äquivokation'''&nbsp; (auch&nbsp; ''Rückschlussentropie'' genannt, englisch:&nbsp; ''Equivocation''&nbsp;)&nbsp; $H(X|Y)$&nbsp; gibt den mittleren Informationsgehalt an, den ein Betrachter, der über die Sinke&nbsp; $Y$&nbsp; genau Bescheid weiß, durch Beobachtung der Quelle&nbsp; $X$&nbsp; gewinnt:
+
*'''Geradengleichung''',&nbsp; Winkel&nbsp; $\theta_{Y \to X}$&nbsp; der Geraden&nbsp; $R_{Y \to X}$&nbsp; zur&nbsp; $x$&ndash;Achse:
+
:$$y=C_{Y \to X} \cdot x \ \ \ \text{mit} \ \ \ C_{Y \to X}=\frac{\sigma_Y}{\sigma_X}\cdot\rho_{XY}= \frac{\mu_{XY}}{\sigma_X^2},\hspace{0.6cm} \theta_{Y \to X}={\rm arctan}\ (C_{Y \to X}).$$
:$$H(X|Y) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}X\hspace{-0.01cm}|\hspace{-0.01cm}Y}(X\hspace{-0.01cm} |\hspace{0.03cm} Y)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 1}^{|X|} \sum_{\kappa = 1}^{|Y|}  
+
*'''Kriterium''': &nbsp; Der mittlere Abstand aller Punkte&nbsp; $(x_n, y_n )$&nbsp; von der Regressionsgeraden $R_{Y \to X}$&nbsp; in&nbsp; $y$&ndash;Richtung ist minimal:
P_{XY}(x_{\mu},\hspace{0.05cm}y_{\kappa}) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}X\hspace{-0.01cm}|\hspace{0.03cm}Y}
+
:$${\rm MQA}_Y = {\rm E} \big [ y_n - C_{Y \to X} \cdot x_n\big ]^2 = \frac{\rm 1}{N} \cdot \sum_{n=\rm 1}^{N}\; \;\big [y_n - C_{Y \to X} \cdot x_n\big ]^{\rm 2}={\rm Minimum}.$$
(\hspace{0.05cm}x_{\mu}\hspace{0.03cm} |\hspace{0.05cm} y_{\kappa})}
+
:Die zweite Gleichung gilt nur, wenn alle Punkte&nbsp; $(x_n, y_n )$&nbsp; der 2D&ndash;WDF gleichwahrscheinlich sind.
\hspace{0.05cm}.$$
 
  
*Die Äquivokation ist der Anteil der Quellenentropie&nbsp; $H(X)$, der durch Kanalstörungen&nbsp; (bei digitalem Kanal:&nbsp; Übertragungsfehler)&nbsp; verloren geht.&nbsp; Es verbleibt die&nbsp; '''Transinformation'''&nbsp; (englisch:&nbsp; ''Mutual Information'')&nbsp; $I(X; Y)$, die zur Sinke gelangt:
 
 
:$$I(X;Y) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{P_{XY}(X, Y)}{P_X(X) \cdot P_Y(Y)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 1}^{|X|} \sum_{\kappa = 1}^{|Y|}
 
P_{XY}(x_{\mu},\hspace{0.05cm}y_{\kappa}) \cdot {\rm log}_2 \hspace{0.1cm} \frac{P_{XY}(x_{\mu},\hspace{0.05cm}y_{\kappa})}{P_{\hspace{0.05cm}X}(\hspace{0.05cm}x_{\mu}) \cdot P_{\hspace{0.05cm}Y}(\hspace{0.05cm}y_{\kappa})}
 
\hspace{0.05cm} = H(X) - H(X|Y) \hspace{0.05cm}.$$
 
  
'''Hallo Veronika, bitte diese Gleichung an Beispielen überprüfen und mir zeigen, wie es geht. Ich stelle mich zu blöd!'''
+
$\text{(b)}\hspace{0.5cm}  \text{Regressionsgerade }R_{X \to Y}$ &nbsp; &nbsp; (blaue Gerade in der App)
  
*Die&nbsp; '''Irrelevanz'''&nbsp; (manchmal auch&nbsp; ''Streuentropie''&nbsp; genannt, englisch:&nbsp; ''Irrelevance'')&nbsp; $H(Y|X)$&nbsp; gibt den mittleren Informationsgehalt an, den ein Betrachter, der über die Quelle&nbsp; $X$&nbsp; genau Bescheid weiß, durch Beobachtung der Sinke&nbsp; $Y$&nbsp; gewinnt:
+
Die Regression in Gegenrichtung&nbsp; $($also von&nbsp; $X$&nbsp; auf&nbsp; $Y)$&nbsp; bedeutet dagegen, dass der&nbsp;$x$&ndash;Wert auf den&nbsp;$y$&ndash;Wert zurückgeführt wird.&nbsp; Für&nbsp; ${\rm MQA}_X$&nbsp; ergibt sich der minimale Wert.   
 
:$$H(Y|X) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{-0.01cm}X}(Y\hspace{-0.01cm} |\hspace{0.03cm} X)}\right ] \hspace{0.2cm}=\hspace{0.2cm} \sum_{\mu = 1}^{|X|} \sum_{\kappa = 1}^{|Y|}
 
  P_{XY}(x_{\mu},\hspace{0.05cm}y_{\kappa}) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}Y\hspace{-0.01cm}|\hspace{0.03cm}X}
 
(\hspace{0.05cm}y_{\kappa}\hspace{0.03cm} |\hspace{0.05cm} x_{\mu})}
 
\hspace{0.05cm}.$$
 
  
*Die&nbsp; '''Sinkenentropie'''&nbsp; $H(Y)$, der mittlere Informationsgehalt der Sinke, ist die Summe aus der nützlichen Transinformation&nbsp; $I(X; Y)$&nbsp; und der Irrelevanz&nbsp; $H(Y|X)$, die ausschließlich von Kanalfehlern herrührt:
+
*'''Geradengleichung''',&nbsp; Winkel&nbsp; $\theta_{X \to Y}$&nbsp; der Geraden&nbsp; $R_{X \to Y}$&nbsp; zur &nbsp; $x$&ndash;Achse:
 
+
:$$y=C_{X \to Y} \cdot x \ \ \text{mit} \ \ C_{X \to Y}=\frac{\sigma_Y}{\sigma_X\cdot\rho_{XY} }= \frac{\sigma_Y^2} {\mu_{XY}},\hspace{0.6cm} \theta_{X \to Y}={\rm arctan}\ (C_{X \to Y}).$$
:$$H(Y) = {\rm E} \left [ {\rm log}_2 \hspace{0.1cm} \frac{1}{P_Y(Y)}\right ] \hspace{0.1cm}
+
*'''Kriterium''': &nbsp; Der mittlere Abstand aller Punkte&nbsp; $(x_n, y_n )$&nbsp; von der Regressionsgeraden&nbsp; $R_{X \to Y}$&nbsp; in&nbsp; $x$&ndash;Richtung ist minimal:  
= -{\rm E} \big [ {\rm log}_2 \hspace{0.1cm}{P_Y(Y)}\big ] \hspace{0.2cm} =I(X;Y) + H(Y|X)
+
:$${\rm MQA}_X = {\rm E} \big [ x_n - y_n/C_{X \to Y}\big ]^2 = \frac{\rm 1}{N} \cdot \sum_{n=\rm 1}^{N}\; \;\big [x_n - y_n/C_{X \to Y}\big ]^{\rm 2}={\rm Minimum}.$$
\hspace{0.05cm}.$$
+
 
 
+
[[Datei:Korrelation_5a.png|right|frame| Die beiden Regressionsgeraden]]
*Die&nbsp; '''Verbundentropie'''&nbsp; $H(XY)$&nbsp; gibt ist den mittleren Informationsgehalt der 2D&ndash;Zufallsgröße&nbsp; $XY$&nbsp;an.&nbsp sie beschreibt zudem eine obere Schranke für die Summe aus Quellenentropie und Sinkenentropie:
+
{{GraueBox|TEXT=
 
+
$\text{Beispiel 2:}$&nbsp; Es gelten die gleichen Voraussetzungen wie im&nbsp; $\text{Beispiel 1}$&nbsp; und es werden teilweise auch die dort gefundenen Ergebnisse verwendet.
:$$H(XY) = {\rm E} \left [ {\rm log} \hspace{0.1cm} \frac{1}{P_{XY}(X, Y)}\right ] = \sum_{\mu = 1}^{M} \hspace{0.1cm} \sum_{\kappa = 1}^{K} \hspace{0.1cm}
 
P_{XY}(x_{\mu}\hspace{0.05cm}, y_{\kappa}) \cdot {\rm log} \hspace{0.1cm} \frac{1}{P_{XY}(x_{\mu}\hspace{0.05cm}, y_{\kappa})}\le H(X) + H(Y) \hspace{0.05cm}.$$  
 
 
 
[[Datei:Transinf_2.png|right|frame|Betrachtetes Modell des Binärkanals]]
 
{{GraueBox|TEXT=
 
$\text{Beispiel 2}$:&nbsp; Es gelten die gleichen Voraussetzungen wie für das&nbsp; [[Applets:Transinformation_bei_binären_und_ternären_Nachrichtensystemen#Zugrunde_liegendes_Modell_der_Digitalsignal.C3.BCbertragung|$\text{Beispiel 1}$]]:&nbsp;
 
  
'''(1)'''&nbsp; Die Quellensymbole sind nicht gleichwahrscheinlich:
+
In der oberen Grafik ist die Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; als blaue Kurve eingezeichnet:
:$$P_X(X) = \big ( p_{\rm A},\ p_{\rm B} \big )=
+
* Hierfür ergibt sich&nbsp; $C_{X \to Y}={\sigma_Y^2}/\mu_{XY} = 1$&nbsp; und dementsprechend&nbsp; $ \theta_{X \to Y}={\rm arctan}\ (1) = 45^\circ.$
\big ( 0.1,\ 0.9 \big )
+
*Für den mittleren Abstand aller vier Punkte&nbsp; $(x_n, y_n )$&nbsp; von der Regressionsgeraden $R_{X \to Y}$&nbsp; in&nbsp; $x$&ndash;Richtung erhält man unter Ausnutzung der Symmetrie (beachten Sie die eingezeichneten blauen Horizontalen):
\hspace{0.05cm}.$$
+
:$${\rm MQA}_X = {\rm E} \big [ x_n - y_n/C_{x \to y}\big ]^2 = 2 \cdot \big [ 0.2 \cdot \left [1 - 1/1\right ]^{\rm 2} +0.3 \cdot \left [0.5 - 0/1\right ]^{\rm 2}\big ]=0.15.$$
'''(2)'''&nbsp; Die Verfälschungswahrscheinlichkeiten seien:
+
*Jede Gerade mit einem anderen Winkel als&nbsp; $45^\circ$&nbsp; führt hier zu einem größeren&nbsp; ${\rm MQA}_X$.
:$$\begin{align*}p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}A} & = {\rm Pr}(Y\hspace{-0.1cm} = {\rm a}\hspace{0.05cm}\vert X \hspace{-0.1cm}= {\rm A}) = 0.95\hspace{0.05cm},\hspace{0.8cm}p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}A}  = {\rm Pr}(Y\hspace{-0.1cm} = {\rm b}\hspace{0.05cm}\vert X \hspace{-0.1cm}= {\rm A}) = 0.05\hspace{0.05cm},\\
 
p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}B}  & =  {\rm Pr}(Y\hspace{-0.1cm} = {\rm a}\hspace{0.05cm}\vert X \hspace{-0.1cm}= {\rm B}) = 0.40\hspace{0.05cm},\hspace{0.8cm}p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}B}  = {\rm Pr}(Y\hspace{-0.1cm} = {\rm b}\hspace{0.05cm}\vert X \hspace{-0.1cm}= {\rm B}) = 0.60\end{align*}$$
 
  
:$$\Rightarrow \hspace{0.3cm}  P_{\hspace{0.01cm}Y\hspace{0.05cm} \vert \hspace{0.05cm}X}(Y\hspace{0.05cm}  \vert \hspace{0.05cm} X) =
 
\begin{pmatrix}
 
0.95  & 0.05\\
 
0.4 & 0.6
 
\end{pmatrix} \hspace{0.05cm}.$$
 
  
[[Datei:Inf_T_1_1_S4_vers2.png|frame|Binäre Entropiefunktion als Funktion von&nbsp; $p$|right]]
+
Betrachten wir nun die rote Regressionsgerade&nbsp; $R_{Y \to X}$&nbsp; in der unteren Grafik.
*Wegen Voraussetzung&nbsp; '''(1)'''&nbsp; erhält man so für die Quellenentropie mit der&nbsp; [[Informationstheorie/Gedächtnislose_Nachrichtenquellen#Bin.C3.A4re_Entropiefunktion|binären Entropiefunktion]]&nbsp; $H_{\rm bin}(p)$:&nbsp;
+
* Hierfür ergibt sich&nbsp; $C_{Y \to X}=\mu_{XY}/{\sigma_X^2} = 0.4/0.55\approx0.727$&nbsp; und&nbsp; $ \theta_{Y \to X}={\rm arctan}\ (0.727) \approx 36^\circ.$
 +
*Hier ist nun der mittlere Abstand der vier Punkte&nbsp; $(x_n, y_n )$&nbsp; von der Regressionsgeraden $R_{Y \to X}$&nbsp; in&nbsp; $y$&ndash;Richtung minimal (beachten Sie die eingezeichneten roten Vertikalen):
 +
:$${\rm MQA}_Y = {\rm E} \big [ y_n - C_{Y \to X} \cdot x_n\big ]^2 = 2 \cdot \big [ 0.2 \cdot \left [1 - 0.727 \cdot 1\right ]^{\rm 2} +0.3 \cdot \left [0 - 0.727 \cdot 0.5 \right ]^{\rm 2}\big ]\approx 0.109.$$
  
:$$H(X) =  p_{\rm A} \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p_{\rm A}\hspace{0.1cm} } + p_{\rm B} \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{p_{\rm B} }= H_{\rm bin} (p_{\rm A}) = H_{\rm bin} (0.1)= 0.469 \ {\rm bit}
+
Die im Text erwähnte  &bdquo;Korrelationsgerade&rdquo; mit der Eigenschaft, dass der mittlere quadratische Euklidische Abstand&nbsp; $\rm (MQA)$&nbsp; aller Punkte von dieser Geraden minimal ist, wird sicher zwischen den beiden hier berechneten Regressionsgeraden liegen.}}
\hspace{0.05cm};$$
 
  
::$$H_{\rm bin} (p) = p \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p\hspace{0.1cm} } + (1 - p) \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{1 - p} \hspace{0.5cm}{\rm (Einheit\hspace{-0.15cm}: \hspace{0.15cm}bit\hspace{0.15cm}oder\hspace{0.15cm}bit/Symbol)}
+
===Der Sonderfall Gaußscher 2D&ndash;Zufallsgrößen===
\hspace{0.05cm}.$$
 
  
* Entsprechend gilt für die Sinkenentropie mit der PMF&nbsp; $P_Y(Y) = \big ( p_{\rm a},\ p_{\rm b} \big )=
+
Im Sonderfall einer mittelwertfreien &nbsp; [[Stochastische_Signaltheorie/Zweidimensionale_Gaußsche_Zufallsgrößen|Gaußschen 2&ndash;Zufallsgröße]]&nbsp; $(X,\ Y)$&nbsp; lautet die Verbundwahrscheinlichkeitsdichtefunktion:  
\big ( 0.455,\ 0.545 \big )$:
+
:$$f_{XY}(x,y)=\frac{\rm 1}{\rm 2\it\pi \cdot \sigma_X \cdot \sigma_Y \cdot \sqrt{\rm 1-\rho_{\it XY}^2}}\cdot\exp\Bigg[-\frac{\rm 1}{\rm 2 \cdot(1-\it\rho_{XY}^{\rm 2} {\rm)}}\cdot(\frac {\it x^{\rm 2}}{\sigma_X^{\rm 2}}+\frac {\it y^{\rm 2}}{\sigma_Y^{\rm 2}}-\rm 2\cdot\it\rho_{XY}\cdot\frac{x \cdot y}{\sigma_X \cdot \sigma_Y}\rm ) \rm \Bigg].$$
:$$H(Y) =  H_{\rm bin} (0.455)= 0.994 \ {\rm bit}
+
*Ersetzt man&nbsp;  $x$&nbsp; durch&nbsp; $(x - m_X)$&nbsp; sowie&nbsp; $y$&nbsp; durch&nbsp; $(y- m_Y)$, so ergibt sich die allgemeinere WDF einer zweidimensionalen Gaußschen Zufallsgröße mit Mittelwert.
\hspace{0.05cm}.$$
+
*Die beiden Randwahrscheinlichkeitsdichtefunktionen $f_{X}(x)$&nbsp; und $f_{Y}(y)$&nbsp; einer Gaußschen 2D-Zufallsgröße sind ebenfalls gaußförmig mit den Streuungen&nbsp; $σ_X$&nbsp; bzw.&nbsp; $σ_Y$.
*Als nächstes berechnen wir die Verbundentropie:
+
*Bei unkorrelierten Komponenten&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; muss in obiger Gleichung&nbsp; $ρ_{XY} = 0$&nbsp; eingesetzt werden,&nbsp; und man erhält dann das Ergebnis:
:$$H(XY) =  p_{\rm Aa} \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p_{\rm Aa}\hspace{0.1cm} }+ p_{\rm Ab} \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p_{\rm Ab}\hspace{0.1cm} }+p_{\rm Ba} \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p_{\rm Ba}\hspace{0.1cm} }+ p_{\rm Bb} \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p_{\rm Bb}\hspace{0.1cm} }$$
+
[[Datei:Korrelation_7a.png|right|frame| $K$,&nbsp; $R_{Y \to X}$&nbsp; und&nbsp; $R_{X \to Y}$&nbsp; bei Gaußschen 2D&ndash;Zufallsgrößen]]
:$$\Rightarrow \hspace{0.3cm}H(XY) =   0.095 \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{0.095 } +0.005 \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{0.005 }+0.36 \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{0.36 }+0.54 \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{0.54 }= 1.371 \ {\rm bit}
+
:$$f_{XY}(x,y)=\frac{1}{\sqrt{2\pi}\cdot\sigma_{X}} \cdot\rm e^{-\it {x^{\rm 2}}\hspace{-0.08cm}/{\rm (}{\rm 2\it\sigma_{X}^{\rm 2}} {\rm )}} \cdot\frac{1}{\sqrt{2\pi}\cdot\sigma_{\it Y}}\cdot e^{-\it {y^{\rm 2}}\hspace{-0.08cm}/{\rm (}{\rm 2\it\sigma_{Y}^{\rm 2}} {\rm )}} = \it  f_{X} \rm (  \it  x \rm ) \cdot \it  f_{Y} \rm ( \it  y \rm ) .$$
\hspace{0.05cm}.$$
 
 
 
Entsprechend dem oberen linken Schaubild sind somit auch die restlichen informationstheoretischen Größen berechenbar:
 
[[Datei:Transinf_4.png|right|frame|Informationstheoretisches Modell für&nbsp; $\text{Beispiel 2}$]]
 
 
 
*die&nbsp; '''Äquivokation'''&nbsp; (oder Rückschlussentropie):
 
 
   
 
   
:$$H(X \vert Y) \hspace{-0.01cm} =\hspace{-0.01cm}  H(XY) \hspace{-0.01cm} -\hspace{-0.01cm}  H(Y) \hspace{-0.01cm}  = \hspace{-0.01cm}  1.371\hspace{-0.01cm}  -\hspace{-0.01cm}  0.994\hspace{-0.01cm} =\hspace{-0.01cm}  0.377\ {\rm bit}
+
*Bei korrelierten Komponenten&nbsp; $X$&nbsp; und&nbsp; $Y$ &nbsp; &rArr; &nbsp; $ρ_{XY} \ne 0$&nbsp; sind die Höhenlinien der 2D-WDF jeweils ellipsenförmig. Die Korrelationsgerade&nbsp; $K$&nbsp; ist hier identisch mit der Ellipsenhauptachse, die unter folgendem Neigungswinkel verläuft:  
\hspace{0.05cm},$$
+
:$$\theta_{\rm K} = {1}/{2} \cdot {\rm arctan } \ ( 2 \cdot \rho_{XY} \cdot \frac {\sigma_X \cdot \sigma_Y}{\sigma_X^2 - \sigma_Y^2}).$$
 
 
*die '''Irrelevanz'''&nbsp; (oder Streuentropie):
 
 
:$$H(Y \vert X) = H(XY) - H(X)  = 1.371 - 0.994 = 0.902\ {\rm bit}
 
\hspace{0.05cm}.$$
 
 
 
*die&nbsp; '''Transinformation'''&nbsp; (englisch&nbsp; ''Mutual Information''):
 
 
:$$I(X;Y) = H(X) + H(Y) - H(XY)  = 0.469 + 0.994 - 1.371 = 0.092\ {\rm bit}
 
\hspace{0.05cm},$$
 
 
 
Die Ergebnisse sind in nebenstehender Grafik  zusammengefasst.
 
 
 
''Anmerkung'':&nbsp; Äquivokation und Irrelevanz könnte man (allerdfings mit Mehraufwand) auch direkt aus den entsprechenden Wahrscheinlichkeitsfunktionen berechnen, zum Beispiel:
 
 
 
:$$H(Y \vert X) = \hspace{-0.2cm} \sum_{(x, y) \hspace{0.05cm}\in \hspace{0.05cm}XY} \hspace{-0.2cm} P_{XY}(x,\hspace{0.05cm}y) \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{P_{\hspace{0.05cm}Y\hspace{-0.01cm}\vert \hspace{0.03cm}X}
 
(\hspace{0.05cm}y\hspace{0.03cm} \vert \hspace{0.05cm} x)}= p_{\rm Aa} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}A} } +
 
p_{\rm Ab} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}A} } +
 
p_{\rm Ba} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}B} } +
 
p_{\rm Bb} \cdot {\rm log}_2 \hspace{0.1cm} \frac{1}{p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}B} } = 0.902 \ {\rm bit} \hspace{0.05cm}.$$}}
 
 
 
 
 
[[Datei:Transinf_3.png|right|frame|Betrachtetes Modell des Ternärkanals:<br>Rote Übergänge stehen für&nbsp; $p_{\rm a\hspace{0.03cm}\vert \hspace{0.03cm}A} = p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}B} = p_{\rm c\hspace{0.03cm}\vert \hspace{0.03cm}C} = q$&nbsp; und blaue für&nbsp; $p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}A} = p_{\rm c\hspace{0.03cm}\vert \hspace{0.03cm}A}  =\text{...}= p_{\rm b\hspace{0.03cm}\vert \hspace{0.03cm}C}= (1-q)/2$]]
 
{{GraueBox|TEXT=
 
$\text{Beispiel 3}$:&nbsp; Nun betrachten wir ein Übertragungssystem mit&nbsp; $M_X = M_Y = M=3$.&nbsp;
 
 
 
'''(1)'''&nbsp; Die Quellensymbole seien gleichwahrscheinlich:
 
:$$P_X(X) = \big ( p_{\rm A},\ p_{\rm B},\ p_{\rm C} \big )=
 
\big ( 1/3,\ 1/3,\ 1/3 \big )\hspace{0.30cm}\Rightarrow\hspace{0.30cm}H(X)={\rm log_2}\hspace{0.1cm}3 \approx 1.585 \ {\rm bit}
 
\hspace{0.05cm}.$$
 
'''(2)'''&nbsp; Das Kanalmodell ist symmetrisch &nbsp; &rArr; &nbsp; auch die Sinkensymbole sind gleichwahrscheinlich:
 
:$$P_Y(Y) = \big ( p_{\rm a},\ p_{\rm b},\ p_{\rm c} \big )=
 
\big ( 1/3,\ 1/3,\ 1/3 \big )\hspace{0.30cm}\Rightarrow\hspace{0.30cm}H(Y)={\rm log_2}\hspace{0.1cm}3 \approx 1.585 \ {\rm bit}
 
\hspace{0.05cm}.$$
 
'''(3)'''&nbsp; Die Verbundwahrscheinlichkeiten ergeben sich wie folgt:
 
:$$p_{\rm Aa}= p_{\rm Bb}= p_{\rm Cc}= q/M,$$
 
:$$p_{\rm Ab}= p_{\rm Ac}= p_{\rm Ba}= p_{\rm Bc} = p_{\rm Ca}= p_{\rm Cb} = (1-q)/(2M)$$
 
:$$\Rightarrow\hspace{0.30cm}H(XY) =  3 \cdot p_{\rm Aa} \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p_{\rm Aa}\hspace{0.1cm}  }+6 \cdot p_{\rm Ab} \cdot {\rm log_2}\hspace{0.1cm}\frac{1}{\hspace{0.1cm}p_{\rm Ab}\hspace{0.1cm} }= \
 
\text{...} \ = q \cdot {\rm log_2}\hspace{0.1cm}\frac{M}{q }+ (1-q) \cdot {\rm log_2}\hspace{0.1cm}\frac{M}{(1-q)/2 }.$$
 
[[Datei:Transinf_10.png|right|frame|Einige Ergebnisse zum&nbsp; $\text{Beispiel 3}$]]
 
'''(4)'''&nbsp; Für die Transinformation erhält man nach einigen Umformungen unter Berücksichtigung der Gleichung&nbsp;
 
:$$I(X;Y) = H(X) + H(Y) - H(XY)\text{:}$$
 
:$$I(X;Y) = {\rm log_2}\ (M) - (1-q) -H_{\rm bin}(q).$$
 
* Bei fehlerfreier Ternärübertragung&nbsp; $(q=1)$&nbsp; gilt&nbsp; $I(X;Y) = H(X) = H(Y)={\rm log_2}\hspace{0.1cm}3$.
 
* Mit&nbsp; $q=0.8$&nbsp; sinkt die Transinformaion schon auf&nbsp; $I(X;Y) = 0.663$&nbsp; und mit&nbsp; $q=0.5$&nbsp; auf&nbsp; $0.085$&nbsp; bit.
 
*Der ungünstigste Fall aus informationstheoretischer Sicht ist&nbsp; $q=1/3$&nbsp; &rArr; &nbsp; $I(X;Y) = 0$.
 
*Dagegen ist der aus der aus Sicht der Übertragungstheorie ungünstigste Fall&nbsp; $q=0$&nbsp; &rArr; &nbsp; &bdquo;kein einziges Übertragungssymbol kommt richtig an&rdquo;&nbsp; aus informationstheoretischer Sicht gar nicht so schlecht.
 
* Um dieses gute Ergebnis nutzen zu können, ist allerdings sendeseitig eine Kanalcodierung erforderlich. }}
 
<br><br>
 
===Definition und Bedeutung der Kanalkapazität ===
 
 
 
Berechnet man die Transinformation&nbsp; $I(X, Y)$&nbsp; wie zuletzt im&nbsp; $\text{Beispiel 2}$&nbsp; ausgeführt,&nbsp; so hängt diese nicht nur vom diskreten gedächtnislosen Kanal&nbsp; (englisch:&nbsp; ''Discrete Memoryless Channel'',&nbsp; kurz DMC)&nbsp; ab, sondern auch von der Quellenstatistik  &nbsp;  ⇒  &nbsp;  $P_X(X)$&nbsp; ab.&nbsp; Ergo: &nbsp; '''Die Transinformation'''&nbsp; $I(X, Y)$&nbsp;''' ist keine reine Kanalkenngröße'''.
 
 
 
{{BlaueBox|TEXT=
 
$\text{Definition:}$&nbsp; Die von&nbsp; [https://de.wikipedia.org/wiki/Claude_Shannon Claude E. Shannon]&nbsp; eingeführte&nbsp; '''Kanalkapazität'''&nbsp; (englisch:&nbsp; ''Channel Capacity'')&nbsp; lautet gemäß seinem Standardwerk&nbsp; [Sha48]<ref name = ''Sha48''>Shannon, C.E.: ''A Mathematical Theory of Communication''. In: Bell Syst. Techn. J. 27 (1948), S. 379-423 und S. 623-656.</ref>:
 
 
:$$C = \max_{P_X(X)} \hspace{0.15cm}  I(X;Y)  \hspace{0.05cm}.$$
 
 
 
Oft wird die Zusatzeinheit „bit/Kanalzugriff” hinzugefügt,&nbsp; bei englischen Texten „bit/use”.&nbsp; Da nach dieser Definition stets die bestmögliche Quellenstatistik zugrunde liegt,&nbsp; hängt&nbsp; $C$&nbsp; nur von den Kanaleigenschaften &nbsp; ⇒ &nbsp; $P_{Y \vert X}(Y \vert X)$ ab,&nbsp; nicht jedoch von der Quellenstatistik &nbsp; ⇒ &nbsp; $P_X(X)$.&nbsp; }}
 
 
 
 
 
Shannon benötigte die Kanalbeschreibungsgröße&nbsp; $C$&nbsp; zur Formulierung des Kanalcodierungstheorems – eines der Highlights der von ihm begründeten Informationstheorie.
 
 
 
{{BlaueBox|TEXT=
 
$\text{Shannons Kanalcodierungstheorem:}$&nbsp;
 
*Zu jedem Übertragungskanal mit der Kanalkapazität&nbsp; $C > 0$&nbsp; existiert (mindestens) ein&nbsp; $(k, n)$–Blockcode,&nbsp; dessen (Block–)Fehlerwahrscheinlichkeit gegen Null geht,&nbsp; so lange die Coderate&nbsp; $R = k/n$&nbsp; kleiner oder gleich der Kanalkapazität ist: &nbsp; $R ≤ C.$
 
* Voraussetzung hierfür ist allerdings,&nbsp; dass für die Blocklänge dieses Codes gilt: &nbsp; $n → ∞.$
 
 
 
 
 
$\text{Umkehrschluss von Shannons Kanalcodierungstheorem:}$&nbsp;
 
 
Ist die Rate&nbsp;  $R$&nbsp; des verwendeten&nbsp; $(n$, $k)$–Blockcodes größer als die Kanalkapazität&nbsp; $C$,&nbsp; so ist niemals eine beliebig kleine Blockfehlerwahrscheinlichkeit nicht erreichbar.}}
 
 
 
 
 
[[Datei:Transinf_9.png|right|frame|Informationsheoretischer Größen für <br>verschiedene&nbsp; $p_{\rm A}$&nbsp; und&nbsp; $p_{\rm B}= 1- p_{\rm A}$ ]]
 
{{GraueBox|TEXT=
 
$\text{Beispiel 4}$:&nbsp; Wir betrachten den gleichen diskreten gedächtnislosen Kanal wie im &nbsp;$\text{Beispiel 2}$.&nbsp;
 
In diesem&nbsp;$\text{Beispiel 2}$&nbsp; wurden die Symbolwahrscheinlichkeiten&nbsp; $p_{\rm A} = 0.1$&nbsp; und&nbsp; $p_{\rm B}= 1- p_{\rm A}=0.9$&nbsp; vorausgesetzt.&nbsp; Damit ergab sich die Transinformation zu&nbsp;  $I(X;Y)= 0.092$&nbsp; bit/Kanalzugriff &nbsp; &rArr; &nbsp; siehe erste Zeile, vierte Spalte in der Tabelle.
 
 
 
Die&nbsp; '''Kanalkapazität'''&nbsp; ist die Transinformation&nbsp; $I(X, Y)$&nbsp; bei bestmöglichen Symbolwahrscheinlichkeiten&nbsp; $p_{\rm A} = 0.55$&nbsp; und&nbsp; $p_{\rm B}= 1- p_{\rm A}=0.45$:
 
:$$C = \max_{P_X(X)} \hspace{0.15cm}  I(X;Y) = 0.284 \ \rm bit/Kanalzugriff \hspace{0.05cm}.$$
 
 
 
Aus der Tabelle erkennt man weiter&nbsp; (auf die Zusatzeinheit &bdquo;bit/Kanalzugriff&bdquo; verzichten wir im Folgenden):
 
*Der Parameter&nbsp; $p_{\rm A} = 0.1$&nbsp; war sehr ungünstig gewählt, weil beim vorliegenden Kanal das Symbol&nbsp; $\rm A$&nbsp; mehr verfälscht wird als&nbsp; $\rm B$.&nbsp; Schon mit&nbsp; $p_{\rm A} = 0.9$&nbsp; ergibt sich ein etwas besserer Wert:&nbsp; $I(X; Y)=0.130$.
 
*Aus dem gleichen Grund liefert&nbsp; $p_{\rm A} = 0.55$,&nbsp; $p_{\rm B} = 0.45$&nbsp; ein etwas besseres Ergebnis als gleichwahrscheinliche Symbole&nbsp; $p_{\rm A} = p_{\rm B} =0.5$.
 
*Je unsymmetrischer der Kanal ist, um so mehr weicht die optimale Wahrscheinlichkeitsfunktion&nbsp; $P_X(X)$&nbsp; von der Gleichverteilung ab.&nbsp; Im Umkehrschluss:&nbsp; Bei symmetrischem Kanal ergibt sich stets die Gleichverteilung.}}
 
 
 
 
 
Der Ternärkanal von &nbsp;$\text{Beispiel 3}$&nbsp; ist symmetrisch.&nbsp; Deshalb ist hier&nbsp; $P_X(X) = \big ( 1/3,\ 1/3,\ 1/3 \big )$&nbsp; für jeden&nbsp; $q$&ndash;Wert optimal, und die in der Ergebnistabelle angegebene Transinformation&nbsp;  $I(X;Y)$&nbsp; ist gleichzeitig die Kanalkapazität&nbsp;  $C$. 
 
 
 
 
 
  
 +
*Die (rote) Regressionsgerade&nbsp; $R_{Y \to X}$&nbsp; einer Gaußschen 2D–Zufallsgröße liegt stets unterhalb der Korrelationsgeraden.&nbsp; Sie kann aus dem Schnittpunkt jeder elliptischen Höhenlinie und ihrer vertikalen Tangente geometrisch konstruiert werden.
 +
* In der Skizze ist dieses Konstruktionsmerkmal in grüner Farbe angedeutet.&nbsp; Die (blaue) Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; ist eine Gerade durch den Koordinatenursprung und den Schnittpunkt der elliptischen Höhenlinie mit ihrer horizontalen Tangente.
 +
<br clear=all>
  
  
Zeile 400: Zeile 194:
 
*Wählen Sie zunächst die Nummer '''1''' ... '''6''' der zu bearbeitenden Aufgabe.
 
*Wählen Sie zunächst die Nummer '''1''' ... '''6''' der zu bearbeitenden Aufgabe.
 
*Eine Aufgabenbeschreibung wird angezeigt. Die Parameterwerte sind angepasst.
 
*Eine Aufgabenbeschreibung wird angezeigt. Die Parameterwerte sind angepasst.
*Lösung nach Drücken von &bdquo;Hide solution&rdquo;.
+
*Lösung nach Drücken von &bdquo;Musterlösung&rdquo;.
*Aufgabenstellung und Lösung in Englisch.  
+
*Die Nummer&nbsp; '''0'''&nbsp; entspricht einem &bdquo;Reset&rdquo;:&nbsp; Gleiche Einstellung wie beim Programmstart.
  
  
Die Nummer '''0''' entspricht einem &bdquo;Reset&rdquo;:
+
In den folgenden Aufgabenbeschreibungen werden folgende Kurzbezeichnungen verwendet:
*Gleiche Einstellung wie beim Programmstart.
+
*'''Rot''': &nbsp; &nbsp; Regressionsgerade&nbsp; $R_{Y \to X}$&nbsp; (im Applet rot gezeichnet),
*Ausgabe eines &bdquo;Reset&ndash;Textes&rdquo; mit weiteren Erläuterungen zum Applet.
+
*'''Blau''': &nbsp; Regressionsgerade&nbsp; $R_{X \to Y}$&nbsp; (im Applet blau gezeichnet).
 
 
 
 
In der folgenden Beschreibung bedeutet
 
*'''Blau''': &nbsp; Verteilungsfunktion 1 (im Applet blau markiert),
 
*'''Rot''': &nbsp; &nbsp; Verteilungsfunktion 2 (im Applet rot markiert).
 
  
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(1)'''&nbsp; Setzen Sie '''Blau''': Binomialverteilung $(I=5, \ p=0.4)$ und '''Rot''': Binomialverteilung $(I=10, \ p=0.2)$.
+
'''(1)'''&nbsp; Mit welcher Parametereinstellung sind die beiden Regressionsgeraden&nbsp; $R_{Y \to X}$&nbsp; und&nbsp; $R_{X \to Y}$&nbsp; deckungsgleich?}}
:Wie lauten die Wahrscheinlichkeiten ${\rm Pr}(z=0)$ und ${\rm Pr}(z=1)$?}}
 
  
 
+
::*&nbsp;Es ist offensichtlich, dass gleiche Regressionsgeraden nur möglich sind, wenn diese unter dem Winkel&nbsp;  $45^\circ$&nbsp; verlaufen &nbsp; &rArr; &nbsp; &bdquo;Winkelhalbierende&rdquo;.
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm}\text{Blau: }{\rm Pr}(z=0)=0.6^5=7.78\%, \hspace{0.3cm}{\rm Pr}(z=1)=0.4 \cdot 0.6^4=25.92\%;$
+
::*&nbsp;Da die fest vorgegebenen Punkte&nbsp; $3$&nbsp; und&nbsp; $4$&nbsp; auf der Winkelhalbierenden liegen, muss dies auch für die Punkte&nbsp; $1$&nbsp; und&nbsp; $2$&nbsp; gelten &nbsp; &rArr; &nbsp; $y_1 = x_1$.
 
+
::*&nbsp;Dies gilt für alle Parametereinstellungen&nbsp; $y_1 = x_1$&nbsp; und auch für alle&nbsp; $p_1$&nbsp; im erlaubten Bereich von &nbsp; $0$&nbsp; bis&nbsp; $0.5$.  
$\hspace{1.85cm}\text{Rot: }{\rm Pr}(z=0)=0.8^10=10.74\%, \hspace{0.3cm}{\rm Pr}(z=1)=0.2 \cdot 0.8^9=26.84\%.$
 
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(2)'''&nbsp; Es gelten weiter die Einstellungen von '''(1)'''. Wie groß sind die Wahrscheinlichkeiten ${\rm Pr}(3 \le z \le 5)$?}}
+
'''(2)'''&nbsp; Nun gelte $x_1 = 0.5,\ y_1 = 0,\ p_1 = 0.3$&nbsp; Interpretieren Sie die Ergebnisse.&nbsp; Aktivieren Sie hierzu die Hilfsgerade. }}
  
 
+
::*&nbsp;Diese Einstellung stimmt mit den Voraussetzungen zu&nbsp; $\text{Beispiel 1}$&nbsp; und&nbsp; $\text{Beispiel 2}$&nbsp; überein.&nbsp; Insbesondere gilt&nbsp; $ \theta_{X \to Y}= 45^\circ$&nbsp; und &nbsp;$ \theta_{Y \to X}\approx 36^\circ$.
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm}\text{Es gilt }{\rm Pr}(3 \le z \le 5) = {\rm Pr}(z=3) + {\rm Pr}(z=4) + {\rm Pr}(z=5)\text{, oder }
+
::*&nbsp;Durch Variation des Winkels&nbsp; $ \theta_{\rm HG}$&nbsp; erkennt man, dass für&nbsp; $ \theta_{\rm HG}= 45^\circ$&nbsp;  die Kenngröße&nbsp; ${\rm MQA}_X =0.15$&nbsp; tatsächlich den kleinsten Wert annimmt.
{\rm Pr}(3 \le z \le 5) = {\rm Pr}(z \le 5) - {\rm Pr}(z \le 2)$.
+
::*&nbsp;Ebenso ergibt sich der kleinstmögliche Abstand&nbsp; ${\rm MQA}_Y =0.109$&nbsp; in&nbsp; $y$&ndash;Richtung  für&nbsp; $ \theta_{\rm HG}= 36^\circ$, also entsprechend der Geraden&nbsp; $R_{Y \to X}$.  
 
 
$\hspace{1.85cm}\text{Blau: }{\rm Pr}(3 \le z \le 5) = 0.2304+ 0.0768 + 0.0102 =1 - 0.6826 = 0.3174;$
 
 
 
$\hspace{1.85cm}\text{Rot: }{\rm Pr}(3 \le z \le 5) = 0.2013 + 0.0881 + 0.0264 = 0.9936 - 0.6778 = 0.3158.$
 
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(3)'''&nbsp; Es gelten weiter die Einstellungen von '''(1)'''. Wie unterscheiden sich der Mittelwert $m_1$ und die Streuung $\sigma$ der beiden Binomialverteilungen?}}
+
'''(3)'''&nbsp; Es gelten zunächst weiter die Einstellungen von&nbsp; '''(2)'''.&nbsp; Wie ändern sich die Ergebnisse nach Variation von&nbsp; $p_1$&nbsp; im erlaubten Bereich&nbsp; $(0\le p_1 \le 0.5)$?}}
 
 
  
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm}\text{Mittelwert:}\hspace{0.2cm}m_\text{1} = I \cdot p\hspace{0.3cm} \Rightarrow\hspace{0.3cm} m_\text{1, Blau}  = 5 \cdot 0.4\underline{ = 2 =}  \ m_\text{1, Rot} = 10 \cdot 0.2; $
+
::*&nbsp;Die blaue Regressionsgerade&nbsp; $ R_{X \to Y}$&nbsp; verläuft weiter unter dem Winkel&nbsp; $ \theta_{X \to Y}= 45^\circ$ &nbsp; &rArr; &nbsp; es gilt hier&nbsp; $\mu_{XY} =\sigma_Y^2$, und zwar unabhängig von&nbsp; $p_1 < 0.5$.  
 
+
::*&nbsp;Im Grenzfall&nbsp; $p_1 = 0.5$&nbsp; ist wegen&nbsp; $\sigma_Y =0$&nbsp; die blaue Regressionsgerade undefiniert.&nbsp; Es handelt sich nurmehr um eine 1D&ndash;Zufallsgröße&nbsp; $X$.
$\hspace{1.85cm}\text{Streuung:}\hspace{0.4cm}\sigma = \sqrt{I \cdot p \cdot (1-p)} = \sqrt{m_1 \cdot (1-p)}\hspace{0.3cm}\Rightarrow\hspace{0.3cm} \sigma_{\rm Blau} = \sqrt{2 \cdot 0.6} =1.095 < \sigma_{\rm Rot} = \sqrt{2 \cdot 0.8} = 1.265.$
+
::*&nbsp;Mit&nbsp; $p_1=0$&nbsp; sind nur die äußeren Punkte&nbsp; $3$&nbsp; und&nbsp; $4$&nbsp; wirksam &nbsp; &rArr; &nbsp; $ \theta_{Y \to X}= \theta_{X \to Y}= 45^\circ$,&nbsp; mit&nbsp; $p_1=0.5$&nbsp; nur die inneren Punkte&nbsp;  &rArr; &nbsp; $ \theta_{Y \to X}= 0^\circ$.
 +
::*&nbsp;Dazwischen wird&nbsp; $ R_{Y \to X}$&nbsp; kontinuierlich flacher.&nbsp; Sind alle Punkte gleichwahrscheinlich&nbsp; $(p_1=0.25)$, dann ist&nbsp; $\theta_{Y \to X}\approx 38.7^\circ$.
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(4)'''&nbsp; Setzen Sie '''Blau''': Binomialverteilung $(I=15, p=0.3)$ und '''Rot''': Poissonverteilung $(\lambda=4.5)$.
+
'''(4)'''&nbsp; Nun gelte&nbsp; $x_1 = 0,\ y_1 = 0.5,\ p_1 = 0.3$.&nbsp; Variieren Sie&nbsp; $0\le p_1 < 0.5$&nbsp; und interpretieren Sie die Ergebnisse.&nbsp; $(p_1 = 0.5$&nbsp; sollte man ausschließen$)$.}}
:Welche Unterschiede ergeben sich  zwischen beiden Verteilungen hinsichtlich Mittelwert $m_1$ und Varianz $\sigma^2$?}}
 
 
 
 
 
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm}\text{Beide Verteilungern haben gleichen Mittelwert:}\hspace{0.2cm}m_\text{1, Blau}  = I \cdot p\ = 15 \cdot 0.3\hspace{0.15cm}\underline{ = 4.5 =} \  m_\text{1, Rot} = \lambda$;
 
  
$\hspace{1.85cm} \text{Binomialverteilung: }\hspace{0.2cm} \sigma_\text{Blau}^2 = m_\text{1, Blau} \cdot (1-p)\hspace{0.15cm}\underline { = 3.15} \le \text{Poissonverteilung: }\hspace{0.2cm} \sigma_\text{Rot}^2 = \lambda\hspace{0.15cm}\underline { = 4.5}$;
+
::*&nbsp;Wegen&nbsp; $\sigma_X \le \sigma_Y$&nbsp; liegt weiterhin die blaue Gerade nie unterhalb der roten, die für alle&nbsp; $p_1 \ne 0.5$&nbsp; die Winkelhalbierende ist &nbsp; &rArr; &nbsp; $ \theta_{Y \to X}\approx 45^\circ$.
 +
::*&nbsp;Der Winkel der blauen Regressionsgerade wächst von&nbsp; $ \theta_{X \to Y}= 45^\circ \ (p_1 = 0)$&nbsp; bis&nbsp; $ \theta_{X \to Y} \to 90^\circ \ (p_1 \to 0.5)$&nbsp; kontinuierlich an.
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(5)'''&nbsp; Es gelten die Einstellungen von '''(4)'''. Wie groß sind die Wahrscheinlichkeiten ${\rm Pr}(z  \gt 10)$ und ${\rm Pr}(z \gt 15)$?}}
+
'''(5)'''&nbsp; Beginnen Sie mit&nbsp; $x_1 = 0.8,\ y_1 = -0.8,\ p_1 = 0.25$&nbsp; und vergrößern Sie&nbsp; $y_1$&nbsp; bis zum Endwert&nbsp; $y_1 = +0.8$.&nbsp; Interpretieren Sie die Ergebnisse.}}
 
 
 
 
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm} \text{Binomial: }\hspace{0.2cm} {\rm Pr}(z  \gt 10) = 1 - {\rm Pr}(z  \le 10) = 1 - 0.9993 = 0.0007;\hspace{0.3cm} {\rm Pr}(z \gt 15) = 0 \ {\rm  (exakt)}$.
 
  
$\hspace{1.85cm}\text{Poisson: }\hspace{0.2cm} {\rm Pr}(z  \gt 10) = 1 - 0.9933 = 0.0067;\hspace{0.3cm}{\rm Pr}(z \gt 15) \gt  0 \ ( \approx 0)$
+
::*&nbsp;Für&nbsp; $y_1 =-0.8$&nbsp; ist&nbsp; $ \theta_{X \to Y}= 77.6^\circ$&nbsp; und&nbsp; $ \theta_{Y \to X}= 12.4^\circ$.&nbsp; Mit steigendem&nbsp; $y_1$&nbsp; verläuft&nbsp; $ R_{X \to Y}$&nbsp; (blau) flacher und&nbsp; $R_{Y \to X}$&nbsp; (rot) steiler.
 
+
::*&nbsp;Im Endpunkt&nbsp; $(y_1 = +0.8)$&nbsp; verlaufen die beiden Regressionsgeraden deckungsgleich unter dem Winkel&nbsp; $ \theta_{X \to Y}= \theta_{Y \to X}= 45^\circ$.
$\hspace{1.85cm} \text{Näherung: }\hspace{0.2cm}{\rm Pr}(z \gt 15) \ge {\rm Pr}(z = 16) = \lambda^{16}/{16!}\approx 2 \cdot 10^{-22}$.
 
  
 
{{BlaueBox|TEXT=
 
{{BlaueBox|TEXT=
'''(6)'''&nbsp; Es gelten weiter die Einstellungen von '''(4)'''. Mit welchen Parametern ergeben sich symmetrische Verteilungen um $m_1$?}}
+
'''(6)'''&nbsp; Abschließend gelte&nbsp; $x_1 = +1,\ y_1 = -1$.&nbsp; Variieren Sie&nbsp; $p_1$&nbsp; im gesamten zulässigen Bereich&nbsp; $0\le p_1 \le 0.5$.&nbsp; Wann sind&nbsp; $X$&nbsp; und&nbsp; $Y$&nbsp; unkorreliert?}}
  
 +
::*&nbsp;Für&nbsp; $p_1 = 0$&nbsp; gilt&nbsp; $ \theta_{X \to Y}=\theta_{Y \to X}= 45^\circ.$&nbsp; Dann dreht die blaue Gerade entgegen dem Uhrzeigersinn, die rote Gerade im Uhrzeigersinn.
 +
::*&nbsp;Für&nbsp; $p_1 = 0.25$&nbsp; sind die Winkel&nbsp; $ \theta_{X \to Y}=90^\circ, \ \theta_{Y \to X}= 0^\circ.$&nbsp; Diese Momentaufnahme beschreibt unkorrelierte Zufallsgrößen &nbsp; &rArr; &nbsp; $\mu_{XY}=0$.
 +
::*&nbsp;Anschließend drehen beide Geraden weiter in gleicher Richtung.&nbsp; Für&nbsp; $p_1 = 0.5$&nbsp; gilt schließlich:&nbsp; $ \theta_{X \to Y}=135^\circ= -45^\circ, \ \theta_{Y \to X}= -45^\circ.$
  
$\hspace{1.0cm}\Rightarrow\hspace{0.3cm} \text{Binomialverung mit }p = 0.5\text{:  }p_\mu =  {\rm Pr}(z  = \mu)\text{ symmetrisch um } m_1 = I/2 = 7.5 \ ⇒  \ p_μ = p_{I–μ}\ ⇒  \  p_8 = p_7, \ p_9 = p_6,  \text{usw.}$
 
 
$\hspace{1.85cm}\text{Die Poissonverteilung wird dagegen nie symmetrisch, da sie sich bis ins Unendliche erstreckt!}$
 
  
 
==Zur Handhabung des Applets==
 
==Zur Handhabung des Applets==
[[Datei:Handhabung_binomial.png|left|600px]]
+
[[Datei:Anleitung_korrelation_version2.png|left|600px]]
&nbsp; &nbsp; '''(A)''' &nbsp; &nbsp; Vorauswahl für blauen Parametersatz
+
<br><br><br><br><br>
 +
&nbsp; &nbsp; '''(A)''' &nbsp; &nbsp; Einstellung der&nbsp; $x$&ndash;Koordinaten für&nbsp; '''(1)'''&nbsp; und&nbsp; '''(2)'''
  
&nbsp; &nbsp; '''(B)''' &nbsp; &nbsp; Parametereingabe $I$ und $p$ per Slider
+
&nbsp; &nbsp; '''(B)''' &nbsp; &nbsp; Einstellung der&nbsp; $y$&ndash;Koordinaten für&nbsp; '''(1)'''&nbsp; und&nbsp; '''(2)'''
  
&nbsp; &nbsp; '''(C)''' &nbsp; &nbsp; Vorauswahl für roten Parametersatz
+
&nbsp; &nbsp; '''(C)''' &nbsp; &nbsp; Einstellung der&nbsp; Wahrscheinlichkeiten aller Punkte
  
&nbsp; &nbsp; '''(D)''' &nbsp; &nbsp; Parametereingabe $\lambda$ per Slider
+
&nbsp; &nbsp; '''(D)''' &nbsp; &nbsp; Hilfsgerade mit Winkel&nbsp; $\theta_{\rm HG}$&nbsp; einblenden
  
&nbsp; &nbsp; '''(E)''' &nbsp; &nbsp; Graphische Darstellung der Verteilungen
+
&nbsp; &nbsp; '''(E)''' &nbsp; &nbsp; Ausgabe der&nbsp; $\rm MQA$&ndash;Werte für Regressions&ndash; und Hilfsgerade
  
&nbsp; &nbsp; '''(F)''' &nbsp; &nbsp; Momentenausgabe für blauen Parametersatz
+
&nbsp; &nbsp; '''(F)''' &nbsp; &nbsp; Numerikausgabe der statistischen Kenngrößen
  
&nbsp; &nbsp; '''(G)''' &nbsp; &nbsp; Momentenausgabe für roten Parametersatz
+
&nbsp; &nbsp; '''(G)''' &nbsp; &nbsp; Grafikbereich zur Darstellung der Regressionsgeraden
  
&nbsp; &nbsp; '''(H)''' &nbsp; &nbsp; Variation der grafischen Darstellung
+
&nbsp; &nbsp; '''(H)''' &nbsp; &nbsp; Bereich für Übungen:&nbsp; Aufgabenauswahl, Fragen, Musterlösungen
 
 
 
 
$\hspace{1.5cm}$&bdquo;$+$&rdquo; (Vergrößern),  
 
 
 
$\hspace{1.5cm}$ &bdquo;$-$&rdquo; (Verkleinern)
 
 
 
$\hspace{1.5cm}$ &bdquo;$\rm o$&rdquo; (Zurücksetzen)
 
 
 
$\hspace{1.5cm}$ &bdquo;$\leftarrow$&rdquo; (Verschieben nach links), usw.
 
 
 
&nbsp; &nbsp; '''( I )''' &nbsp; &nbsp; Ausgabe von ${\rm Pr} (z = \mu)$ und ${\rm Pr} (z  \le \mu)$
 
 
 
&nbsp; &nbsp; '''(J)''' &nbsp; &nbsp; Bereich für die Versuchsdurchführung
 
 
<br clear=all>
 
<br clear=all>
<br>'''Andere Möglichkeiten zur Variation der grafischen Darstellung''':
 
*Gedrückte Shifttaste und Scrollen:  Zoomen im Koordinatensystem,
 
*Gedrückte Shifttaste und linke Maustaste: Verschieben des Koordinatensystems.
 
 
 
==Über die Autoren==
 
==Über die Autoren==
 
Dieses interaktive Berechnungstool  wurde am [http://www.lnt.ei.tum.de/startseite Lehrstuhl für Nachrichtentechnik] der [https://www.tum.de/ Technischen Universität München] konzipiert und realisiert.  
 
Dieses interaktive Berechnungstool  wurde am [http://www.lnt.ei.tum.de/startseite Lehrstuhl für Nachrichtentechnik] der [https://www.tum.de/ Technischen Universität München] konzipiert und realisiert.  
*Die erste Version wurde 2003 von [[Biografien_und_Bibliografien/An_LNTwww_beteiligte_Studierende#Ji_Li_.28Bachelorarbeit_EI_2003.2C_Diplomarbeit_EI_2005.29|Ji Li]] im Rahmen ihrer Diplomarbeit mit &bdquo;FlashMX&ndash;Actionscript&rdquo; erstellt (Betreuer: [[Biografien_und_Bibliografien/An_LNTwww_beteiligte_Mitarbeiter_und_Dozenten#Prof._Dr.-Ing._habil._G.C3.BCnter_S.C3.B6der_.28am_LNT_seit_1974.29|Günter Söder]]).  
+
*Die erste Version wurde 2005 von [[Biografien_und_Bibliografien/An_LNTwww_beteiligte_Studierende#Bettina_Hirner_.28Diplomarbeit_LB_2005.29|Bettina Hirner]] im Rahmen ihrer Diplomarbeit mit &bdquo;FlashMX&ndash;Actionscript&rdquo; erstellt (Betreuer: [[Biografien_und_Bibliografien/An_LNTwww_beteiligte_Mitarbeiter_und_Dozenten#Prof._Dr.-Ing._habil._G.C3.BCnter_S.C3.B6der_.28am_LNT_seit_1974.29|Günter Söder]]).  
*2018 wurde das Programm  von [[Biografien_und_Bibliografien/An_LNTwww_beteiligte_Studierende#Jimmy_He_.28Bachelorarbeit_2018.29|Jimmy He]]  (Bachelorarbeit, Betreuer: [[Biografien_und_Bibliografien/Beteiligte_der_Professur_Leitungsgebundene_%C3%9Cbertragungstechnik#Tasn.C3.A1d_Kernetzky.2C_M.Sc._.28bei_L.C3.9CT_seit_2014.29|Tasnád Kernetzky]] )  auf &bdquo;HTML5&rdquo; umgesetzt und neu gestaltet.
+
*2020 wurde das Programm  von [[Biografien_und_Bibliografien/An_LNTwww_beteiligte_Studierende#Veronika_Hofmann_.28Ingenieurspraxis_Math_2020.29|Veronika Hofmann]]  (Ingenieurspraxis Mathematik, Betreuer: [[Benedikt Leible]] und [[Biografien_und_Bibliografien/An_LNTwww_beteiligte_LÜT-Angehörige#Dr.-Ing._Tasn.C3.A1d_Kernetzky_.28bei_L.C3.9CT_von_2014-2022.29|Tasnád Kernetzky]] )  unter &bdquo;HTML5&rdquo; neu gestaltet.
  
 
==Nochmalige Aufrufmöglichkeit des Applets in neuem Fenster==
 
==Nochmalige Aufrufmöglichkeit des Applets in neuem Fenster==
  
{{LntAppletLink|verteilungen}}
+
{{LntAppletLink|correlation}}

Aktuelle Version vom 26. Oktober 2023, 11:14 Uhr

Applet in neuem Tab öffnen


Programmbeschreibung


Als einfaches Beispiel einer 2D-Zufallsgröße  $(X, Y)$  betrachten wir den Fall, dass diese nur vier Werte annehmen kann:

  • Punkt  $1$  bei  $(x_1, \ y_1)$  mit Wahrscheinlichkeit  $p_1$:   Die Parameter  $x_1, \ y_1, \ p_1$  sind im Applet per Slider einstellbar.
  • Punkt  $2$  bei  $(x_2, \ y_2)$  mit Wahrscheinlichkeit  $p_2$:   Die Parameter liegen durch den Punkt  $1$  fest:   $x_2=-x_1, \ y_2=-y_1, \ p_2=p_1$.
  • Punkt  $3$  bei  $(+1, +1)$  mit Wahrscheinlichkeit  $p_3 = 0.5-p_1$:   Die Lage dieses Punktes ist im Applet fest vorgegeben.
  • Punkt  $4$  bei  $(-1, -1)$  mit Wahrscheinlichkeit  $p_4 = p_3$:   Dieser Punkt liegt ebenso wie der Punkt  $3$  auf der Winkelhalbierenden.


Für diese Konstellation werden im Applet folgende Gerade durch den Nullpunkt dargestellt:

  • Die Regressionsgerade  $R_{X \to Y}$  unter dem Winkel  $\theta_{X \to Y}$   ⇒   blaue Kurve,
  • die Regressionsgerade  $R_{Y \to X}$  unter dem Winkel  $\theta_{Y \to X}$   ⇒   rote Kurve,
  • eine Hilfsgerade  „$\rm (HG)$” unter dem Winkel  $\theta_{\rm HG}$   ⇒   grüne Kurve, optional.


Als Zahlenwerte werden die zur Berechnung von  $\theta_{X \to Y}$  und  $\theta_{Y \to X}$  benötigten statistischen Kenngrößen ausgegeben:

  • die Streuungen (Standardabweichungen)  $\sigma_X$  und  $\sigma_Y$  der Komponenten  $X$  bzw.  $Y$,
  • die Kovarianz  $\mu_{XY}$  ⇒   Zentralmoment erster Ordnung der 2D-Zufallsgröße  $(X, Y)$,
  • der Korrelationskoeffizient  $\rho_{XY}$  zwischen den 2D-Zufallsgröße  $X$  und  $Y$.


Mit Hilfe der (optionalen) Hilfsgeraden sowie der gestrichelt eingezeichneten Abstände der Punkte in $x$– und $y$–Richtung zu dieser lässt sich nachvollziehen, dass

  • die rote Regressionsgerade  $R_{X \to Y}$  die Eigenschaft hat, dass der mittlere quadrische Abstand aller Punkte in  $y$–Richtung   ⇒   ${\rm MQA}_Y$  von dieser minimal ist,
  • während für die blaue Regressionsgerade  $R_{Y \to X}$  der mittlere quadrische Abstand aller Punkte in  $x$–Richtung   ⇒   ${\rm MQA}_X$  zum Minimum führt.



English Description


As a simple example of a two-dimensional random variable  $(X, Y)$  consider the case where it can take only four values:

  • Point  $1$  at  $(x_1, \ y_1)$  with probability  $p_1$:   The parameters  $x_1, \ y_1, \ p_1$  are adjustable in the applet by slider.
  • Point  $2$  at  $(x_2, \ y_2)$  with probability  $p_2$:   The parameters are fixed by the point  $1$    $x_2=-x_1, \ y_2=-y_1, \ p_2=p_1$.
  • Point  $3$  at  $(+1, +1)$  with probability  $p_3 = 0.5-p_1$:   The location of this point is fixed in the applet.
  • Point  $4$  at  $(-1, -1)$  with probability  $p_4 = p_3$:   This point lies on the bisector as does the point  $3$ .


For this constellation the following straight line through the zero point is shown in the applet:

  • the regression line  $R_{X \to Y}$  under the angle  $\theta_{X \to Y}$   ⇒   blue curve,
  • the regression line  $R_{Y \to X}$  at angle  $\theta_{Y \to X}$   ⇒   red curve,
  • an auxiliary straight line  „$\rm (HG)$” at the angle  $\theta_{\rm HG}$   ⇒   green curve, optional.


The statistical parameters needed to calculate  $\theta_{X \to Y}$  and  $\theta_{Y \to X}$  are output as numerical values:

  • the standard deviations  $\sigma_X$  and  $\sigma_Y$  of the components  $X$  and  $Y$, respectively,
  • the covariance  $\mu_{XY}$  ⇒   first-order central moment of the two-dimensional random variable  $(X, Y)$,
  • the correlation coefficient  $\rho_{XY}$  between the two-dimensional random variables  $X$  and  $Y$.


With the help of the (optional) auxiliary straight line as well as the dashed distances of the points in $x$– and $y$–direction to it, it can be understood that.

  • the red regression line  $R_{X \to Y}$  has the property that the mean square distance of all points in  $y$–direction   ⇒   ${\rm MQA}_Y$  from it is minimal,
  • while for the blue regression line  $R_{Y \to X}$  the mean square distance of all points in  $x$–direction   ⇒   ${\rm MQA}_X$  leads to the minimum.


Theoretischer Hintergrund


Erwartungswerte von 2D–Zufallsgrößen und Korrelationskoeffizient

Wir betrachten eine zweidimensionale  $\rm (2D)$–Zufallsgröße  $(X,\ Y)$  mit der Wahrscheinlichkeitsdichtefunktion  $\rm (WDF)$  $f_{XY}(x, y)$, wobei zwischen den Einzelkomponenten  $X$  und  $Y$  statistische Abhängigkeiten bestehen.  Ein Sonderfall ist die Korrelation.

$\text{Definition:}$  Unter  Korrelation  versteht man eine lineare Abhängigkeit  zwischen den Einzelkomponenten  $X$  und  $Y$.

  • Korrelierte Zufallsgrößen sind damit stets auch statistisch abhängig.
  • Aber nicht jede statistische Abhängigkeit bedeutet gleichzeitig eine Korrelation.


Für das Folgende setzen wir voraus, dass  $X$  und  $Y$  mittelwertfrei seien   ⇒   ${\rm E}\big [ X \big ] = {\rm E}\big [ Y \big ]=0$.  Zur Beschreibung der Korrelation genügen dann folgende Erwartungswerte:

  • die  Varianzen  in  $X$–  bzw. in  $Y$–Richtung:
$$\sigma_X^2= {\rm E}\big [ X^2 \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}x^2 \cdot f_{X}(x) \, {\rm d}x\hspace{0.05cm},\hspace{0.5cm}\sigma_Y^2= {\rm E}\big [Y^2 \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}y^2 \cdot f_{Y}(y) \, {\rm d}y\hspace{0.05cm};$$
  • die  Kovarianz  zwischen den Einzelkomponenten  $X$  und  $Y$:
$$\mu_{XY}= {\rm E}\big [ X \cdot Y \big ] = \int_{-\infty}^{+\infty}\hspace{0.2cm}\int_{-\infty}^{+\infty} x\ \cdot y \cdot f_{XY}(x,y) \, {\rm d}x\, {\rm d}y\hspace{0.05cm}.$$

Bei statistischer Unabhängigkeit der beiden Komponenten  $X$  und  $Y$  ist die Kovarianz  $\mu_{XY} \equiv 0$. 

  • Das Ergebnis  $\mu_{XY} = 0$  ist auch bei statistisch abhängigen Komponenten  $X$  und  $Y$  möglich, nämlich dann, wenn diese unkorreliert, also  linear unabhängig  sind.
  • Die statistische Abhängigkeit ist dann nicht von erster, sondern von höherer Ordnung, zum Beispiel entsprechend der Gleichung  $Y=X^2.$


Man spricht dann von  vollständiger Korrelation, wenn die (deterministische) Abhängigkeit zwischen  $X$  und  $Y$  durch die Gleichung  $Y = K · X$  ausgedrückt wird.

Dann ergibt sich für die Kovarianz:

  • $\mu_{XY} = σ_X · σ_Y$  bei positivem Wert von  $K$,
  • $\mu_{XY} = -σ_X · σ_Y$  bei negativem  $K$–Wert.


Deshalb verwendet man häufig als Beschreibungsgröße anstelle der Kovarianz den so genannten Korrelationskoeffizienten.

$\text{Definition:}$  Der  Korrelationskoeffizient  ist der Quotient aus der Kovarianz  $\mu_{XY}$  und dem Produkt der Effektivwerte  $σ_X$  und  $σ_Y$  der beiden Komponenten:

$$\rho_{XY}=\frac{\mu_{XY} } {\sigma_X \cdot \sigma_Y}.$$


Der Korrelationskoeffizient  $\rho_{XY}$  weist folgende Eigenschaften auf:

  • Aufgrund der Normierung gilt stets  $-1 \le ρ_{XY} ≤ +1$.
  • Sind die beiden Zufallsgrößen  $X$  und  $Y$  unkorreliert, so ist  $ρ_{XY} = 0$.
  • Bei strenger linearer Abhängigkeit zwischen  $X$  und  $Y$  ist  $ρ_{XY}= ±1$   ⇒   vollständige Korrelation.
  • Ein positiver Korrelationskoeffizient bedeutet, dass bei größerem  $X$–Wert im statistischen Mittel auch  $Y$  größer ist als bei kleinerem  $X$.
  • Dagegen drückt ein negativer Korrelationskoeffizient aus, dass  $Y$  mit steigendem  $X$  im Mittel kleiner wird.


2D-WDF  $f_{XY}(x, y)$  sowie die zugehörigen Randwahrscheinlichkeitsdichten  $f_{X}(x)$  und  $f_{Y}(y)$

$\text{Beispiel 1:}$  Die 2D–Zufallsgröße  $(X,\ Y)$  sei diskret und kann nur vier verschiedene Werte annehmen:

  • $(+0.5,\ 0)$  sowie $(-0.5,\ 0)$  jeweils mit der Wahrscheinlichkeit  $0.3$,
  • $(+1,\ +\hspace{-0.09cm}1)$  sowie $(-1,\ -\hspace{-0.09cm}1)$  jeweils mit der Wahrscheinlichkeit  $0.2$.


$\rm (A)$  Die Varianzen bzw. die Streuungen können aus   $f_{X}(x)$  und  $f_{Y}(y)$  berechnet werden:

$$\sigma_X^2 = 2 \cdot \big [0.2 \cdot 1^2 + 0.3 \cdot 0.5^2 \big] = 0.55\hspace{0.3cm}\Rightarrow\hspace{0.3cm}\sigma_X = 0.7416,$$
$$\sigma_Y^2 = \big [0.2 \cdot (-1)^2 + 0.6 \cdot 0^2 +0.2 \cdot (+1)^2 \big] = 0.4\hspace{0.3cm}\Rightarrow\hspace{0.3cm}\sigma_Y = 0.6325.$$

$\rm (B)$  Für die Kovarianz ergibt sich der folgende Erwartungswert:

$$\mu_{XY}= {\rm E}\big [ X \cdot Y \big ] = 2 \cdot \big [0.2 \cdot 1 \cdot 1 + 0.3 \cdot 0.5 \cdot 0 \big] = 0.4.$$

$\rm (C)$  Damit erhält man für den Korrelationskoeffizienten:

$$\rho_{XY}=\frac{\mu_{XY} } {\sigma_X \cdot \sigma_Y}=\frac{0.4 } {0.7416 \cdot 0.6325 }\approx 0.8528. $$


Eigenschaften der Regressionsgeraden

Gaußsche 2D-WDF mit Korrelationsgerade  $K$

Ziel der linearen Regression ist es, einen einfachen (linearen) Zusammenhang zwischen zwei Zufallsgrößen  $X$  und  $Y$  anzugeben, deren $\text{2D-WDF}$  $f_{XY}(x, y)$  durch Punkte  $(x_1, y_1 )$  ...  $(x_N, y_N )$  in der  $(x,\ y)$–Ebene vorgegeben ist.  Die Skizze zeigt das Prinzip am Beispiel mittelwertfreier Größen: 

Gesucht ist die Gleichung der Geraden  $K$  ⇒   $y=c_{\rm opt} \cdot x$  mit der Eigenschaft, dass der mittlere quadratische (Euklidische) Abstand  $\rm (MQA)$  aller Punkte von dieser Geraden minimal ist. Man bezeichnet diese Gerade auch als  Korrelationsgerade. Diese kann als eine Art  „statistische Symmetrieachse“  interpretiert werden.

Bei einer großen Menge  $N$  empirischer Daten ist der mathematische Aufwand beträchtlich, den bestmöglichen Parameter  $C = c_{\rm opt}$  zu ermitteln. Der Aufwand wird deutlich reduziert, wenn man den Abstand nur in  $x$– oder in  $y$–Richtung definiert.

Im Sonderfall Gaußscher 2D-Zufallsgrößen wie in der Skizze verwendet ist die Korrelationsgerade  $K$  identisch mit der Ellipsenhauptachse bei Darstellung der 2D-WDF in Form von Höhenlinien  (siehe Abschnitt 2.3).


$\text{(a)}\hspace{0.5cm} \text{Regressionsgerade }R_{Y \to X}$     (rote Gerade in der App)

Hier wird der  $y$–Wert auf den  $x$–Wert zurückgeführt, was in etwa einer der möglichen Bedeutungen „Zurückfallen” des Wortes „Regression” entspricht.

  • Geradengleichung,  Winkel  $\theta_{Y \to X}$  der Geraden  $R_{Y \to X}$  zur  $x$–Achse:
$$y=C_{Y \to X} \cdot x \ \ \ \text{mit} \ \ \ C_{Y \to X}=\frac{\sigma_Y}{\sigma_X}\cdot\rho_{XY}= \frac{\mu_{XY}}{\sigma_X^2},\hspace{0.6cm} \theta_{Y \to X}={\rm arctan}\ (C_{Y \to X}).$$
  • Kriterium:   Der mittlere Abstand aller Punkte  $(x_n, y_n )$  von der Regressionsgeraden $R_{Y \to X}$  in  $y$–Richtung ist minimal:
$${\rm MQA}_Y = {\rm E} \big [ y_n - C_{Y \to X} \cdot x_n\big ]^2 = \frac{\rm 1}{N} \cdot \sum_{n=\rm 1}^{N}\; \;\big [y_n - C_{Y \to X} \cdot x_n\big ]^{\rm 2}={\rm Minimum}.$$
Die zweite Gleichung gilt nur, wenn alle Punkte  $(x_n, y_n )$  der 2D–WDF gleichwahrscheinlich sind.


$\text{(b)}\hspace{0.5cm} \text{Regressionsgerade }R_{X \to Y}$     (blaue Gerade in der App)

Die Regression in Gegenrichtung  $($also von  $X$  auf  $Y)$  bedeutet dagegen, dass der $x$–Wert auf den $y$–Wert zurückgeführt wird.  Für  ${\rm MQA}_X$  ergibt sich der minimale Wert.

  • Geradengleichung,  Winkel  $\theta_{X \to Y}$  der Geraden  $R_{X \to Y}$  zur   $x$–Achse:
$$y=C_{X \to Y} \cdot x \ \ \text{mit} \ \ C_{X \to Y}=\frac{\sigma_Y}{\sigma_X\cdot\rho_{XY} }= \frac{\sigma_Y^2} {\mu_{XY}},\hspace{0.6cm} \theta_{X \to Y}={\rm arctan}\ (C_{X \to Y}).$$
  • Kriterium:   Der mittlere Abstand aller Punkte  $(x_n, y_n )$  von der Regressionsgeraden  $R_{X \to Y}$  in  $x$–Richtung ist minimal:
$${\rm MQA}_X = {\rm E} \big [ x_n - y_n/C_{X \to Y}\big ]^2 = \frac{\rm 1}{N} \cdot \sum_{n=\rm 1}^{N}\; \;\big [x_n - y_n/C_{X \to Y}\big ]^{\rm 2}={\rm Minimum}.$$
Die beiden Regressionsgeraden

$\text{Beispiel 2:}$  Es gelten die gleichen Voraussetzungen wie im  $\text{Beispiel 1}$  und es werden teilweise auch die dort gefundenen Ergebnisse verwendet.

In der oberen Grafik ist die Regressionsgerade  $R_{X \to Y}$  als blaue Kurve eingezeichnet:

  • Hierfür ergibt sich  $C_{X \to Y}={\sigma_Y^2}/\mu_{XY} = 1$  und dementsprechend  $ \theta_{X \to Y}={\rm arctan}\ (1) = 45^\circ.$
  • Für den mittleren Abstand aller vier Punkte  $(x_n, y_n )$  von der Regressionsgeraden $R_{X \to Y}$  in  $x$–Richtung erhält man unter Ausnutzung der Symmetrie (beachten Sie die eingezeichneten blauen Horizontalen):
$${\rm MQA}_X = {\rm E} \big [ x_n - y_n/C_{x \to y}\big ]^2 = 2 \cdot \big [ 0.2 \cdot \left [1 - 1/1\right ]^{\rm 2} +0.3 \cdot \left [0.5 - 0/1\right ]^{\rm 2}\big ]=0.15.$$
  • Jede Gerade mit einem anderen Winkel als  $45^\circ$  führt hier zu einem größeren  ${\rm MQA}_X$.


Betrachten wir nun die rote Regressionsgerade  $R_{Y \to X}$  in der unteren Grafik.

  • Hierfür ergibt sich  $C_{Y \to X}=\mu_{XY}/{\sigma_X^2} = 0.4/0.55\approx0.727$  und  $ \theta_{Y \to X}={\rm arctan}\ (0.727) \approx 36^\circ.$
  • Hier ist nun der mittlere Abstand der vier Punkte  $(x_n, y_n )$  von der Regressionsgeraden $R_{Y \to X}$  in  $y$–Richtung minimal (beachten Sie die eingezeichneten roten Vertikalen):
$${\rm MQA}_Y = {\rm E} \big [ y_n - C_{Y \to X} \cdot x_n\big ]^2 = 2 \cdot \big [ 0.2 \cdot \left [1 - 0.727 \cdot 1\right ]^{\rm 2} +0.3 \cdot \left [0 - 0.727 \cdot 0.5 \right ]^{\rm 2}\big ]\approx 0.109.$$

Die im Text erwähnte „Korrelationsgerade” mit der Eigenschaft, dass der mittlere quadratische Euklidische Abstand  $\rm (MQA)$  aller Punkte von dieser Geraden minimal ist, wird sicher zwischen den beiden hier berechneten Regressionsgeraden liegen.

Der Sonderfall Gaußscher 2D–Zufallsgrößen

Im Sonderfall einer mittelwertfreien   Gaußschen 2–Zufallsgröße  $(X,\ Y)$  lautet die Verbundwahrscheinlichkeitsdichtefunktion:

$$f_{XY}(x,y)=\frac{\rm 1}{\rm 2\it\pi \cdot \sigma_X \cdot \sigma_Y \cdot \sqrt{\rm 1-\rho_{\it XY}^2}}\cdot\exp\Bigg[-\frac{\rm 1}{\rm 2 \cdot(1-\it\rho_{XY}^{\rm 2} {\rm)}}\cdot(\frac {\it x^{\rm 2}}{\sigma_X^{\rm 2}}+\frac {\it y^{\rm 2}}{\sigma_Y^{\rm 2}}-\rm 2\cdot\it\rho_{XY}\cdot\frac{x \cdot y}{\sigma_X \cdot \sigma_Y}\rm ) \rm \Bigg].$$
  • Ersetzt man  $x$  durch  $(x - m_X)$  sowie  $y$  durch  $(y- m_Y)$, so ergibt sich die allgemeinere WDF einer zweidimensionalen Gaußschen Zufallsgröße mit Mittelwert.
  • Die beiden Randwahrscheinlichkeitsdichtefunktionen $f_{X}(x)$  und $f_{Y}(y)$  einer Gaußschen 2D-Zufallsgröße sind ebenfalls gaußförmig mit den Streuungen  $σ_X$  bzw.  $σ_Y$.
  • Bei unkorrelierten Komponenten  $X$  und  $Y$  muss in obiger Gleichung  $ρ_{XY} = 0$  eingesetzt werden,  und man erhält dann das Ergebnis:
$K$,  $R_{Y \to X}$  und  $R_{X \to Y}$  bei Gaußschen 2D–Zufallsgrößen
$$f_{XY}(x,y)=\frac{1}{\sqrt{2\pi}\cdot\sigma_{X}} \cdot\rm e^{-\it {x^{\rm 2}}\hspace{-0.08cm}/{\rm (}{\rm 2\it\sigma_{X}^{\rm 2}} {\rm )}} \cdot\frac{1}{\sqrt{2\pi}\cdot\sigma_{\it Y}}\cdot e^{-\it {y^{\rm 2}}\hspace{-0.08cm}/{\rm (}{\rm 2\it\sigma_{Y}^{\rm 2}} {\rm )}} = \it f_{X} \rm ( \it x \rm ) \cdot \it f_{Y} \rm ( \it y \rm ) .$$
  • Bei korrelierten Komponenten  $X$  und  $Y$   ⇒   $ρ_{XY} \ne 0$  sind die Höhenlinien der 2D-WDF jeweils ellipsenförmig. Die Korrelationsgerade  $K$  ist hier identisch mit der Ellipsenhauptachse, die unter folgendem Neigungswinkel verläuft:
$$\theta_{\rm K} = {1}/{2} \cdot {\rm arctan } \ ( 2 \cdot \rho_{XY} \cdot \frac {\sigma_X \cdot \sigma_Y}{\sigma_X^2 - \sigma_Y^2}).$$
  • Die (rote) Regressionsgerade  $R_{Y \to X}$  einer Gaußschen 2D–Zufallsgröße liegt stets unterhalb der Korrelationsgeraden.  Sie kann aus dem Schnittpunkt jeder elliptischen Höhenlinie und ihrer vertikalen Tangente geometrisch konstruiert werden.
  • In der Skizze ist dieses Konstruktionsmerkmal in grüner Farbe angedeutet.  Die (blaue) Regressionsgerade  $R_{X \to Y}$  ist eine Gerade durch den Koordinatenursprung und den Schnittpunkt der elliptischen Höhenlinie mit ihrer horizontalen Tangente.



Versuchsdurchführung

Exercises binomial fertig.png
  • Wählen Sie zunächst die Nummer 1 ... 6 der zu bearbeitenden Aufgabe.
  • Eine Aufgabenbeschreibung wird angezeigt. Die Parameterwerte sind angepasst.
  • Lösung nach Drücken von „Musterlösung”.
  • Die Nummer  0  entspricht einem „Reset”:  Gleiche Einstellung wie beim Programmstart.


In den folgenden Aufgabenbeschreibungen werden folgende Kurzbezeichnungen verwendet:

  • Rot:     Regressionsgerade  $R_{Y \to X}$  (im Applet rot gezeichnet),
  • Blau:   Regressionsgerade  $R_{X \to Y}$  (im Applet blau gezeichnet).


(1)  Mit welcher Parametereinstellung sind die beiden Regressionsgeraden  $R_{Y \to X}$  und  $R_{X \to Y}$  deckungsgleich?

  •  Es ist offensichtlich, dass gleiche Regressionsgeraden nur möglich sind, wenn diese unter dem Winkel  $45^\circ$  verlaufen   ⇒   „Winkelhalbierende”.
  •  Da die fest vorgegebenen Punkte  $3$  und  $4$  auf der Winkelhalbierenden liegen, muss dies auch für die Punkte  $1$  und  $2$  gelten   ⇒   $y_1 = x_1$.
  •  Dies gilt für alle Parametereinstellungen  $y_1 = x_1$  und auch für alle  $p_1$  im erlaubten Bereich von   $0$  bis  $0.5$.

(2)  Nun gelte $x_1 = 0.5,\ y_1 = 0,\ p_1 = 0.3$  Interpretieren Sie die Ergebnisse.  Aktivieren Sie hierzu die Hilfsgerade.

  •  Diese Einstellung stimmt mit den Voraussetzungen zu  $\text{Beispiel 1}$  und  $\text{Beispiel 2}$  überein.  Insbesondere gilt  $ \theta_{X \to Y}= 45^\circ$  und  $ \theta_{Y \to X}\approx 36^\circ$.
  •  Durch Variation des Winkels  $ \theta_{\rm HG}$  erkennt man, dass für  $ \theta_{\rm HG}= 45^\circ$  die Kenngröße  ${\rm MQA}_X =0.15$  tatsächlich den kleinsten Wert annimmt.
  •  Ebenso ergibt sich der kleinstmögliche Abstand  ${\rm MQA}_Y =0.109$  in  $y$–Richtung für  $ \theta_{\rm HG}= 36^\circ$, also entsprechend der Geraden  $R_{Y \to X}$.

(3)  Es gelten zunächst weiter die Einstellungen von  (2).  Wie ändern sich die Ergebnisse nach Variation von  $p_1$  im erlaubten Bereich  $(0\le p_1 \le 0.5)$?

  •  Die blaue Regressionsgerade  $ R_{X \to Y}$  verläuft weiter unter dem Winkel  $ \theta_{X \to Y}= 45^\circ$   ⇒   es gilt hier  $\mu_{XY} =\sigma_Y^2$, und zwar unabhängig von  $p_1 < 0.5$.
  •  Im Grenzfall  $p_1 = 0.5$  ist wegen  $\sigma_Y =0$  die blaue Regressionsgerade undefiniert.  Es handelt sich nurmehr um eine 1D–Zufallsgröße  $X$.
  •  Mit  $p_1=0$  sind nur die äußeren Punkte  $3$  und  $4$  wirksam   ⇒   $ \theta_{Y \to X}= \theta_{X \to Y}= 45^\circ$,  mit  $p_1=0.5$  nur die inneren Punkte  ⇒   $ \theta_{Y \to X}= 0^\circ$.
  •  Dazwischen wird  $ R_{Y \to X}$  kontinuierlich flacher.  Sind alle Punkte gleichwahrscheinlich  $(p_1=0.25)$, dann ist  $\theta_{Y \to X}\approx 38.7^\circ$.

(4)  Nun gelte  $x_1 = 0,\ y_1 = 0.5,\ p_1 = 0.3$.  Variieren Sie  $0\le p_1 < 0.5$  und interpretieren Sie die Ergebnisse.  $(p_1 = 0.5$  sollte man ausschließen$)$.

  •  Wegen  $\sigma_X \le \sigma_Y$  liegt weiterhin die blaue Gerade nie unterhalb der roten, die für alle  $p_1 \ne 0.5$  die Winkelhalbierende ist   ⇒   $ \theta_{Y \to X}\approx 45^\circ$.
  •  Der Winkel der blauen Regressionsgerade wächst von  $ \theta_{X \to Y}= 45^\circ \ (p_1 = 0)$  bis  $ \theta_{X \to Y} \to 90^\circ \ (p_1 \to 0.5)$  kontinuierlich an.

(5)  Beginnen Sie mit  $x_1 = 0.8,\ y_1 = -0.8,\ p_1 = 0.25$  und vergrößern Sie  $y_1$  bis zum Endwert  $y_1 = +0.8$.  Interpretieren Sie die Ergebnisse.

  •  Für  $y_1 =-0.8$  ist  $ \theta_{X \to Y}= 77.6^\circ$  und  $ \theta_{Y \to X}= 12.4^\circ$.  Mit steigendem  $y_1$  verläuft  $ R_{X \to Y}$  (blau) flacher und  $R_{Y \to X}$  (rot) steiler.
  •  Im Endpunkt  $(y_1 = +0.8)$  verlaufen die beiden Regressionsgeraden deckungsgleich unter dem Winkel  $ \theta_{X \to Y}= \theta_{Y \to X}= 45^\circ$.

(6)  Abschließend gelte  $x_1 = +1,\ y_1 = -1$.  Variieren Sie  $p_1$  im gesamten zulässigen Bereich  $0\le p_1 \le 0.5$.  Wann sind  $X$  und  $Y$  unkorreliert?

  •  Für  $p_1 = 0$  gilt  $ \theta_{X \to Y}=\theta_{Y \to X}= 45^\circ.$  Dann dreht die blaue Gerade entgegen dem Uhrzeigersinn, die rote Gerade im Uhrzeigersinn.
  •  Für  $p_1 = 0.25$  sind die Winkel  $ \theta_{X \to Y}=90^\circ, \ \theta_{Y \to X}= 0^\circ.$  Diese Momentaufnahme beschreibt unkorrelierte Zufallsgrößen   ⇒   $\mu_{XY}=0$.
  •  Anschließend drehen beide Geraden weiter in gleicher Richtung.  Für  $p_1 = 0.5$  gilt schließlich:  $ \theta_{X \to Y}=135^\circ= -45^\circ, \ \theta_{Y \to X}= -45^\circ.$


Zur Handhabung des Applets

Anleitung korrelation version2.png






    (A)     Einstellung der  $x$–Koordinaten für  (1)  und  (2)

    (B)     Einstellung der  $y$–Koordinaten für  (1)  und  (2)

    (C)     Einstellung der  Wahrscheinlichkeiten aller Punkte

    (D)     Hilfsgerade mit Winkel  $\theta_{\rm HG}$  einblenden

    (E)     Ausgabe der  $\rm MQA$–Werte für Regressions– und Hilfsgerade

    (F)     Numerikausgabe der statistischen Kenngrößen

    (G)     Grafikbereich zur Darstellung der Regressionsgeraden

    (H)     Bereich für Übungen:  Aufgabenauswahl, Fragen, Musterlösungen

Über die Autoren

Dieses interaktive Berechnungstool wurde am Lehrstuhl für Nachrichtentechnik der Technischen Universität München konzipiert und realisiert.

Nochmalige Aufrufmöglichkeit des Applets in neuem Fenster

Applet in neuem Tab öffnen