Aufgaben:Aufgabe 1.8: Synthetisch erzeugte Texte: Unterschied zwischen den Versionen

Aus LNTwww
Wechseln zu:Navigation, Suche
 
(14 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 3: Zeile 3:
 
}}
 
}}
  
[[Datei:P_ID2324__Inf_A_1_8.png|right|]]
+
[[Datei:Inf_A_1_8_vers2.png|right|frame|Zwei synthetisch erzeugte Textdateien]]
:Das Praktikum [Söd01] verwendet das Windows–Programm „Wertdiskrete Informationstheorie”. Der nachfolgende Link  ⇒  WDIT führt zur ZIP–Version des Programms.
 
  
:Aus einer gegebenen Textdatei VORLAGE kann man
+
Der frühere Praktikumsversuch  [http://www.lntwww.de/downloads/Sonstiges/Texte/Wertdiskrete_Informationstheorie.pdf Wertdiskrete Informationstheorie]  von Günter Söder am Lehrstuhl für Nachrichtentechnik der TU München verwendet das Windows-Programm  [http://www.lntwww.de/downloads/Sonstiges/Programme/WDIT.zip WDIT].  Die beiden hier angegebenen Links führen zur PDF-Version der Praktikumsanleitung bzw. zur ZIP-Version des Programms.
  
:* die Häufigkeiten von Buchstabentripeln wie „aaa”, „aab”, ... , „xyz”, ...  ermitteln und in einer Hilfsdatei abspeichern,
+
Mit diesem Programm
  
:* danach eine Datei SYNTHESE erzeugen, wobei das neue Zeichen aus den beiden letzten Zeichen und den abgespeicherten Tripel–Häufigkeiten generiert wird.
+
*kann man aus einer gegebenen Textdatei  „VORLAGE”  die Häufigkeiten von Buchstabentripeln wie  „aaa”,  „aab”, ... ,  „xyz”, ...   ermitteln und in einer Hilfsdatei abspeichern,
 +
* danach eine Datei  „SYNTHESE”  erzeugen, wobei das neue Zeichen aus den beiden letzten Zeichen und den abgespeicherten Tripel–Häufigkeiten generiert wird.
  
:Ausgehend von der deutschen und der englischen Bibelübersetzung haben wir so zwei Dateien synthetisiert, die in der Grafik mit
 
  
:* Datei 1 (rote Umrandung),
+
Ausgehend von der deutschen und der englischen Bibelübersetzung haben wir so zwei Dateien synthetisiert, die in der Grafik angegeben sind:
 +
* die  $\text{Datei 1}$  (rote Umrandung),
 +
* die  $\text{Datei 2}$  (grüne Umrandung)
  
:* Datei 2 (grüne Umrandung)
 
  
:bezeichnet sind. Nicht bekannt gegeben wird, welche Datei von welcher Vorlage stammt. Dies zu ermitteln ist Ihre erste Aufgabe.
+
Nicht angegeben wird, welche Datei von welcher Vorlage stammt.  Dies zu ermitteln ist Ihre erste Aufgabe.
  
:Die beiden Vorlagen basieren auf dem natürlichen Alphabet (26 Buchstaben) und dem Leerzeichen (&bdquo;LZ&rdquo;) &#8658; <nobr><i>M</i> = 27.</nobr> Bei der deutschen Bibel wurden die Umlaute ersetzt, zum Beispiel &bdquo;ä&rdquo; &#8658; &bdquo;ae&rdquo;.
+
Die beiden Vorlagen basieren auf dem natürlichen Alphabet&nbsp; $(26$ Buchstaben$)$&nbsp; und dem Leerzeichen&nbsp; (&bdquo;LZ&rdquo;) &nbsp; &#8658; &nbsp; $M = 27$.&nbsp; Bei der deutschen Bibel wurden die Umlaute ersetzt, zum Beispiel &bdquo;ä&rdquo; &nbsp; &#8658; &nbsp; &bdquo;ae&rdquo;.
  
:Die <font color="#cc0000"><span style="font-weight: bold;">Datei 1</span></font> weist folgende Eigenschaften auf:
 
  
:* Die häufigsten Zeichen sind &bdquo;LZ&rdquo; mit 19.8%, gefolgt von &bdquo;e&rdquo; mit 10.2% und &bdquo;a&rdquo; mit 8.5%.
+
Die&nbsp; $\text{Datei 1}$&nbsp; weist folgende Eigenschaften auf:
 
+
* Die häufigsten Zeichen sind &bdquo;LZ&rdquo; mit&nbsp; $19.8\%$, gefolgt von &bdquo;e&rdquo; mit&nbsp; $10.2\%$&nbsp; und &bdquo;a&rdquo; mit&nbsp; $8.5\%$.
:* Nach &bdquo;LZ&rdquo; (Leerzeichen) tritt &bdquo;t&rdquo; mit 17.8%  am häufigsten auf.
+
* Nach &bdquo;LZ&rdquo; (Leerzeichen) tritt &bdquo;t&rdquo; mit&nbsp; $17.8\%$&nbsp; am häufigsten auf.
 
+
* Vor einem Leerzeichen ist &bdquo;d&rdquo; am wahrscheinlichsten.
:* Vor einem Leerzeichen ist &bdquo;d&rdquo; am wahrscheinlichsten.
+
* Die Entropienäherungen jeweils mit der Einheit &bdquo;bit/Zeichen&rdquo; wurden wie folgt ermittelt:
 
 
:* Die Entropienäherungen jeweils mit der Einheit bit/Zeichen, wurden wie folgt ermittelt:
 
 
:$$H_0 = 4.76\hspace{0.05cm},\hspace{0.2cm}
 
:$$H_0 = 4.76\hspace{0.05cm},\hspace{0.2cm}
 
H_1 = 4.00\hspace{0.05cm},\hspace{0.2cm}  
 
H_1 = 4.00\hspace{0.05cm},\hspace{0.2cm}  
Zeile 37: Zeile 34:
 
H_4 = 2.81\hspace{0.05cm}.  $$
 
H_4 = 2.81\hspace{0.05cm}.  $$
  
:Dagegen ergibt die Analyse von <font color="#009933"><span style="font-weight: bold;">Datei 2</span></font>:
+
Dagegen ergibt die Analyse von&nbsp; $\text{Datei 2}$:
 +
* Die häufigsten Zeichen sind &bdquo;LZ&rdquo; mit&nbsp; $17.6\%$&nbsp; gefolgt von &bdquo;e&rdquo; mit&nbsp; $14.4\%$&nbsp; und &bdquo;n&rdquo; mit&nbsp; $8.9\%$.
 +
* Nach &bdquo;LZ&rdquo; ist &bdquo;d&rdquo; am wahrscheinlichsten&nbsp; $(15.1\%)$&nbsp; gefolgt von &bdquo;s&rdquo; mit&nbsp; $10.8\%$.
 +
* Nach &bdquo;LZ&rdquo; und &bdquo;d&rdquo;  sind die Vokale &bdquo;e&rdquo;&nbsp; $(48.3\%)$,&nbsp; &bdquo;i&rdquo; $(23\%)$&nbsp; und &bdquo;a&rdquo;&nbsp; $(20.2\%)$&nbsp; dominant.
 +
* Die Entropienäherungen unterscheiden sich nur geringfügig von denen der&nbsp; $\text{Datei 1}$.
 +
* Für größere&nbsp; $k$&ndash;Werte sind diese etwas größer, zum Beispiel&nbsp; $H_3 = 3.17$&nbsp; statt&nbsp; $H_3 = 3.11$.
  
:* Die häufigsten Zeichen sind &bdquo;LZ&rdquo; mit 17.6% gefolgt von &bdquo;e&rdquo; mit 14.4% und &bdquo;n&rdquo; mit 8.9%.
 
  
:* Nach &bdquo;LZ&rdquo; ist &bdquo;d&rdquo; am wahrscheinlichsten (15.1%) gefolgt von &bdquo;s&rdquo; mit 10.8%.
 
  
:* Nach &bdquo;LZ&rdquo; und &bdquo;d&rdquo;  sind die Vokale &bdquo;e&rdquo; (48.3%), &bdquo;i&rdquo; (23%) und &bdquo;a&rdquo; (20.2%) dominant.
 
  
:* Die Entropienäherungen unterscheiden sich nur geringfügig von denen der Datei 1.
 
  
:* Für größere <i>k</i>&ndash;Werte sind diese etwas größer, zum Beispiel <i>H</i><sub>3</sub> = 3.11 &#8658; 3.17.
 
  
:<b>Hinweis:</b> Die Aufgabe bezieht sich auf das Kapitel 1.3. Anzumerken ist, dass unsere Analyse eher auf einen gleichen Entropiewert für Englisch und Deutsch schließen lässt. Dafür spricht auch, dass beide Übersetzungen nahezu gleich groß sind (ca. 4 Millionen Zeichen). Hätte Deutsch eine um 30% größere Entropie als Englisch, dann müsste nach unserer Meinung die englische Version um 30% länger sein, wenn man von gleichem Inhalt der beiden Übersetzungen ausgeht. Wir erheben aber keinen Anspruch auf die Richtigkeit unserer Argumentation.
+
''Hinweise:''
 +
*Die Aufgabe gehört zum  Kapitel&nbsp; [[Informationstheorie/Natürliche_wertdiskrete_Nachrichtenquellen|Natürliche wertdiskrete Nachrichtenquellen]].
 +
 
 +
*Bezug genommen wird insbesondere auf die Seite&nbsp; [[Informationstheorie/Natürliche_wertdiskrete_Nachrichtenquellen#Synthetisch_erzeugte_Texte|Synthetisch erzeugte Texte]].
 +
 
  
  
Zeile 56: Zeile 57:
 
<quiz display=simple>
 
<quiz display=simple>
 
{Welche Vorlagen wurden für die hier gezeigte Textsynthese verwendet?
 
{Welche Vorlagen wurden für die hier gezeigte Textsynthese verwendet?
|type="[]"}
+
|type="()"}
+ Die Datei 1 (rot) basiert auf einer englischen Vorlage.
+
+ Die&nbsp; $\text{Datei 1}$&nbsp; (rot) basiert auf einer englischen Vorlage.
- Die Datei 1 (rot) basiert auf einer deutschen Vorlage.
+
- Die&nbsp; $\text{Datei 1}$&nbsp; (rot) basiert auf einer deutschen Vorlage.
  
  
{Vergleichen Sie die mittleren Wortlängen von Datei 1 und Datei 2.
+
{Vergleichen Sie die mittleren Wortlängen von&nbsp; $\text{Datei 1}$&nbsp; und&nbsp; $\text{Datei 2}$&nbsp;.
|type="[]"}
+
|type="()"}
 
- Die Wörter der &bdquo;englischen&rdquo; Datei sind im Mittel länger.
 
- Die Wörter der &bdquo;englischen&rdquo; Datei sind im Mittel länger.
 
+ Die Wörter der &bdquo;deutschen&rdquo; Datei sind im Mittel länger.
 
+ Die Wörter der &bdquo;deutschen&rdquo; Datei sind im Mittel länger.
Zeile 69: Zeile 70:
 
{Welche Aussagen gelten für die Entropienäherungen?
 
{Welche Aussagen gelten für die Entropienäherungen?
 
|type="[]"}
 
|type="[]"}
+ VORLAGE und SYNTHESE liefern ein nahezu gleiches <i>H</i><sub>1</sub>.
+
+ &bdquo;VORLAGE&rdquo;&nbsp; und&nbsp; &bdquo;SYNTHESE&rdquo;&nbsp; liefern ein nahezu gleiches&nbsp; $H_1$.
+ VORLAGE und SYNTHESE liefern ein nahezu gleiches <i>H</i><sub>2</sub>.
+
+ &bdquo;VORLAGE&rdquo;&nbsp; und&nbsp; &bdquo;SYNTHESE&rdquo;&nbsp; liefern ein nahezu gleiches&nbsp; $H_2$.
+ VORLAGE und SYNTHESE liefern ein nahezu gleiches <i>H</i><sub>3</sub>.
+
+ &bdquo;VORLAGE&rdquo;&nbsp; und&nbsp; &bdquo;SYNTHESE&rdquo;&nbsp; liefern ein nahezu gleiches&nbsp; $H_3$.
- VORLAGE und SYNTHESE liefern ein nahezu gleiches <i>H</i><sub>4</sub>.
+
- &bdquo;VORLAGE&rdquo;&nbsp; und&nbsp; &bdquo;SYNTHESE&rdquo;&nbsp; liefern ein nahezu gleiches&nbsp; $H_4$.
  
  
 
{Welche Aussagen treffen für den &bdquo;englischen&rdquo; Text zu?
 
{Welche Aussagen treffen für den &bdquo;englischen&rdquo; Text zu?
 
|type="[]"}
 
|type="[]"}
+ Die meisten Wörter beginnen mit &bdquo;t&rdquo;.
+
+ Die meisten Wörter beginnen mit&nbsp; &bdquo;t&rdquo;.
+ Die meisten Wörter enden mit &bdquo;t&rdquo;.
+
- Die meisten Wörter enden mit&nbsp; &bdquo;t&rdquo;.
  
  
 
{Welche Aussagen könnten für deutsche Texte gelten?
 
{Welche Aussagen könnten für deutsche Texte gelten?
 
|type="[]"}
 
|type="[]"}
+ Nach &bdquo;de&rdquo; ist &bdquo;r&rdquo; am wahrscheinlichsten.
+
+ Nach&nbsp; &bdquo;de&rdquo;&nbsp; ist&nbsp; &bdquo;r&rdquo;&nbsp; am wahrscheinlichsten.
+ Nach &bdquo;da&rdquo; ist &bdquo;s&rdquo; am wahrscheinlichsten.
+
+ Nach&nbsp; &bdquo;da&rdquo;&nbsp; ist&nbsp; &bdquo;s&rdquo;&nbsp; am wahrscheinlichsten.
+ Nach &bdquo;di&rdquo; ist &bdquo;e&rdquo; am wahrscheinlichsten.
+
+ Nach&nbsp; &bdquo;di&rdquo;&nbsp; ist&nbsp; &bdquo;e&rdquo;&nbsp; am wahrscheinlichsten.
  
  
Zeile 93: Zeile 94:
 
===Musterlösung===
 
===Musterlösung===
 
{{ML-Kopf}}
 
{{ML-Kopf}}
:<b>1.</b>&nbsp;&nbsp;Richtig ist der <u>Lösungsvorschlag 1</u>. In der Datei 1 erkennt man viele englische Wörter, in der Datei 2 viele deutsche. Sinn ergibt keiner der beiden Texte.
+
'''(1)'''&nbsp; Richtig ist der <u>Lösungsvorschlag 1</u>.  
 +
*In der&nbsp; $\text{Datei 1}$&nbsp; erkennt man viele englische Wörter, in der&nbsp; $\text{Datei 2}$&nbsp; viele deutsche.  
 +
*Sinn ergibt keiner der beiden Texte.
  
:<b>2.</b>&nbsp;&nbsp;Die Wahrscheinlichkeit eines Leerzeichens beträgt bei der Datei 1 (Englisch) 19.8%. Also ist im Mittel jedes 1/0.198 = 5.05&ndash;tes Zeichen ein Leerzeichen. Die mittlere Wortlänge ergibt sich daraus zu
+
 
 +
 
 +
'''(2)'''&nbsp; Richtig ist der <u>Lösungsvorschlag 2</u>. Die Abschätzungen von Shannon und Küpfmüller bestätigen unser Ergebnis:
 +
*Die Wahrscheinlichkeit eines Leerzeichens beträgt bei der&nbsp; (englischen) &nbsp; $\text{Datei 1}$&nbsp;  $19.8\%$.&nbsp;
 +
*Also ist im Mittel jedes&nbsp; $1/0.198 = 5.05$&ndash;te Zeichen ein Leerzeichen.&nbsp;
 +
*Die mittlere Wortlänge ergibt sich daraus zu
 
:$$L_{\rm M} = \frac{1}{0.198}-1 \approx 4.05\,{\rm Zeichen}\hspace{0.05cm}.$$
 
:$$L_{\rm M} = \frac{1}{0.198}-1 \approx 4.05\,{\rm Zeichen}\hspace{0.05cm}.$$
:Entsprechend gilt für Datei 2 (Deutsch):
+
*Entsprechend gilt für die&nbsp; (deutsche)&nbsp; $\text{Datei 2}$:
 
:$$L_{\rm M} = \frac{1}{0.176}-1 \approx 4.68\,{\rm Zeichen}\hspace{0.05cm}.$$
 
:$$L_{\rm M} = \frac{1}{0.176}-1 \approx 4.68\,{\rm Zeichen}\hspace{0.05cm}.$$
:Richtig ist somit der <u>Lösungsvorschlag 2</u>. Die Abschätzungen von Shannon und Küpfmüller bestätigen unser Ergebnis.
 
  
:<b>3.</b>&nbsp;&nbsp;Zur Bestimmung der Entropienäherung <i>H<sub>k</sub></i> müssen <i>k</i>&ndash;Tupel ausgewertet werden, zum Beispiel für <i>k</i> = 3 Tripel: &bdquo;aaa&rdquo;, &bdquo;aab&rdquo;, .... Nach der Generierungsvorschrift &bdquo;Neues Zeichen hängt von den beiden Vorgängern ab&rdquo; werden <i>H</i><sub>1</sub>, <i>H</i><sub>2</sub> und <i>H</i><sub>3</sub> von VORLAGE und SYNTHESE übereinstimmen, allerdings auf Grund der endlichen Dateilänge nur näherungsweise.
 
  
:Dagegen  unterscheiden sich die <i>H</i><sub>4</sub>&ndash;Näherungen stärker, da bei der Generierung der dritte Vorgänger unberücksichtigt bleibt. Bekannt ist nur, dass auch bezüglich SYNTHESE <i>H</i><sub>4</sub> < <i>H</i><sub>3</sub> gelten muss.
 
  
:<b>4.</b>&nbsp;&nbsp;Richtig ist hier nur die <u>Aussage 1</u>. Nach einem Leerzeichen (Wortanfang) folgt &bdquo;t&rdquo; mit 17.8%, während am Wortende (vor einem Leerzeichen) &bdquo;t&rdquo; nur mit der Häufigkeit 8.3% auftritt. Insgesamt beträgt die Auftrittswahrscheinlichkeit von &bdquo;t&rdquo; über alle Positionen im Wort gemittelt 7.4%.
+
'''(3)'''&nbsp; Richtig sind <u>die drei ersten Aussagen</u>, nicht jedoch die Aussage&nbsp;  '''(4)''':
 +
*Zur Bestimmung der Entropienäherung&nbsp; $H_k$&nbsp; müssen&nbsp; $k$&ndash;Tupel ausgewertet werden, zum Beispiel für&nbsp; $k = 3$&nbsp;  die Tripel &nbsp; &bdquo;aaa&rdquo;,&nbsp;  &bdquo;aab&rdquo;, &nbsp; ....
 +
*Nach der Generierungsvorschrift &bdquo;Neues Zeichen hängt von den beiden Vorgängern ab&rdquo; werden&nbsp; $H_1$,&nbsp; $H_2$&nbsp; und&nbsp; $H_3$&nbsp; von&nbsp; &bdquo;VORLAGE&rdquo;&nbsp; und&nbsp; &bdquo;SYNTHESE&rdquo;&nbsp; übereinstimmen, allerdings auf Grund der endlichen Dateilänge nur näherungsweise.
 +
*Dagegen  unterscheiden sich die&nbsp; $H_4$&ndash;Näherungen stärker, da bei der Generierung der dritte Vorgänger unberücksichtigt bleibt.
 +
*Bekannt ist nur, dass auch bezüglich&nbsp; &bdquo;SYNTHESE&rdquo;&nbsp; $H_4 < H_3$&nbsp; gelten muss.
 +
 
 +
 
 +
 
 +
'''(4)'''&nbsp; Richtig ist hier nur die <u>Aussage 1</u>:
 +
[[Datei:Inf_A_1_8d_vers2.png|right|frame|Auftreten von &bdquo;...the...&rdquo; im englischen Text]]
 +
 +
*Nach einem Leerzeichen (Wortanfang) folgt &bdquo;t&rdquo; mit&nbsp; $17.8\%$, während am Wortende (vor einem Leerzeichen) &bdquo;t&rdquo; nur mit der Häufigkeit&nbsp; $8.3\%$&nbsp; auftritt.
 +
*Insgesamt beträgt die Auftrittswahrscheinlichkeit von &bdquo;t&rdquo; über alle Positionen im Wort gemittelt&nbsp; $7.4\%$.
 +
*Als dritter Buchstaben nach Leerzeichen und&nbsp; &bdquo;t&rdquo;&nbsp; folgt&nbsp; &bdquo;h&rdquo;&nbsp; mit fast&nbsp; $82\%$&nbsp; und nach&nbsp; &bdquo;th&rdquo;&nbsp; ist&nbsp; &bdquo;e&rdquo;&nbsp; am wahrscheinlichsten&nbsp; $(62\%)$.
 +
*Das lässt daraus schließen, dass&nbsp; &bdquo;the&rdquo;&nbsp; in einem englischen Text überdurchschnittlich oft vorkommt und damit auch in der synthetischen&nbsp; $\text{Datei 1}$, wie die nebenstehende Grafik zeigt.&nbsp;
 +
*Aber nicht bei allen Markierungen tritt &bdquo;the&rdquo; isoliert auf &nbsp; &#8658; &nbsp; direkt vorher und nachher ein Leerzeichen.
 +
 
 +
<br clear=all>
 +
[[Datei:Inf_A_1_8e_vers2.png|right|frame|Auftreten von&nbsp; &bdquo;der&rdquo;,&nbsp;  &bdquo;die&rdquo;&nbsp; und&nbsp; &bdquo;das&rdquo;&nbsp; im deutschen Text]]
  
:Als dritter Buchstaben nach Leerzeichen und &bdquo;t&rdquo; folgt &bdquo;h&rdquo; mit fast 82% und nach &bdquo;th&rdquo; ist &bdquo;e&rdquo; mit 62% am wahrscheinlichsten. Das lässt daraus schließen, dass &bdquo;the&rdquo; in einem englischen Text überdurchschnittlich oft vorkommt und damit auch in der synthetischen Datei 1, wie die folgende Grafik zeigt. Nicht bei allen Markierungen tritt &bdquo;the&rdquo; isoliert auf &nbsp;&#8658;&nbsp; direkt vorher und nachher ein Leerzeichen.
+
'''(5)'''&nbsp; <u>Alle Aussagen</u> treffen zu:
[[Datei:P_ID2325__Inf_A_1_8d.png|center|]]
+
*Nach &bdquo;de&rdquo; ist tatsächlich &bdquo;r&rdquo; am wahrscheinlichsten&nbsp; $(32.8\%)$,&nbsp; gefolgt von &bdquo;n&rdquo; $(28.5\%)$,&nbsp; &bdquo;s&rdquo;&nbsp; $(9.3\%)$&nbsp; und &bdquo;m&rdquo;&nbsp; $(9.7\%)$.  
 +
*Dafür verantwortlich könnten&nbsp; &bdquo;der&rdquo;,&nbsp; &bdquo;den&rdquo;,&nbsp; &bdquo;des&rdquo;&nbsp; und&nbsp; &bdquo;dem&rdquo;&nbsp; sein.
  
:<b>5.</b>&nbsp;&nbsp;Nach &bdquo;de&rdquo; ist tatsächlich &bdquo;r&rdquo; am wahrscheinlichsten (32.8%), gefolgt von &bdquo;n&rdquo; (28.5%), &bdquo;s&rdquo; (9.3%) und &bdquo;m&rdquo; (9.7%). Dafür verantwortlich könnten &bdquo;der&rdquo;, &bdquo;den&rdquo;, &bdquo;des&rdquo; und &bdquo;dem&rdquo; sein.
+
* Nach&nbsp; &bdquo;da&rdquo;&nbsp; folgt&nbsp; &bdquo;s&rdquo;&nbsp; mit größter Wahrscheinlichkeit: &nbsp; $48.2\%$.
 +
* Nach&nbsp; &bdquo;di&rdquo;&nbsp; folgt&nbsp; &bdquo;e&rdquo;&nbsp; mit größter Wahrscheinlichkeit&nbsp; $(78.7\%)$.
  
:Weiterhin gilt:
 
  
:* Nach &bdquo;da&rdquo; folgt &bdquo;s&rdquo; mit größter Wahrscheinlichkeit: 48.2%.
+
Die Grafik zeigt die&nbsp; $\text{Datei 2}$&nbsp; mit allen&nbsp; &bdquo;der&rdquo;,&nbsp; &bdquo;die&rdquo;&nbsp; und&nbsp; &bdquo;das&rdquo;.
  
:* Nach &bdquo;di&rdquo; folgt &bdquo;e&rdquo; mit größter Wahrscheinlichkeit: 78.7%.
 
  
:<u>Alle Aussagen</u> treffen somit zu. Die Grafik zeigt die Datei 2 mit allen &bdquo;der&rdquo;, &bdquo;die&rdquo; und &bdquo;das&rdquo;.
 
[[Datei:P_ID2326__Inf_A_1_8e.png|center|]]
 
 
{{ML-Fuß}}
 
{{ML-Fuß}}
  
  
  
[[Category:Aufgaben zu Informationstheorie|^1.3 Natürliche wertdiskrete Nachrichtenquellen^]]
+
[[Category:Aufgaben zu Informationstheorie|^1.3 Natürliche Nachrichtenquellen^]]

Aktuelle Version vom 23. Juni 2021, 12:53 Uhr

Zwei synthetisch erzeugte Textdateien

Der frühere Praktikumsversuch  Wertdiskrete Informationstheorie  von Günter Söder am Lehrstuhl für Nachrichtentechnik der TU München verwendet das Windows-Programm  WDIT.  Die beiden hier angegebenen Links führen zur PDF-Version der Praktikumsanleitung bzw. zur ZIP-Version des Programms.

Mit diesem Programm

  • kann man aus einer gegebenen Textdatei  „VORLAGE”  die Häufigkeiten von Buchstabentripeln wie  „aaa”,  „aab”, ... ,  „xyz”, ...  ermitteln und in einer Hilfsdatei abspeichern,
  • danach eine Datei  „SYNTHESE”  erzeugen, wobei das neue Zeichen aus den beiden letzten Zeichen und den abgespeicherten Tripel–Häufigkeiten generiert wird.


Ausgehend von der deutschen und der englischen Bibelübersetzung haben wir so zwei Dateien synthetisiert, die in der Grafik angegeben sind:

  • die  $\text{Datei 1}$  (rote Umrandung),
  • die  $\text{Datei 2}$  (grüne Umrandung)


Nicht angegeben wird, welche Datei von welcher Vorlage stammt.  Dies zu ermitteln ist Ihre erste Aufgabe.

Die beiden Vorlagen basieren auf dem natürlichen Alphabet  $(26$ Buchstaben$)$  und dem Leerzeichen  („LZ”)   ⇒   $M = 27$.  Bei der deutschen Bibel wurden die Umlaute ersetzt, zum Beispiel „ä”   ⇒   „ae”.


Die  $\text{Datei 1}$  weist folgende Eigenschaften auf:

  • Die häufigsten Zeichen sind „LZ” mit  $19.8\%$, gefolgt von „e” mit  $10.2\%$  und „a” mit  $8.5\%$.
  • Nach „LZ” (Leerzeichen) tritt „t” mit  $17.8\%$  am häufigsten auf.
  • Vor einem Leerzeichen ist „d” am wahrscheinlichsten.
  • Die Entropienäherungen jeweils mit der Einheit „bit/Zeichen” wurden wie folgt ermittelt:
$$H_0 = 4.76\hspace{0.05cm},\hspace{0.2cm} H_1 = 4.00\hspace{0.05cm},\hspace{0.2cm} H_2 = 3.54\hspace{0.05cm},\hspace{0.2cm} H_3 = 3.11\hspace{0.05cm},\hspace{0.2cm} H_4 = 2.81\hspace{0.05cm}. $$

Dagegen ergibt die Analyse von  $\text{Datei 2}$:

  • Die häufigsten Zeichen sind „LZ” mit  $17.6\%$  gefolgt von „e” mit  $14.4\%$  und „n” mit  $8.9\%$.
  • Nach „LZ” ist „d” am wahrscheinlichsten  $(15.1\%)$  gefolgt von „s” mit  $10.8\%$.
  • Nach „LZ” und „d” sind die Vokale „e”  $(48.3\%)$,  „i” $(23\%)$  und „a”  $(20.2\%)$  dominant.
  • Die Entropienäherungen unterscheiden sich nur geringfügig von denen der  $\text{Datei 1}$.
  • Für größere  $k$–Werte sind diese etwas größer, zum Beispiel  $H_3 = 3.17$  statt  $H_3 = 3.11$.




Hinweise:


Fragebogen

1

Welche Vorlagen wurden für die hier gezeigte Textsynthese verwendet?

Die  $\text{Datei 1}$  (rot) basiert auf einer englischen Vorlage.
Die  $\text{Datei 1}$  (rot) basiert auf einer deutschen Vorlage.

2

Vergleichen Sie die mittleren Wortlängen von  $\text{Datei 1}$  und  $\text{Datei 2}$ .

Die Wörter der „englischen” Datei sind im Mittel länger.
Die Wörter der „deutschen” Datei sind im Mittel länger.

3

Welche Aussagen gelten für die Entropienäherungen?

„VORLAGE”  und  „SYNTHESE”  liefern ein nahezu gleiches  $H_1$.
„VORLAGE”  und  „SYNTHESE”  liefern ein nahezu gleiches  $H_2$.
„VORLAGE”  und  „SYNTHESE”  liefern ein nahezu gleiches  $H_3$.
„VORLAGE”  und  „SYNTHESE”  liefern ein nahezu gleiches  $H_4$.

4

Welche Aussagen treffen für den „englischen” Text zu?

Die meisten Wörter beginnen mit  „t”.
Die meisten Wörter enden mit  „t”.

5

Welche Aussagen könnten für deutsche Texte gelten?

Nach  „de”  ist  „r”  am wahrscheinlichsten.
Nach  „da”  ist  „s”  am wahrscheinlichsten.
Nach  „di”  ist  „e”  am wahrscheinlichsten.


Musterlösung

(1)  Richtig ist der Lösungsvorschlag 1.

  • In der  $\text{Datei 1}$  erkennt man viele englische Wörter, in der  $\text{Datei 2}$  viele deutsche.
  • Sinn ergibt keiner der beiden Texte.


(2)  Richtig ist der Lösungsvorschlag 2. Die Abschätzungen von Shannon und Küpfmüller bestätigen unser Ergebnis:

  • Die Wahrscheinlichkeit eines Leerzeichens beträgt bei der  (englischen)   $\text{Datei 1}$  $19.8\%$. 
  • Also ist im Mittel jedes  $1/0.198 = 5.05$–te Zeichen ein Leerzeichen. 
  • Die mittlere Wortlänge ergibt sich daraus zu
$$L_{\rm M} = \frac{1}{0.198}-1 \approx 4.05\,{\rm Zeichen}\hspace{0.05cm}.$$
  • Entsprechend gilt für die  (deutsche)  $\text{Datei 2}$:
$$L_{\rm M} = \frac{1}{0.176}-1 \approx 4.68\,{\rm Zeichen}\hspace{0.05cm}.$$


(3)  Richtig sind die drei ersten Aussagen, nicht jedoch die Aussage  (4):

  • Zur Bestimmung der Entropienäherung  $H_k$  müssen  $k$–Tupel ausgewertet werden, zum Beispiel für  $k = 3$  die Tripel   „aaa”,  „aab”,   ....
  • Nach der Generierungsvorschrift „Neues Zeichen hängt von den beiden Vorgängern ab” werden  $H_1$,  $H_2$  und  $H_3$  von  „VORLAGE”  und  „SYNTHESE”  übereinstimmen, allerdings auf Grund der endlichen Dateilänge nur näherungsweise.
  • Dagegen unterscheiden sich die  $H_4$–Näherungen stärker, da bei der Generierung der dritte Vorgänger unberücksichtigt bleibt.
  • Bekannt ist nur, dass auch bezüglich  „SYNTHESE”  $H_4 < H_3$  gelten muss.


(4)  Richtig ist hier nur die Aussage 1:

Auftreten von „...the...” im englischen Text
  • Nach einem Leerzeichen (Wortanfang) folgt „t” mit  $17.8\%$, während am Wortende (vor einem Leerzeichen) „t” nur mit der Häufigkeit  $8.3\%$  auftritt.
  • Insgesamt beträgt die Auftrittswahrscheinlichkeit von „t” über alle Positionen im Wort gemittelt  $7.4\%$.
  • Als dritter Buchstaben nach Leerzeichen und  „t”  folgt  „h”  mit fast  $82\%$  und nach  „th”  ist  „e”  am wahrscheinlichsten  $(62\%)$.
  • Das lässt daraus schließen, dass  „the”  in einem englischen Text überdurchschnittlich oft vorkommt und damit auch in der synthetischen  $\text{Datei 1}$, wie die nebenstehende Grafik zeigt. 
  • Aber nicht bei allen Markierungen tritt „the” isoliert auf   ⇒   direkt vorher und nachher ein Leerzeichen.


Auftreten von  „der”,  „die”  und  „das”  im deutschen Text

(5)  Alle Aussagen treffen zu:

  • Nach „de” ist tatsächlich „r” am wahrscheinlichsten  $(32.8\%)$,  gefolgt von „n” $(28.5\%)$,  „s”  $(9.3\%)$  und „m”  $(9.7\%)$.
  • Dafür verantwortlich könnten  „der”,  „den”,  „des”  und  „dem”  sein.
  • Nach  „da”  folgt  „s”  mit größter Wahrscheinlichkeit:   $48.2\%$.
  • Nach  „di”  folgt  „e”  mit größter Wahrscheinlichkeit  $(78.7\%)$.


Die Grafik zeigt die  $\text{Datei 2}$  mit allen  „der”,  „die”  und  „das”.