OriginalSeite bei-ekke / HTML-Filter 2.1 für Office 2000 / Entfernen von Office-spezifischen Markuptags


Entfernen von Office-spezifischen Markuptags mit Office HTML-Filter

Microsoft Office HTML-Filter entfernt gezielt Office-spezifische Markuptags, die automatisch eingefügt werden, wenn Microsoft Word 2000 bzw. Microsoft Excel 2000 zur Erstellung von Webseiten verwendet wird. Die Office-spezifischen Markuptags wirken sich i. d. R. nicht auf die Anzeige der HTML-Datei in einem Browser aus; mit Hilfe der Tags werden lediglich die Office-Dokumenteinstellungen gespeichert, die verwendet werden, wenn das HTML-Dokument in Office geöffnet wird. Downloaden Sie die selbstextrahierende ausführbare Datei HTML-Filter 2.1 für Office 2000 von Microsoft Office Update.

Funktionsweise von Office HTML-Filter

Wenn Sie die Office-spezifischen Markuptags aus einer HTML-Datei entfernen, kommt es zu Einschränkungen hinsichtlich der Bearbeitung einiger Office-Features, wenn Sie die Webseite in einem Office-Programm bearbeiten. In der folgenden Tabelle sind die Markuptags aufgelistet, die mit Office HTML-Filter, Version 2.1, entfernt werden. Ferner enthält die Tabelle einige Beispiele von Office-Features, auf die sich die Anwendung des Filters auswirken kann.


Entfernte Office-spezifische Markuptags

Beispiele der betroffenen Office-Features

Untergeordnete bedingte Kommentare zwischen
<!--[
und
]-->

Beispiel:
<!--[if gte mso 9]>...<![endif]-->

WordArt kann nicht bearbeitet werden; es bleibt nur das resultierende statische Bild übrig. Diese Kommentare bewirken, dass einige HTML-Codes in Internet Explorer-Versionen vor Microsoft Internet Explorer 5 nicht angezeigt werden.

Beispielsweise fügt Office XML-Blöcke, die WordArt-Dokumenteigenschaften enthalten, in diese Kommentare ein, so dass die Inhalte dieser XML-Elemente in Browserversionen vor Internet Explorer 5 nicht als Text angezeigt werden.

Übergeordnete bedingte Kommentare zwischen
<![
und
]>

Beispiel:
<! [if !vml]>

Mit diesen Kommentaren werden einige HTML-Codes in Browserversionen vor Internet Explorer 5 oder höher sichtbar gemacht. In Internet Explorer 5 oder höher bleiben sie dagegen verborgen. Werden die Kommentare entfernt, geht der Code verloren, mit dem festgelegt ist, dass statische Bilder nicht in Internet Explorer 5 oder höher geladen werden sollten.

Angenommen, WordArt wird als HTML in zwei Teilen gespeichert. Ein Teil besteht aus einem XML-Block, der das Bild beschreibt. Der andere Teil ist das eigentliche Bild, das die Grafik in älteren Browserversionen sichtbar macht, die XML nicht interpretieren können. Das statische Bild wird in übergeordnete statische Kommentare eingebettet, damit es nicht in Internet Explorer 5 oder höher angezeigt werden kann.

XML-Tags in den Namespaces "o", "v", "w", "x" und "p"

Beispiel:
<o:p></o:p>

Absatzmarkenformatierungen (die von der Absatzformatvorlage abweichen) gehen verloren. Die Tags <o:p></o:p> stehen für das Zeichen, das in Word als Absatzmarke behandelt wird.

@Regeldefinitionen

Beispiel:

@page Section1       {size: 8.5in 11in }

Seiteneinstellungen, z. B. Seitengröße und -orientierung, gehen verloren:

  •  @page enthält Informationen über die Seiteneinrichtung für das Dokument.
  •  @font-face definiert die Schriftart für das Dokument.
  •  @list enthält Office-spezifische Formatdefinitionen für Aufzählungen und Nummerierungen.

Um Standard-@Regeldefinitionen wie "@page" und "@font-face" beizubehalten, verwenden Sie an der Eingabeaufforderung die Option "-a".

CSS-Kommentare mit  /* und */

Beispiel:

/* Listendefinitionen */

Minimale Auswirkungen auf das HTML-Dokument.

VML-Attribute oder andere Attribute, die einen Doppelpunkt ( : ) im Attributnamen enthalten.

Beispiel:

v:shapes="_x000_i1025"

WordArt, ClipArt und AutoFormen können nicht bearbeitet werden; es bleibt nur das resultierende statische Bild übrig.

ProgID <meta>Tags

Beispiel:

<meta name=ProgID content=Word.Document>

Minimale Auswirkungen auf das HTML-Dokument. Die ProgID identifiziert die Anwendung, in der die Datei erstellt wurde. 

Sie können auch die META-Tags des Generator- und Originatorprogramms entfernen, die die Informationen über dasjenige Programm enthalten, in dem das HTML-Dokument ursprünglich erstellt wurde (z. B. Word oder Excel) bzw. mit dem das Dokument zuletzt generiert wurde (Office HTML-Filter). Um die META-Tags des Generator- und Originatorprogramms zu entfernen, verwenden Sie an der Eingabeaufforderung die Option "-m".

Verknüpfungselemente (Link), deren Attribut rel auf eine der folgenden Optionen festgelegt ist:

  • "file-list"
  • "edit-time-data"
  • "ole-object-data"
  • "original-file"
  • "preview"

Beispiel:
<link rel=File-Listhref=
"./mydoc_files/filelist.xml">

Die Verknüpfung mit allen speziellen Zusatzdateien, die Office-spezifische Daten enthalten, z. B. OLE-Objekt-Binärdateien, geht verloren.

Die folgenden XML-Namespace-Deklarationen - d. h. die xmlns-Attributeinstellungen:

  • "o"
  • "w"
  • "x"
  • "p"
  • "v"

Beispiel:
xmlns:v="urn:schemas-microsoft-com:vml"

WordArt und ClipArt können nicht mehr als Vektorgrafiken im Browser gerendert werden. Stattdessen werden sie zu statischen Bildern.

Wenn VML in der Datei erhalten bleiben soll, verwenden Sie an der Eingabeaufforderung die Option "-v".

Wird die Option "-o" oder "-v" an der Eingabeaufforderung verwendet, bleiben die XML-Namespace-Deklarationen in der Datei erhalten.

Leere Formatattribute (style), insbesondere, wenn sie aufgrund der Bearbeitung ihrer Werte zu leeren Attributen werden

Beispiel:
style=""

Minimale Auswirkungen auf das HTML-Dokument.

Eigenschaften des Präfix "mso-"

Beispiel:
mso-margin-top-alt: 12pt;

Office-spezifische Formatierungen, mit denen Office-Dokumenteinstellungen gespeichert werden, die beim Öffnen des HTML-Dokuments in Office verwendet werden. Einige Features wie Fußnoten und benutzerdefinierte Aufzählungen und Nummerierungen gehen verloren. Word-Legacyframes werden in Tabellen umgewandelt, und einige Informationen über die während der Bearbeitungszeit eingestellte Sprache sowie über Schriftartformatierungen gehen verloren.

Wenn die Eigenschaften des Präfix "mso-" und andere Office-spezifische Eigenschaften beibehalten werden sollen, verwenden Sie an der Eingabeaufforderung die Option "-o".

Andere benutzerdefinierte Eigenschaften wie: 

  • "tab-stops"
  • "tab-interval"
  • "language"
  • "text-underline"
  • "text-effect"
  • "text-line-through"
  • "font-color"
  • "horiz-align"
  • "list-image-1"
  • "list-image-2"
  • "list-image-3"
  • "separator-image"
  • "table-border-color-dark"
  • "table-border-color-light"
  • "vert-align"
  • "vnd.ms-excel.numberformat"

Beispiel:
tab-interval: .5in;

Alle Tabulatoreinstellungen gehen verloren. Alle Textunterstreichungsformate werden als einfache Unterstreichung dargestellt. Alle Unterstreichungsfarben gehen verloren und werden schwarz dargestellt. Gravurtext- und Relieftexteffekte gehen verloren.

Leere Inline-HTML-Elemente: FONT, EM, STRONG, SAMP, ACRONYM, CITE, CODE, DFN, KBD, TT, B, I, U, S, SUB, SUP, INS, DEL, VAR, SPAN. Ein Element wird als leer bezeichnet, wenn es keine Informationen enthält, die angezeigt werden können.

Beispiel:
<FONT COLOR=blue><B></B></FONT>

Keine Auswirkung auf die Anzeige des HTML-Dokuments.

Siehe auch

Verwenden von Office HTML-Filter an der Eingabeaufforderung

Mit Office HTML-Filter Speicherplatz auf Webservern sparen


Der Autor distanziert sich ausdrücklich vom Inhalt aller externen Links und Verweise.
Er übernimmt keine Gewähr oder Haftung für
Vollständigkeit, Richtigkeit, Aktualität oder etwaige Schäden.