posted by 深沢英次 (@pictex)
電子出版が話題になっていますが、今まで紙の印刷物を作ってきた編集者やデザイナーたちは、自分たちの仕事は今後どうなっていくのだろうかと不安を抱えています。「これからXMLやEPUBでの電子出版が主流になる」と言われても、それがどのようなものなのか、なかなかイメージが掴みにくい人も多いようです。
そこで、4月の16日にTwitter上で呼びかけた有志が集まり「HTMLもよくわからない編集者とデザイナーのためのXML勉強会」を行いました。これだけでXMLが理解できるというものではなく、この先に各自が自分で勉強していくためのガイダンスというか、入門の入門みたいな話です。
ここでは勉強会で私が話した内容を掲載します。具体的には、編集者やデザイナーが「文章」をコンピュータ上で「受け渡すための方法」や「再利用」「互換性」などに関する話なので、技術的にはかなり端折った説明となりますがご容赦ください。
コンピュータの基本ファイルは「テキスト」
DTPやWeb、電子書籍などのコンテンツで「原稿」と呼ばれているものの大半は「テキスト」です。「プレーンテキスト」は、どのコンピュータであっても、受け渡しがほぼ保証されています。それ以外の、例えばワードやInDesignファイル、PDF、といったネイティブファイルは、互換性が制限されてしまいます。例えばケータイでPDFを見ることは難しいし、ゲーム機でワードの書類を開くことも出来ません。
さて、テキストファイルを文章原稿として受け渡ししても、コンピュータはその文字列が何なのか理解することはできません。小説なのか詩なのかニュースなのか伝票の数字なのか、意味自体を理解することなく、ただ文字が並んでいることしか分からないのです。それを人間にもコンピュータにも理解・分類できるようにする方法が「構造情報」や「書式情報」をつけることなのです。
テキストの中に「これは小説」「ここからここまでは見出し」「ここからここまでは本文」といった記述(マーク)を付けていくことを文書の構造化といい、こういった方法でテキストを構造化することを「マークアップ言語」といいます。「言語」というのはコンピュータ用の言葉で書かれた文章やプログラムという意味です。
さらに、「見出しは24ポイントのヒラギノW6で色は青」とか「本文はリュウミン-Rの9ポイント行間二分」といった「書式情報」を用意する場合もあります。最終的な見た目の情報を、文書内に文字でつけ足しておく方法です。これらはスタイルシートと呼ばれます。
今回は書式情報やスタイルシートに関して説明する時間はないので、「マークアップ言語」について説明します。実は、Webサイトで使われるHTMLも、今話題のXMLも、このマークアップ言語(ML:Markup Languag)なのです。
HTMLとは
Webページの表示に使われてるHTML(Hyper Text Markup Language)は、昔からコンピュータの世界で文章の構造を表すために使用されていたSGML(Standard Generalized Markup Language)をベースに、1990年頃に開発されたものです。
まず最初に、元となったSGMLを見てみましょう。SGMLは1970年代からデータベース用のファイル形式として使われてきたマークアップ言語です。
SGMLでは、文章中に「タグ」という山形括弧(ギュメ)で括ったマーク部分を挿入して、「ここからここまでは見出し」であるとか「ここからここまでは脚注」であるといった意味(構造)分けをしました。「見出し」や「脚注」などといったそれぞれの要素(エレメント)や、「こういうタグを作ったから、こういう順番で使う」といったルール(DTD)は、記述する人が自由に定義することができました。
それに対してHTMLはインターネット上での情報共有が目的だったため、タグやDTDの定義を固定して共通化しました。その中で文書の中に画像を埋め込む「インラインイメージ」や、テキストのボールドやイタリック、TABLEやフレームなど、ページのレイアウトや装飾のための要素などが規定されました。

【簡単なHTML 図1】
図を拡大
HTMLでは「見出し」「本文」といった文章の要素が決まっているだけで、それをどう表示するか、解釈は各ブラウザに任せていました。ブラウザはそれぞれ独自の解釈で、自分のマシン内のフォントを使い、本文だったらこのくらいのポイント、見出しならボールドでこのくらいのポイント、といった表示を勝手に行っていました。
(続きを読む…)
Tweet This Post