気の向くままに辿るIT/ICT/IoT
ホームページ

構成文字

ホーム前へ次へ
インターネット上の構成文字

ホームページ構成文字

 ホームページをはじめとしてインターネット上で使われる基本的な言語は、英語(米語)です。

インターネット関連の言語の基本は何で英語ばかり?

 これはインターネットの誕生が米国において軍用目的のARPANETに端を発したネットワークとTCP/IP技術、英国人が開発し世界に無償提供されたWWW/World Wide Web技術から成り立っていて、そのインターネット上での標準化を推進しているのは、技術書の保存公開仕様であるRFC/Request For Commentsで知られるIETF/Internet Engineering Task ForceやそのIETFからHTML仕様サポートを受け継いだW3Cなどが英語・米語圏の団体であるその経緯から当然とも言えます。

世界中の言語対応

 インターネットは、日本では1995年にサービスが提供公開され、日本に限らず、世界中で爆発的に普及した環境であるがゆえに自国語を利用したいという欲求が出てくるのも当然な流れですし、標準化団体もそのことは当然念頭にありました。

 しかし、世界は広いようで狭く、狭いようで広く、世界には未だ誰も把握しきれていない言語すらあると考えられていますし、知り得ても淘汰されつつある言語などもあります。

 それでもたった数年の間に急速に相当数の言語に対応できるようになってきていますが、その背景には並行して誕生し、現在に至るGoogle抜きには語れないと言えると思います。

 当時大学生だった2人によって1998年9月に生まれたGoogleの勢いは留まるところを知らず、短期間にして今や新たな分野への挑戦や既存のあらゆる業種に事業展開する世界的超巨大企業ですが、検索エンジンのその技術もさることながら、数多くの技術の中でもネット上で手軽に世界中のあらゆる言語へ翻訳する技術なども急ピッチで実現されました。

 さすがに自動翻訳で、世界中の言語による文語、くだけた話し言葉から敬語、さらにはビジネス言葉、造語、専門用語など完璧を求めるのは無理にしても、単語レベルではほぼ完ぺきなネット上での自動翻訳機能は、それまでは日本でもせいぜい(、とはいえ、それだけでも超バイリンガルな)英独仏日の間での翻訳機能も、Googleの検索オプションを見ただけでもその対応言語の多さに驚かされます。

インターネット上の利用言語の拡張

 ネット上での翻訳技術の著しい向上の一方で、世界中の言語をインターネット上で利用する為には、映像や画像、音声や音楽なども配信できるとはいえ、その基本として文字を表示する仕組みが必要になります。

 日本でインターネットが始まった初期の頃は通称「文字化け」と言われる部分的に(場合によっては全面的に)解読不能な文字が表示される現象が日常茶飯事ともいえる状況で、初期の比ではないものの、厳密にいえば今も完全に解決されているとは言えません。

インターネット上での文字対応

 文字表示を考えるには、大きく分けるとインターネットという世界中を結ぶネットワーク(やある種閉じたWAN/LANなどのネットワーク)と国籍や所在不問不特定多数の人々が閲覧するブラウザ(とその奥にあるウェブサーバなどの技術)といえます。

ネットワーク上の文字対応

 現時点では「文字」を考慮し、ネットワーク上に流す文字列を固定にするべく送る際にエンコード(符号化)、受け取る際にデコード(復号)という処理をするという決まりになっています。

 これはブラウザとその先にあるウェブサーバにあるプログラムがそれぞれ行っているのでインターネットを閲覧するだけであれば意識する必要すらありませんが、CGIスクリプトを組むといった場合には知っている必要があります。

 これによってネットワーク上を流れる言語がASCIIと言われる特定の文字集合が理解できる文字列として処理されるようになるのでネットワーク自体は世界中の文字について考える必要がなくなります。

データ送受信・ブラウザの文字対応

 次にネットワークから流れてきた符号化(エンコード)されて送られてきた何らかの文字列データをブラウザが復号(デコード)することになるわけですが、復号させた時に、元の言語による文字列に展開されることになります、しかし、それだけでは、その言語によっては表示できないというケースが生まれてしまうのです。

 これに加えて図形のような象形文字や旧字、学術計算記号等々の表示もあります。

 こうした状況に対応する為に継続的に種々考案されてきたのが前述のASCIIを含めた「文字コード」という文字を表現する為のコード体系です。

 他方、表示される文字とは別に制御文字というものがあり、その中に改行文字というものがありますが、歴史的にUNIX/LinuxとWindows、Apple MacintoshというOSにより3種類が存在し、これも文字化けやレイアウト崩れなどの一因となる為、解析する前にいずれかに統一するような処理が必要になります(それについても文字コードのリンク先参照)。

ホーム前へ次へ