「RTFコンバータ」をご利用くださり、ありがとうございます


―― 目次 ――
【1】 概要
【2】 変換可能なコードページ一覧
【3】 ダイアログ版「RTFコンバータ」について
【4】 コマンドライン版「RTFコンバータ」について
【5】 変換アルゴリズムについて
システムの言語設定 / 異体字の変換 / 漢字の異体字の優先順位 / 半角・全角文字の変換 / 円記号・オーバーラインの扱い / 外字・機種依存文字の入出力 / JIS78とJIS83で入れ替わった漢字の出力 / 日本語EUCの入出力 / 日本語ISO-2022-JPの入出力 / Unicodeの入出力 / 改行コードの入出力 / リッチテキストの出力フォント / Unicode入力時の漢字 / IPA・中国語・韓国語フォント の認識 / ルビの出力 / リンク先アドレスの出力 / GB18030の入出力 / 双方向アルゴリズムについて / 言語 ID の出力 / Macintoshの文字コード
【6】 使い方のヒント
【7】 インストールとアンインストールについて
【8】 ライセンス
【9】 その他


【1】 概要 目次にもどる

  Microsoft Word などのワープロソフトでは、ふつう、文書ファイル(.doc形式など)のほかに、リッチテキスト形式(拡張子.rtf)により保存することができます。このリッチテキストフォーマットは多言語混在可能なファイルで、フォント・文字セット・レイアウト・図表・画像など、文書ファイル形式とほぼ同等の内容を保存することができます。

  この「RTFコンバータ」は

リッチテキストフォーマット ←→ テキストファイル
テキストファイル ←→ テキストファイル
のあいだで、ファイル形式や文字コードの変換を行ないます。対応コードは、Unicode のほかヨーロッパ・アジアの各種コードの計116種類で、以下のようなものが含まれます。
  各言語の各種エンコードに対応しているので、異なる言語のテキストファイル間の変換のほか、日本語シフトJIS・EUC・JIS間の変換、中国語GB・HZ間の変換も行なうこともできます。

  このほか「RTFコンバータ」には以下のような特長があります。
  初めてダウンロードされた方は、まずダイアログ版をご利用ください。
  文字コード変換の詳細や、オプションの設定のポイントをお知りになりたい方は、「変換アルゴリズムについて」や「使い方のヒント」を一度お読みになることをお勧めいたします。




【2】 変換可能なコードページ一覧 目次にもどる

  「RTFコンバータ」では以下の文字コードが変換可能です。

コードページ    言語・文字名    主な使用用途など   
           
437    米国英語    DOS   
708    アラビア語 (ASMO 708)    DOS   
709    アラビア語 (ASMO 449+)    DOS   
720    アラビア語 (Transparent ASMO)    DOS   
737    ギリシア語    DOS   
775    バルト諸語    DOS   
850    西ヨーロッパ諸語    DOS (Latin 1)   
851    ギリシア語    DOS - obsolete   
852    中央ヨーロッパ諸語    DOS (Latin 2)   
853    南ヨーロッパ諸語    DOS (Latin 3)   
855    キリル諸語    DOS - obsolete   
856    ヘブライ語    DOS   
857    トルコ語    DOS   
858    西ヨーロッパ諸語+EURO    DOS   
860    ポルトガル語    DOS   
861    アイスランド語    DOS   
862    ヘブライ語    DOS   
863    カナダフランス語    DOS   
864    アラビア語    DOS   
865    北欧諸語    DOS   
866    ロシア語    DOS       
869    現代ギリシア語    DOS   
874    タイ語    DOS, Windows   
895    チェコ語    Kamenicky CS   
           
932    日本語 (シフトJIS)    DOS, Windows   
936    中国語簡体字 (GB2312 / GBK)    DOS, Windows   
949    韓国語 (EUC-KR / UHC)    DOS, Windows   
950    中国語繁体字 (BIG5)    DOS, Windows   
951 (*)   中国語繁体字 (BIG5-HKSCS)    香港   
           
1200    Unicode (UTF-16)    Windows   
1201    Unicode (UTF-16)  Big Endian       
           
1250    中央ヨーロッパ諸語    Windows   
1251    キリル諸語    Windows   
1252    西ヨーロッパ諸語    Windows   
1253    ギリシア語    Windows   
1254    トルコ語    Windows   
1255    ヘブライ語    Windows   
1256    アラビア語    Windows   
1257    バルト諸語    Windows   
1258    ベトナム語    Windows   
           
1361    韓国語 (Johab)   
           
10000    西ヨーロッパ諸語    Macintosh   
10004    アラビア語    Macintosh   
10005    ヘブライ語    Macintosh   
10006    ギリシア語    Macintosh   
10007    キリル諸語    Macintosh   
10010    ルーマニア語    Macintosh   
10017    ウクライナ語    Macintosh   
10021    タイ語    Macintosh   
10029    中央ヨーロッパ諸語    Macintosh   
10079    アイスランド語    Macintosh   
10081    トルコ語    Macintosh   
10082    クロアチア語    Macintosh   
           
20127    米国英語 (US-ASCII 7-bit)   
           
20866    キリル諸語 (KOI8-R)    ロシア語   
21866    キリル諸語 (KOI8-U)    ウクライナ語   
           
28591    西ヨーロッパ諸語 (ISO-8859-1)       
28592    中央ヨーロッパ諸語 (ISO-8859-2)       
28593    南ヨーロッパ諸語 (ISO-8859-3)    エスペラント、マルタ語   
28594    バルト諸語 (ISO-8859-4)       
28595    キリル諸語 (ISO-8859-5)       
28596    アラビア語 (ISO-8859-6)       
28597    ギリシア語 (ISO-8859-7)       
28598    ヘブライ語 (ISO-8859-8 Visual)       
28599    トルコ語 (ISO-8859-9)       
28600    北欧諸語 (ISO-8859-10)    ラップ語   
28601    タイ語 (ISO-8859-11)       
28603    バルト諸語 (ISO-8859-13)    ラトビア語、リトアニア語   
28604    ケルト諸語 (ISO-8859-14)       
28605    西ヨーロッパ拡張 (ISO-8859-15)    エストニア語   
28606    中央ヨーロッパ拡張 (ISO-8859-16)    ルーマニア語   
           
38598    ヘブライ語 (ISO-8859-8 Logical)       
           
50220    日本語 (ISO-2022-JP)    e-mailなど   
50225    韓国語 (ISO-2022-KR)       
51932    日本語 (EUC-JP)    UNIX   
52936    中国語簡体字 (HZ)       
54936    中国語簡体字 (GB18030)       
           
57002    デーバナーガリー    ISCII   
57003    ベンガル語    ISCII   
57004    タミル語    ISCII   
57005    テルグ語    ISCII   
57006    アッサム語    ISCII   
57007    オリヤ語    ISCII   
57008    カンナダ語    ISCII   
57009    マラヤーラム語    ISCII   
57010    グジャラート語    ISCII   
57011    パンジャブ語    ISCII   
           
58000 (*)   グルジア語 (GEOSTD8)       
58001 (*)   アルメニア語 (ARMSCII-8)       
58002 (*)   アルメニア語 (ARMSCII-8A)       
58003 (*)   グルジア語 (Georgian Academy)       
58004 (*)   グルジア語 (Georgian Parliament-Soros)       
           
58010 (*)   キリル諸語 (KOI8-RU)       
58011 (*)   キリル諸語 (KOI8-T)    タジク語   
58012 (*)   キリル諸語 (KOI8-C)    コーカサス諸語   
58013 (*)   キリル諸語 (KOI8-O)    古スラブ語   
58014 (*)   キリル諸語 (KOI8-Unified)       
58015 (*)   キリル諸語 (ISO-IR-111)    ECMA-Cyrillic   
58017 (*)   キリル諸語 (PT154)    ParaType
58018 (*)   キリル諸語 (KZ-1048)    カザフ語
58040 (*)   トルクメン語 (TDS565)    ISO-IR-230, ISO-IR-232
           
58060 (*)   ペルシア語 (ISIRI-3342)       
           
58100 (*)   タミル語 (TSCII)    http://www.tscii.org/
58101 (*)   タミル語 (TAM)    http://www.tamilvu.org/
58102 (*)   タミル語 (TAB)       
           
58200 (*)   ベトナム語 (TCVN-1)    TCVN-5712:1993 (VN1)
58201 (*)   ベトナム語 (VISCII)    http://www.vietstd.org/
58202 (*)   ベトナム語 (VPS)    http://www.vps.org/
58203 (*)   ベトナム語 (VNI)    http://www.vnisoft.com/
58204 (*)   ベトナム語 (VIQR)    http://www.vietstd.org/
58205 (*)   ベトナム語 (TCVN-2)    TCVN-5712:1993 (VN2)
58206 (*)   ベトナム語 (TCVN-3)    TCVN-5712:1993 (VN3)
           
58950 (*)   中国語繁体字 (EUC-TW)    CNS11643
           
65000    Unicode (UTF-7)       
65001    Unicode (UTF-8)       
65005    Unicode (UTF-32)       
65006    Unicode (UTF-32)  Big Endian       


  これ以外のコードページは変換できません。
  (*) この印のあるコードページの番号は、RTFコンバータ独自の数字です。




【3】 ダイアログ版「RTFコンバータ」について 目次にもどる

  ダイアログ版「RTFコンバータ」rtfconv.exe は、この「RTFコンバータ」のユーザインタフェイスとなるものです。リッチテキストフォーマットとテキストファイルを相互に変換するほか、テキストファイル間のコード変換も可能です。

  Windows の標準的な操作法により、コマンドラインが使えない人でも、手軽に使うことができます。

  ダイアログ上から、入出力ファイルの種類・文字コード・ファイル名を指定して「実行」を押してください。(文字コード指定が必要なのはテキストファイルの場合です。リッチテキストは多言語混在文書なので、文字コードを指定する必要はありません。)

  また、オプションにより、「異体字に変換しない」「半角カナを出力しない」などの指定をすることができます。


  rtfconv.exe は以下の点にも注意を払っています。

  1) ファイル名の指定は参照ボタンを
  ファイル名の指定は、通常は「参照」(「...」のボタン)を使うことをおすすめします。
  バージョン5.00からファイル名のドラッグアンドドロップに対応しました。
  自分でファイル名を入力して指定したときは、次のようにファイルを検索します。入力ファイル名が相対パス名で指定されたときは、「マイドキュメント」フォルダをカレントディレクトリとしてファイルを検索します。また、出力ファイル名が相対パス名で指定されたときは、入力ファイルが存在するディレクトリをカレントディレクトリとしてファイルを検索します。
  Windows NT/2000/XP/Vista ならば、日本語(シフトJIS)以外の文字を使ったファイル名も指定できます。

  2) 出力先に同じ名前のファイルがあったら?
  出力先にすでに古いファイルが存在するときは、上書きするかどうかメッセージで問いあわせします。キャンセル を選択すると変換は失敗します。OK を選択すると、古いファイルはゴミ箱に移されます。(ゴミ箱がサポートされていないフロッピーなどのディスクでは、ゴミ箱に移されず、完全に削除されます。)
  入力ファイル名と出力ファイル名が同じでもかまいません。
  上書き時にファイルをごみ箱に入れるとき数秒ほど時間がかかります。
  オプションにより、「上書き時に確認しない」「上書き時にごみ箱に移動しない」を指定することもできます。

  3) 日本語版以外の Windows でも使えます
  日本語版以外の Windows でも使用できます。Windows 2000/XP/Vista なら、英語・韓国語・中国語などの表示に切り替えることが出来ます。

  4) オプションの設定
  変換オプションの設定は、環境ファイル rtfconv.cfg に保存されます。
  オプションの設定のポイントについては、「変換アルゴリズムについて」をお読みください。

  5) その他
  変換の過程でダイナミックリンクライブラリ rtfconv.dll を呼び出します。
  この rtfconv.dll をインストールされたディレクトリから削除した場合、変換は失敗します。「ヘルプ」をクリックすると、必要なプログラムが存在するか確認することができます。




【4】 コマンドライン版「RTFコンバータ」について 目次にもどる

  コマンドライン版「RTFコンバータ」を利用するには、まず、インストール時にスタートメニューに作られた「RTFコンバータ用コマンドプロンプト」を起動してみてください。このコマンドプロンプトには、「RTFコンバータ」へのパスが設定され、「マイドキュメント」フォルダがカレントディレクトリに設定されています。

  このコマンドラインから、「rtfconv」と入力し、Enter キーを押して実行すると、詳しい解説が現れます。

  簡単な使い方としては、たとえば

 <例1>リッチテキスト「テスト.rtf」をテキストファイル「テスト.txt」に変換する
             rtfconv    -cRTF    -cJ    テスト.rtf    >    テスト.txt

 <例2>テキストファイル「テスト.txt」をリッチテキスト「テスト.rtf」に変換する
             rtfconv    -cJ    -cRTF    テスト.txt    >    テスト.rtf

 <例3>テキストファイル「テスト1.txt」を Unicode のファイル「テスト2.txt」に変換する
             rtfconv    -cJ    -cU    テスト1.txt    >    テスト2.txt

のように実行します。使用法の詳細や注意点については、コマンドラインから引き数なしで起動すれば、ヘルプ画面が現れますので、そちらをお読みください。


  コマンドラインの操作法に慣れてしまった人には、この便利さは手放せません。カレントディレクトリの認識、ワイルドカードの検索、サブディレクトリの再帰検索、入出力のパイプおよびリダイレクトの指定、各種オプションの指定が可能です。大量にファイルを処理する必要のある人は、ぜひコマンドライン版をお使いください。

  たとえば、カレントディレクトリにある全てのリッチテキストフォーマットをテキストファイルに変換するには
             rtfconv    -cRTF    -cJ    *.rtf    txt
のように指定すれば、すべてのファイルの変換が自動的に実行されます。さらに、サブディレクトリのファイルも全て変換したければ、
             rtfconv    -cRTF    -cJ    -s    *.rtf    txt
のように指定してください。数百、数千のファイルでも、いっきに自動的に処理されます。


  このプログラムは、変換の過程でダイナミックリンクライブラリ rtfconv.dll, sbctbl.dll, mbctbl.dll, cnstbl.dll を呼び出すため、プログラムの実行には、これらのファイルがプログラムファイルと同じディレクトリに存在する必要があります。(付属の setup.exe を使って通常のインストールを行なったなら大丈夫です。)
  このプログラムは、Windows 32-bit のコマンドライン用プログラムです。MS-DOS(16-bit)では使用できません。コマンドラインそのものの環境設定については、DOSの知識が要求されますので、各種解説書をご参照ください。インストール時にスタートメニュー・デスクトップに作られるコマンドライン用ショートカットファイルを利用すると便利です。




【5】 変換アルゴリズムについて 目次にもどる

  ダイアログ版・コマンドライン版のいずれを使って変換しても、変換そのものはダイナミックリンクライブラリ rtfconv.dll が受け持っているため、ダイアログ版とコマンドライン版では、同じ変換結果になります。

  「RTFコンバータ」は原則として Windows のシステムの Unicode 変換に従っていますが、以下のような特長も持っています。
各項目へジャンプ →
システムの言語設定 / 異体字の変換 / 漢字の異体字の優先順位 / 半角・全角文字の変換 / 円記号・オーバーラインの扱い / 外字・機種依存文字の入出力 / JIS78とJIS83で入れ替わった漢字の出力 / 日本語EUCの入出力 / 日本語ISO-2022-JPの入出力 / Unicodeの入出力 / 改行コードの入出力 / リッチテキストの出力フォント / Unicode入力時の漢字 / IPA・中国語・韓国語フォント の認識 / ルビの出力 / リンク先アドレスの出力 / GB18030の入出力 / 双方向アルゴリズムについて / 言語 ID の出力 / Macintoshの文字コード

1) システムの言語設定 先頭にもどる
  システムの Unicode 変換を行なうには、通常その言語のモジュールがシステムにインストールされている必要がありますが、「RTFコンバータ」は、システムにモジュールがインストールされていない場合、自動的に自前の変換テーブル(sbctbl.dll, mbctbl.dll, cnstbl.dll)を使用しますので、システムの設定状況を意識する必要はありません。



2) 異体字の変換 先頭にもどる
  システムの Unicode 変換には、日本漢字・中国簡体字・台湾繁体字の変換ができない、ヨーロッパで使われるアクサンつきローマ字などが変換できない、などの制約があります。
  たとえば、中国語の「再」を日本語(シフトJIS)に変換すると、「再見」にならずに「再?」となってしまいます。フランス語の「été」を日本語に変換すると、「ete」とならずに「?t?」となってしまいます。
  (ここの部分の表示は、お使いになっているブラウザの設定によっては文字化けして見えるかもしれません)

  これを解決するために、「RTFコンバータ」は独自の異体字変換テーブルを持っています。これにより、異なる言語間の変換で、出力できない文字は、代りに異体字を出力し、文字化けを最大限に防ぐことができます。
  それでも、どうしても変換できないときは、半角文字なら‘?’を、全角文字なら‘??’を出力します。たとえば、中国語の「你好」は日本語のテキストファイルでは「??好」と出力されます。

  オプションにより、テキストファイル出力時に「異体字に変換しない」と設定したり、「変換できない文字の出力形式」を変更して、Unicode のコード番号を出力したり、全角/半角にかかわらず‘?’を出力したりすることもできます。

  標準設定では、次のような場合に異体字変換が行なわれます。

日本語・中国語・韓国語間の変換 漢字を異体字に変換
ヨーロッパの各文字コード間の変換 出力できない文字を異体字に変換
Unicodeから日本語・中国語・韓国語への変換 漢字を異体字に変換
Unicodeからヨーロッパの各文字コードへの変換 出力できない文字を異体字に変換

  次のような場合には異体字の変換は行なわれません。

Shift-JIS、EUC-JP、ISO-2022-JP 間の変換 異体字に変換しない
EUC-KR、Johab 間の変換 異体字に変換しない
UTF-16, UTF-8 間の変換 異体字に変換しない
Unicodeで出力 異体字に変換しない
リッチテキストフォーマットで出力 異体字に変換しない

  リッチテキストフォーマット→テキストファイルの変換では、リッチテキストフォーマット中のフォントの文字セットにより、異体字に変換するかどうかを判断します。同じ言語の文字セットならば、異体字に変換しません。異なる言語の文字セットならば、上記の基準に準じて、異体字に変換されます。

  上記のような異体字変換を行ないたくない場合は、オプションで「異体字に変換しない」と指定しなければなりません。
  たとえば、標準設定では、テキストファイルを「日本語」→「Unicode」→「日本語」のように変換していくと、後半の「Unicode」→「日本語」の段階で、JISの第2水準に含まれる漢字の多くが、第1水準の対応する異体字に変換されます。この変換を抑止するには、オプションで「異体字に変換しない」を指定してください。

  漢字の異体字変換については、次の「 3) 漢字の異体字の優先順位」および付属のファイル「RTFコンバータの漢字異体字変換の詳細」をご覧ください。



3) 漢字の異体字の優先順位 先頭にもどる
  日本語・中国語・韓国語の間で変換を行うときは、標準設定では漢字を異体字に変換します。漢字の異体字の検索は、日本語コードの場合は第2水準より第1水準を優先、中国簡体字コードの場合は、GBK拡張漢字よりGB本来の文字を優先するように、検索します。

  例)「異体字に変換しない」が OFF の場合(デフォルト)

シフトJISで出力 GBで出力 BIG5で出力
シフトJISで入力 「囲」88CD → 「囲」88CD 」CEA7 「圍」B3F2
シフトJISで入力 「圍」9AA1 → 「圍」9AA1 」CEA7 「圍」B3F2
GBで入力 」CEA7 → 「囲」88CD 」CEA7 「圍」B3F2
BIG5で入力 「圍」B3F2 → 「囲」88CD 」CEA7 「圍」B3F2
Unicodeで入力 「囲・圍・」→ 「囲」88CD 」CEA7 「圍」B3F2


  オプションで「異体字に変換しない」を指定すると、システムの Unicode 変換に全て従います。

  例)「異体字に変換しない」が ON の場合
シフトJISで出力 GBで出力 BIG5で出力
シフトJISで入力 「囲」88CD → 「囲」88CD 「囲」87EC 「??」
シフトJISで入力 「圍」9AA1 → 「圍」9AA1 「圍」87FA 「圍」B3F2
GBで入力 」CEA7 → 「??」 」CEA7 「??」
BIG5で入力 「圍」B3F2 → 「圍」9AA1 「圍」87FA 「圍」B3F2
Unicodeで入力 「囲」56F2 → 「囲」88CD 「囲」87EC 「??」
Unicodeで入力 」56F4 → 「??」 」CEA7 「??」
Unicodeで入力 「圍」570D → 「圍」9AA1 「圍」87FA 「圍」B3F2


  全ての文字がそろっている Unicode で出力する場合や、多言語混在可能なリッチテキストフォーマットで出力する場合は、オプションにかかわらず、異体字検索は常に行なわれません。

  例) Unicodeで出力する場合
Unicode(UTF-16) Unicode(UTF-8)  
シフトJISで入力 「囲」88CD → 「囲」56F2 「囲」E5-9B-B2
シフトJISで入力 「圍」9AA1→ 「圍」570D 「圍」E5-9C-8D
GBで入力 」CEA7 → 」56F4 」E5-9B-B4
BIG5で入力 「圍」B3F2→ 「圍」570D 「圍」E5-9C-8D

  異体字を検索を行なう漢字は CJK統合漢字(U+4E00〜U+9FFF)とCJK互換漢字(U+F900〜U+FA2D)に限られます。Unicode バージョン 3.0 以降に追加された CJK拡張漢字A(U+3400〜U+4DB5)・CJK拡張漢字B(U+20000〜U+2A6D6)・CJK互換漢字補遺(U+2F800〜U+2FA1F)に含まれる漢字は、異体字の検索は行ないません。
  ただし、中国語簡体字(GBK)で入力・出力するときは、CJK拡張漢字Aの一部の文字(GBKに含まれる文字のみ)で、簡体字・繁体字間の検索を行ないます。中国語簡体字(GB18030)・中国語繁体字(EUC-TW)で出力するときは、CJK拡張漢字A/BとCJK互換漢字補遺の文字で、簡体字・繁体字間の検索を行ないます。

  漢字の異体字変換の詳細については、付属のファイル「RTFコンバータの漢字異体字変換の詳細」をご覧ください。

  異体字の変換は文字単位で行ないます。単語や文を単位に行なうわけではありません。このため、中国語の簡体字と繁体字の間で変換を行なうとき、一対多の対応になっている漢字は、必ずしも正しい変換ができるとは限りません。機械を過信せず、変換後に自分の目で確認することをお勧めします。簡体字と繁体字の変換で注意すべき漢字については、「Wikipedia Unihan 繁簡体対照表」などを参考にしてください。



4) 半角・全角文字の変換 先頭にもどる
  「半角カナを全角に変換する」「全角ローマ字・数字を半角に変換する」「全角空白を半角空白2個に変換する」「全角記号を半角に変換する」のようなオプションも指定できます。
  半角カナを全角に変換するときは、濁音・半濁音をきちんと処理します。たとえば「ダ」を全角に変換すると、「タ゛」ではなく「ダ」になります。
  これらのオプションは Unicode の U+3000 および U+FF00〜U+FFEE の文字 (および各コードページのそれに対応する文字) に対してのみ有効です。



5) 半角円記号 \ 、半角オーバーライン ~ の扱い 先頭にもどる
  標準設定では、日本語の半角円記号 \ (5C)はバックスラッシュとして扱われます。(Windows 自身もそのように扱っています。) 日本語のみを扱っている場合は、表面的には気がつきませんが、リッチテキストフォーマットや他の言語のテキストファイルに変換すると、フォントによっては \ のように表示されることがあります。

  韓国語の半角ウォン記号(5C)も、半角円記号と同様に、バックスラッシュとして扱われます。

  半角円記号 \ (5C)をバックスラッシュではなく円記号として扱いたい場合は、オプションの「半角・全角」→「日本語・韓国語の 5Ch を円記号・ウォン記号として扱う」を ON にしてください。日本語の \ (5C)を Uniocde の ¥ (U+A5)と見なします。

  テキストファイル中で円記号の表記するときは全角円記号 ¥ をお使いになることをおすすめします。

  全角円記号 ¥ は、オプション「全角記号を半角に変換する」を ON にした場合、(出力可能であれば)本来の半角円記号 ¥ (U+A5)に変換して出力します。(Unicode や リッチテキストで出力する場合に ¥ が出力可能です。)

  また、標準設定では、日本語の半角オーバーライン ~ はチルダとして扱われます。(Windows 自身もそのように扱っています。)オプションの「半角・全角」→「日本語の 7Eh をオーバーラインとして扱う」を ON にすると、日本語の ~ (7E)を Uniocde の ‾ (U+203E)と見なして入出力を行います。



6) 外字・機種依存文字の入出力 先頭にもどる
  標準設定では外字は入出力できません。外字を変換するには、オプションの「変換テーブル」→「外字領域の変換を有効にする」を ON にしてください。

  また、標準設定では、日本語←→Unicode間の変換は、Windows標準のコードページ932の変換テーブルに従って変換されます。NEC-9801の機種依存の文字のうち、ED40からEEFCまでの文字(いわゆる「NEC選定IBM拡張文字」)は、入力はできますが、シフトJISで出力時は、全て対応する Windows 標準のコード(「IBM拡張文字」)に変換します。(ただし、日本語EUC と ISO-2022-JP では「IBM拡張文字」を出力できませんので、「NEC選定IBM拡張漢字」に戻して出力します。)

  オプションの「変換テーブル」→「高度な設定(日本語)」で、次のようなオプションを指定することも可能です。
       「Macintosh の文字コードで入力/出力する」
       「JIS X 0208:1997 で入力/出力する」
       「JIS X 0213:2004 で入力/出力する」
  通常、JISコードといえば「JIS X 0208:1997」を指します。実質的に「JIS X 0208-1990」と同じです。このオプションを指定すると、機種依存の文字の入出力を避けることができます。一方、「JIS X 0213:2004」は、このJISコードを拡張した規格で、現在のところ、これに対応しているソフトウェアはまだ多くありません。

  「JIS X 0208:1997 で入力/出力する」がON、「5Chを円記号として扱う」がOFF、「7Ehをオーバーラインとして扱う」がOFFの状態で変換すると、Javaの日本語←→Unicode変換と同一の結果になります。この3つのオプションを全てONにすると、UnicodeコンソーシアムCross Mapping Tableで公開しているシフトJISの変換と同一の結果になります。



7) JIS78とJIS83で入れ替わった漢字の出力 先頭にもどる
  日本語のテキストファイルを出力するとき、オプションの「変換テーブル」→「高度な設定(日本語)」で、JIS78とJIS83で新字体に入れ替わった漢字26字を、旧字体に変換することができます。

    変換前 (新字体)  鯵鴬蛎撹竃潅諌頚侭砿靭賎壷砺梼蕊涛迩蝿桧薮篭尭槙遥瑶
    変換後 (旧字体)  鰺鶯蠣攪竈灌諫頸儘礦靱賤壺礪檮蘂濤邇蠅檜藪籠堯槇遙瑤

  さらに、このオプションは、日本語EUCの出力時に補助漢字の出力を有効にしているとき、補助漢字で復活したJIS78の漢字28字も、新字体から旧字体に変換します。

    変換前 (新字体)  唖焔鴎噛侠躯繋鹸麹屡繍蒋醤掻痩掴填顛祷涜嚢溌醗頬麺莱蝋攅
    変換後 (旧字体)  啞焰鷗嚙俠軀繫鹼麴屢繡蔣醬搔瘦摑塡顚禱瀆囊潑醱頰麵萊蠟攢

  逆に、これらの文字を旧字体から新字体に変換するオプションを指定することもできます。



8) 日本語EUCの入出力 先頭にもどる
  日本語EUCの補助漢字 (JIS X 0212) は、標準設定では、入力はできますが、出力は行ないません。(現状では、Windows で使われる多くのソフトウェアは日本語EUCの補助漢字には対応していません。)
  日本語EUCで補助漢字を出力したいときは、オプションの「変換テーブル」→「高度な設定(日本語)」→「補助漢字を出力する」を ON にしてください。



9) 日本語ISO-2022-JPの入出力 先頭にもどる
  標準設定では、マイクロソフト仕様のエンコードで半角カナの入出力を行ないます。
  半角カナを出力したくないときは、オプションの「全角・半角」で「半角カナを全角に変換する」を ON にしてください。

  また、入力では、ASCII と JIS X 0201-1976 (Roman Set) を区別しません。JIS X 0208-1978 と JIS X 0208-1983 も区別しません。(Windows 上の多くのソフトウェアが同様の仕様です。) 出力は、「円記号・オーバーラインの扱い 」「外字・機種依存文字の入出力」の設定に従います。


10) Unicodeの入出力 先頭にもどる
  Unicode (UTF-16) で入力するときは、「Unicode (UTF-16)」 なら リトルエンディアン、「Unicode (UTF-16) Big Endian」 なら ビッグエンディアン で入力します。Byte Order Mark は無視されます。オプションで 「Unicode のエンディアンを Byte Order Mark から判別する」 を ON にすると、ファイル先頭の Byte Order Markによって、リトルエンディアンかビッグエンディアンかを自動的に判断します。

  Unicode (UTF-16) で出力するときは、ファイル先頭に Byte Order Mark を付加します。オプションで Byte Order Mark を付けないようにすることもできます。

  Unicode (UTF-8) で入力するときは、Byte Order Mark は無視されます。Unicode (UTF-8) で出力するときは、ファイル先頭に Byte Order Mark を付加しません。オプションで Byte Order Mark を付けるようにすることもできます。



11) 改行コードの入出力 先頭にもどる
  テキストファイル入力時の改行コードは、CR-LF、CRのみ、LFのみ、のいずれも改行として認識されます。出力は標準設定ではつねに CR-LF で出力されますが、オプションにより、LFのみ、またはCRのみの出力が可能です。



12) リッチテキストの出力フォントの指定 先頭にもどる
  リッチテキストフォーマットに出力するフォント名は、オプションにより変更できます。メインのダイアログで「入力ファイル」と「出力ファイル」の種類と文字コードを指定したのち、オプションのダイアログを開いてください。各文字コードに合ったフォントファイルが指定できるようになります。また、オプションにより、1バイト文字を日本語などの2バイト文字のフォントで出力することができます。

  フォントの出力をさらに細かく指定したい場合は、オプションの「フォント」→「高度な設定」で、Unicode の文字ブロックごとに出力フォント名を指定することもできます。



13) Unicode入力時の漢字 先頭にもどる
  Unicode のテキストファイルでは、漢字は日本・韓国・中国・台湾で文字コードが統合されており、文字だけでは何語のコードなのか判断できません。リッチテキストフォーマットに変換するときは、文字セットの情報を出力する必要があり、Unicode の漢字は通常は日本語として出力します。オプションにより漢字の言語を指定できます。



14) IPA・中国語・韓国語・ギリシア語フォント の認識 先頭にもどる
  リッチテキストで入力するとき、以下の IPA フォントを認識します。
  SILのフォントは上記 IPA フォントのほかに、次のギリシア語フォント・ダイ語フォントも認識します。   このほか、次のギリシア語フォントも認識します。   また、日本語 Windows 上で使われる以下の中国語コードと韓国語コードも認識します。
  (中国語は簡体字フォントと繁体字フォントを区別して認識します。)   いずれも、リッチテキスト内のフォント名から判断します。
  上記以外の日本語 Windows 用 中国語コードについては、拙作「中国語コンバータ」でGBなどのコードに変換してから「RTFコンバータ」を使ってください。



15) ルビの出力 先頭にもどる
  リッチテキストフォーマットをテキストファイルに変換するとき、ルビつきの文字をきちんと出力します。オプションでルビそのものをカッコにいれて出力することができます。
  Microsoft Word の有名なバグに、テキストファイルで保存すると、ルビつきの文字が(漢字もルビも)消えてしまうというのがありますが(Word 2000 で確認)、「RTFコンバータ」ではきちんと出力することができます。
  また、ルビ以外の拡張書式(「組み文字」「割注」など)もきちんと出力します。



16) ハイパーリンクのリンク先アドレスの出力 先頭にもどる
  リッチテキストフォーマットをテキストファイルに変換するとき、オプションでハイパーリンクのリンク先アドレスを出力できます。
  たとえば、ファイル中の文字列「ここをクリック」にハイパーリンクが設定されているとき、リンク先のアドレスを「ここをクリック(http://www.google.com/)」のように、アドレスをカッコに入れて出力できます。ただし、「http://www.google.com/」のようにリンク先アドレスがそのまま表示されているときは、通常と同じように出力します。



17) GB18030の入出力 先頭にもどる
  中国語簡体字の文字コードは、GB2312・GBK・GB18030に対応しています。
  テキストファイルを入力するとき、文字コードを「中国語簡体字(GB2312/GBK)」に指定すると、GB2312・GBK・GB18030 のすべての文字を認識できます。
  出力時は、文字コードを「中国語簡体字(GB2312/GBK)」に指定すると、標準設定では GBK で出力します。GB18030は標準では出力しません。
  オプションの「変換テーブル」→「高度な設定(中国語簡体字)」→「GB18030で出力する」を ON にすると、GB18030で出力可能になります。
  現状では、中国本土も含め、まだ多くのソフトが GB18030 を読み書きできません。他のソフトとの互換性を考えると、GB18030相当の文字が含まれるファイルは、Unicode やリッチテキストフォーマットで出力することをお勧めします。

  バージョン6.30より、メインダイアログでGB18030を直接指定できるようにしました。(互換性のため、オプションによる設定も従来どおりできます。入力に「GB2312/GBK」と「GB18030」のいずれを指定しても、GB2312・GBK・GB18030 のすべての文字を認識できます。)

  なお、リッチテキストで出力するとき、CJK統合漢字拡張A/Bの文字は、標準の設定では“Simsun (Founder Extended)”で出力します。このフォントは、Office XP 対応の Proofing Tools や簡体字中国語版 Office XP に同梱されています。CJK統合漢字拡張Aについては、このほかに“SimSun-18030”が対応しています(こちらから入手できます)。
  Windows Vista では“SimSun”や“MingLiU”などが CJK統合漢字拡張A/Bの文字に対応しています。従来の“Simsun (Founder Extended)”や“SimSun-18030”などのフォントを Vista で指定すると、“SimSun”を代替フォントとして表示するようです。
  CJK統合漢字拡張A/Bを出力するフォントを変更するには、オプションの「フォント」→「高度な設定」でフォント名を設定してください。



18) 双方向アルゴリズムについて 先頭にもどる
  アラビア語・ヘブライ語の入出力では、双方向アルゴリズムに対応しています。ISO-8859-8(ヘブライ語)の視覚順・論理順の変換も可能です。

  エディタ等で ISO-8859-8(ヘブライ語)論理順のファイルを扱うとき、Windows 上の多くのエディタは FDh、FEhの文字に対応していないため、文字の位置がずれることがあります。この場合、ヘブライ語(Windows)として読み込むことをお勧めします。

  OEM コードページ(CP708, CP709, CP720, CP864, CP856, CP862)と Windows コードページ(CP1256, CP1255), Macintosh コードページ(CP10004, CP10005)は、すべて論理順で処理します。これらのコードページの論理順・視覚順の変換は、Microsoft Office に付属の ConvText をお使いください。



19) 言語 ID の出力 先頭にもどる
  リッチテキストを出力するときに、文字の種類によって自動的に適切な言語 ID を出力します。
  この言語 ID の設定は、オプションの「フォント」→「高度な設定」で変更できます。通常は既定値のままで十分ですが、特定の言語 ID を出力したいときは、Unicode の文字ブロックごとに、ユーザが設定することができます。(設定した言語 ID が必ずしも Word 上で認識できるとは限りません。)



20) Macintoshの文字コード 先頭にもどる
  Macintosh の文字コードは、Apple 社の変換テーブルと、Windows 2000 のシステムに含まれる変換テーブルで、ユーロ記号など、いくつかの文字が異なっています。(詳しくはUnicodeコンソーシアムCross Mapping Table へ。)
  「RTFコンバータ」は、標準設定では、システムに変換テーブルがある場合、システムの変換テーブルに従って変換します。Apple 社の変換テーブルで変換したい場合は、オプションの「変換テーブル」の中の「RTFコンバータの変換テーブルのみ使用する」を ON にしてください。「RTFコンバータ」の変換テーブルは Apple 社の変換テーブルに準拠しています。
  Macintosh の日本語コードの入出力は、オプションの「変換テーブル」→「高度な設定(日本語)」で指定することができます。





【6】 使い方のヒント 目次にもどる

  1) 日本語シフトJIS 上で全角ロシア文字で打った文書をロシアに送りたい。
   → 入力ファイルを「テキストファイル」の「日本語(シフトJIS)」とし、
       出力ファイルを「テキストファイル」の「キリル言語(Windows)」として、変換。
   → または、入力ファイルを「テキストファイル」の「日本語(シフトJIS)」とし、
       出力ファイルを「リッチテキストフォーマット」として、変換。

  2) フランスから送られてきたテキストファイルを Word 上で日本語文書のなかに入れたい。
   → 入力ファイルを「テキストファイル」の「西ヨーロッパ言語(Windows)」とし、
       出力ファイルを「リッチテキストフォーマット」として、変換。

  3) E-mailをテキストファイルに保存したら、日本語ISO-2022-JPだった。これをシフトJISに変換したい。
   → 入力ファイルを「テキストファイル」の「日本語(ISO-2022-JP)」とし、
       出力ファイルを「テキストファイル」の「日本語(シフトJIS)」として、変換。

  4) 日本語シフトJISのテキストファイル内にある全角スペースを半角に置き換えたい。
   → 入力ファイルを「テキストファイル」の「日本語(シフトJIS)」とし、
       出力ファイルを「テキストファイル」の「日本語(シフトJIS)」とし、
       オプション「全角空白を半角空白2個に変換する」を ON にして、変換。

  5) 日本語シフトJISのテキストファイル内にある半角カナを全角に置き換えたい。
   → 入力ファイルを「テキストファイル」の「日本語(シフトJIS)」とし、
       出力ファイルを「テキストファイル」の「日本語(シフトJIS)」とし、
       オプション「半角カナを全角に変換する」を ON にして、変換。

  6) Unicodeで入力された中国語文書を Word に読み込みたい。
   → 入力ファイルを「テキストファイル」の「Unicode(UTF-16)」とし、
       出力ファイルを「リッチテキストフォーマット」とし、
       オプションの「Unicodeの漢字」を「中国語簡体字」として、変換。

  7) 日本語の漢字を駆使して作った中国語文書をなんとかして中国語GBコードの文書に変えたい。
   → 入力ファイルを「テキストファイル」の「日本語(シフトJIS)」とし、
       出力ファイルを「テキストファイル」の「中国語(GB / GBK)」として、変換。





【7】 インストールとアンインストールについて 目次にもどる

  インストールは、付属の setup.exe を使用してください。

  アンインストールは、「コントロールパネル」→「プログラムの追加と削除」(または「アプリケーションの追加と削除」)から「RTFコンバータ」を探して「変更と削除」を実行してください。
  ファイル・ショートカット・レジストリ情報等すべて削除できます。





【8】 ライセンス 目次にもどる

  本ソフトはフリーソフトです。商用も含めて、あらゆるコンピュータ上で無料で利用することができます。アーカイブファイルを、改変せずにそのままであれば、自由に再頒布することができます。
  本ソフトは全くの無保証です。あなたの望みどおりの役に立つという保証は全くありません。





【9】 その他 目次にもどる

  中国語のファイルの変換は、本ソフトの姉妹編「中国語コンバータ」もご利用ください。

   「RTFコンバータ」最新版は以下のアドレスで入手できます。

    http://www5b.biglobe.ne.jp/~harigaya/
    http://www.vector.co.jp/vpack/browse/person/an019647.html

   「Rtfconv.dll」API の仕様や、「RTFコンバータ」の全ソースファイルは、以下のアドレスで入手できます。

    http://www5b.biglobe.ne.jp/~harigaya/



  もしお気づきの点があれば、製作者 針谷壮一 までご連絡ください。
  問題点をご指摘される場合は、問題が発生するファイルのサンプルをメールに添付していただければ、より適切にお答えすることができます。

    mailto: harigayas@mvi.biglobe.ne.jp


針谷壮一