ロトサマリー
a branch of the LOTO SUMMARY website

コマンドユーザーズガイド

sjiseuc


MS932~EUC-JP.binというバイナリファイルにしたがって、sjiseucコマンドは、シフトJISのテキストファイルをEUC-JPのテキストファイルに変換します。

Windowsのコマンドプロンプトは、シフトJISが多用されます。MS932は、いわゆるシフトJISですが、規格外です。たとえば、丸付きの数字(①②③⑩⑳)、ローマ数字(ⅠⅡⅢⅣⅩ)、1バイトのカタカナは、EUC-JPで表現しにくい。sjiseucコマンドのパラメータとして、シフトJISのファイルを指定してください。sjiseucコマンドは、シフトJISのファイルを読み込んで、SjisEuc.txtというEUC-JPのファイルを書き出します。

パラメータ ほぼ同等な入力 ファイル 説明
-b EUC-JPのテキスト 一時ファイルとして、binary.tmpを作成する。
-L -LF EUC-JPのテキスト 0Ahのみで改行する。
-L- -CRLF EUC-JPのテキスト 0Dhおよび0Ahで改行する。

シフトJISのファイル、EUC-JPのファイルがこの順に指定された場合、sjiseucコマンドは、シフトJISのファイルから行を読み込んで、EUC-JPのファイルに行を書き出します。シフトJISのファイルがEUC-JPのファイルで上書きされるように命令するには、sjiseucコマンドのパラメータとして、-bを付加してください。一時ファイルとして、binary.tmpが作成されます。さらに、2個目のファイル名を1個目のファイル名と同じにしてください。binary.tmpが改名されます。

sjiseuc -b name name

テキストファイルに関して、Windowsでは、0Dhおよび0Ahで改行しますが、UNIXでは、0Ahのみで改行します。sjiseucコマンドは、各行から0Dhを削除します。変換表の名前は、MS932~EUC-JP.binです。sjiseucコマンドの特徴として、実行ファイル(SjisEuc.exe)の外部から変換表を読み込むことができます。実行ファイルは、自分がインストールされたディレクトリに存在している変換表を読み込みます。

変換表を探索する順序

  1. 過去にコマンドがインストールされたディレクトリ
  2. カレントディレクトリ
  3. 環境変数(Path)に記載の各ディレクトリ
  4. いまSjisEuc.exeを実行しているディレクトリ
  5. 利用者がsete.txtに記入したパス名
図10. 表計算ソフトウェアでKeyWords.csvを表示した 図11. メモ帳でKeyWords.csvを表示した 図12. diyoコマンドで変換表の編集および半角カタカナの廃止を実行した 図13. sortkコマンドで濁点を無視しながら第2欄を比較して行を並べ替えた 図14. narfiコマンドで第2欄を選択しなかった
図15. rufeolコマンドで行末からコンマを削除した 図16. --copeを付加したsortkコマンドでEUC-JPテキストの行を並べ替えた 図9. メモ帳でsortk.txtを表示した
×

sortk


拡張子が.csvであるテキストファイルは、各行が、コンマで分離された多数の語句からなります。CSVのファイルは、Excelなどの表計算ソフトウェアで容易に表示できます。sortkコマンドは、CSVの欄にある語句を比較して、行を並べ替えます。

CSVの行を並べ替えるには、コマンドプロンプトにsortkコマンドのパラメータとして、-t,(マイナスティーコンマ)を付加してください。-tおよびコンマの間に空白を挿入しないでください。sortkコマンドは、たとえば、第2欄にある語句を比較して、CSVのテキストファイルの行を並べ替えることができます。第2欄にある語句を比較するには、sortkコマンドのパラメータとして、-k2,2を付加してください。-kおよび数字の間に空白を挿入しないでください。

パラメータ ほぼ同等な入力 ファイル 説明
-c- CSV 半角カタカナの濁点、半濁点を無視する。
-e EUC-JPのテキスト EUC-JPのテキストを読み込む。
-k2,3 -a3 -h011 CSV 第2欄から第3欄まで選択する。
-k2,2 -j2 CSV 第2欄のみ選択する。
-o text.tmp > text.tmp text.tmp 新しいファイルの作成および命名を行う。
-p CSV 濁点、半濁点の代用文字として、HもIも無視する。
-t, .csvの拡張子 CSV 区切り文字としてコンマを使用する。

csvを読み込んで、新しいファイルの作成および命名を行うには、コマンドプロンプトにsortkコマンドのパラメータとして、-o text.tmpを付加してください。-oおよびtext.tmpの間に空白を挿入してください。text.tmpは、新しいファイルの名前です。sortkコマンドは、CSVの表を読み込んで、利用者選択の欄で要約を構成して、要約に詳細を結合します。要約のみ比較しながら要約および詳細のブロックを並べ替えます。詳細のみ書き出します。

EUC-JP専用のパラメータ

EUC-JPのテキストを読み込むには、sortkコマンドのパラメータとして、-eを付加してください。sortkコマンドは、0Ahのみで改行できます。半角カタカナの濁点、半濁点を無視して行を並べ替えるには、sortkコマンドのパラメータとして、-c-を付加してください。diyoコマンドを実行して半角カタカナをASCIIで代用している場合、さらに-pを付加してください。EUC-JP専用のパラメータとして、--copeは、-c- -p -e -oと同じ結果を生じます。--copeが付加されたsortkコマンドは、sutai.xmlを作成しないで行を並べ替えます。

diyo


diyoコマンドは、MS932~EUC-JP.binという変換表を編集できます。変換表は、バイナリファイルです。

事前に利用者が代用文字のリスト(sortk.txt)を用意した場合、diyoコマンドは、代用文字のリストにしたがって、一度に多数の文字にわたって変換表を編集できます。diyoコマンドは、代用文字リストのファイルから906行まで読み込むことができます。代用文字リストのファイルの各行は、通常文字と、代用文字とからなります。代用文字もシフトJISで記入してください。利用者が代用文字リストのファイルを用意した場合、diyoコマンドのパラメータとして、-fを付加して、空白で区切って、さらにファイル名を付加してください。

パラメータ 密接に関係するファイル 説明
-f sortk.txt sortk.txt 代用文字のリストにしたがって、変換表を編集する。
-w MS932~EUC-JP.bin どの変換表を編集するか表示する。

diyoコマンドがアクセスできる変換表のパス名を表示するには、コマンドのパラメータとして、-wを付加してください。パス名ではなく単なるファイル名が表示された場合、カレントディレクトリにある変換表です。変換表を探索する順序は、sjiseucコマンドと同様です。diyoコマンドの設定ファイルは、setting.txtです。setting.txtは、必須ではありません。

narfi


narfiコマンドは、CSVのテキストファイルを読み込んで、選択された欄を新しいファイルに書き出します。

もう五十音順に並べ替えることができたので読み方の欄を削除したいならば、narfiコマンドのパラメータとして、たとえば、-b101を付加してください。すなわち、第1欄から第3欄まで選択するには、narfiコマンドのパラメータとして、-c3を付加してください。第2欄を除外するには、さらに-b101を付加してください。EUC-JPのテキストを読み込むには、narfiコマンドのパラメータとして、-uを付加してください。

-b10111
-b 1 0 1 1 1
真偽 第1欄選択 第2欄を除外する 第3欄選択 第4欄選択 第5欄選択

たとえば、21欄もあるCSVで、まず、第1欄から第5欄までを選択するには、narfiコマンドのパラメータとして、-c5を付加してください。次に、第2欄を選択から除外するには、narfiコマンドのパラメータとして、-b10111を付加してください。欄を選択することの真偽を示すために、1または0を入力してください。10111のうち0は、第2欄を選択しないことを意味します。結果として、4欄を書き出します。すなわち、4列の表になります。ただし、-b10111が指定されない場合、narfiコマンドは、-b11111が指定されたとみなして、第2欄も書き出します。

パラメータ ほぼ同等な入力 ファイル 説明
-b101 CSV 第2欄を選択しない。
-c3 -b1110000000000 CSV 第1欄から第3欄まで選択する。
-u EUC-JPのテキスト EUC-JPのテキストを読み込む。

rufeol


rufeolコマンドは、テキストファイルの各行の末尾から不要な文字を除去します。

EUC-JPのテキストを読み込む場合、-u1が付加されたrufeolコマンドは、0Ahが出現したとき、先行する1バイトを無視して、0Aのみで改行します。すなわち、UNIXのテキストの行末からコンマを削除できます。

パラメータ ほぼ同等な入力 ファイル 説明
-m -u2 -r Windowsのテキスト 行末からコンマを削除する。
-u1 UNIXのテキスト 行末からコンマを削除する。
  • E-mail: sogaya@usahana.jp