データは「エディタ」を使用して作成する。エディタで使用するフォントとしては「等幅フォント」を使う。
(最初から Excel を使ってもいいが,結構面倒くさい作業になる。)
作成されるファイルの内容は以下のようなものである。このような形式は「固定書式ファイル」とも呼ばれ,調査項目のデータは一定のカラムに書かれる。例えば,1〜3 カラムには ID 番号,4 カラムには性別(男は 1,女は 2),5〜9 カラムには身長(小数点以下1 桁まで),10 カラム,11 カラム,12 カラムには質問 1,2,3 への回答.....というようになっている。
各項目に何カラム用意すればよいかは事前に決めておく。例えば身長をセンチ単位で調査したなら最低 3 カラムは必要だということ。ある質問項目への回答として選択肢が 5 個あれば,その調査結果を入力するには最低 1 カラムでよい。なお,必要カラム数は有効なデータを入力するのに必要なカラム数だけでなく,欠損値(後述)を入力するのに必要なカラム数を考慮しておかねばならない。
1 2 3 (以下の2行は説明のために表示) 123456789012345678901234567890 0011175.021216.316.227.0 0021170.032318.018.326.0 0031172.031218.918.126.5 0041167.012115.015.026.0 0051 012215.015.025.5 0062155.511217.016.023.5 0072150.032211.013.023.5 0082156.021218.017.523.5 0092156.321216.316.024.0 0102157.921316.816.524.5
以上のようにして準備されたデータファイルを直接解析できる統計解析プログラムもあるが,より一般的には「各項目がカンマや空白やタブで区切られた形式のデータファイル」のほうが都合がよい。このような形式のデータファイルは「自由書式ファイル」とも呼ばれる。このデータファイルは,「先頭から数えて何番目であるか」によってどの項目に対するデータかを識別する。
「固定書式ファイル」から「自由書式ファイル」を作成するのに,Excel を用いる。
まず,先に作成した「固定書式ファイル」を Excel で読み込む。以下のように「テキスト ファイル ウィザード」が開くので,「区切るデータの形式」として「スペースによって右または左にそろえられた固定長フィールドデータ」のほうを選ぶ。
もし,「スペースによって右または左にそろえられた固定長フィールドデータ」が出ないで読み込まれた場合は,データは全て A 列に入っているので,A 列の数字列が表示されている部分を選択して,メニューバーから,「データ」−−>「区切り位置」を選ぶ。
「次へ」ボタンをクリックすると,フィールドの幅を指定するボックスが出る。操作法はそこに書いてある。
指定が終わったら「完了」をクリックしてもよい。もし,「次へ」を指定すると,「データ形式」を設定できる。
「完了」ボタンをクリックすると区切られたデータが表示される。
これを,別ファイルに保存する。
このとき,「ファイルの種類」として「テキスト(タブ区切り)」を選択すること。
保存が終わったら Excel を終了するが,以下のボックスで「いいえ」と答えること。
以上の操作で,「自由書式データファイル」が作成された。
どのようなアプリケーションを使ってもかまわない。Excel で全部やろうとするとかなりしんどい。
以下のものも用意されている。