UNIVARIATEプロシジャ

スポンサーリンク
スポンサーリンク

概要

さまざまな記述統計量、グラフ表示、統計方法を提供します。


構文

PROC UNIVARIATE <option(s)>;
  BY variables;
  CDFPLOT <variables> < / options>;
  CLASS variable-1 <(v-options)> <variable-2 <(v-options)>>
                   </ KEYLEVEL = value1 | (value1 value2)>);
  FREQ variable;
  HISTOGRAM <variables> < / options>;
  ID variables;
  INSET keyword-list </ options>;
  OUTPUT <OUT=SAS-data-set>
         <keyword1=names ...keywordk=names>
         <percentile-options>;
  PPPLOT <variables> < / options>;
  PROBPLOT <variables> < / options>;
  QQPLOT <variables> < / options>;
  VAR variables;
  WEIGHT variable;
RUN;

ステートメントの説明

ステートメント必須解説
BYBYグループごとの独立した分析を取得できます。
CDFPLOT変数の観測された累積分布関数(CDF)をプロットします。
CLASSデータを各分類水準にグループ化するときに使用する変数を、1つまたは2つ指定します。
FREQオブザベーションの度数を表します(FREQステートメントは数値変数を指定します)。
HISTOGRAMヒストグラムを作成します。
WEIGHTステートメントをHISTOGRAMステートメントと併用することはできません。
ID極値オブザベーションのテーブルに含める変数を1つ以上指定します。
IDOUTオプションを指定すると、OUTPUTステートメントで作成される出力データセットにID変数を含めることができます。
INSETCDFPLOT、HISTOGRAM、PPPLOT、PROBPLOT、QQPLOTのいずれかのステートメントで作成されたグラフ内に直接、インセットと呼ばれる要約統計量のボックスまたはテーブルを配置します。
OUTPUT統計量とBY変数を出力データセットに保存します。
PPPLOTP-Pプロット(パーセントプロット)を作成します。
PROBPLOT確率プロットを作成します。
QQPLOTQ-Qプロットを作成し、並べ替えられた変数値を指定した理論分布の分位点と比較します。
※Q-Qプロット(quantile-quantile plot):2つの確率分布を比較する方法
※quantile:分位数
VAR分析変数とその結果の出力順序を指定します。省略すると、他のステートメント内でリストされていないすべての数値変数が分析されます。
WEIGHT統計量計算における分析変数の数値の重みを指定します。
必須ステートメントはありません。

PROC UNIVARIATEステートメントのオプション(抜粋)

オプション要約
ALLFREQ、MODES、NEXTRVAL= 5、PLOTS、CIBASICオプションが生成するすべての統計量とテーブルを要求します。
ALPHA=α有意水準α(100(1 – α) % 信頼区間) を指定します。
ただし、0 <= α <= 1
デフォルト値は 0.05 であり、これは 95% の信頼区間を生成します。
DATA=SAS-data-set入力SASデータセットを指定します。DATA=オプションを省略すると、最後に作成された SASデータセットが使用されます。
NOPRINTPROC UNIVARIATEステートメントで作成される記述統計量のテーブルをすべて抑制します。NOPRINTを指定しても、HISTOGRAMステートメントで作成されるテーブルは抑制されません。HISTOGRAMステートメントのテーブルの作成を抑制するには、HISTOGRAMステートメントのNOPRINTオプションを使用します。
OUTTABLE=SAS-data-set分析変数ごとに1つのオブザベーションの表形式にまとめられた、単変量統計量を含む出力データセットを作成します。

OUTPUTステートメントのオプション(抜粋)

オプション要約
OUT=SAS-data-set出力データセットを指定します。
keyword1=names出力データセットに含める統計量を選択し、その統計量を含む新しい変数に名前を付けることができます。

keyword1=namesオプションで利用できるキーワード(記述統計)

キーワード要約
CSS修正済み平方和
CV変動係数
GEOMEAN幾何平均
KURTOSIS | KURT尖度
MAX最大値
MEAN標本平均
MIN最小値
MODE最も度数の高い値
N標本サイズ
NMISS欠損値の数
NOBSオブザベーションの数
RANGE範囲
SKEWNESS | SKEW歪度
STD | STDDEV標準偏差
STDMEAN | STDERR平均の標準誤差
SUMオブザベーションの合計
SUMWGT重みの合計
USS無修正平方和
VAR分散

keyword1=namesオプションで利用できるキーワード(分位点統計)

キーワード要約
P11番目のパーセント点
P55番目のパーセント点
P1010番目のパーセント点
Q1 | P25下位四分位点(25番目のパーセント点)
MEDIAN | Q2 | P50中央値(50番目のパーセント点)
Q3 | P75上位四分位点(75番目のパーセント点)
P9090番目のパーセント点
P9595番目のパーセント点
P9999番目のパーセント点
QRANGE四分位範囲(Q3‒Q1)

keyword1=namesオプションで利用できるキーワード(ロバスト統計量)

キーワード要約
GINIGiniの平均差
MAD中央絶対偏差
QNQn 、MADの代替
SNSn 、MADの代替
STD_GINIGiniの標準偏差
STD_MADMADの標準偏差
STD_QNQn 標準偏差
STD_QRANGE四分位範囲標準偏差
STD_SNSn 標準偏差

keyword1=namesオプションで利用できるキーワード(仮説検定)

キーワード要約
MSIGN符号統計量
NORMALTEST正規性の検定
SIGNRANK符号付き順位統計量
PROBM符号検定でのより大きな絶対値の確率
PROBN正規性の検定の確率値
PROBS符号付き順位検定の確率値
PROBTスチューデントのt検定の確率値
Tスチューデントのt検定の統計量

例1:ステートメント無しで実行してみる

proc univariate data = sashelp.class;
run;

利用したテストデータ(sashelp.class)の身長、体重の単位はアメリカ仕様(ヤード、ポンド)となっているようです。

ステートメントを記述しなければ読み込んだデータセット内のすべての数値変数についての統計量や分位点などを出力します。


例2:outputステートメントで出力データセットを指定し、統計量を出力

proc univariate data = sashelp.class noprint;
  var height;
  output out = out_ds1
         mean = heikin
         std  = h_hensa
         max  = saidai
         min  = saisyo;
run;

例3:複数の変数の統計量を出力

proc univariate data = sashelp.class noprint;
  var age height weight;
  output out = out_ds2
         mean = heikin_1  heikin_2  heikin_3
         std  = h_hensa_1 h_hensa_2 h_hensa_3
         max  = saidai_1  saidai_2  saidai_3
         min  = saisyo_1  saisyo_2  saisyo_3;
run;

このケースはよく使います。

(列数が多いので便宜的に行を分けて表示しています。)


例4:すべての統計量を出力

proc univariateステートメントのouttableオプションを利用するとすべての数値変数のすべての統計量を出力します。

proc univariate data = sashelp.class outtable = out_ds3 noprint;
run;

(列数が多いので便宜的に行を分けて表示しています。)


例5:ヒストグラムを描く

proc univariate data = sashelp.class noprint;
  histogram;
run;

histgramステートメントは、1次オプション2次オプションがあり、かなり量がありここでは書ききれないので詳細はマニュアルを参照してください。

コメント