重複を削除する

スポンサーリンク

重複したオブザベーションを削除したい。
SORTプロシジャを利用します。

構文

PROC SORT DATA = ソート前のデータセット OUT = ソート後のデータセット NODUPKEY;
  BY ソートキー;
RUN;

proc sortはソートするプロシジャですが、nodupkeyオプションをつけることで、ソートしたあとにbyステートメントで指定した変数をキーとして重複削除ができます。

ソート前のデータセットを準備
data DummyData;
  input AGE SEX $ NAME $;
cards;
20 F Tanaka
22 M Aoki
30 M Sato
25 M Suzuki
33 F Aoki
40 F Fujii
;
run;
赤枠が重複している扱いです。

やってみる
proc sort data = DummyData out = sorted nodupkey;
  by NAME;
run;

NAME = “Aoki”の重複オブザベーションが削除されました。

コメント