NiuNiu's Warehouse: 删除SAS数据集中的重复值方法汇总

转载请注明出处： http://blog.sina.com.cn/s/blog_5d3b177c0100bblp.html

在处理数据的时候，经常会遇到或产生一些重复数据，有些重复数据是我们需要的，而有的则是多余的。下面讲到的内容就是找出某一数据集里重复数据的方法。

1 用first，last语句实现

data clasdata;

input id name $ class $ ;

datalines;

3456 Amber Chem101

3456 Amber Math102

4567 Denise ENGL201

2345 Ginny CHEM101

2345 Ginny ENGL201

2345 Ginny MATH102

1234 Lynn CHEM101

1234 Lynn MATH102

5678 Rick CHEM101

5678 Rick HIST300

;

run;

proc sort=clasdata;

by name class;

run;

data dups nodups ;

set clasdata ;

by name class ;

if first.class and last.class then output nodups;

else output dups ;

run;

data nodups2;

set clasdata ;

by name class ;

if first.class then output;

run;

2 另一个删除重复值的方法就是用sort过程步的nodupkey选项以及dupout选项。

proc sort data=clasdata dupout=nodups3 nodupkey;

by name class;

run;

注意这里用到的是dupout，而不是out，out将在下面作介绍。

3 另一个删除重复值的方法就是用sort过程步的nodup选项。

proc sort data =Clasdata

out =NODUPS3

nodup ;

by name class;

run ;

前面讲的方法是每条观测值observation所有变量都相同的重复，下面讲的是单个变量重复的情况，这些方法用于查找例如主键ID是否有多条重复数据的情况。

4 用freq统计某变量的值重复的情况

proc freq data = Clasdata noprint ;

table ID / out =Nodups4 (keep = ID Count where = (Count > 1)) ;

run ;

如果要测试两个变量，则用到by选项

proc sort data =Clasdata;

by name class;

run ;

proc freq data =Clasdata noprint ;

by name ;

table class / out = DUPS3 (keep = name class Count) ;

run ;

5用sort过程步的nodupkey选项以及out选项。

proc sort data=clasdata out=nodups5 nodupkey;

by id;

run;

这里ID变量每个值将只出现一次，其余全部删除了。其意思就是ID作为数据集clasdata的主键。

我们还可以让两个变量（name，class）作为主键：

proc sort data=clasdata out=nodups6 nodupkey;

by name class;

run;

参考文献：

The Mystery of the PROC SORT Options NODUPRECS and NODUPKEY Revealed

http://www2.sas.com/proceedings/sugi30/037-30.pdf

Finding a Duplicate in a Haystack

http://www2.sas.com/proceedings/sugi31/164-31.pdf

Identify duplicate and nonduplicate observations in a data set and write each to separate data sets

ftp://ftp.sas.com/techsup/download/sample/datastep/dups.html

NiuNiu's Warehouse

Pages

Friday, May 27, 2011

删除SAS数据集中的重复值方法汇总

0 comments:

Search

About Me

Blog Archive

Music

Total Pageviews