STATA常用34条命令总结
1、input: 输入数据
例:inpurt x y
1 4
2 3.5
3 7
end
2、by: 按照某一变量的取值来进行分析
例:by group,sort: regress Y x1 x2 //按照不同的组,对Y做回归分析
3、weight: 加权或者頻数
例:fw=頻数变量 //多用在四格表资料中或者未原资料未给出所有值,只给出了值和对应的頻数
4、if: 用条件语句指定条件
例:drop if group==1|group==2 //把group变量值为1或者2的记录删除掉
5、in:指定观察值的范围,对在范围内的观察值做分析处理
例:replace x1="123" in 100/200 //把第100-200条记录中的X1变量值改为123
6、for: 用来指定变量
例:for y1-y10 z1-z5: regress @x1-x22
//把y1-y10,z1-z5分别于x1-x22做回归,一次性代表15次回归,其中@是替换符,代表y1-y10, z1-z5
7、函数
abs(x) 绝对值
exp(x) 指数函数
log(x) 自然对数
log10(x) 常用对数
sqrt(x) 平方根
uniform(x) 生成(0,1)内均匀分布的伪随机数
length(x) 计算长度
substr(s,n1,n2) 获得从S的n1个字符开始的n2个字符组成的字符串
real(x) 将字符串s转换为数值函数
trim(x) 去除字符串前面和后面的空格
int(x) 去掉x的小数部分,得到整数
sum(X) 求和
max(x) min(x) 最大值最小值
_n 当前观察值的位置
_N 观察值的总个数
8、ren: 重命名
例:ren var1 var123 // 把var1重新命名为var123
9、des:描述数据库的基本情况
10、label: 为变量添加一些说明,以示说明
11、sort: 按照某一变量从小到大排序
gsort +/-:按照某一变量从大到小或者从小到大排序
sort var1 var2:按照var1大小排序,相同的var1按照var2大小排序
12、drop:删除变量或者记录
drop x1 x2
drop x1-x5
drop if x<0\
drop in 1/100
drop if x==.|y==.
drop _all //清空数据库
13、keep: 与drop对应,保存变量
14、append:纵向连接数据库
15、merge:横向连接数据库
16、gen: 生成新变量
gen bh=_n //将数据库的内部编号赋给变量bh
17、replace:更改变量值
replace z=. if z=9 //将所有z=9的值用缺失值代替
renvars: 批量修改变量名
renvars X1-X5, prefix(mono_) //把变量X1-X5的变量名前加前缀mono_;同理后缀是postfix
18、set obs: 增加空记录
set obs 20 //增加20条空白记录
19、format: 改变数据格式
format tjrq %td //将tjrq改成日期形式
20、l: list 将结果列出
21、su: 对分析数据进行描述,均值标准差等,与des不同,des是描述数据库变量个数,格式等
su x, d // 对x进行统计描述,如果加了d,那么就会更加detail
22、centile: 百分位数计算
centile x, centile(2.5,50,97.5) //计算变量x的2.5,50.97.5百分位数
23、tab:頻数表达
tab sex //计算两个性别各自的頻数
tab sex group //看看各组性别分布的情况
tab group, sum(x1) //在各组内对x1统计分析
24、ci: 计算可信区间
25、直方图:gra x, bin(9) xlab(10,20,30,40) ylab(0,1,2,3) norm gap(4) b2("height (cm)")
//对x画直方图,分为9组,X轴为10,20,30,40,y轴为0,1,2,3,加上正态分布曲线,标题与坐标轴的距离(1-8),下坐标轴加标题为height(cm)
b1/t1/l1/r1("") 给各个坐标轴加标题
b2/t2/l2/r2("") 给各个坐标轴加副标题
title 给图加总标题
条图:gra x1 x2, bar by(group) sh(31) l1("rate of die") b1("comparison of rate of die")
// 对x1,x2画条图,分组变量为group,两组的明暗对比度为3:1,左标题rate of die,下标题comparison of rate of die
饼图:gra x1 x2 x3 x4 x5, pie by(group) sh(31) total
散点图与线图:connect(简写c)——连接散点的方式:
. 不连接
l 直线连接
s 平滑曲线连接
|| 直线连接在同一纵向上的两点
J 阶梯式线条连接
symbol(简写s)——各个散点的图形:
O 大圆圈
S 大方块
T 大三角型
o 小圆圈
d 小菱形
p 小加号
. 小点
gra y x, xlab ylab c(l) s(d)
箱式图:gra y x, oneway/twoway box
26、单样本均数t检验:ttest x=14.02(总体均数μ)
ttesti n mean sd μ
配对t检验:ttest x1==x2
两样本均数t检验:ttest x1==x2,unpaired
ttest x, by(group)
27、方差分析:
方差齐性检验:sdtest x1=x2
sdtest x, by (group)
正态性检验:sktest x
单因素方差分析: oneway 相应变量 分组变量
两因素方差分析:anova 相应变量 分组变量1 分组变量2
多因素方差分析:anova x a b c ... a*b b*c a*b*c... //乘积项代表交互作用
28、率、构成比的比较:tab var1 var2 [fw=頻数变量]
chi2 pearson卡方检验
exact fisher确切概率法
如果是原始资料RXC列联表:tabi 第一行数字从左到右\第二行从左到右...\最后一行从左到右, row chi2 exact
29、 队列研究(暴露,不暴露):
ir 病例变量 暴露变量 时间变量 ./ irs a b n1 n2
cs 病例变量 暴露变量 / csi a b c d
病例对照研究(发病,不发病):cci a b c d
30、等级资料:
genrank 编秩 genrank rankx=x
signtest 符号检验 类似t检验,signtest x=常数,signtest x1=x2, signrank x1=x2
signrank 符号秩和检验
ranksum/Wilcoxon 两样本秩和检验 wilcoxon var, by (group_var)
kwallis 多样本秩和检验(Kruskal-Wallis) kwallis var,by (group_var)
spearman 等级相关 spearman x y
ktau 等级相关(kendall) ktau x y
31、直线相关与回归: 相关 corr y x
回归 reg y x
估计与预测 pre yhat
画图 gra y yhat l1 l2 l3 l4 x, c(.lssss) s(oiiii) xlab() ylab()
32、多元线性回归及逐步回归:
散点图矩阵:gra y x1 x2, matrix
相关系数矩阵: corr
多元回归方程:reg y x1 x2 //标准化偏回归系数,reg y x1 x2, beta
逐步回归:stepwise y x1-x4, forward fe(2.73) //α等于0.05时F界值为2.73,fe代表fenter选入标准,fs代表fstay剔除标准
逐步回归法:forward,backward,stepwise,stepwise forward 例如:step y x1-x4, step fe(2.5) fs(2.6) back
33、logistic回归:
logit y x [fw=f]
blogit y x1 x2 x3/ glogit y x1 x2 x3
也可以同上做逐步Logistic回归
34、生存曲线:
中位生存时间:survsum 时间变量 截尾变量, by(分组变量)
生存曲线:kapmeier 时间变量 截尾变量, by(分组变量) // kaplan-meier生存曲线
生存率比较:两组:wilcoxon 时间变量 截尾变量, by(分组变量)
多组:logrank 时间变量 截尾变量, by(分组变量)
COX分析:cox 时间变量 自变量, dead(截尾变量)
更多推荐
所有评论(0)