ChaseDream
搜索
123
返回列表 发新帖
楼主: 永远没多远
打印 上一主题 下一主题

[咨询答疑] 关于统计软件-在读PhD学生讨论

[复制链接]
21#
发表于 2022-11-22 21:57:13 发自 iPhone | 只看该作者
想有书书读 发表于 2小时前
可以,火速学习一手sas,我用python搞大规模数据太慢了

也要看你具体搞大规模数据干什么哈。比如数据清洗合并 用sas+sql的组合就是最舒服的。大规模数据ml训练那sas做不了,只能换高级语言挂hpc上去。sas主要是处理数据阶段比其他几个快,缺点就是不像python开源 包多 不好定制代码
22#
发表于 2022-11-23 02:23:05 | 只看该作者
The array of Python libraries have made data preprocessing/processing convenient and quick -- if not 'lightning speed'. Why bother about SAS?
23#
 楼主| 发表于 2022-11-23 06:06:22 | 只看该作者
Konley 发表于 2022-11-22 11:15
个人浅薄的经验:sas stata python r c cpp 都有大于2年或者大于5年的使用。最熟练的是前四者,一定要选一 ...

我100多行代码SAS都崩溃了。。。你笔记本还能跑这个吗。
SAS我熟练是熟练工,但是我觉得他处理数据很慢,然后就是做回归分析特别是导出图标很麻烦。不如STATA。
24#
发表于 2022-11-23 07:04:21 发自 iPhone | 只看该作者

不知道你具体处理数据是做什么诶,我没碰到过sas crash的情况,代码行数不太相关,可能主要看你的指令和数据情况?我个人是觉得sas处理数据更快(运算速度更快但是可读性和定制性远不如python)。我用sas处理过最大的差不多一两千万行,几十个variables的各种sql语句这样子,这是在desktop上。笔记本上也能跑,但是肯定慢一些,但不会crash。这要是放python里绝对要挂…

我没记错的话python的pandas之类的是放进ram跑,虽然两者的底层都应该是c,但是python crash的可能性更大。btw,我的笔记本是amd ryzen7的cpu,也就属于普通性能吧。应该不是我的笔记本更耐造的原因哈哈哈。

回归肯定是stata,我从不用sas做回归…就是看各自擅长吧。我们系里的junior faculty一般也是sas处理,stata回归,python和r做一些特别的分析和处理。

其实如果实在不想用sas也没关系,其他语言(严格来说sas不是一种语言)当然也可以解决几乎所有你会碰到的问题。跑得慢就两条路:优化算法或者挂hpc

25#
发表于 2022-11-23 21:18:23 | 只看该作者
永远没多远 发表于 2022-11-22 01:58
有的,就是中间过程我会生成很多临时的数据集,会生成很多临时的变量,到最后在合并。这个也要删除吗,我 ...

一个可行的方法是即使存储临时变量,然后删除内存中的,需要的时候再读回来,这样还能规避进程崩溃或者处理不当变量丢失的问题
26#
发表于 2022-11-23 21:20:12 | 只看该作者
Konley 发表于 2022-11-22 11:15
个人浅薄的经验:sas stata python r c cpp 都有大于2年或者大于5年的使用。最熟练的是前四者,一定要选一 ...

把所有pd dataframe 的计算处理交给np array,把所有循环写成矩阵的计算,会对效率提升有一些帮助。
27#
发表于 2022-11-23 22:35:56 发自 iPhone | 只看该作者
d.jiao 发表于 1小时前
把所有pd dataframe 的计算处理交给np array,把所有循环写成矩阵的计算,会对效率提...

嗯嗯是的
28#
发表于 2023-3-28 22:17:44 | 只看该作者
Mark一下!               
29#
发表于 2023-3-28 22:25:19 | 只看该作者
感谢分享!               
您需要登录后才可以回帖 登录 | 立即注册

Mark一下! 看一下! 顶楼主! 感谢分享! 快速回复:

近期活动

正在浏览此版块的会员 ()

手机版|ChaseDream|GMT+8, 2024-12-4 16:02
京公网安备11010202008513号 京ICP证101109号 京ICP备12012021号

ChaseDream 论坛

© 2003-2023 ChaseDream.com. All Rights Reserved.

返回顶部