找回密码
 立即注册
搜索
查看: 3251|回复: 23

[其他] 锻炼用usb速桥线接显卡影响深度学习的性能吗?and More..

[复制链接]
     
发表于 2021-12-3 12:05 | 显示全部楼层 |阅读模式
最近从零开始强化学习,花了几天时间把环境搭出来,跑来跑简单的demo。

手上有两块卡,一块2080s,一块3080Ti LHR。

2080s是插主板上的,平时视频输出还有玩游戏的话都是用它。

3080Ti是用锻炼用的usb速桥线接的主板PCI-e,锻炼还好,但是怀疑会影响深度学习训练时候的性能,不知道要不要装回去或者买个PCI-e的延长线。

早知道要跑强化学习,就加钱上3090了,把2080s接出来。

不行的话,回去跑几轮实验试一下,但是要有大手子知道的话,就省折腾了。

另外双卡的话,tensorflow需不需要特别配置?

=================================================================

另外有大手子在用Google Colab吗?一个月10刀感觉并不算贵。

回复

使用道具 举报

     
发表于 2021-12-3 12:31 | 显示全部楼层
我记得RTX20系用GPU-Z可以看到PCIe控制器的负载的
不知道能不能靠那看出来带宽有没有瓶颈
反正只要要复制到内存或者是从内存复制,就不行
回复

使用道具 举报

     
 楼主| 发表于 2021-12-3 13:58 | 显示全部楼层
ls2021 发表于 2021-12-3 12:31
我记得RTX20系用GPU-Z可以看到PCIe控制器的负载的
不知道能不能靠那看出来带宽有没有瓶颈
反正只要要复制到 ...

谢谢大佬的思路,我回去跑跑训练试试IO会不会成为瓶颈
回复

使用道具 举报

     
发表于 2021-12-3 14:32 | 显示全部楼层
坑狗madao 发表于 2021-12-3 13:58
谢谢大佬的思路,我回去跑跑训练试试IO会不会成为瓶颈

这种都是可以算的
RAM到PCIE一般实际带宽在100Gbps左右,雷电3带宽最高40Gbps(实际肯定要打折扣,先打个7折)
然后你看一下你的batch size,算一下每个batch数据大小,以及训练一轮整个需要的显存大小
然后你看一眼你的网络规模,算一下总共的FLOPS,根据你的显卡性能,算一下一个batch forward+backward需要的时间

如果训练需要的显存大小加上额外一个batch吃不满整个显存,那么在上一个batch开始训练的时候下一个batch可以async预载到显卡上,你就根据雷电3带宽和batch大小算一下加载一个batch的时间,如果短于一个batch的训练时间那就没有性能损耗,如果长于一个batch的训练时间,你就按照RAM到PCIE的带宽再算一遍理想情况看看损失了多少。
如果显存装不下训练+batch,那一个batch完了肯定需要等下一个batch,可以类似的算一下性能损失。
回复

使用道具 举报

头像被屏蔽
     
发表于 2021-12-3 15:12 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
 楼主| 发表于 2021-12-3 17:46 | 显示全部楼层
YoumuChan 发表于 2021-12-3 14:32
这种都是可以算的
RAM到PCIE一般实际带宽在100Gbps左右,雷电3带宽最高40Gbps(实际肯定要打折扣,先打个 ...

大佬太猛了!

我现在就跑一些简单的gym里面的demo,比如LunarLander这玩意。

RAM到PCIE的带宽肯定跑不满。(猜的。。

我colab的GPU时常用完了,用CPU来跑甚至感觉和colab之前分配给我的K80速度都差不多(和我本地跑一个episode的目测时间好像也差不多),可能是gym里面环境转换消耗了更多的时间。。。

我现在本地跑训练都不知道到底是哪个卡在工作。。网上查的屏蔽某块卡的命令在我的win10的环境没有效果(不过刚更新了tensorflow,也许有效果了但还没试
回复

使用道具 举报

     
 楼主| 发表于 2021-12-3 17:49 | 显示全部楼层
lvcha 发表于 2021-12-3 15:12
啥叫锻炼用。
顺便大佬用强化学习搞什么?
我前年接触了一点

就是参加中国有哈希(不过现在中国没有哈希了)

现在就是跑跑demo,什么都做不出来的话能上课给学生演示一下demo也好

然后就是想用RL做做组合优化,水几篇论文

终极目标是训练agent让它学会做cryptocurrency交易,做不出来的话可能转向去用few-shot learning来做
回复

使用道具 举报

头像被屏蔽
     
发表于 2021-12-3 17:52 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
 楼主| 发表于 2021-12-3 17:54 | 显示全部楼层
lvcha 发表于 2021-12-3 17:52
最后那个我觉得没可能。

就是做着玩,闲着也是闲着
回复

使用道具 举报

     
发表于 2021-12-3 17:57 | 显示全部楼层
colab其实不太好用。。
虽然可以用浏览器控制台假装操作来防止到时间断线
但是实际上还是很容易训练到一半就自己断线了。。。。
回复

使用道具 举报

     
 楼主| 发表于 2021-12-3 17:59 | 显示全部楼层
Vicarious 发表于 2021-12-3 17:57
colab其实不太好用。。
虽然可以用浏览器控制台假装操作来防止到时间断线
但是实际上还是很容易训练到一半 ...

毕竟白嫖,而且好像还算便宜,一个月10刀,锻炼一下这钱就出来了

它是不是还有个12小时/24小时断连,我觉得这个更烦,花钱了还要断,醉了

我是训练100轮就save一下,然后断了读文件继续
或者是有更好用的在线GPU推荐一下?
回复

使用道具 举报

     
发表于 2021-12-4 21:05 来自手机 | 显示全部楼层
坑狗madao 发表于 2021-12-3 12:05
最近从零开始强化学习,花了几天时间把环境搭出来,跑来跑简单的demo。

手上有两块卡,一块2080s,一块308 ...

为什么你这么神速,我都俩月了还没完成复现ResNet

—— 来自 Xiaomi M2011K2C, Android 11上的 S1Next-鹅版 v2.5.2
回复

使用道具 举报

     
发表于 2021-12-4 22:05 | 显示全部楼层
强化学习做点应用,组合优化通信之类的还是不用太多硬件的
要是折腾deep RL实验做发ICML/ICLR/NIPS这种那还是大坑,这领域理论还好,实验也太那啥了
回复

使用道具 举报

     
 楼主| 发表于 2021-12-5 10:53 | 显示全部楼层
gx19860411 发表于 2021-12-4 21:05
为什么你这么神速,我都俩月了还没完成复现ResNet

—— 来自 Xiaomi M2011K2C, Android 11上的 S ...

找代码,跟着敲。。

简单看了下ResNet比我跑的DQN的网络复杂多了。。。

训练的话都要花上很多很多时间。。。
回复

使用道具 举报

     
 楼主| 发表于 2021-12-5 10:57 | 显示全部楼层
真田源次郎信繁 发表于 2021-12-4 22:05
强化学习做点应用,组合优化通信之类的还是不用太多硬件的
要是折腾deep RL实验做发ICML/ICLR/NIPS这种那还 ...

做应用我就更不行了,我就发点水会,应该问题不大,咱需求不高

或者研究下有没有合适的场景,扔GPU进去做调度是很合理的。。

能发一篇NIPS洒家这辈子值了

回复

使用道具 举报

发表于 2021-12-5 11:02 | 显示全部楼层
记得当年学并行计算时,强调显存带宽往往是最大瓶颈,也是优化最需要下手的地方

lz可以用低带宽来训练自己如何优化算法,如果你你要玩底层HPC那堆东西的话
回复

使用道具 举报

     
发表于 2021-12-5 12:19 | 显示全部楼层
本帖最后由 真田源次郎信繁 于 2021-12-5 12:21 编辑
坑狗madao 发表于 2021-12-5 10:57
做应用我就更不行了,我就发点水会,应该问题不大,咱需求不高

或者研究下有没有合适的场景,扔GPU进去 ...

做应用也不是做机器人之类,找些场景套呗,特别是强化学习组合优化,其实和过去那些进化算法一个味,而且毕竟能感觉到有泛化能力,有点前途,当然做场景的话最多发点不懂这套的EE的trans,做好了aaai,三大会一般不行

主要是我觉得drl算法本身太玄学了,当然provable theory方面哪怕排除bandit也是真的有很多进展,三大会一共就那么点纯prove的文章,rl也能占一部分。
但实验方面drl很大程度上属于被炮打“这个领域这些年来真的有进展吗”
的程度,新算法可复现性差,和当初何向南那套神经矩阵分解被炮打是一个味,主要进展来自于自己调参技巧的进步和给baseline调低。
这也就罢了,毕竟也有不是这么做的工作,但是这些好工作工程量都太大了,不是大组有合理的合作根本干不了,俺还是回去干理论吧,哪怕去带专都一样干,也能发三大会
能算上单人能干的也就是当初nlp和cv里类似learn to skim的那套在模型里加不可导的部分,再用rl(其实就是策略梯度)优化,但这也就是个灌水套路,做不了什么
回复

使用道具 举报

     
 楼主| 发表于 2021-12-5 14:32 | 显示全部楼层
真田源次郎信繁 发表于 2021-12-5 12:19
做应用也不是做机器人之类,找些场景套呗,特别是强化学习组合优化,其实和过去那些进化算法一个味,而且 ...

能发点Trans我就知足了,没多大能力,也没人手,没设备,本来想干脆摸了算了

接触了DRL觉得还挺有意思,能和以前做的东西结合一下(相当于用RL把之前场景的问题再解一边,再换换场景什么的,水几篇paper不是美滋滋

对我来说,三大会太遥远,理论太难

摸了!
回复

使用道具 举报

头像被屏蔽
发表于 2021-12-5 15:25 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
 楼主| 发表于 2021-12-5 15:49 | 显示全部楼层
Redis 发表于 2021-12-5 15:25
一块显卡还是不要搞强化学习了

认真

卡不够这个事,加钱可以解决
回复

使用道具 举报

发表于 2021-12-7 08:00 来自手机 | 显示全部楼层
搞RL要看看你的环境是不是在CPU里跑的,要是online RL整天把数据在CPU GPU搬来搬去,你用个usb延长线可能还不如cpu来得快
回复

使用道具 举报

头像被屏蔽
     
发表于 2021-12-7 11:36 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
 楼主| 发表于 2021-12-7 15:18 | 显示全部楼层
a9okalypse 发表于 2021-12-7 08:00
搞RL要看看你的环境是不是在CPU里跑的,要是online RL整天把数据在CPU GPU搬来搬去,你用个usb延长线可能还 ...

现在跑得demo倒是没那么大得数据量,暂时IO的速度不是瓶颈。

之后如果需要,我准备整个PCIe的延长线,或者干脆装回去。

现在基本上就是本地写好代码,然后到colab上去跑。
回复

使用道具 举报

     
 楼主| 发表于 2021-12-7 15:18 | 显示全部楼层
qratosone 发表于 2021-12-7 11:36
系统内存和显存之间拷贝数据本身就Latency很高,做RL的话需要控制一下调用GPU的次数,另外30系卡需要CUDA11 ...

就是觉得亏啊

想上3090 好气
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-7-18 17:43 , Processed in 0.248513 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表