找回密码
 立即注册
搜索
楼主: lqf3dnow

[硬件] Intel SNB处理器内置视频编码引擎与纯软件和GPU编码速度和品

[复制链接]
发表于 2011-1-12 22:22 | 显示全部楼层
引用第39楼belatedeffort于2011-01-12 21:01发表的  :

看上去QS压出的没x86那么锐利(当然也可能是我眼睛的问题)。不过据某些大大(具体是谁不记得了)说有时候看着比较舒服的柔和恰恰是质量没那么好的体现
这个是
看上去柔和那是压制的时候高频没保留下来的缘故
回复

使用道具 举报

头像被屏蔽
     
发表于 2011-9-4 20:40 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2011-9-4 21:00 | 显示全部楼层
压动画请用x264开hi10p,否则惨不忍睹...
回复

使用道具 举报

头像被屏蔽
     
发表于 2011-9-4 22:06 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2011-9-4 23:42 | 显示全部楼层
有人挖坟!我来mark下。。。
回复

使用道具 举报

头像被屏蔽
发表于 2011-9-5 00:08 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2011-9-6 22:06 | 显示全部楼层
引用第32楼Castiel于2011-01-12 00:28发表的  :
现阶段基于dct的图像压缩, 都是以方块来处理的, 但是要达到合适的质量, 这个方块大小应该是根据图片来的, 然后分成64x64, 32x32, 16x16, 8x8丢给处理线程.
所谓预处理就是来算最合适的分块.
对于CPU来说不同大小分块影响不大, 线程数不多也可以一个个来.
对于cuda来说如果大分块多, 剩下的所有处理单元就要等大分块完成才能进行下一帧, 由于所谓GPGPU单线程性能非常悲剧, 那么并行化得到的性能提升说不定是负的.
如果cuda直接把所有图像都8x8了, 那么的确无比快, 但是损失质量或者码率. 个人觉得anand的测试结果反映的就是这个问题, 和计算精度没啥关系.
.......

现在的问题就是h264标准里面DCT的部分从一开始就是给硬件而非软件设计的,精度不够,扔进帧内/帧间预测负反馈循环里。只要碰上预测这件事并行很难处理的好,大概是因为Synchronize的原因,纵使百千sp,快的总是在等慢的处理完才能进行下一步

不管是4*4和8*8的DCT正交阵都想用尽量少的位运算而不是位长较短的浮点运算来完成,软硬件实现是方便了,CUDA就吃瘪,除非他能定义出自定义位长的RGB值和中间计算值(比如10bit 12bit)之类的去做DCT和预测,DCT精度提高,预测步骤也会极大的节省。

鸡蛋灌饼你h264的pdf看完了么顺便提一句,h264算法具体操作的时候,可以直接高频分量置0,尤其对待警车那种图,简单粗暴有效。一般残差数据只有整数,又比较接近对数正态分布,0附近的高频分量真是早死早超生就可以了
回复

使用道具 举报

发表于 2011-9-7 11:04 | 显示全部楼层
引用第46楼eureka9于2011-09-06 22:06发表的  :

鸡蛋灌饼你h264的pdf看完了么顺便提一句,h264算法具体操作的时候,可以直接高频分量置0,尤其对待警车那种图,简单粗暴有效。一般残差数据只有整数,又比较接近对数正态分布,0附近的高频分量真是早死早超生就可以了  
最近在玩驱动,有阵子不会有精力搞这个……
你们先聊我先走了
回复

使用道具 举报

发表于 2011-9-7 11:58 | 显示全部楼层
警车那个锯齿明显是傻逼小编脑袋进屎 截图完了缩放的时候搞砸了
怎么还有人拿这个说事?

QS比x86好?啧啧
回复

使用道具 举报

     
发表于 2011-9-8 15:11 | 显示全部楼层
这坑挖的
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-9-15 23:50 , Processed in 0.084747 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表