菠萝网目录

月之影面 第四十四章 超级视频压缩

时间:2018-01-24作者:哥德尔系统

    毕竟,王一男和陈子豪冒着生命危险,弄到了七十四块采用牙膏厂最新工艺的专用cpu,其中六十四块,正在机柜里面拼命干活呢,当然,王一男也不算吃亏,他还顺带泡到了妹子不是。

    哥德尔系统的超级计算能力这次总算派上了用场。

    王一男选择的视频源的规格是标准的1080p,也就是1920 x 1080 的分辨率,h265的码率大概是h264的50%左右,也就是5000kbps,大概不到0.7m字节每秒。

    作为一个比较,普通家用宽带,如果采用adsl线路的话,基本上是1mbps 或者2mbps,大概140k或者280k字节每秒,离h265标准要求的k字节每秒差得还比较远,所以在adsl宽带上,是没办法在线观看1080p的h265视频的,更不要说带宽要求更高的h264了。

    所以adsl用户只能下载视频文件之后,离线观看高清影片,当然光纤到户之后,接入10mbps或者20mbps的带宽,就可以支持在线观看1080p视频的需求了。

    如果是立体的视频,那么左眼和右眼都是单独的视频流,这样带宽需求增加一倍,如果是全景视频,那么虽然人眼看到的范围比较小,但是不能等眼睛转过去之后,再传送要看到的部分啊,那样的体验就太差了,所以全景视频需要同时传送所有角度的视频数据,这样至少又是三倍以上的带宽开销。

    立体加上全景,就是通常说的vr,带来了至少六倍普通高清的带宽要求,这也是目前vr直播炒的火热,但是基本体验不到的根本原因,因为不要说家庭了,一般公司的办公网络都没有这么高的带宽。

    整个视频的长度大概是十五分钟,哥德尔系统的神经网络只花了不到二十秒就完成了压缩过程,“不会吧”,王一男有点不相信自己的眼睛,“这么快的速度,不会是出现了 bug 吧”,

    这种情况也不罕见,神经网络训练过程中如果没有收敛的话,是很有可能造成无效的数据处理过程的,也就是说,压缩的数据里面啥都没有,只是一些随机噪声。

    王一男看了一眼最后生成数据的大小,150m,也就说,哥德尔系统的神经网络压缩算法,压缩效率是h265的接近五倍,压缩和解压缩的速度暂时还不知道,因为毕竟是超级电脑,实际的速度要看编译成x86或者arm指令之后的执行结果。

    “不会吧”,王一男被这个大小吓傻了,150m的大小,可以存放差不多1000秒的1080p视频内容,也就是说,码率150k字节每秒,这已经很接近家用adsl如果1m宽带,能达到的140k最大数据传输速率了。

    换句话说,在普通的最lo大小的视频文件输入到反向神经网络中,这个视频文件的格式可是完全自定义的,而且估计每段视频都不一样,只有哥德尔系统或者等价的llvm代码可以识别。

    “这以后可就麻烦了,视频压缩完全没有格式和规范啊,神经网络选择最高效的方式,想怎么压缩就怎么压缩,反正只要自己认得就行了,说不定只有传说中四维空间模型,才能解释神经网络内部的压缩机制”。

    王一男正有一搭没一搭的想着呢,“哔哔”的蜂鸣声又响了起来,看了看时间,解压缩的时间还不到十秒,这也是正常的,任何压缩算法理论上都会比解压缩算法耗费时间。

    不过这个时间的比例也超乎王一男的意料,因为按照h264或者h265的经验来看,压缩所需要的计算能力至少是解压缩的十倍以上,也就是说,在同样的硬件下,如果是和h264、h265类似的算法,解压缩的时间应该在两秒左右。

    “看来哥德尔系统的压缩算法跟现有体系完全不同,不过,在这个领域跟围棋一样,机器也已经远远超过人了,至少,人设想的最好算法比神经网络差了五倍以上”,

    “只不过,人类永远也无法理解哥德尔系统的算法啊”,王一男感慨了一番,

    “理解不了没关系,能复制就行了,我真的是个天才,居然想到功能复制这一招,就是不知道米歌的狗狗让不让人去复制一把”。

    高兴归高兴,王一男还是没忘记最后一步,他让哥德尔系统按照每秒三十帧的速度在屏幕上回放解压缩出来的图像序列,王一男抽几段看了一会,至少肉眼看不出来跟原始的片源有什么差别。

    不过光主观感受没用,还是需要数据说话,王一男运行了一个开源的psnr评价程序,也就是对原始图像和压缩/解压缩之后的图像,比较峰值信噪比,但是让王一男意外的事情发生了,

    峰值信噪比的差异非常大,也就说是,评价程序认为前后两幅图像的差异非常大,甚至比h265 降低一倍码率之后压缩成h264的差异还要大。

    但是这和王一男的主观感受是完全相反的,王一男也看过降低一半码率的h264视频,那整个画面的质量下降非常明显,什么模糊、毛刺都出现了,但是现在的视频流,王一男感觉不到图像有任何生硬的地方。

    问题出在哪里呢,应该说,王一男对自己的眼力还是有很强信心的,要知道,当年看波多女士的片子,王一男可是连码率500k还是码率550k压制都能分的出来。

    看起来,问题只可能出在psnr算法了,因为图像主观上如果有一些结构的小变化,或者整体的位移等等,是不会影响视频的整体主观感觉的,但是psnr看起来,误差就非常大了。

    王一男立刻查阅了相关文献,果然,网上对psnr算法的吐槽声一片,在开源的机器视觉网站,王一男找到了最新的复小波结构相似性指标算法,从多方文献来看,这应该是和主观性评测符合的最好的机器视觉检测指标了。

    王一男下载了最新的复小波结构相似性指标算法代码,重新对解压缩之后的图像序列进行了评估,

    结果也不出预料,整体的差异性指标非常低,甚至可以忽略,这和王一男的主观感觉也是一致的。

    王一男跑到洗手间,用冷水好好冲了把脸,才让激动的情绪稍微平复了一些,在1m的adsl线路上观看1080p的高清视频,或者,在普通的10m,20m家用光纤宽带条件下,观看立体加上全景三百六十度的实时直播,这意味着什么?

    这不仅仅是视频压缩技术的突破,甚至有可能带来整个视频娱乐行业的变革!

    现在只剩下唯一的一个问题了,编译神经网络到llvm的ir代码(机器无关中间层表示)是不是可行,还有,llvm的ir代码所生成的x86或者arm指令,能达到什么样的性能水平?

    达到哥德尔系统这样的程度就不用想了,如果达到实时解压缩,就是解压缩的速度跟得上网络传输的速度,那就不得了了,

    如果不小心达到实时压缩,就是压缩的速度跟得上实际画面的速度,那就是不得了的平方了!

    王一男好好睡了一觉,然后把自己收拾整齐,去找周慧吃了顿大餐,嗯,据说盘古八星的自助餐不错,还能看到我大帝都的景色,虽然王一男对太阳国的料理不怎么感兴趣,还是去美美的吃了一顿。

    接下来,王一男再次开始了闭关,算法的性能得到证实之后,动力也完全不一样了,神经网络编译系统,这种大杀器,想想都让人兴奋。

    编译出来的代码,能运行起来吗?

    庞大的神经网络,能够压缩到普通pc或者手机的存储器里面吗?

    运行起来的代码,效率足够吗,能达到实时解压缩,还是实时压缩呢?

    或者,所有想法都太乐观,压根慢的像蜗牛一样?
小说推荐