博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
SSE特殊指令集系列之二----字节绝对差值求和指令
阅读量:6844 次
发布时间:2019-06-26

本文共 651 字,大约阅读时间需要 2 分钟。

本文要谈的是这样一条指令:

PSADBW

这条指令是SSE1引入的用于视频编码绝对差值求和的指令。

在视频编码中的运动估计模块,一种常见的SAD代码如下:

1 // Get the SAD 16x16 macro block with full pixel2  for (y = 0; y < 16; y++)3    for(x = 0; x < 16; x++)4     sad += abs(current[y][x] - reference[y][x])

对于这段代码,我们首先来用MMX指令做优化。

1. SAD的MMX优化

我们使用带饱和运算的PSUBUSB指令来实现求ABS (B - A)的功能。具体原理描述如下:

 

计算完ABS之后还需要把字节型数据扩展为字型数据,这样,以方便累加不会溢出。较为完整的代码如下:

 

2. SAD的SSE优化

    直接使用PSADBW指令,非常简洁。

   2.1 SSE optmization version 1

       

 2.2 SSE optmization version 2

    

2.3  2.1 SSE optmization version 3

     

 

 

     注意:SSE第一个版本使用的是MMX寄存器,而第二个版本和第三版本使用的是128位的XMM寄存器。

     而SSE的第三个版本使用的非对齐的数据加载指令 MOVDQU指令。

 

 

 

 

 

 

 

转载于:https://www.cnblogs.com/celerychen/archive/2013/04/23/3588214.html

你可能感兴趣的文章
聊聊V8引擎的垃圾回收
查看>>
你可能不知道的JS
查看>>
你知道前端对图片的处理方式吗?
查看>>
UML
查看>>
ES6-学习之路-05
查看>>
Python-shutil模块
查看>>
Python 黑帽编程 2.2 数值类型
查看>>
Android持续集成:Jenkins+Gradle+360加固+多渠道打包
查看>>
基于CoreGraphics的3D渲染方案
查看>>
基于VUE的服务器端渲染(SSR)
查看>>
『中级篇』Docker compose 部署一个复杂的应用(41)
查看>>
『中级篇』容器的端口映射(28)
查看>>
初识 RabbitMQ
查看>>
华山论剑之浅谈iOS的生产线 工厂模式
查看>>
入门福利——Swift4 完整项目源码,简单但是全面!
查看>>
Flutter布局之标题
查看>>
“互联网+医疗健康”的南坡与北坡
查看>>
完美解决setInterval在浏览器切换时加速的问题
查看>>
Less代码规范
查看>>
Java注解入门
查看>>