But What's a convolution?
卷积
先提出了个投色子问题,投两次色子,两次色子的点数相加一共有多少种可能,每种可能对应的概率分为是多少?
下面是第一种可视化的方案,将两组色子按行、列进行组合,将一共得到36种结果,再将结果相同的点数进行累加
下面是第二种可视化的方案
将第二行的色子反转,对应位置与第一行的色子进行匹配,匹配结果:两行点数相加为7,并且一共有6种可能,
而将第二行的色子左移,直到让第二行最后一个色子与第一行第一个色子匹配,匹配结果:两行点数相加为2,并且有1种可能
继续将第二行色子不断右移,则可以分别匹配到不同的相加后点数,以及对应的概率
然而,上面的概率是建立在每个色子都有相同的概率(1/6)基础上得到的,如果每个色子的概率不同呢?比如红色3的概率是0.24,而红色4的概率是0.1 ,如下图所示
那么,此时两组点数相加为3的概率就会发生变化,比如
当然,计算的方式还是和之前相同的,只用把相加为3的两组色子的概率进行相乘,随后将相加数为3的很多概率相乘的结果再相加
将上面的概率抽像出来,第一组变成第二组变成
下面的同样如此
下面将引入“卷积”概念
下面是个举例,,先将反转,再逐个和匹配相乘
如果使用python进行运算
1 | import numpy as np |
如果第一组很长,第二组很短,也可以进行计算
如果使用二维矩阵作为第二组,将图片作为第一组,那么可以得到**“模糊”**效果的结果图
如果放大来看,会发现第二组的矩阵,每个值都,它代表将附近9个像素值进行加权运算,最终得到一个像素值
当然,如果原像素值是RGB(三通道),那么需要将三个通道中对应通道的值进行计算。
而将上述的行为,我们称作:卷积
高斯模糊图
如果“第二组”的矩阵分成的形式,而且,矩阵最中心的值是最大的,其它地方的值是离中心越远就越小,这样的数据分布特征是符合“高斯分布”
如果我们使用高斯分布矩阵对这格子内像素进行卷积操作,矩阵最中心的像素会有更大的权重,而越边缘的像素会有更小的权重,对原图进行这样的“高斯矩阵”卷积,将得到高斯模糊图
下面的矩阵更特殊,其左侧边缘为正权,右边缘为负权
如果对一张灰度图片进行操作(只有一个通道),比如下面的情况,最左边一列全黑(对应像素值为0),最右边一列全白(对应像素值为1),那么,对这片区域进行“卷积”操作后,会得到一个负值,我们将**“卷积”操作后的结果的“负值”**定义为红色,**结果的“正值”**定义为蓝色。
如果一片区域里面都是相同的颜色,那么这个区域进行“卷积”操作的结果就是“零”,非正非负定义成黑色
对整个图片进行了“卷积”操作后的结果如下图所示,可以看到,只有在边缘的地方才有颜色,而且左边缘是红色,右边缘是蓝色
那么,这种矩阵就可以用来找到图片的**“左右”边缘**(对图片是先从上到下逐个行,再对每行从左到右扫描)
如果将上面的矩阵进行调整,最上层是正权,最下层是负权,那么对图片卷积操作后,将得到**“上下”边缘的图**
其实,这个矩阵有个正式的名字:Kernel,核
卷积求解
快速卷积
fftconvolution(快速卷积)
虽然卷积的计算方法很简单,但是当x和h都很长的时候,卷积计算是非常耗费时间的。直接卷积运算的复杂度为,因此有必要找到比直接计算卷积更快的办法。
举例:如下图所示,如果两个多项式都是有100项的系系数,如果通过相乘系数的方法来展开多项式,需要做10000次乘积计算,随后还需要“沿着对角线合并同类项”【卷积操作】,那么还需要10000次操作,于是直接卷积运算的复杂度为
如果只考虑多项式的函数输出值,只对少数几个输入值进行采样计算,那么简洁运算的执行次数就等于样本数量。对于多项式来说,只需拥有N个函数输出值,就能确定(n-1)次多项式
比如,两个点(函数输出值)可以唯一确定一个一次多项式(),三个点(函数输出值)可以唯一确定一个二次多项式(),如果知道N个点(函数输出值),就可以唯一确定一个(N-1)次多项式。
假设目前有个多项式,假设是的乘积结果,并且系数都是未知量
假如,现在知道多项式的输出值,比如(可以通过求出来),而且提供了 与未知系数的个数相同数量的方程式,从原理上来说,这些方程式可以用来还原出来系数值
例如,现在有A(x)和B(x)两个多项式,而,那么C(x)将是4维(degree 4)需要5个点才能唯一确定一个四维的多项式
所以,需要分别在A(x)和B(x)上取各自取5个点,将这5个点对应的函数值相乘,从而得到,如下图所示
上面这小部分,讲述的是将通过A(x)和B(x)相乘(Mulitiply)得到C(x),然后,这只是"快速卷积"中的一小步,如下图所示
然后,让我们看下宏观图(big piture),快速卷积的大致流程如下
- 拥有两个多项式A(x)和B(x)
- 将Coeff转成Value,这部分就是FFT
- 对A(x)和B(x)使用相乘(Multiplay)操作得到C(x)的Value
- 将C(x)从Value转成Coeff,从而得到具体的C(x)函数
时域的卷积等于频域的乘积这个定理,因此要计算时域的卷积,可以将时域信号转换为频域信号,进行乘积运算之后再将结果转换为时域信号,实现快速卷积。
经过优化的FFT其运算的复杂度为,显然通过FFT计算卷积要比直接计算快速得多。
不过由于FFT运算假设其所计算的信号为周期信号,因此通过FFT计算出的结果实际上是两个信号的循环卷积,而不是线性卷积。
使用numpy的fft来计算卷积:
1 | import numpy as np |
输出为:
1 | fft计算卷积结果为: |
可以看到,将x和h变换到频域相乘,然后变换回时域的结果与循环卷积的结果一致。
如果需要使用FFT计算线性卷积,就需要对信号进行补零扩展,使得其长度长于线性卷积结果的长度。
对x和h进行补零,然后再进行fft:
1 | import numpy as np |
输出为:
1 | fft计算卷积结果为: |
可以看到,结果与线性卷积结果一致
傅里叶变换
傅里叶变换的核心,是“换个角度看待问题”
比如,对于一时间段内的声音信号,不是看每时每刻的强度,而是看信号内不同频率的强度
傅里叶变换FT(fourier transform)用于将时域信号x(t)和频域信号X(f)之间变换,公式如下所示:
很多时候,这里的会写成 或 表示角速度或者频率,当然后面的公式的量纲也需要对应的修改;后面的自变量 x大多数时候都是写成t表示时间。当然,他们表示的都是同一个东西
联想链条
既然是为了【理解】和【记忆】,那么我们还是需要定义一个联想链条:
傅立叶变换 ➜ 分解声音的过程
建议使用分解声音这个例子来理解傅立叶变换,非常好用
声音的表示
我们是如何记录声音的呢?如果你测量的是扬声器旁的气压,那么它会是一个随时间以正弦函数形态不断震荡的图像。
一个标准音 A(下图黄色),它的频率是440Hz,表示每秒钟振动440次
一个比标准音 A 低一些的 D(下图紫红),它的频率是294Hz,表示每秒钟振动294次,振动的慢一些。
如果这两个音同时发出,产生的气压随时间曲线怎么决定呢?如下动图,其实就是把所有时间点的振幅加起来,下图中最上层的一条曲线
那么如果给你随意一段随时间变化的气压曲线,你如何找到这些原有的组成音符呢?这就是我们的目的,参考下面的动图,感觉有点像是把一盘混好的原料分成组成它的单独的颜色,感觉不那么容易吧?
下面就需要一步一步把这件事情做出来
可视化方法
首先,假设我们有一个每秒钟振动3次的声音信号(440Hz实在太快啦),它的图像如下(Intensity为强度,可以同理成气压),并且,我们只关注前面的4.5秒(即图像中画出来的部分)
绕圈记录法:同一事物的不同角度
千万不要眨眼!下面是最关键的一步,是【看到】傅立叶变换的核心部分,如下面动图所示
- 首先把黄色曲线缠绕到一个圆上,大小就是原本信号的振幅
- 圆周围的图像由白色的箭头绘制而成,速度可变,上图中的白色箭头移动速度是每秒钟转过白色虚线半圈(这个速度是对于下面的圆形图像来说,每秒钟在白色虚线圆形图像中转半圈),对应上面的则是虚线表示一圈走到的位置,0.5拍子/秒。
注意看,在上面的坐标轴,白色虚线画在Time=2秒的位置,表示:下面的白色虚线圆形图像中,转完一圈完成需要2秒
- 此时,有两个频率在起作用,一个是信号的频率:3次震荡/秒,另一个是图像缠绕中心圆(白色虚线圆形)的频率,为0.5圈/秒。第二个频率可以自由改变,相当于一个变量,下面的动图直观的展现了缠绕速度变化时(上面的白色虚线)的可视化表现
从最开始的下面的白色虚线圆形0.79圈/秒(注意这里的速度是指绕白色虚线单位圆的【白色箭头】的滑动速度)一直变化到1.55圈/秒,到最后的恰好让缠绕中心圆的频率3圈/秒,和信号的频率3拍/秒相同,此时会出现一个非常稳定的图像,我们可以理解成:同步。这个绕圈图像记录了原信号的幅值变化并且每一圈都相同(周期性)
在这个特殊的情况下,当坐标轴上面的白色实线箭头到达高峰时,下面的白色实线箭头会
同步
地达到黄色的最右端而当坐标轴上面的白色实线箭头到达波谷时,下面的白色实线箭头会
同步
地达到黄色的最左端,如下图所示其实,我们只是把一个水平的轴缠绕到一个单位圆上,并用另一个速度的记录标尺(白色箭头)来画图。想当于**从另一个角度(维度)**来看我们的信号
质心记录法:新维度的特征提取
虽然新图像挺好看的,但是现在感觉并没法从中看出什么。也不尽然,我们直观的发现,当白色箭头记录的速度在某些特定的值时,画出来的图形非常稳定,形态清晰。那如何表现这个特征呢?
从两个角度来思考
(1)自变量是什么?(输入特征)
输入是一个可变化的转圈速度,既然可变,不妨把它看作自变量,即中的
(2)输出(新的圆圈图)有什么特征?(输出特征)
观察到,当**图像很混沌(没有规律,混乱的)**时候,图像基本关于原点对称;稳定时,其实是“头重脚轻”的。描述“头重脚轻”最好的方法当然是用【质心】(它描述了物体的空间分布特征) ,下面的动图直观展现了质心特征对图像特征的描述能力(红色点为质心)
考虑到质心其实是一个二维坐标,这里为了简洁和直观,取质心的横坐标来表示质心的特征
那么新图像的横坐标和纵坐标表示什么如下所示:
【输入(横坐标)】➜【进行采样的(白色箭头)的绕圈速度】
【输出(纵坐标)】➜【圆圈图的质心位置的横坐标】
按照上面的说明来记录绘出图像,记录每个缠绕频率(速度)对应的质心位置,参看下列动图,随着图像的绘制到3圈/秒这个位置的时候,是不是感到似曾相识呢?
补充一点,在横坐标等于零点处有一个很大的值,只是因为原来的图像没有关于横轴对称,有一个偏移量,直观参看下面动图,如果把偏移量去除,其实就变成了个函数
关注点是当频率为3时的凸起,当缠绕频率和信号频率相等时,就出现了一个尖峰,这个图是“近似傅里叶变换”
当缠绕频率和信号频率相等时,“质心”会离坐标轴中心很远,而傅里叶变换的核心就是,如果注意图像质心和频率的变化关系,
质心位置能反映出原信号中频率强度
,而质心和原点的距离就表示了频率强度,质心与横轴夹角的角度对应着频率的相位
我们可以看到,新图像的横坐标写的是【频率 Frequency】,即缠绕圆圈的记录速度,所以强烈建议看到频率,想起速度,并且抽象为围着圆圈跑的速度(个人感受,对理解【频率】的概念有助益)
好!有了这个工具,先把它应用到两个声音的组合图像中看看效果:(这是我最喜欢的一张动图)
对于将2Hz和3Hz组成在一起的声音,当缠绕频率和信号频率都等于2转/秒时,右下角的图出现了一个峰值,并且质心处于x轴并离原心最远,而且左下角的图片变得不是那么“混乱”,以上的几个“特征”都说明了当缠绕频率=信号频率=2转/秒时的特殊性
同理,当缠绕频率=信号频率=3转/秒时,也发生了相似的特征
什么?还是没看清上面的振动图像如何变成圆圈图的?看下面的动图,缠绕圆圈速度为2圈/秒的白色箭头将时间信息映射到圆圈图中的的可视化。再次重复,白色箭头以一定的速度(频率,一秒几圈)在上图中向右横移,同时,在下面的单位圆内被转换成类似钟表指针移动的圆圈运动,并记录振幅,画出图像【左下角的图中,白色箭头实际上是沿着“绿色”线逆时针地移动,如果把白色箭头抽像出来,它还是按着白色虚线进行旋转的】
BTW,图形的一部分有点像动画EVA中某个使徒的脸,带给人一种诡异的仪式感。数学之令人敬畏,可能在这一刻熠熠生辉,刺的人睁不开眼
公式表示
大家也发现了,我们已经通过这样一个缠绕机器完成了时域到频域的转换,总得来说,参看下面的动图
在下面这个图中,
一种是先将2Hz和3Hz频率转成对应的“近似傅里叶变换”图,再将两个“近似傅里叶变换”图叠加起来
另一种是,先将2Hz和3Hz频率叠加起来,再转成换“近似傅里叶变换”图
这两种在最终得到的“近似傅里叶变换”图都是一样的
这就为我们的“分离”工作带来的最重要的工具,因为我们发现了“可分离”的工具
这是一种【近傅立叶变换】,为什么是【近】,后面会提到。先考虑,那如何数学语言表达这个【转圈记录机制(工具 or 机器)】呢?
第一步:旋转的表示
如下面的动图所示,在这个工具中,非常关键的就是转圈,即表达旋转这种运动,根据第一大部分,这个桥梁,就是复平面,其背后的原理是幂函数结合泰勒公式
著名的欧拉公式说明,在复平面(comples plane)上,,当时,欧拉公式变成
而咱们这儿,使用公式,表示:从单位圆最右边开始,沿着半径为1的单位圆“逆时针”走到n个单位长度
的点上,按照这样的理解,就是在单位圆沿着半径为1的单位圆逆时针走了个长度,最终到达了x轴-1的位置
更进一步,幂函数中,以为底的函数有着特殊的性质,如下面动图所示,单位的 就表示一个单位圆的360°旋转,则表示的就是一秒钟一圈的旋转方程(因为对于单位圆来说,就是一圈的长度),但旋转的速度感觉有点太快了
所以,再加一个频率,从而控制旋转的速度不那么快,图中是,合起来表示一秒钟十分之一圈
第二步:缠绕的表示
首先,依据下面的动图所示,在傅立叶变换中,我们规定旋转是顺时针的(规定只是为了统一标准,并且有时候也会考虑书写简洁和方便计算),所以,需要对先加一个负号【因为原始是逆时针旋转】。假设原来的函数是 ,将两者的幅值相乘就能得到缠绕图像, ,可以说是相当机智了!
从原来的沿着白色虚线滑动,到沿着黄色实线滑动
而这样的转变,只是简单的将乘以g(t),让其依照函数值大小被缩放。这样就能将这个长度不断变化的旋转向量,看作为“缠绕图像”
当然,得到“缠绕图像”还只是中间的一个过程,重点是为了得到“缠绕图像的质心”是怎样变化的
第三步:质心的表示
那如何表示质心这一概念呢?粗略想一下感觉挺难的,但是看起来很难的问题,有一种解决问题的途径是【演绎推理】,先从简单的特例出发,推广到一般,最后证明正确性即可
考虑如何求一个正方形的质心位置,我们只需在边框上取n个等距离分布的点,并且算这几个点的位置的平均值。那么推广到一般情况,也使用类似的采样点的方式解决,如下面动图所示(紫红色的点即采样点),得到
随着采样点的增加,假设增加到无穷个点,需要使用积分来求解这个问题,如下面动图所示,得到
这个公式的结果,是缠绕图像的质心
最终步:整理积分限和系数
然而,真.傅里叶公式是没有常数系数的,只是,如果忽略表达倍数关系的系数,对应的含义也会发生变化,不再是质心,而是信号存在的时间越久,位置是质心位置乘以一个倍数,它的值就越大。
参看下面的动图,如果原波形持续时长为3秒,那么新的位置就是原来质心位置的3倍;
如果原波形持续时长为6秒,那么新的位置就是原来质心位置的6倍
如果某个频率持续了很长时间,这个频率的傅里叶变换的模长就被放得很大
而去掉常数系数的几何直观动图变为(红色箭头为去掉系数后的长度表示),最本质的区别是:可以使得最后绘制的图像更集中在对应的频率的附近,或者说在对应的频率位置的值更大
对于傅里叶置换求出来的值,我们使用来表示,表示了对应原信号中某一频率的强度
这里的自变量是频率f,因为只有当对频率进行改变,才能找到“凸起”
如下图,$\hat g(2) \hat g(3)$的值明显大于其它频率值
这里的t1是频率开始时刻,t2时频率结束时刻
继续考虑上下限。我们知道,一般傅立叶变换公式的上下限是正负无穷,那它的几何直观是什么呢?参看下面动图,其实就是看看信号持续时间无穷大是什么样子的
说实话,这个动图解答了我大学时代的一个疑惑,音乐文件不都是有时间长度的嘛,我就一直不懂,凭什么对负无穷到正无穷做傅立叶变换?原来真实情况是,从负无穷到0,音乐结尾到正无穷,就像上面的动图,其实都没有振动幅值(电信号幅值)与之对应,再结合缠绕圆圈的思想:原来,从音乐开始到结束做傅立叶变换和从负无穷到正无穷做傅立叶变换,是特么的一回事啊!(吐槽完毕)
是时间
是频率
是欧拉公式的一部分
尾巴
还有一个坑,即在表示质心的时候,我们只取用了x轴坐标,下面的图中的蓝色曲线就是纵坐标(y轴 or 虚部)的可视化,红色曲线是横坐标(x轴 or 实部)
原信号的长度
再追根究底一些,因为之前已经提到过,假设我们的信号有4.5s,并且真实的频率是5拍/秒
那么考虑原信号的长度的变化呢?首先,假设时域中信号的长度很长,那么缠绕圆上的线就会更多,每次接近稳定图像质心的变化速度更快(即频域图像更加密集),能把质心运动刻画得越细致?参看下面动图
如果一个时域信号持续时间很长,哪怕缠绕频率偏离了真实频率(5拍/秒)一点点,整个信号也能绕足够多的圈子,变得很均匀对称。当缠绕频率偏离真实频率一点儿时,使得质心的变化速度很快,对应的图像会有一个很大的落差。
那么对应的,如果时域原信号的长度缩短呢?如下面动图所示,频域图像会更加稀疏。原因同理,当缠绕的内容少的时候,重心变化的速度也相应的变慢了。只有当缠绕频率和真实频率相差很大时,才能显示出**“对称性”**
或者说,观察的时间越短,对具体频率的把握就越差
比如,当两辆车都开着双闪,乍一看,感觉两辆车是“同步”地双闪,但看的时间一长了,两辆车就不那么同步了,因为两辆车有各自的闪频率
但如果观察的时间越长,对具体频率的把握就越好
还是,当两辆车都开着双闪,如果持续观察了几分钟,感觉两辆车是“同步”地双闪,那么就有更大的把握说明,两辆车是“同步”的
这里的观察时间长,就对应时域中信号的长度很长,反之也是
总得来说,基本就上述内容就详细解释了下面的现象:
时域的信号周期越长,那么频域的范围越小,就越集中(越能找到“同步”的频率),越不容易发生混叠,越容易抽象出时间信号的周期性重复信息,此时自然而然的,周期性这个词就出现了。
时域的信号周期越短,就对应傅里叶变换就越广,越广范的频率
只有0.05秒的同一个频率音频,让人判断是音频的范围,那只能把从低音到高音都纳入进去
但如果是10秒的同一个频率音频,就能很准确地判断是什么频率
另外,可以自己思索一下,比如无穷时间的周期时域信号呢?又比如一个恒定振幅(一个电平)的时域信号呢?其实这里就给出了一个提示有关为什么傅立叶变换有那么多需要考虑的变形了,因为在缠绕这件事情发生的过程中,有几种情况是特别的(这部分3B1B视频并没有讲解,可能需要未来再更新了)
傅里叶的引申应用
在雷达探测中,经常使用傅里叶转换,由上面我们知道,短脉冲对应的傅里叶变换一定很广范围,长脉冲对应的傅里叶变换是短范围。
如果雷达向外面发送的是短脉冲,在时域里面,很容易将多个不同速度的物体进行区分开,但在频域里面
如果想得到精确的速度,那就一定需要一个频率范围很窄的回波(对应时域中需要长脉冲),这就是“傅里叶不可兼得”效应,不能同时准确地获得两个变量
总结
讲了这么长,至此全部结束。估计读者都已经晕了,那么,在这里为【看到】傅立叶变换做一个总结,就来总得说说我们从头到尾都干了些啥?参看下面动图
- (1)表示单位圆,添加自变量即可表示旋转
- (2)与原函数相乘缠绕到单位圆上
- (3)为求质心的特征,进行积分计算
一步一步写出傅立叶变换公式的联想链条(如何记忆)
-
一个逆时针旋转360°画成的圆 ➜
- 用来表示:从圆最右侧开始,绕着圆逆时针的距离,是单位圆上的一个位置点
-
表示运动,需要原函数的自变量:时间 t ➜
- 随着时间t变化,在单位圆上的不同位置点
-
表示旋转速度,需要自变量,频率 f➜
- 单纯用来控制旋转速度
-
规定变换的采样方向为顺时针,加负号 ➜
-
乘以原函数缠绕到单位圆并记录 ➜ (此处使用g符号标识原函数是为了和频率符号区分)
- 相当于用来改变幅度,让上面的绿色箭头,沿着黄色实线进行滑动。【原来是沿着白色虚线滑动】
-
为了计算质心特征,积分 ➜
-
自变量为频率 ,写出函数表达式 ➜
傅里叶的本质
当缠绕频率和信号频率相等时,“质心”会离坐标轴中心很远,而傅里叶变换的核心就是,如果注意图像质心和频率的变化关系,
质心位置能反映出原信号中频率强度
质心和原点的距离就表示了频率强度
质心与横轴夹角的角度对应着频率的相位
质心和原点的距离就表示了频率强度,如图所示
质心与横轴夹角的角度对应着频率的相位
而在峰值(比如是5拍/秒)时有一点分散的原因是,那些接近5拍/秒的纯正弦波,几乎也匹配这个信号
参考
https://www.zhihu.com/question/19714540/answer/325895339
https://www.bilibili.com/video/av19141078/
https://charlesliuyx.github.io/2018/02/18/【直观详解】让你永远忘不了的傅里叶变换解析/
https://www.youtube.com/watch?v=spUNpyF58BY
https://www.youtube.com/watch?v=KuXjwB4LzSA
https://www.youtube.com/watch?v=mkGsMWi_j4Q
https://www.youtube.com/watch?v=g8RkArhtCc4
https://www.youtube.com/watch?v=8rrHTtUzyZA
离散傅里叶变换
真.傅里叶变换
由于计算机只能处理有限长的离散信号,因此必须建立对应的离散傅里叶变换DFT(Discrete Fourier Transform):
我们令,如下图所示,这里的是欧拉方程中的,用来表示单位圆上不同的位置点
假设例子中,N=8
……
,相当于逆时针转了一圈
将乘以不同的数,会得到不同的幅度值
简单来说
是单位圆上的位置点,也可以看作为方向(angle)。
而s[0],s[1]这样的系数,是幅度值(length)
就成了指向x轴方向幅度是某个值的向量
图中的表示频率,当频率等于零时,会得到一个周期()无限长的正弦波,也就是一条直线。
现在,我们把在图中取的8个点及对应的幅度值相乘并累加起来,得到
这里的就与之前讲到的**“质心”没有除以的式子(即真.傅里叶变换)**有点相似
这里的,1代表的是频率,此时,左侧的图长得像个cos函数
当频率时,左侧的图还是个cos函数,但明显周期变小,频率变大了
而此时,对应右侧的图也发生了变化
因为频率变了, 的位置也会跟着频率发生变化
如果把 公式做个抽像出来
离散傅里叶转换公式
为频率
为离散的时刻,这里【对应连续的t, 】
是欧拉公式一部分,是虚数根
是多项式维数
和上面的连续傅里叶变换公式其实很相似,我们的关注点还是在同样的时间段内,通过不断改变频率,找到一个是极大值,那么这个就是让**“信号频率”和“缠绕频率”相同的频率**
将上面的离散傅里叶转换公式写成代码
1 | import numpy as np |
上述代码中,有一处可以用来改进:zeta^(n*f)
,我们不必在每次计算sum时都算一次,因为在离散的情况下,我们的N取得是有限的(比如上面例子中,N=8),那么,我们可以先求出来所有的位置,使用时直接查表,可以加快速度。
1 | import numpy as np |
虽然已经对上述代码进行了改进,但代码的复杂度还是,对于相同规模,使用DFT和使用FFT的差距还是十分明显的
对于N=90000的数量,使用DFT计算需要40s,而使用FFT计算只要14ms
由于计算机只能处理有限长的离散信号,因此必须建立对应的离散傅里叶变换DFT(Discrete Fourier Transform):
如果我们定义一个矩阵M
则很明显DFT的公式只是一个简单的线性变换:
因此简单的使用矩阵乘法就能计算出DFT的结果,我们可以很容易的写出DFT的python代码
1 | import numpy as np |
我们以2048点DFT为例,与numpy中内置的FFT做对比,看看速度相差多少
1 | x=np.random.random(2048) |
可以看到,速度相差了差不多2000倍,对于每个值的计算需要N个复数乘法(4N个乘法和2N个加法)和N-1个复数加法(2N-2个加法),因此DFT的总计算量需要个复数乘法和个复数加法,复杂度是 ,是不利于计算机进行实时信号处理的,因此为了优化DFT的计算量,便有了相关FFT算法,下面介绍快速傅里叶变换算法,对于快速傅里叶逆变换其优化方式非常相似,因此不做介绍
快速傅立叶变换
快速傅立叶变换(FFT)是信号处理和数据分析中最重要的算法之一,很多人只是调用现成的库如FFTW,但为了知其所以然,加深对算法的理解,我们有必要搞懂FFT算法是怎么计算的,这里不讨论傅里叶变换的理论和推导,只讨论实际工程中怎样计算,由于python代码的可读性以及计算的方便性,使用python代码展示FFT计算过程
FFT有什么用?
如果有多项式,,我需要求的是他们的卷积,这时,我要在哪使用FFT,对谁使用fft?
要计算两个多项式A(x)和B(x)的卷积,可以使用FFT(快速傅里叶变换)来加速计算。卷积的一般计算方法涉及两个多项式的乘法和求和,而使用FFT可以将卷积计算的复杂度从降低到。
下面是使用FFT计算多项式卷积的步骤:
- 将多项式A和B分别表示为系数表示形式的数组和。
- 对两个系数数组进行零填充,使它们的长度都变为2的幂,以便进行FFT计算。
- 对系数数组A和B分别使用FFT,将它们转换为点值表示形式。
- 将点值表示的A和B两个多项式相乘,得到点值表示的卷积结果。
- 对卷积结果使用逆FFT,将其转换回系数表示形式。
- 去除结果中的零填充部分,得到最终的卷积多项式。
在这个过程中,FFT主要用于将多项式从系数表示转换为点值表示以及从点值表示转换回系数表示。在步骤3和步骤5中使用FFT。
具体代码可能如下所示(假设已经有FFT和逆FFT的函数):
1 | import numpy as np |
一幅图像A与一个边缘检测滤波器(如Sobel、Prewitt等)的矩阵B进行卷积,可以使用上面提供的卷积函数。
在这种情况下,A代表图像的像素值(将RGB分成三个通道,分别计算),B代表边缘检测滤波器的核矩阵。
首先,需要将图像A和边缘检测矩阵B表示为二维的NumPy数组。
然后,将它们作为输入传递给卷积函数,将返回卷积结果,其中包含了图像A中的边缘信息。
导入
如果有多项式,,我需要求的是他们的卷积结果(也就是卷积多项式)。
假设为如,我们想求出来具体的系数值。
一般的做法:我们需要**个P(x)函数输出值**,对应在图上需要个点,才能解出来的具体系数值,如果不使用FFT,则是个问题,如下图所示
如果使用FFT,可以参考下图的过程。
先将A(x),B(x)由系数值转成点值【使用FFT实现】,再将两者的点值相乘,最后,将点值转成系数值【使用IFFT实现】
对称取点
下面,开始将问题简化,对于“偶函数P(x)”如果我们需要在P(x)上至少取8个点,那么最好的方法是依靠“对称性”取点。
同样,对于“奇函数P(x)”,对使用对称性取点
拆分多项式
下面,将问题普遍化,对于一个多项式:,受到刚刚“对称取点”的启发,我们可以将这个多项式拆分成由“奇函数”和“偶函数”的和
这样拆分后,好处时“降维”了,将原来5维多项式降成了两个关于的2维多项式的组合,即
这里把看作,从而 是子多项式;为子多项式,它们都是关于的二维多项式
将后面提取出来一个是为了保持括号内的子多项式和前面的子多项式拥有相同维度
公式推广
将公式推广更普遍一点儿,如果原维度关于x的n维P(x)
那么降维后变成了两个关于维的多项式的组合
取的自变量也不是的个点,而是使用**“对称取点”**的特点,只取这个点
对于所有的,
对于所有的-x,
和都是关于的维度。
又因为和都是关于的函数,所以对于和来说,的范围都是,各自有(个点),两个子函数加起来一共有个点。【注意:这里只有正数,没有负数与之对应,这也就是下面需要引入复数的原因】
对于两个子多项式和在上(各自个点,一共个点),又可以再次分解,按这方法递归下去,我们最终得到的 的复杂度
但是,现在从理论上论证了:“傅里叶转换的计算确实是可以简化的”,但新的问题来了
对于是 与 相对应匹配的,可以使用对称取点
而 不是 与 相匹配的,即无法使用对称取点
那么,如何让 也可以使用对称取点,这是新的问题
为了解决这个问题,我们需要引入复数
引入复数
为什么要引入复数?下面举例说明下
比如有个多项式,根据上述的原则,我们需要至少选择4个点,再按照对称选点的原则,假设我们选择了""这四个点
按上述原则,我们将拆分,
那对于和来说,他们的自变量范围就是,而且为了符合“对称取点”的原则,这里的就必须等于,即,如图所示
从而,是
现在假设,那么这个树状图的元素按下面的方式进行变化
这里的,那么,只能取复数,即,从而,我们成功地引入到了复数
学名: roots of unity【4次单位根】
更普遍的,对于一个5次多项式,需要至少6个点,为了方便起见,我们选择8个点()
推广到所有维度,对于d维度的多项式,需要选择点数的选择条件:
这里涉及了个新概念 【n次单位根】
n次单位根
先来看下复数域,对于一个单位圆,设角度
设用来表示在取到不同angle时,单位圆上对应位置点,其中,当i=0时,是x=1点即()
解释完成后,我们将原来的多项式也转换对应复数域,即在计算
为什么要用计算?
因为,也就是说是匹配的, roots of unity
而且,在子多项式中,也是匹配的, roots of unity
FFT流程
现在,可以开始梳理FFT的整个流程了
首先,已知多项式的各系数值(coeff),。而目标是求出他们的卷积结果多项式的各系数值(coeff)
下图中的泛指任意函数
放在代码中就是
def FFT(P)
首先,需要找到递归的baseline,当n=1时,即,这时的也是泛指
而FFT的核心是递归过程,一个是,另一个是,他们都只有原一半维度
假设和的输出分别是,另一个是,
都是点值(value),比这步开始,就已经将系数值coeff转成了点值value
随后,使用和 将还原回去
注意:这里的,将原公式进行替换
同理,使用下面公式再进行替换
和是子多项式递归的结果
最终的输出
y也是点值value
FFT代码实现
1 | import numpy as np |
逆FFT
根据上面离散FFT的过程,想要求系数矩阵,只要对**矩阵求逆矩阵**【矩阵也是已知的,可以轻松算出来】即可(因为点值矩阵是已经由FFT函数算出来的结果
总结来看,FFT是把系数矩阵(coeff)转成点值矩阵(value);逆FFT是把点值矩阵(value)转成系数矩阵(coeff)
逆FFT代码
只修改了一行代码
1 | import numpy as np |
参考
https://www.youtube.com/watch?v=h7apO7q16V0&t=467s
Cooley-Tukey快速傅里叶算法是常见的FFT算法,其思想是利用了DFT变换中的对称性和周期性来简化计算
首先我们定义
满足下面的定义
周期性:
对称性:
若m是N的约数:
我们只需几行代码就可验证上述特性
1 | def Wn(k,N): |
定义如下一些变量:
1 | N = 8 |
验证周期性:
1 | print(np.allclose(Wn(k,N),-Wn(k+N,,N))) |
验证对称性:
1 | print(np.allclose(Wn(k,N),-Wn(k+N//2,,N))) |
验证可约性:
1 | print(np.allclose(Wn(m*k*n,N),Wn(k*n,N//m))) |
结果:
1 | True |
基2FFT
根据上面的对称性,我们可以将DFT计算分为两个较小的部分
这样一个N点变换就分解为了两个N/2点变换,这里F 1 ( k ) F_1(k)F1(k)和F 2 ( k ) F_2(k)F2(k)分别是序列x中的奇数号和偶数号序列的N / 2 N/2N/2点DFT变换,根据以上公式我们也能很快写出python代码:
1 | def R2FFT(x): |
同样计算2048点DFT,速度如下:
1 | compute 2048 points dft using R2FFT cost: 0.081140 ms |
对于N = 2 r N=2^rN=2r,很显然两个N/2点的DFT变换还可以继续分解下去,分解为4个N/4的更短的序列,N/4的序列还可以将序列继续分解下去,直到分解为N/2个2点的DFT变换,2点的DFT变换只需要复数加法和减法就能实现,复数乘法计算量减小至( N / 2 ) l o g N (N/2)logN(N/2)logN,复数加法计算量减小至N l o g N NlogNNlogN,算法复杂度为O [ N l o g N ] \mathcal{O}[NlogN]O[NlogN],大大减少了DFT的计算量,这就是Cooley-Tukey快速傅里叶变换的基本原理,我们将一个DFT变换分解为两个较小的DFT变换,即基2FFT,我们可以通过递归来实现该算法:
1 | def RecursiveR2FFT(x): |
计算2048点DFT速度如下:
1 | compute 2048 points dft using RecursiveR2FFT cost: 0.081140 ms |
相比前面的版本速度并没有提升,是因为python的递归版本并不高效,并且没有进行并行化的计算,因此,通过观察基2fft的规律我们可以将递归调用的向量乘法转换为并行计算的矩阵乘法以删除递归调用以及并行计算,python代码如下:
1 | def NonRecursiveR2FFT(x): |
计算2048点DFT速度如下:
1 | compute 2048 points dft using NonRecursiveR2FFT cost: 0.000327 ms |
可以看到,速度又提高了一个数量级,相比numpy的fft只差了1倍
基4FFT
当DFT点数N为4的幂时,我们当然可以使用基2FFT算法进行计算,但对于这种情况使用基4FFT算法更为高效,基4FFT的原理与基2FFT类似,只不过是将N点DFT序列拆分成4个N/4的子序列:
在这里直接给出非递归的基4FFT代码:
1 | def NonRecursiveR4FFT(x): |
注意,由于N = 2048 = 2 ⋅ 4 5 N=2048=2\cdot 4^5N=2048=2⋅45,因此我们最后分成了1024个2点FFT,如果N NN是4的幂例如N=1024,那么最后会得到2个512点的结果,并不满足基4FFT的条件,那么我们可以将这2个512点序列按照基2FFT原理进行计算,最终得到1024个FFT点的计算结果,这实际上是一个混合了基2FFt和基4FFT的混合基FFT算法。