基于WIFI CSI进行人体行为识别调查
目录
基于WIFI CSI进行人体行为识别调查
人体姿态识别研究现状:
无线感知相关知识点:
WIFI系统的局限性:
基于 Wi-Fi CSI 的行为识别:
基于直方图的技术:
CSI 去噪:
特征提取:
用于分类的机器学习:
多用户活动识别:
人体姿态识别研究现状:
1,在现有的系统中,个人比须佩戴有运动传感器(如陀螺仪和加速计)的设备。这就使得它的应用非常的局限(人不能时时刻刻穿戴设备)。
2,基于摄像头的系统可用于被动活动识别,但可能涉及到隐私问题也有很大局限性。
基于无线信号的被动监测系统能很好的避开上述问题
无线感知相关知识点:
接受信号强度(RSS):当一个人位于 WiFi 设备和 AP 之间时,信号会衰减,因此会观察到不同的 RSS。尽管 RSS 使用起来非常简单,并且可以很容易地测量,但是它不能捕捉到由于人的移动而引起的信号的真实变化。这是因为即使在环境没有动态变化的情况下,RSS 也不是一个稳定的度量标准。
WIFI系统硬件修改:为使用RSS以外的数据,对WIFI系统也得修改,WiFi 通用软件无线电外设(USRP)软件无线电系统是一种改进的 WiFi 硬件。调频载波(fMCW)的技术来测量由人体运动引起的正交频分多址(OFDM)信号的多普勒频移。由于多普勒频移与距离有关,因此可以估计出目标的位置。
多普勒提取: 为了提取多普勒信息,WiSee 计算频率-时间多普勒剖面,在半秒钟的窗口内提取样本上的快速傅里叶变换(FFT) ,然后将窗口移动5毫秒,继续这个过程。这种技术也被称为短时距傅里叶变换(STFT) ,也被用于其他技术中。
分段: 下一步是对 STFT 数据进行分段,以区分不同的模式。例如,一个手势可能包括一个具有正负多普勒频移的部分,或者两个或更多的部分,每个部分具有正负多普勒频移。检测一个片段是基于能量检测在一个小的持续时间。如果能量高于噪声水平3分贝,则找到该段的开始,如果能量低于3分贝,则该段已结束。
分类: 分类的概念很简单。每个段有三种可能性: 只有正多普勒频移,只有负多普勒频移,以及同时具有正负频移的段,根据它们分配三个数字。因此,每个手势都由一系列数字表示。分类任务是将获得的序列与训练中使用的序列进行比较。WiSee 还声称,该系统可以检测多个移动目标,并利用每个移动目标的反射可以被视为来自无线发射机的信号的想法来识别它们的活动。因此,利用多输入多输出(MIMO)接收机的思想,可以将不同人群在该区域移动时产生的反射信号进行分离。这个问题是找到权矩阵,当乘以多普勒能量对应的每一个天线的每一个部分,最大化每一个部分的多普勒。为此,采用了迭代算法。与 WiSee 等需要专门的 USRP 软件无线电的技术相比,已经有几种不需要修改 WiFi 系统就可以使用商业 WiFi AP 的努力。为了表示由于人体运动引起的环境的动态变化,最近已经采用了其他度量,如信道状态信息(CSI) ,下面将对其进行更详细的描述。
WIFI系统的局限性:
1,身体的移动而引起的相位变换在CSI中观测不到。
2,模数转换器(ADC)产生SFO,SFO随子载波指数变换而变换,因此,每个子载波面临不同的误差。
人体和物体的运动改变了无线信道的多径特性,使得估计信道具有不同的幅度和相位。一个子载波和所有天线的 CSI 振幅,与一个人在 WiFi 发射机和接收机之间行走和坐下有关,如图2a 所示。这个人在前400包的时候是静止的,但是随后开始走路或者坐下。正如所观察到的,当人不移动时,所有天线的 CSI 振幅相对稳定; 然而,当活动开始时,CSI 开始剧烈变化。在这个实验中,走路的时间比坐着的时间长,因为当人坐下的时候他/她是静止的。接收阶段,是非常扭曲的,由于 CFO 和 SFO,如前所述。这可以在图2b 中观察到。然而,使用相位消毒技术,可以消除相位误差的影响。已校准的相位可以在图2c 中观察到。
基于 Wi-Fi CSI 的行为识别:
在这一部分,我们提供了使用商业 WiFi NIC 的技术的总结。使用 WiFi CSI 的活动识别系统的总图如图3所示。
基于直方图的技术:
这些技术之一是 E-Eyes ,其中 CSI 直方图被用作数据库中的指纹。在测试阶段,通过将获得的 CSI 直方图与数据库进行比较,找到最接近的直方图,从而可以识别出活动。预处理步骤为低通滤波和调制编码方案(MCS)索引滤波。前者是为了消除高频噪声,而高频噪声可能不是由于人体运动引起的,后者是为了减少不稳定的无线信道变化。直方图技术虽然具有良好的性能和较低的计算成本,但由于直方图技术对环境变化比较敏感,因此在不同的环境下可能表现不佳。
最近,有人提出了其他技术,如 WiHear [3]、 CARM [9]和[14]中提出的技术。在 WiHear 中,定向天线被用来捕获由于嘴的运动而引起的 CSI 变化。WiHear 的性能很好,但是,这个应用程序只能监视口语单词。在[14]中,作者使用先进的特征提取和机器学习技术来识别键盘上打出的单词。这个想法类似于 CARM [9]中的想法,后者将在下面进行更详细的描述。
CSI 去噪:
CSI 噪声很大,对于不同的活动可能不会显示出明显的特征。因此,有必要首先滤除噪声,然后提取一些特征用于分类使用机器学习技术。有不同的方法来过滤噪音,如巴特沃思低通滤波器[9]。但是,由于爆炸和脉冲噪音的存在在具有高带宽的 CSI 中,低通滤波器不能产生平滑的 CSI 流[9]。
研究结果显示,有一些较佳的技术可以达到这个目的,例如主成分分析去噪技术[9]。主成分分析(PCa)是一种大维系统的降维分析技术,它利用了信号的大部分信息集中在某些特征上的思想。在 CARM 算法中,首先去除第一主成分以降低噪声,然后利用后五主成分进行特征提取。通过去除第一主成分,来自移动目标的动态反射所产生的信息不会丢失,因为它也被捕获在其他主成分中。对 CSI 数据进行主成分分析去噪后,从中提取出一些特征用于分类。下面将讨论特征提取。
特征提取:
从信号中提取特征的一种方法是将其转换到另一个域,例如频率域。快速傅立叶变换(FFT)是离散傅里叶变换的一种有效实现,可以用于这个目的。为此,选择一定数量的 CSI 样本的窗口大小,然后通过滑动窗口对每个段应用 FFT。这种技术,也被称为短时傅立叶变换(STFT) ,可以检测信号随时间的频率变化。短时傅立叶变换已应用于雷达信号检测躯干和腿的运动[8]。在图4中,对于以1kHz 频率收集的 CSI 数据,显示了不同活动的 CSI 的 STFT (光谱图)。如图4所示,涉及剧烈运动的活动,如步行和跑步,在光谱图中显示高频率的高能量。在[3,9,14]中,使用 DWT 作为时间的函数从 CSI 中提取特征。DWT 为高频活动提供高时间分辨率,为低速活动提供高频分辨率。小波变换的每个级别代表一个频率范围,其中较低的级别包含较高的频率信息,而较高的级别包含较低的频率。DWT 相对于短时傅立叶变换(STFT)的优势如[9]所述: • DWT 可以在时间和频率领域提供很好的平衡。离散小波变换也减小了数据的大小,因此它适合于机器学习算法。
在 CARM 中,使用12级 DWT 对五个主成分进行分解(除去第一个主成分后)。然后对 DWT 的五个值求平均值。对于每200毫秒,CARM 提取一个27维特征向量,包括三组特征: •每个小波级的能量,代表不同速度下运动的强度。
* 连续200毫秒间隔的每一水平之间的差异。
•使用多普勒雷达技术估计的躯干和腿部速度[8]。
这些特性被用作下面描述的分类算法的输入。
用于分类的机器学习:
不同的机器学习技术可以用于基于提取的特征的多类分类。一些流行的分类技术包括 Logit模型、支持向量机(SVMs)、隐马尔可夫模型(hMM)和深度学习。由于活动数据是一个序列,CARM 使用 HMM,并表明可以获得令人满意的结果。
使用深度学习进行行为识别活动识别的问题有点类似于语音识别过程,其中传统的 HMM 已被用于分类。然而,深层递归神经网络(RNN)已被认为是隐马尔可夫模型的对应物。训练一个 RNN 是困难的,因为它受到消失或爆炸梯度问题的影响; 然而,在[15]中表明,使用 RNN 的长短期记忆(LSTM)扩展,可以达到迄今为止语音识别的最佳精度。因此,我们建议使用LSTM 用于活动识别,而不是其他传统的机器学习技术,如 HMM,虽然特征提取是不做类似的 CARM。使用 LSTM 有两个优点。首先,LSTM 可以自动提取特征; 换句话说,不需要对数据进行预处理。其次,LSTM 可以保存活动的时间状态信息,即 LSTM 可以区分类似于“躺下”和“下落”的活动由于“躺下”包括“坐下”和“跌倒”,LSTM 的记忆可以帮助识别这些活动。
在本节中,我们实现了不同的方法以及我们提出的方法,并展示了每种方法的性能。
测量设置我们在室内办公区域进行实验,Tx 和 Rx 在视线范围内相距3米。该 Rx 配备了商业英特尔5300网卡,采样率为1千赫。一个人在视线状态下在20秒内开始移动和做一项活动,而在开始和结束时,这个人保持静止不动。我们还记录活动的视频,以便我们可以标记数据。我们的数据集包括6个人,6个活动,表示为“躺下,跌倒,走路,跑步,坐下,站起来,”和每一个20个试验。
评估机器学习技术我们将 PCA 应用于 CSI 振幅,然后使用短时傅立叶变换(STFT)每100毫秒提取频域特征。我们只使用128个 FFT 频率箱中的前25个频率分量,因为大部分活动的能量处于较低的频率,这样,特征向量就不会变得稀疏。
首先,我们使用有100棵树的随机森林进行活动分类。为了使特征向量包含足够多的活动信息,修改后的 STFT 集合每2秒堆叠在一个特征向量中; 因此,每个特征向量的长度将为1000。我们还实现了其他技术,如支持向量机、 Logit模型和决策树,然而,随机森林的表现优于这些技术。
表1 a 显示了随机森林的混淆矩阵,正如所观察到的,在某些活动中可以获得良好的表现,但在“躺下”、“坐下”和“站起来”等活动中则不能同时利用 STFT 方法将隐马尔可夫模型应用于特征提取,并利用 MATLAB 工具箱对隐马尔可夫模型进行训练。注意 HMM 也用于 CARM; 然而,DWT 和[8]中的技术用于特征提取。结果如表1b 所示,与随机森林相比,可以观察到精确度有所提高,尽管训练需要更高的计算时间。虽然 HMM 的表现很好,特别是对于“走”和“跑”,但是它有时会把“站起来”和“坐下”或“躺下”错误地分类我们使用 Python 中的 Tensorflow 来评估 LSTM 的性能。输入特征向量是原始的 CSI 幅度数据,它是一个90维矢量(3个天线和30个子载波)。
LSTM 方法不同于传统方法,它不使用主成分分析(PCA)和短时傅立叶变换(STFT) ,可以直接从 CSI 中提取特征。隐藏单位的数量被选择为200,其中我们只考虑一个隐藏层。对于交叉熵的数值最小化,我们使用批量大小为200,学习率为10-4的随机梯度下降(SGD)。
我们的结果如表1c 所示,其中所有活动的准确率都超过75% 。这种方法使用 LSTM 的缺点之一是训练时间比 HMM 长。不过,使用 Tensorflow 等深度学习软件包,也可以使用图形处理器,加快培训速度。一旦 LSTM 被训练,测试就可以很快的完成。
环境变化对绩效的影响: 不同环境和不同人的 CSI 特征是不一样的。
有不同的技术来减少环境的影响[9]。例如,在使用 PCA 之后,第一个分量主要包括由于静止对象而产生的 CSI 信息[9]。
通过丢弃第一主成分,主要捕获由移动目标产生的信息。因此,利用该技术,可以在不同的环境下获得相对相似的特征。其他技术,如短时傅立叶变换(STFT)和离散小波变换(DWT)代表了多路径的变化速度,这与人体各部位的运动速度有关。尽管在不同环境中相同的活动导致了非常不同的 CSI 特征,但由于信号反射变化的相似性,对于不同的环境和使用 STFT 或 DWT 的人可以获得相似的特征[9]。
Wi-Fi 传输速率对性能的影响: 为了使 CSI 显示由于移动而引起的显著变化,传输速率应该足够高(接近1kHz) ,以捕获快速完成的活动。当采样频率在50Hz 左右时,我们观察到分类方法的性能严重下降。增加帧速率会增加样本数量,从而增加去噪和特征提取的计算量。增加帧速率也可能不会有助于进一步在一些点,因为人的运动速度是有限的,在室内地区。因此,选择一个合适的抽样率(大约1kHz) ,可以在计算成本和精度之间取得良好的平衡。
使用 CSI 相位信息: 由于 CFO 和 SFO 等错误,文献中很少使用 WiFi CSI 相位信息进行活动识别。然而,通过相邻天线的相位信息相互减去,漏掉了 CFO 和 SFO。相位差与到达角(AOA)有关,尽管在接收信号的整周期数中存在整数模糊度。目标位置的改变可以改变 AOA,从而改变相位差。当运动速度较快、幅度较大时,信号会被人体更加随机地散射,从而使 AOA 和相位差变化较快。因此,将相位差和幅值结合起来进行特征提取并应用分类算法可能会有所帮助。然而,由于篇幅有限,需要进一步研究。
多用户活动识别:
虽然许多活动识别技术已经针对单个用户进行了测试,但更有趣也更具挑战性的问题是环境中存在多个人的情况。在文献[2]中提出了一种解决方案,利用 MIMO 接收机的思想来分离由于两个不同的移动对象产生的信号。拥有多个接收器也可能有助于区分多个用户的活动。一些多说话人识别技术可能适用于活动识别问题。这仍然是一个有趣的公开问题。
结论和未来的工作在这项工作中,人类活动识别系统使用 WiFi 信道的最新进展的调查已经提供。该领域的文献显示了在室内环境中获得良好准确性的巨大希望。数值试验表明,采用 RNN LSTM 等深度学习技术比采用 HMM 等方法可以获得更高的精度。在未来的研究工作中,如何利用 CSI 相位信息以及幅度信息,如何使系统在不同的动态环境中具有鲁棒性,以及如何识别多个用户的行为,仍然是一些需要解决的问题。
原文链接:A Survey on Behavior Recognition Using WiFi Channel State Information | IEEE Journals & Magazine | IEEE Xplore
github源码链接:GitHub - Hirokazu-Narui/LSTM_wifi_activity_recognition
编写不易,转载请注明出处;