鸡尾酒会问题

百燕之家 / 信息详情

典型的鸡尾酒会问题中提取出不同人说话的声音是什么

典型的鸡尾酒会问题中提取出不同人说话的声音是非监督学习。在典型的鸡尾酒会问题中,提取出不同人说话的声音,可以采用非监督学习的方法来解决。非监督学习是一种机器学习技术,其目的是在没有标记数据的情况下,从数据中发现有意义的结构和模式。在鸡尾酒会问题中,没有对每个人的语音进行标记,因此非监督学习方法可以更好地适应这种场景。

典型的鸡尾酒会问题中提取出

典型的鸡尾酒会问题中提取出如下:“鸡尾酒会问题”(cocktailparty problem)是在计算机语音识别领域的一个问题,当前语音识别技术已经可以以较高精度识别一个人所讲的话,但是当说话的人数为两人或者多人时,语音识别率就会极大的降低,这一难题被称为鸡尾酒会问题。该问题描述的是给定混合信号,如何分离出鸡尾酒会中同时说话的每个人的独立信号。当有N个信号源时,通常假设观察信号也有N个(例如N个麦克风或者录音机)。该假设意味着混合矩阵是个方阵,即J = D,其中D是输入数据的维数,J是系统模型的维数。盲信号分离盲信号分离指的是从多个观测到的混合信号中分析出没有观测的原始信号。通常观测到的混合信号来自多个传感器的输出,并且传感器的输出信号独立性(线性不相关)。盲信号的“盲”字强调了两点:原始信号并不知道;对于信号混合的方法也不知道。为了简单易懂,我们先看看只有两个信号源的情况,即观测信号也是只有两个。 和是两个源信号; 和是两个观测信号; 和是对声源信号 和 的估计。矩阵A是混合矩阵(说得有点别扭,混合矩阵就是将两个信号混合在一起,然后产生输出两个观测信号)。

鸡尾酒会问题 Cocktail Party Problem

阅读原文 鸡尾酒会问题是在计算机 语音识别 领域的一个问题。 当前语音识别技术已经可以以较高精度识别一个人所讲的话,但是当说话的人数为两人或者多人时,语音识别率就会极大的降低 ,这一难题被称为鸡尾酒会问题。 该问题 给定混合信号 ,分离出鸡尾酒会中 同时说话的每个人的独立信号 。 设有N个信号源(N个人说话) 通常假设观察信号也有N个(N个麦克风) 该假设意味着混合矩阵是个方阵(每个麦克风都接收了N个人说话的声音) 即 J = D,其中D是输入数据的维数,J是系统模型的维数。 要分离出鸡尾酒会中同时说话的每个人的独立信号,常用的方法是盲信号分离算法。 盲信号(Blind Source Separation,BSS)分离指的是 从多个观测到的混合信号中分析出没有观测的原始信号 。通常观测到的 混合信号(麦克风接收到) 来自 多个传感器(多个人说话) 的输出,并且传感器的输出信号独立(线性不相关)。 盲信号的 “盲” 字强调了两点: 我们先看只有 2 个信号源的情况,则观测信号也只有 2 个。 矩阵表达形式: A 11 :1号麦克风接收到1号人的声音; A 12 :1号麦克风接收到2号人的声音; 所以, x 1 = A 11 ·S 1 + A 12 ·S 2 ,为1号麦克风得到的混合声音。 因为信号混合方法未知,所以 A 矩阵未知。 模型最终目的,y 1 = S 1 ,y 2 = S 2 。 理想状态下,W 矩阵 是 A 矩阵 的 逆矩阵。 由于参数空间不是欧几里得度量(两点间直线),在大多的情况下都是黎曼度量(两点间弧线,即空间参数向量不是线性变化的),因此对于W矩阵的求解选用 自然梯度解法 。 比较 W(n+1) 与 W(n) 两个矩阵的差异 需要用 黎曼度量 (相似性度量)。 自然梯度法计算公式: 计算步骤: