当前位置: 首页 > news >正文

东莞门户网站建设东莞人才市场最新招聘信息

东莞门户网站建设,东莞人才市场最新招聘信息,怎么在百度上发表文章,电商网站建设懂你所需一、说明 在语音识别的深度学习#xff08;DL#xff09;时代之前#xff0c;HMM和GMM是语音识别的两项必学技术。现在#xff0c;有将HMM与深度学习相结合的混合系统#xff0c;并且有些系统是免费的HMM。我们现在有更多的设计选择。然而#xff0c;对于许多生成模型来说… 一、说明 在语音识别的深度学习DL时代之前HMM和GMM是语音识别的两项必学技术。现在有将HMM与深度学习相结合的混合系统并且有些系统是免费的HMM。我们现在有更多的设计选择。然而对于许多生成模型来说HMM仍然很重要。但无论状态如何语音识别都有助于我们更好地理解HMM和GMM在ML环境中的应用。所以停止长脸让我们有时花在上面。 二、自动语音识别 ASR 让我们先了解一下高级概述。下图是语音识别的高级体系结构它将HMM隐马尔可夫模型与语音识别联系起来。 从音频剪辑开始我们滑动宽度为 25 毫秒、间隔 10 毫秒的窗口以提取 MFCC 特征。对于每个窗口框架将提取 39 个 MFCC 参数。语音识别的主要目标是构建一个统计模型从特征向量 X 序列推断文本序列 W例如“猫坐在垫子上”。 一种方法查找所有可能的单词序列最大长度有限并找到与输入声学特征最匹配的单词序列。 该模型依赖于构建语言模型 PW、发音词典模型和声学模型 PX|W生成模型如下所示。 从源代码修改 发音模型可以使用表格将单词转换为音素或者语料库已经使用音素转录。声学模型是关于在给定一系列电话而不是单词的情况下对一系列特征向量进行建模。但我们将继续使用符号 pX|W 作为声学模型。只是要注意。 语言模型是关于单词序列的可能性。例如“我看电影”比“我看电影”或“我看苹果”的可能性更大。它根据前面的单词预测下一个单词。如果我们用一阶马尔可夫链近似它下一个单词将仅取决于当前单词。我们可以通过计算语料库中单词对的出现来估计它。 通过结合声学模型和语言模型我们搜索具有最大可能性的文本序列。 这种方法听起来很间接搜索看起来效率低下或不可能。但是pX|W在语音识别中建模要容易得多。可以使用高斯混合模型 GMM 对电话的特征分布进行建模。我们将通过训练数据来学习它。手机和相应可观测值之间的转换可以使用隐马尔可夫模型 HMM 进行建模。因此如果我们能找到一种有效搜索电话序列的最佳方法这听起来可能还不错。 HMM 模型由隐藏变量和可观察量组成。下面的顶部节点表示电话底部节点表示相应的可观察量音频功能。水平箭头演示了电话序列中真实标签“她只是......”的过渡。 在语音识别中可观察量可以用从相应的音频帧中提取的39个MFCC特征来表示。好消息是使用此HMM模型我们不需要逐个搜索电话序列。否则复杂性会随着电话数量的增加呈指数级增长。使用维特比算法或其他HMM方法我们可以在多项式时间内找到最佳序列。我们稍后会回到这个问题。 下图是自动语音识别 ASR 的可能实现。结合有关词典声学模型和语言模型的信息我们可以使用Viterbi解码器找到最佳的电话序列。 从源代码修改O在这里与X相同 让我们快速回顾一下我们可以用HMM对声学模型PX|W进行建模。HMM 模型上的箭头将表示电话转换或指向可观察量的链接。为了对我们观察到的音频特征进行建模我们从训练数据中学习GMM模型。因此让我们先在一般背景下更多地了解HMM和GMM。 三、隐马尔可夫模型 马尔可夫链包含系统的所有可能状态以及从一个状态过渡到另一个状态的概率。 一阶马尔可夫链假设下一个状态仅取决于当前状态。为简单起见我们通常将其称为马尔可夫链。 这个模型将更容易处理。然而在许多 ML 系统中并非所有状态都是可观察的我们称这些状态为隐藏状态或内部状态。有些人可能会将它们视为输入的潜在因素。例如要知道我是快乐还是悲伤可能并不容易。我的内部状态将是 {H 或 S}。但是我们可以从观察中得到一些提示。例如当我高兴时我有0.2的机会看电影但当我悲伤时这个机会上升到0.4。在给定内部状态的情况下观察可观测物的概率称为发射概率。从一个内部状态过渡到另一个内部状态的概率称为转移概率。 对于语音识别可观察量是每个音频帧中的内容。我们可以使用 MFCC 参数来表示它。让我们看看我们可以用 HMM 做什么。 前向算法的可能性 HMM 由跃迁和发射概率建模。 给定学习了HMM模型我们可以使用前向算法来计算观察的可能性。我们的目标是总结所有可能状态序列的观测概率 但我们必须聪明地做到这一点。我们不能一次对所有可能的状态序列求和。它具有指数级的复杂性。 我们的策略将采用分而治之的方法。如果我们可以递归地表达计算我们就可以将问题分解为中间步骤。在 HMM 中我们使用时间 t-1 和/或 t1 的结果来解决时间 t 的问题。下面的圆圈代表时间 t 时的 HMM 隐藏状态 j。因此即使状态序列的数量随时间呈指数增长如果我们能够随时间递归地表达计算我们也可以线性求解它。 这是打破指数诅咒的动态编程的思想。在时间 t 处截至时间 t 的观测概率为 让我们将红色下划线的项重命名为tj前向概率α并检查我们是否可以递归表示它。由于当前观测值仅取决于当前状态因此α可以表示为 所以它确实有一个递归关系。以下是使用递归计算给定模型 λ 的观测值可能性的步骤。我们不是单独对每个状态序列求和而是计算从时间步长 1 到结束时间 T的α。如果有 k 个内部状态则复杂度将仅为 Ok²T而不是指数。 下面是一个示例我们从左侧的初始状态分布开始。然后我们将α的值向右传播。我们计算每个状态的α并为每个时间步重复此操作。 接下来给定HMM模型我们如何找到给定观察序列的内部状态。此过程称为解码。这对于语音识别尤其有趣。如果我们有一个音频剪辑则内部状态代表电话。语音识别可以被视为在给定音频剪辑的情况下找到这些内部状态。 解码查找内部状态 — 维特比算法 同样我们希望递归地表达我们的组件。给定时间 t 处的状态为 jvtj 是观测序列与最优状态序列的联合概率。 因此不仅可以完成方程类似于前向算法只是求和被最大函数替换。维特比算法不是在前向算法中对所有可能的状态序列求和而是采用最可能的路径。 从源代码修改 查找最大化观测值可能性的内部状态类似于似然法。我们只是用最大函数替换求和。 在这个算法中我们还记录了在时间t上面的红色箭头通向每个节点的最大路径即我们回溯每个节点的最佳路径。例如我们从 t1 的快乐状态 H 过渡到 t2 的快乐状态 H。 源 学习鲍姆-韦尔奇算法/前向-后向算法 现在它涉及到困难的部分。我们如何学习HMM模型这可以通过Baum-Welch算法前向-后向算法来完成以学习跃迁和发射概率。这项任务听起来不可能完成因为在我们的计算中这两种概率都非常纠结。但从某种角度来看如果我们知道状态占用概率时间t的状态分布我们就可以推导出发射概率和转移概率。如果我们知道这两个概率我们可以推导出时间 t 的状态分布。这就是我们在EM算法中讨论的先有鸡还是先有蛋的问题。EM算法在迭代步骤中解决了这个问题。在每一步中我们优化一个潜在变量同时修复其他潜在变量。想象一下每个迭代步骤都会改进解决方案。即使对于连续空间我们的工作精度也有限因此需要探索和改进的是有限的状态。因此如果我们保持迭代解决方案将收敛。 因此鲍姆-韦尔奇算法是EM算法的特例也就不足为奇了。 让我们熟悉以下新符号。 我们已经熟悉前向算法中的α前向概率。β后向概率是它在相反方向上的近亲在给定时间 t 的状态 i 的情况下看到所有即将到来的观测值的概率。我们可以递归地表达它类似于α但方向相反又名向后算法。 要学习HMM模型我们需要知道我们是什么状态才能最好地解释观察结果。这将是状态占领概率γ — 给定所有观测值的时间 t 的状态 i 的概率。 给定固定的HMM模型参数我们可以应用前向和后向算法来计算观测值的α和β。γ可以通过简单地将α乘以β来计算然后重新规范化它。 ξ 是在给定所有观测值的时间 t 之后从状态 i 过渡到 j 的概率。它可以通过类似α和β来计算。 直观地说使用固定的HMM模型我们使用给定的观测值细化状态占用概率γ和转移ξ。 鸡和蛋的部分来了。一旦细化了γ和ξθ₂的分布我们就可以对最佳跃迁和发射概率θ₁ab进行点估计。 我们修复一组参数以改进其他参数并继续迭代直到解决方案收敛。 EM 算法通常定义为 在这里E步建立了pγξ | xab。然后M步长找到ab大致最大化下面的目标。 以下是该算法的回顾 因此给定训练数据中的所有观察结果Baum-Welch 算法可以学习 HMM 模型。但是请记住保持开放的心态。在语音识别中问题要复杂得多许多解决方案有时无法很好地扩展。 四、声学模型 从源代码修改 在 ASR 中我们可以使用发音表为文本序列 Y 生成电话。接下来我们需要为这些手机创建一个声学模型。 几十年来人们对语音学的研究已经完成。专家可以通过直接读取频谱图来识别元音和辅音。 源 但是同样我们需要一个更密集的声学模型表示这样我们就可以确定给定手机PX|phone的音频特征向量X的可能性。 使用 MFCC我们从音频帧中提取 39 个特征。让我们简化图片并假设每帧只有一个特征。对于状态“sh”电话可以使用正态分布对此功能的值进行建模。 要将概念扩展到 39 个特征我们只需要一个包含 39 个变量的多元正态分布。下图可视化了两个变量的二元正态分布。 二元正态分布 以下是多元正态分布的定义。 其中 Σ 是测量变量之间相关性的协方差矩阵。MFCC 参数具有很好的属性。有相对独立的。因此Σ的非对角线元素可以简单地设置为零。 但是多维度思考太难了。因此我们将坚持使用一维示例进行说明。观测特征 x 的似然 px| q 将计算为它与正态分布 q 的峰值有多远 给定不同的手机我们可以计算相应的概率密度值并将其归类为具有最高值的手机。为了学习这种高斯分布我们可以简单地从训练数据点xi进行估计。 这些方程可以通过最大化训练数据的可能性来证明。 源 所以这个高斯模型很容易从训练数据中学习并为我们提供了一个很好的Px|μσ²。在语音识别的背景下我们可以学习每部手机的高斯模型μσ²。这用作可能性概率。这也充当HMM中的发射概率。 不幸的是即使我们使用多元高斯分布这个概念也是幼稚的。如果这是真的学习外语口语会简单得多。这种可能性比单个峰值钟形曲线更复杂。为了解决这个问题我们切换到高斯混合模型GMM。这允许分布是多模态的即我们允许一个特征有几个可能的值。这提供了语音变体的灵活性。 例如右侧的GMM将三个具有不同权重的高斯分布组合在一起形成一个新的概率密度3分量GMM。该模型仍然非常密集6 个高斯参数加上 3 个权重。 GMM声学模型 直观地可以在m模式之一附近观察到特定手机的特征值。但某些值可能比其他值更有可能。因此我们引入权重来指示哪些更有可能。当内部 HMM 状态为 j 时观察到的特征向量的可能性为 为了学习 GMM例如对于 2 分量 GMM我们馈送从训练数据中提取的特征以拟合这两个集群的参数。从概念上讲我们从这些参数的初始或随机猜测开始。我们找到每个数据样本应属于哪个集群。然后我们根据关联的数据点重新计算聚类参数。 是的我们将使用 EM 算法迭代解决方案直到它收敛。在EM中我们使用软赋值而不是硬赋值。对于硬分配我们分配每个数据样本所属的特定集群点估计。在软赋值中它将是一个概率分布。因此样本有可能属于集群。然后我们根据此软分配重新计算集群参数。由于我们已经多次介绍过这一点因此我们不会详细说明如何进一步训练它。 回顾一下给定一部手机我们可以使用 GMM 学习可观察量的特征向量。这种概率分布允许我们计算给定电话 Px|s 的语音片段的可能性——这也是给定 HMM 内部状态的发射概率。 五、矢量量化 在整个过程中我们尝试对声学信号的更密集表示进行建模。GMM是一种流行的方法。或者在我们从语料库中提取一组训练的特征向量后我们将这些特征分组到 k 个聚类中比如使用 k 均值聚类。这将创建一个大小为 k 的代码本来编码音频帧。 k3 表示二维数据 有了这个索引我们可以开始使用它来训练 HMM。训练模型后我们也可以使用它来解码音频剪辑。这种方法称为矢量量化并用于早期研究。但与GMM相比它不太受欢迎。因此我们只是希望您意识到这一点。 六、反思 GMM 对给定手机的特征向量的观测概率分布进行建模。它提供了一种原则性方法来测量手机和我们观察到的音频帧之间的“距离”。 另一方面HMM产生了一个关于状态如何过境和观察的原则模型。由于观测值的概率可以用HMM建模为 方程源 其中 h 是隐藏状态电话。给定手机功能的可能性可以使用GMM建模。
http://www.tj-hxxt.cn/news/231431.html

相关文章:

  • ipad怎么制作网站七冶建设集团网站
  • 嘉兴定制型网站建设免备案的网站
  • 山西龙采网站建设合同电子商务网站开发 什么框架
  • 龙江网站开发大连建设执业资格注册中心网站
  • 重庆渝北网站建设悟空建站seo服务
  • 免费制作音乐的软件app济南网站建设seo优化
  • 企业网站首页代码html网站更新
  • 网站建设案例策划蚌埠网站制作
  • 百度申请完域名怎么建设网站在沈阳做一个展示网站多少钱
  • 深圳做网站电话网络服务机构
  • 网站二级域名是什么视频模板套用免费
  • 潍坊哪家做网站做的最好网站常用的一种js幻灯片
  • 网络推广网站排名wordpress做表格插件
  • 阿里手机网站开发框架浙江温州乐清
  • 设计的有趣的网站网站免费软件
  • 如何学习网站开发编程定海建设规划网站
  • 上海网站备案广州网站建设咨询电话
  • 网站建设浙江如何做流量网站
  • 吴中区网站建设技术中山医疗网站建设
  • 怎么做兼职网站吗seo交流网
  • php网站好做seo经营性 网站备案
  • 东莞营销网站建设服务网站后台传照片 c windows temp 拒绝访问
  • 巴中微信网站建设网站 网页设计
  • 网站怎么做抽奖wordpress建娱乐站
  • 海口网站建设维护icp备案号怎么查
  • 苏州网站建设找思创唐山百度搜索排名优化
  • 教育培训机构有关的网站作图网址
  • 中航长江建设工程有限公司网站网站推广计划的内容
  • 网站设计制作全网优惠100元建网站
  • 站长工具在线陕西建设厅官网首页