当前位置:首页 > 问答 > 正文内容

字母圈rigger是什么意思(吴恩达深度学习笔记(136) - 语音识别)

wwwnzt88com2年前 (2023-01-20)问答220
语音识别(Speech recognition)

现今,最令人振奋的发展之一,就是seq2seq模型(sequence-to-sequence models)在语音识别方面准确性有了很大的提升。这门课程已经接近尾声,现在我想通过剩下笔记,来告诉你们,seq2seq模型是如何应用于音频数据的(audio data),比如语音(the speech)。

什么是语音视频问题呢?

现在你有一个音频片段x(an audio clip,x),你的任务是自动地生成文本y

现在有一个音频片段,画出来是这样,该图的横轴是时间。

麦克风的作用是测量出微小的气压变化,现在你之所以能听到我的声音,是因为你的耳朵能够探测到这些微小的气压变化,它可能是由你的扬声器或者耳机产生的,也就是像图上这样的音频片段,气压随着时间而变化。

假如这个我说的音频片段的内容是:"the quick brown fox"(敏捷的棕色狐狸),这时我们希望一个语音识别算法(a speech recognition algorithm),通过输入这段音频,然后输出音频的文本内容。

考虑到人的耳朵并不会处理声音的原始波形,而是通过一种特殊的物理结构来测量这些,不同频率和强度的声波。音频数据的常见预处理步骤,就是运行这个原始的音频片段,然后生成一个声谱图(a spectrogram),就像这样。同样地,横轴是时间,纵轴是声音的频率(frequencies),而图中不同的颜色,显示了声波能量的大小(the amount of energy),也就是在不同的时间和频率上这些声音有多大。

通过这样的声谱图,或者你可能还听过人们谈到过伪空白输出(the false blank outputs),也经常应用于预处理步骤,也就是在音频被输入到学习算法之前,而人耳所做的计算和这个预处理过程非常相似。

语音识别方面,最令人振奋的趋势之一就是曾经有一段时间,语音识别系统是用音位(phonemes)来构建的,也就是人工设计的基本单元(hand-engineered basic units of cells),如果用音位来表示"the quick brown fox",我这里稍微简化一些,"the"含有"th"和"e"的音,而"quick"有"k" "w" "i" "k"的音,语音学家过去把这些音作为声音的基本单元写下来,把这些语音分解成这些基本的声音单元,而"brown"不是一个很正式的音位,因为它的音写起来比较复杂,不过语音学家(linguists)们认为用这些基本的音位单元(basic units of sound called phonemes)来表示音频(audio),是做语音识别最好的办法。

不过在end-to-end模型中,我们发现这种音位表示法(phonemes representations)已经不再必要了,而是可以构建一个系统,通过向系统中输入音频片段(audio clip),然后直接输出音频的文本(a transcript),而不需要使用这种人工设计的表示方法。使这种方法成为可能的一件事就是用一个很大的数据集,所以语音识别的研究数据集可能长达300个小时,在学术界,甚至3000小时的文本音频数据集,都被认为是合理的大小。

大量的研究,大量的论文所使用的数据集中,有几千种不同的声音,而且,最好的商业系统现在已经训练了超过1万个小时的数据,甚至10万个小时,并且它还会继续变得更大。在文本音频数据集中(Transcribe audio data sets)同时包含x和y,通过深度学习算法大大推进了语音识别的进程。

那么,如何建立一个语音识别系统呢?

在上一节笔记中,我们谈到了注意力模型,所以,一件你能做的事就是在横轴上,也就是在输入音频的不同时间帧上,你可以用一个注意力模型,来输出文本描述,如"the quick brown fox",或者其他语音内容。

还有一种效果也不错的方法,就是用CTC损失函数(CTC cost)来做语音识别。

CTC就是Connectionist Temporal Classification,它是由Alex Graves、Santiago Fernandes, Faustino Gomez、和Jürgen Schmidhuber提出的。(Graves A, Gomez F. Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks[C]// International Conference on Machine Learning. ACM, 2006:369-376.)

算法思想如下:

假设语音片段内容是某人说:"the quick brown fox",这时我们使用一个新的网络,结构像这个样子,这里输入x和输出y的数量都是一样的,因为我在这里画的,只是一个简单的单向RNN结构。

然而在实际中,它有可能是双向的LSTM结构,或者双向的GRU结构,并且通常是很深的模型。但注意一下这里时间步的数量,它非常地大。在语音识别中,通常输入的时间步数量(the number of input time steps)要比输出的时间步的数量(the number of output time steps)多出很多。

举个例子,比如你有一段10秒的音频,并且特征(features)是100赫兹的,即每秒有100个样本,于是这段10秒的音频片段就会有1000个输入,就是简单地用100赫兹乘上10秒。所以有1000个输入,但可能你的输出就没有1000个字母了,或者说没有1000个字符。

这时要怎么办呢?

CTC损失函数允许RNN生成这样的输出:ttt,这是一个特殊的字符,叫做空白符,我们这里用下划线表示,这句话开头的音可表示为h_eee_ _ _,然后这里可能有个空格,我们用这个来表示空格,之后是_ _ _qqq__,这样的输出也被看做是正确的输出。

下面这段输出对应的是"the q"。

CTC损失函数的一个基本规则是将空白符之间的重复的字符折叠起来,再说清楚一些,我这里用下划线来表示这个特殊的空白符(a special blank character),它和空格(the space character)是不一样的。

所以the和quick之间有一个空格符,所以我要输出一个空格,通过把用空白符所分割的重复的字符折叠起来,然后我们就可以把这段序列折叠成"the q"。这样一来你的神经网络因为有很多这种重复的字符,和很多插入在其中的空白符(blank characters),所以最后我们得到的文本会短上很多。

于是这句"the quick brown fox"包括空格一共有19个字符,在这样的情况下,通过允许神经网络有重复的字符和插入空白符使得它能强制输出1000个字符,甚至你可以输出1000个y值来表示这段19个字符长的输出。这篇论文来自于Alex Grace以及刚才提到的那些人。我所参与的深度语音识别系统项目就使用这种思想来构建有效的语音识别系统。

希望这能给你一个粗略的理解,理解语音识别模型是如何工作的:

注意力模型是如何工作的,以及CTC模型是如何工作的,以及这两种不同的构建这些系统的方法。

现今,在生产技术中,构建一个有效语音识别系统,是一项相当重要的工作,并且它需要很大的数据集,下节笔记我想做的是告诉你如何构建一个触发字检测系统(a rigger word detection system),其中的关键字检测系统(keyword detection system)将会更加简单,它可以通过一个更简洁的数量更合理的数据来完成。所以我们下节课再见

扫描二维码推送至手机访问。

版权声明:本文由小草网发布,如需转载请注明出处。

本文链接:http://www.nzt88.com/87725.html

分享给朋友:

“字母圈rigger是什么意思(吴恩达深度学习笔记(136) - 语音识别)” 的相关文章

做手术前的一些祝福语(祝做手术的人的祝福语)

做手术前的一些祝福语(祝做手术的人的祝福语)

给即将要做手术的朋友的祝福语2、风雨过后,彩虹出现,病后身体健康,从此安康不欠,活泼开朗笑容甜美,健康快乐地去赚钱,生活美好快乐。 祝你早日康复。3、如果你对所有的事情都已经无能为力了,就没必要记住它! 如果你还有什么可以做的,就不用担心了。4、你的康复是我们的幸福; 你的安康,是我们的平安。 真心...

雉堞怎么读(雉堞圮毁为什么读圮)

雉堞怎么读(雉堞圮毁为什么读圮)

雉堞榛这三个的读音分别为什么??野鸡【zh】是野鸡的意思。 di是用泥砖砌成的薄形矮墙榛zh栏n植物果实师榛子雉的读音?雉拼音: [zh];1 .鸟,雄性羽毛美丽,尾巴长; 雌性淡黄褐色,尾巴短。 容易走,不能飞很久。 肉可以吃,羽毛可以做装饰品。 俗称“野鸡”。2 .计算古代城墙面积的单位,长三丈...

诊断策略服务已被禁用(win10诊断策略服务已被禁用)

电脑网络网络用不了桌面上显示诊断策略服务器已被禁用是什么情况?可能是你电脑的网络设置发生了变化。 请打开设定并尝试重新设定。 请再试一次。 也许电脑网络不可用了,桌面上会显示诊断策略服务器被禁用了。 那么,请明显关闭电脑电源后再尝试接通电源。 如果不顺利的话,编写程序完成程序就没问题了。 请看网络没...

预收账款是什么意思(预收账款是什么意思通俗点说)

预收账款是什么意思(预收账款是什么意思通俗点说)

预收账款应收账款期末余额在借方,实质反应的是企业应收账款。 应收帐款期末馀额=应收帐款明细行借方馀额预收科目明细行借方馀额-未付的呆帐准备金。 乐会网络会计实务交流QQ群欢迎你交流学习。 应收账款( Deposit received )是指企业向购买者预付的购买保证金或部分款项。预付账款和预收账...

一炷香是多久(一炷香功夫是多久)

一柱香是多少时间?过去指的是“一焕香”的时间,也就是2分钟左右,也就是约30分钟。“一焕香”的时间概念源于僧人坐禅。 和尚以烧香为计时方法。 例如,僧人“禅七”时一天烧11炱香,其间休息约20分钟。当时,这是一个非常好的方法。 白天夜晚不受影响,手机方便,制作简单,营造氛围。 那时的香都是手工制作的...

叶朋

叶朋

淘宝老板是谁截至2020年11月23日,淘宝老板是张勇。2015年4月10日淘宝法定代表人(负责人)由马云转为陆兆禧; 2016年5月23日,淘宝法定代表人(负责人)由陆兆禧转为张咏。 2016年3月29日,阿里巴巴集团首席执行官张咏为淘宝的未来阐明了战略。 社区化、内容化、当地生活化是三个方向。淘...

小学生消防作文300字(小学生消防作文300字一等奖)

关于消防的作文300字火是给人光的火,给人温暖的火是给人美食。 但是,火也可以吞噬每一条生命。火是人类文明的象征,我们不能每天开枪。 但是,火灾的出现,给人们的生活带来了巨大的灾难。 为了防止火灾,我们需要了解更多的防止火灾的知识。 因为火灾随时都有可能发生在我们身上。 如果我们用错了火,火就会烧毁...

厢庑(厢庑的拼音)

厢的组词守在笼子里。汉字“庠”组词有两庠,意为男女互相照顾,相守永不分离。汉字“厢”的其他组词:“关厢”、“两厢”、“墙厢”、“车厢”、“箱室”、“弓厢”、“边厢村”、“连厢”、“东庙”、“厦庙”、“厦庙”谁有林黛玉进贾府的路线图啊? 要图!!林黛玉进入贾府的顺序:“弃舟登岸”后,自东向西依次为“宁...

婺源怎么读(zi'yuan婺源怎么读)

婺源怎么读?婺源读作wyun。 婺的声母为w,韵母为u,声调为四声; 的声母为y,韵母为u和an,声调为二声。婺源县属江西省上饶市,江西省东北部,东经1172156.6- 1181213.7,北纬290143.3- 293439.3,总面积2967平方公里婺源县地处中亚热带,具有东亚季风区特色,气候...

捅组词(捅组词两个字)

捅组词(捅组词两个字)

捅字的组词一、刺伤的话:扎大口、扎咕咕、扎卢、扎漏啄大楼,啄蜂窝二、刺伤释义:1、印章; 扎了一刀。 他在窗户纸上凿了一个大窟窿。2、触摸; 触摸:我用胳膊肘碰了他~。3、冲破; 暴露:他是个直爽的人,看到的一切~都出来了。一、字源演变:小篆、楷体二、异形字:三、相关组词:1、刺屏[tngdn]大量...

泰语你好怎么说发音(泰语的我爱你怎么说发音)

“你好”用泰语怎么说?1、你好=[读作:三个瓦滴]。2、男女使用不同语调的助词,长辈和后辈也不同。 如下。(1)、男子(三人瓦滴krub;(2)、女生(三人瓦滴牌;(3)、长辈(三个瓦会滴下来吗?扩展数据:1、常用问候语:(1)、/sawsdee-你好;) 2、-你好吗;(3)、-很高兴见到你;(4...

酸碱盐怎么区分(初三化学酸碱盐怎么区分)

酸碱盐怎么区分区分酸碱的方法:阳离子均为h的化合物为酸,阴离子均为OH-的化合物为碱,金属离子和酸离子组成的化合物为盐。电离时生成的阳离子都是氢离子( h )的化合物称为酸,或者溶解在水中释放质子,释放出H3O ) )水合离子)的物质也是酸。 H3O的浓度越高,溶液的酸性越强。在酸碱电离理论中,...

辅助角公式推导(辅助角公式推导)

求辅助角公式的详解a*sinx b*cosx=(根号下( a^2 b^2) ) sin ) xt )其中,tant=b/a且t的末端位于与( a,b )相同的象限在一般主题中出现a*sinx b*cosx的形状后,可以用这个公式带走一带。 特别是当a、b之比为根号3或三分根号3或其他特殊角...

三星手机无服务怎么办(三星手机电话打不进来怎么办)

三星手机无服务怎么办(三星手机电话打不进来怎么办)

三星手机无服务怎么解决尊敬的三星用户,你好:根据说明,建议按以下步骤尝试。1 .重新打开手机开关2 .取出sim,用橡皮清洁sim卡的金属触点。 ( sim卡是否接触不良)3 .更换一张sim卡并尝试将其插入本机( sim卡是否老化或损坏) ) )。4 .检查手机上是否安装了安全卫士和电通等软件,试...

热辣辣的意思(太阳热辣辣的意思)

热辣辣的近义词是什么?热同义词、近义词一般字相同。 例如,安静与安静、保护与防卫、储藏与储藏、美丽与美丽等。 那些意思相近,但有这个微妙的区别。 一般来说,我觉得很多时候会有字的重复。 由此,我认为有一个很热的同义词:火辣辣的、想要的、想要的等火辣辣的意思是什么火辣表示兴奋、兴奋、害羞等感情。...

奂组词(涣组词)

用奂组词 多一点美轮美奂鄂,矗,鸵,循,芝,奂怎么组词(颌组词)鄂舟、圻颌、谏颌、襴颌、跗颌、垠颌、孙颌、作颌、鄂渚、颌足、鄞颌、鄂棣、鄂、鄂王、沂颌、穣颌、鄂君、喷雾君、喷雾被、(瞿组词)瞿、瞿灯、瞿削、瞿入、橐、瞿然、高脑、瞿立、骟、瞿、瞿、云瞿、直瞿、离)。鸵鸟语言:鸵鸟、鸵鸟政策循环词(从、...