当前位置:首页 > 问答 > 正文内容

字母圈rigger是什么意思(吴恩达深度学习笔记(136) - 语音识别)

wwwnzt88com2年前 (2023-01-20)问答229
语音识别(Speech recognition)

现今,最令人振奋的发展之一,就是seq2seq模型(sequence-to-sequence models)在语音识别方面准确性有了很大的提升。这门课程已经接近尾声,现在我想通过剩下笔记,来告诉你们,seq2seq模型是如何应用于音频数据的(audio data),比如语音(the speech)。

什么是语音视频问题呢?

现在你有一个音频片段x(an audio clip,x),你的任务是自动地生成文本y

现在有一个音频片段,画出来是这样,该图的横轴是时间。

麦克风的作用是测量出微小的气压变化,现在你之所以能听到我的声音,是因为你的耳朵能够探测到这些微小的气压变化,它可能是由你的扬声器或者耳机产生的,也就是像图上这样的音频片段,气压随着时间而变化。

假如这个我说的音频片段的内容是:"the quick brown fox"(敏捷的棕色狐狸),这时我们希望一个语音识别算法(a speech recognition algorithm),通过输入这段音频,然后输出音频的文本内容。

考虑到人的耳朵并不会处理声音的原始波形,而是通过一种特殊的物理结构来测量这些,不同频率和强度的声波。音频数据的常见预处理步骤,就是运行这个原始的音频片段,然后生成一个声谱图(a spectrogram),就像这样。同样地,横轴是时间,纵轴是声音的频率(frequencies),而图中不同的颜色,显示了声波能量的大小(the amount of energy),也就是在不同的时间和频率上这些声音有多大。

通过这样的声谱图,或者你可能还听过人们谈到过伪空白输出(the false blank outputs),也经常应用于预处理步骤,也就是在音频被输入到学习算法之前,而人耳所做的计算和这个预处理过程非常相似。

语音识别方面,最令人振奋的趋势之一就是曾经有一段时间,语音识别系统是用音位(phonemes)来构建的,也就是人工设计的基本单元(hand-engineered basic units of cells),如果用音位来表示"the quick brown fox",我这里稍微简化一些,"the"含有"th"和"e"的音,而"quick"有"k" "w" "i" "k"的音,语音学家过去把这些音作为声音的基本单元写下来,把这些语音分解成这些基本的声音单元,而"brown"不是一个很正式的音位,因为它的音写起来比较复杂,不过语音学家(linguists)们认为用这些基本的音位单元(basic units of sound called phonemes)来表示音频(audio),是做语音识别最好的办法。

不过在end-to-end模型中,我们发现这种音位表示法(phonemes representations)已经不再必要了,而是可以构建一个系统,通过向系统中输入音频片段(audio clip),然后直接输出音频的文本(a transcript),而不需要使用这种人工设计的表示方法。使这种方法成为可能的一件事就是用一个很大的数据集,所以语音识别的研究数据集可能长达300个小时,在学术界,甚至3000小时的文本音频数据集,都被认为是合理的大小。

大量的研究,大量的论文所使用的数据集中,有几千种不同的声音,而且,最好的商业系统现在已经训练了超过1万个小时的数据,甚至10万个小时,并且它还会继续变得更大。在文本音频数据集中(Transcribe audio data sets)同时包含x和y,通过深度学习算法大大推进了语音识别的进程。

那么,如何建立一个语音识别系统呢?

在上一节笔记中,我们谈到了注意力模型,所以,一件你能做的事就是在横轴上,也就是在输入音频的不同时间帧上,你可以用一个注意力模型,来输出文本描述,如"the quick brown fox",或者其他语音内容。

还有一种效果也不错的方法,就是用CTC损失函数(CTC cost)来做语音识别。

CTC就是Connectionist Temporal Classification,它是由Alex Graves、Santiago Fernandes, Faustino Gomez、和Jürgen Schmidhuber提出的。(Graves A, Gomez F. Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks[C]// International Conference on Machine Learning. ACM, 2006:369-376.)

算法思想如下:

假设语音片段内容是某人说:"the quick brown fox",这时我们使用一个新的网络,结构像这个样子,这里输入x和输出y的数量都是一样的,因为我在这里画的,只是一个简单的单向RNN结构。

然而在实际中,它有可能是双向的LSTM结构,或者双向的GRU结构,并且通常是很深的模型。但注意一下这里时间步的数量,它非常地大。在语音识别中,通常输入的时间步数量(the number of input time steps)要比输出的时间步的数量(the number of output time steps)多出很多。

举个例子,比如你有一段10秒的音频,并且特征(features)是100赫兹的,即每秒有100个样本,于是这段10秒的音频片段就会有1000个输入,就是简单地用100赫兹乘上10秒。所以有1000个输入,但可能你的输出就没有1000个字母了,或者说没有1000个字符。

这时要怎么办呢?

CTC损失函数允许RNN生成这样的输出:ttt,这是一个特殊的字符,叫做空白符,我们这里用下划线表示,这句话开头的音可表示为h_eee_ _ _,然后这里可能有个空格,我们用这个来表示空格,之后是_ _ _qqq__,这样的输出也被看做是正确的输出。

下面这段输出对应的是"the q"。

CTC损失函数的一个基本规则是将空白符之间的重复的字符折叠起来,再说清楚一些,我这里用下划线来表示这个特殊的空白符(a special blank character),它和空格(the space character)是不一样的。

所以the和quick之间有一个空格符,所以我要输出一个空格,通过把用空白符所分割的重复的字符折叠起来,然后我们就可以把这段序列折叠成"the q"。这样一来你的神经网络因为有很多这种重复的字符,和很多插入在其中的空白符(blank characters),所以最后我们得到的文本会短上很多。

于是这句"the quick brown fox"包括空格一共有19个字符,在这样的情况下,通过允许神经网络有重复的字符和插入空白符使得它能强制输出1000个字符,甚至你可以输出1000个y值来表示这段19个字符长的输出。这篇论文来自于Alex Grace以及刚才提到的那些人。我所参与的深度语音识别系统项目就使用这种思想来构建有效的语音识别系统。

希望这能给你一个粗略的理解,理解语音识别模型是如何工作的:

注意力模型是如何工作的,以及CTC模型是如何工作的,以及这两种不同的构建这些系统的方法。

现今,在生产技术中,构建一个有效语音识别系统,是一项相当重要的工作,并且它需要很大的数据集,下节笔记我想做的是告诉你如何构建一个触发字检测系统(a rigger word detection system),其中的关键字检测系统(keyword detection system)将会更加简单,它可以通过一个更简洁的数量更合理的数据来完成。所以我们下节课再见

扫描二维码推送至手机访问。

版权声明:本文由小草网发布,如需转载请注明出处。

本文链接:http://www.nzt88.com/87725.html

“字母圈rigger是什么意思(吴恩达深度学习笔记(136) - 语音识别)” 的相关文章

正割函数图像(余割函数图像)

正割函数图像及性质正割是指直角三角形,斜边与某个锐角旁边的边之比,称为该锐角的正割,用sec (角)表示。 正割是馀弦函数的倒数。正割是三角函数的正函数(正弦、正切、正割、正矢)之一,因此在到的区间之间函数递增,正割函数和余弦函数彼此倒数。在单位圆上,正割函数位于割线上,因此将此函数命名为正割函数...

浙江体彩20选5开奖结果(浙江体彩20选5开奖结果新闻)

浙江体彩开奖查询第10121期你好这个朋友浙江体彩有数字音乐透射型彩票,即开放式彩票等。数字透射型彩票有体彩6 1、超大乐透、排列3、排列5、31选7、20选5等你的应该是数字音乐透射型彩票6[规则]第10121期推荐时间:星期二、星期五、日开奖结果528063 9超乐透[规则]第10120期推荐时...

irc是什么意思(轮胎irc是什么意思)

IRC的全称是什么?意思是什么IRC的全名是InternetRelayChat。 在中文里被称为网络直播聊天。IRC是InternetRelayChat的英语缩写,中文通常被称为网络直播聊天。 这是芬兰人JarkkoOikarinen于1988年发起的聊天协议。 经过十年的发展,现在世界上有60多个...

禺疆(禺疆图片)

中国古代神话中的火神、水神、风神、雷神分别是谁?火神是祝融,水神是共工,风神是风伯,雷神是雷公。祝融是三皇五帝时夏官火正的官名,和大司马是同义词。 历史上许多有名的祝融被后世奉为火神灶神。 祝融氏也出现了多元性,历史上有鄂族祝融氏和炎帝族祝融氏。其中,炎帝子孙黄帝夏官闪耀南方的腊神火神,颉颃孙重黎是...

冰屋英文(冰屋英文igloo)

英语igloo是什么意思igloo英[ Glu : ]美['=Lu:]n .雪块做成的圆顶小屋[例句] we ' rebuildinganiglooincentralpark.it ' sgonnabelegendary。在中央公园建造爱斯基摩冰屋。 这将是传奇的。[其他]多个: igloo...

衬砌是什么意思(单层衬砌是什么意思)

水利工程中明渠衬砌,衬砌是啥意思?在明渠上挖了一条沟。 沟两侧应堆放石块等材料保护土石边坡。 像石头一样制作被称为衬砌。隧道施工中复合衬砌和二次衬砌是一个意思吗不,复合衬砌是指初期支护防水层的双衬砌。 也就是说,二次衬砌是复合衬砌的一部分。 在隧道施工中,一次衬砌又称初期支护,概念:隧道是周边岩石与...

说和做主要内容(说和做主要内容200字)

《说和做》的主要内容概括是什么?本论文注意通过详细描写来表现很多人物形象,并结合文中的一两个例子,阐述这种写法的优点。作者在具体事例中,加入了很多细节。 例如,“不窥视庭院,也不下楼”、“头发散乱”、“睡眠少”等细节,表现出了不堪入耳的精神。 他认真地表示:“大四方的竹纸文字上,写满了小楷,就像蚂蚁...

十二星座专属蛋糕(十二星座蛋糕)

十二星座婚礼蛋糕最爱什么样摩羯座( 12月22日( 1月19日) ) )。摩羯座相信成功的条件一定要有健全的家庭和牢固的婚姻。 他们把婚礼当成一生的合同。 所以他们选择的婚礼蛋糕不仅要简洁优雅,还要表现出超然的地位。射手座( 11月22日( 12月21日) ) )。聪明幽默的射手座不会放弃在婚礼上给...

孺子可教也这句话是什么意思(孺子可教也这句话是什么意思)

孺子可教也啥意思?孩子指能教,后来形容年轻人有出息,能做。译文:父亲听够了,笑着走了。 很惊讶,就在眼前。 父亲到后宫去,回来,说,孺子可以教。/老人伸出脚让张良穿上鞋,笑着走了。 张良吓了一跳,目送他离开,老人回来了,“年轻人有出息啊。ruzi可以教的故事:程浩、程彝兄弟是宋代非常有学问的人。 进...

和珅真实画像(和珅真实画像)

和珅真实画像(和珅真实画像)

有人说和珅是大清朝第一美男子,真的是这样吗?据史书记载,和珅确实是清朝的美男子但是,在众多的电影作品中,和珅的出身和为了他的人生,都设定完了他,是个难看的人。 无论是王刚老师演的和珅,还是其他版本的菲特君,长相都不高,没有美男子的影子。早年合和珅家境贫寒,但他自己非常努力,精通满、汉、蒙、藏四种语言...

氢氧化银是沉淀吗(碳酸银是沉淀吗)

氢氧化银是沉淀吗(碳酸银是沉淀吗)

在什么情况下氢氧化银是沉淀?低于-45度低温氢氧化银暂时稳定,但氢氧化银在常温下本来就沉淀,仅容易分解真的吗?如果你是高中学生的话,自己认为“氢氧化银不存在”就行了。 可以低温制备氢氧化银,由氢氧化钠和银盐溶液的90%醇溶液在45下作用制备,温度一升高,立即分解为Ag2O和水。 室温下使氢氧化物和银...

鸿是江边鸟的下联(鸿是江边鸟下联多种)

鸿是江边鸟下联多种上联:鸿渐是河边的鸟。下联:蚕是天下之虫。————————————对联是中国传统文化的瑰宝,春节期间对联叫春联,办喜事的对联叫庆联。对联是利用汉字特点写成的民族文体,一般不需要押韵。相传春联源远流长,始于五代后蜀的主孟昶。 他在卧室门板桃符上写的题词:“新年纳余庆,嘉节号长春”,所...

回回炮(回回炮是什么)

回回炮(回回炮是什么)

回回炮的历史记载《回炮》的主要制作者是阿老瓦丁和亦思马因。 因为这两人是西域(今玉门关以西)回回人(伊斯兰教),所以炮名叫西域炮、回回炮。 此外,由于在攻击襄阳、樊城时首先使用,又名襄阳炮。 因为其发射威力巨大,所以也被称为巨石炮。《马可波罗游记》中记载的“尼科罗和马飞阿兄弟指挥的最好的工匠制作了回...

哦摩西罗伊(哦摩西罗伊是什么意思)

偶摩西罗伊什么意思日语谐音的意思是很有趣你好谐音你好,――人的你是七哇(白天)、上衣有(早上)、空帮) )晚上)。汉语谐音日常日语1、谢谢你――阿里加图2、再见――腰那拉(这个不常用) )。3、再见――八一八一or甲or甲阿内or甲马塔or马塔内or扫屋甲4、没关系。 ――卡马依马散多依塔洗马洗帖(...

弄石临溪坐(弄石临溪坐是哪首诗)

弄石临溪坐,寻花绕寺行.时时闻鸟语,处处是泉声.是什么意思译文:拿着漂亮的彩石,向着小溪观赏。 围绕着寺庙旁边曲折的小路,寻找华丽美丽的野山之花。 百灵的声音脆脆,唱得很巧。 泉水咚咚,脉搏跳动。这首诗是唐代诗人白居易创作的五言绝句,名为《遗爱寺》。这是一首情景抒情的短诗,全诗动中有静,移步换景。...