当前位置:首页 > 问答 > 正文内容

字母圈rigger是什么意思(吴恩达深度学习笔记(136) - 语音识别)

wwwnzt88com2年前 (2023-01-20)问答223
语音识别(Speech recognition)

现今,最令人振奋的发展之一,就是seq2seq模型(sequence-to-sequence models)在语音识别方面准确性有了很大的提升。这门课程已经接近尾声,现在我想通过剩下笔记,来告诉你们,seq2seq模型是如何应用于音频数据的(audio data),比如语音(the speech)。

什么是语音视频问题呢?

现在你有一个音频片段x(an audio clip,x),你的任务是自动地生成文本y

现在有一个音频片段,画出来是这样,该图的横轴是时间。

麦克风的作用是测量出微小的气压变化,现在你之所以能听到我的声音,是因为你的耳朵能够探测到这些微小的气压变化,它可能是由你的扬声器或者耳机产生的,也就是像图上这样的音频片段,气压随着时间而变化。

假如这个我说的音频片段的内容是:"the quick brown fox"(敏捷的棕色狐狸),这时我们希望一个语音识别算法(a speech recognition algorithm),通过输入这段音频,然后输出音频的文本内容。

考虑到人的耳朵并不会处理声音的原始波形,而是通过一种特殊的物理结构来测量这些,不同频率和强度的声波。音频数据的常见预处理步骤,就是运行这个原始的音频片段,然后生成一个声谱图(a spectrogram),就像这样。同样地,横轴是时间,纵轴是声音的频率(frequencies),而图中不同的颜色,显示了声波能量的大小(the amount of energy),也就是在不同的时间和频率上这些声音有多大。

通过这样的声谱图,或者你可能还听过人们谈到过伪空白输出(the false blank outputs),也经常应用于预处理步骤,也就是在音频被输入到学习算法之前,而人耳所做的计算和这个预处理过程非常相似。

语音识别方面,最令人振奋的趋势之一就是曾经有一段时间,语音识别系统是用音位(phonemes)来构建的,也就是人工设计的基本单元(hand-engineered basic units of cells),如果用音位来表示"the quick brown fox",我这里稍微简化一些,"the"含有"th"和"e"的音,而"quick"有"k" "w" "i" "k"的音,语音学家过去把这些音作为声音的基本单元写下来,把这些语音分解成这些基本的声音单元,而"brown"不是一个很正式的音位,因为它的音写起来比较复杂,不过语音学家(linguists)们认为用这些基本的音位单元(basic units of sound called phonemes)来表示音频(audio),是做语音识别最好的办法。

不过在end-to-end模型中,我们发现这种音位表示法(phonemes representations)已经不再必要了,而是可以构建一个系统,通过向系统中输入音频片段(audio clip),然后直接输出音频的文本(a transcript),而不需要使用这种人工设计的表示方法。使这种方法成为可能的一件事就是用一个很大的数据集,所以语音识别的研究数据集可能长达300个小时,在学术界,甚至3000小时的文本音频数据集,都被认为是合理的大小。

大量的研究,大量的论文所使用的数据集中,有几千种不同的声音,而且,最好的商业系统现在已经训练了超过1万个小时的数据,甚至10万个小时,并且它还会继续变得更大。在文本音频数据集中(Transcribe audio data sets)同时包含x和y,通过深度学习算法大大推进了语音识别的进程。

那么,如何建立一个语音识别系统呢?

在上一节笔记中,我们谈到了注意力模型,所以,一件你能做的事就是在横轴上,也就是在输入音频的不同时间帧上,你可以用一个注意力模型,来输出文本描述,如"the quick brown fox",或者其他语音内容。

还有一种效果也不错的方法,就是用CTC损失函数(CTC cost)来做语音识别。

CTC就是Connectionist Temporal Classification,它是由Alex Graves、Santiago Fernandes, Faustino Gomez、和Jürgen Schmidhuber提出的。(Graves A, Gomez F. Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks[C]// International Conference on Machine Learning. ACM, 2006:369-376.)

算法思想如下:

假设语音片段内容是某人说:"the quick brown fox",这时我们使用一个新的网络,结构像这个样子,这里输入x和输出y的数量都是一样的,因为我在这里画的,只是一个简单的单向RNN结构。

然而在实际中,它有可能是双向的LSTM结构,或者双向的GRU结构,并且通常是很深的模型。但注意一下这里时间步的数量,它非常地大。在语音识别中,通常输入的时间步数量(the number of input time steps)要比输出的时间步的数量(the number of output time steps)多出很多。

举个例子,比如你有一段10秒的音频,并且特征(features)是100赫兹的,即每秒有100个样本,于是这段10秒的音频片段就会有1000个输入,就是简单地用100赫兹乘上10秒。所以有1000个输入,但可能你的输出就没有1000个字母了,或者说没有1000个字符。

这时要怎么办呢?

CTC损失函数允许RNN生成这样的输出:ttt,这是一个特殊的字符,叫做空白符,我们这里用下划线表示,这句话开头的音可表示为h_eee_ _ _,然后这里可能有个空格,我们用这个来表示空格,之后是_ _ _qqq__,这样的输出也被看做是正确的输出。

下面这段输出对应的是"the q"。

CTC损失函数的一个基本规则是将空白符之间的重复的字符折叠起来,再说清楚一些,我这里用下划线来表示这个特殊的空白符(a special blank character),它和空格(the space character)是不一样的。

所以the和quick之间有一个空格符,所以我要输出一个空格,通过把用空白符所分割的重复的字符折叠起来,然后我们就可以把这段序列折叠成"the q"。这样一来你的神经网络因为有很多这种重复的字符,和很多插入在其中的空白符(blank characters),所以最后我们得到的文本会短上很多。

于是这句"the quick brown fox"包括空格一共有19个字符,在这样的情况下,通过允许神经网络有重复的字符和插入空白符使得它能强制输出1000个字符,甚至你可以输出1000个y值来表示这段19个字符长的输出。这篇论文来自于Alex Grace以及刚才提到的那些人。我所参与的深度语音识别系统项目就使用这种思想来构建有效的语音识别系统。

希望这能给你一个粗略的理解,理解语音识别模型是如何工作的:

注意力模型是如何工作的,以及CTC模型是如何工作的,以及这两种不同的构建这些系统的方法。

现今,在生产技术中,构建一个有效语音识别系统,是一项相当重要的工作,并且它需要很大的数据集,下节笔记我想做的是告诉你如何构建一个触发字检测系统(a rigger word detection system),其中的关键字检测系统(keyword detection system)将会更加简单,它可以通过一个更简洁的数量更合理的数据来完成。所以我们下节课再见

扫描二维码推送至手机访问。

版权声明:本文由小草网发布,如需转载请注明出处。

本文链接:http://www.nzt88.com/87725.html

分享给朋友:

“字母圈rigger是什么意思(吴恩达深度学习笔记(136) - 语音识别)” 的相关文章

舟过安仁的意思(舟过安仁的意思简短)

舟过安仁的意思(舟过安仁的意思简短)

舟过安仁的意思是什么舟过安仁:行船时,路过安仁县。...

珍宝岛之战(苏联与中国珍宝岛之战)

珍宝岛之战简介 珍宝岛之战发生在哪一年1969年3月2日,苏军入侵珍宝岛,我们的防卫部队被迫反击。 在珍宝岛的自卫反击作战整体中,中国边防军死伤苏军230多人,苏联公布的苏军死伤人数为152人。 损伤了19辆坦克装甲车辆。事件经过:1969年3月2日,苏方派出大量武装军人,分为装甲车、汽车4辆,从下...

赵小婷(赵小婷歌曲)

江苏如皋女大学生支教贵州因何身亡我什么都不着迷。 7月21日下午5时许,21岁的若皋籍武汉大学女子赵小婷和队友们在贵州省贵定县马场河乡中心小学,在社会实践过程中,被滚落的山石击中头部,不幸当场遇难。 他们的帮扶工作由武汉大学组织,形式完全是自愿的,来来去去,大部分食宿都要自理,完全不是官方进行的、镀...

张国荣遗言(哥哥张国荣遗书)

张国荣:留17字遗书,从24楼一跃而下,是谁将他逼上了绝路?事实上,有自杀倾向是重度抑郁症最常见的症状。 坠楼前,他在写的笔记中写道:“Depression (注:抑郁症),谢谢朋友。 谢谢梅雷菲教授。 这一年很辛苦。 我受不了了。 感谢唐老师。 感谢家人。 感谢胖姐姐。 我一辈子都没做坏事。 为...

战无不胜乱世传奇(你战无不胜亦可谓之传奇)

韩子高的历史资料韩子高,南北朝时代的陈朝人。 出身贫寒,世世代代以做鞋为生。 我国古代有名的美男子之...

一石二鸟是什么意思(一石二鸟是什么意思解释)

成语一石二鸟的意思() ) ) rni ) o被扔石头; 击中两只鸟; 比喻一举两得。石头; 不能读“dn”。鸟; 不要写“乌”。一举两得。 一般做宾语、定语。~与“一举两得”不同。 ~是比喻; “一举两得”是直陈; ~以实现两个目的为重点的“一举两得”是指以获得两个好处为重点。张敏做生意了; 也...

兵哥哥他翻身压上来

请问部队的战斗歌曲是什么?看谁能战斗真是太好了士兵应该上战场这个回答由网友推荐推荐些军歌听听吧你的头发拂去了我的枪,《我的老班长》;《精忠报国》;《三大纪律八项注意》;《长征组歌》; 军港之夜,我们的老班长,红星照着我去战斗,三大纪律八项注意可以在百度mp3上找。 特别军旅歌,军队绿花《我是一个兵》...

草帽警察(草帽警察于艳华结局)

草帽警察刘五四考第一是哪一集《草帽警察》刘五四考第一是第十二集。怀疑刘五四的异常行为可能会让周文海偷看考题,分数出来后,刘五四以九十八分的成绩排名第一。 周文海站起来揭露刘五四考试前看了题,刘五四说什么也辩解不了。 孙先生为刘五四说话,周文海一口咬定刘五四看到了问题。 刘五四让周文海复习资料上的问题...

大南迁(大南迁)

大南迁(大南迁)

大南迁中的葛藤凹是现在的哪里现在的福建省宁化县石壁镇南田村(南田他、葛藤坑、葛藤堡、葛藤村),在我家乡旁边的村子里。客家台湾刘谱中黄巢乱立,刘翔有子,居宁化石壁纠凹,号东派,后人分别于明、清两代从广东和闽南入台。 翔哥飞,官建州,在家,谱名西派,多归台湾后裔刘开七派之下。客家萧:宋代宁化石壁的萧梅轩...

素数和合数(素数和合数是什么时候入教材的)

素数和合数是什么?_?素数也称为素数。 大于1的自然数中,除1及其整数本身外,不能被其他自然数整除的数。 也就是说,只有两个正因数( 1和自己)的自然数就是质数。合数是指自然数中能被1和根数整除的数,是指能被其他数整除的数。大于1但不是素数的数称为合数。 1和0既不是质数也不是合数。素数和合数是什么...

房山区在北京几环(房山区长阳镇在北京几环)

房山区在北京几环(房山区长阳镇在北京几环)

北京市房山区新镇在几环上北京房山区新镇已在西六环外,位于北京的远郊,离西六环还有很远的路,但交通很便利北京六环在哪个区啊北京六环的区有顺义区、通州区、门头沟区、大兴区、房山区。1,顺义区顺义区位于北京市东北方向,距离市区30公里,北邻怀柔区、密云区、东界平谷区,南与通州区、河北省三河市接壤,西南、西...

莳字取名寓意(淏字取名寓意)

起名木字旁的字有哪些给宝宝命名时,很多父母会根据孩子的生日计算孩子五行的缺失。 通常,如果孩子的五行缺了什么,父母就会在孩子的名字上加上什么来实现中和。 如果中和孩子五行木屑的最简单方法就是在名字上加上木字,接下来小编就来告诉大家,常用的木字有哪些。木字旁命名中常用的字桉、桉、柏、柏、杯、标记、瓶、...

十三燕(十三燕电影)

历史上有十三燕这个人物吗十三燕的原型是谭鑫培,没有和梅兰芳对局,这部戏是虚构的。 孟小冬,蔡登山《梅兰芳与孟小冬》人物电影梅兰芳里的十三燕的人物原型是谭鑫培吗?陈凯歌电影《梅兰芳》中虚构的角色,剧中梅兰芳名叫祖父,王学圻饰演。 原型是京剧大师谭鑫培十三燕在别人看来是个非常霸道傲慢的人,但也有一种脆弱...

三战三北(三战三北君莫羞,一匡天下霸诸侯)

三战三北打一生肖说明理由发音sn zhn sn bi释义北:败走。 打了三场,输了三场。 连战连败是三战三败,因为总是输。抢答成语第64关 三什么三三十三日【解释】佛教把欲界的第六天称为三十三日,即忸利天。 后来形容最高的地方。牺牲者3浴【解释】牺牲者:用香涂抹身体。 多次洗澡后用香料涂抹身体...

秋江楚雁宿沙洲(秋江楚雁宿沙洲浅水流下一句)

请用“秋,江,楚,燕,流,水,浅,宿,洲,沙”组成一首七言绝句这是清代女诗人吴江雪的《春夏秋冬》中秋江楚雁宿沙洲、雁宿沙洲的浅水流。 流水洲沙宿雁,洲沙宿雁滇江秋。 这是回文诗。用"秋,江,流,楚,水,雁,浅,宿,洲,沙"组成一首七言绝句沙洲水浅的宿江之秋,滇流沙浅江洲;秋江水洲雁宿、浅宿沙雁楚水流...

黑布朗(黑布朗硬的好吃还是软的)

黑布林是李子吗是的。 黑布林是黑李子,也叫黑棕色、黑布凯、黑奈李等。 因为是从美国引进的品种,所以果实是紫黑的,也被称为美国黑李、美国李。 黑布林果皮紫黑,果肉黄色,果肉厚,甜多汁,果皮微酸。 是李子的一种。 黑布林是美国科学家经过几十年的努力吃黑布林的好处和坏处黑布林又名黑李子,是李子的一种。 黑...