当前位置:首页 > 问答 > 正文内容

字母圈rigger是什么意思(吴恩达深度学习笔记(136) - 语音识别)

wwwnzt88com2年前 (2023-01-20)问答228
语音识别(Speech recognition)

现今,最令人振奋的发展之一,就是seq2seq模型(sequence-to-sequence models)在语音识别方面准确性有了很大的提升。这门课程已经接近尾声,现在我想通过剩下笔记,来告诉你们,seq2seq模型是如何应用于音频数据的(audio data),比如语音(the speech)。

什么是语音视频问题呢?

现在你有一个音频片段x(an audio clip,x),你的任务是自动地生成文本y

现在有一个音频片段,画出来是这样,该图的横轴是时间。

麦克风的作用是测量出微小的气压变化,现在你之所以能听到我的声音,是因为你的耳朵能够探测到这些微小的气压变化,它可能是由你的扬声器或者耳机产生的,也就是像图上这样的音频片段,气压随着时间而变化。

假如这个我说的音频片段的内容是:"the quick brown fox"(敏捷的棕色狐狸),这时我们希望一个语音识别算法(a speech recognition algorithm),通过输入这段音频,然后输出音频的文本内容。

考虑到人的耳朵并不会处理声音的原始波形,而是通过一种特殊的物理结构来测量这些,不同频率和强度的声波。音频数据的常见预处理步骤,就是运行这个原始的音频片段,然后生成一个声谱图(a spectrogram),就像这样。同样地,横轴是时间,纵轴是声音的频率(frequencies),而图中不同的颜色,显示了声波能量的大小(the amount of energy),也就是在不同的时间和频率上这些声音有多大。

通过这样的声谱图,或者你可能还听过人们谈到过伪空白输出(the false blank outputs),也经常应用于预处理步骤,也就是在音频被输入到学习算法之前,而人耳所做的计算和这个预处理过程非常相似。

语音识别方面,最令人振奋的趋势之一就是曾经有一段时间,语音识别系统是用音位(phonemes)来构建的,也就是人工设计的基本单元(hand-engineered basic units of cells),如果用音位来表示"the quick brown fox",我这里稍微简化一些,"the"含有"th"和"e"的音,而"quick"有"k" "w" "i" "k"的音,语音学家过去把这些音作为声音的基本单元写下来,把这些语音分解成这些基本的声音单元,而"brown"不是一个很正式的音位,因为它的音写起来比较复杂,不过语音学家(linguists)们认为用这些基本的音位单元(basic units of sound called phonemes)来表示音频(audio),是做语音识别最好的办法。

不过在end-to-end模型中,我们发现这种音位表示法(phonemes representations)已经不再必要了,而是可以构建一个系统,通过向系统中输入音频片段(audio clip),然后直接输出音频的文本(a transcript),而不需要使用这种人工设计的表示方法。使这种方法成为可能的一件事就是用一个很大的数据集,所以语音识别的研究数据集可能长达300个小时,在学术界,甚至3000小时的文本音频数据集,都被认为是合理的大小。

大量的研究,大量的论文所使用的数据集中,有几千种不同的声音,而且,最好的商业系统现在已经训练了超过1万个小时的数据,甚至10万个小时,并且它还会继续变得更大。在文本音频数据集中(Transcribe audio data sets)同时包含x和y,通过深度学习算法大大推进了语音识别的进程。

那么,如何建立一个语音识别系统呢?

在上一节笔记中,我们谈到了注意力模型,所以,一件你能做的事就是在横轴上,也就是在输入音频的不同时间帧上,你可以用一个注意力模型,来输出文本描述,如"the quick brown fox",或者其他语音内容。

还有一种效果也不错的方法,就是用CTC损失函数(CTC cost)来做语音识别。

CTC就是Connectionist Temporal Classification,它是由Alex Graves、Santiago Fernandes, Faustino Gomez、和Jürgen Schmidhuber提出的。(Graves A, Gomez F. Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks[C]// International Conference on Machine Learning. ACM, 2006:369-376.)

算法思想如下:

假设语音片段内容是某人说:"the quick brown fox",这时我们使用一个新的网络,结构像这个样子,这里输入x和输出y的数量都是一样的,因为我在这里画的,只是一个简单的单向RNN结构。

然而在实际中,它有可能是双向的LSTM结构,或者双向的GRU结构,并且通常是很深的模型。但注意一下这里时间步的数量,它非常地大。在语音识别中,通常输入的时间步数量(the number of input time steps)要比输出的时间步的数量(the number of output time steps)多出很多。

举个例子,比如你有一段10秒的音频,并且特征(features)是100赫兹的,即每秒有100个样本,于是这段10秒的音频片段就会有1000个输入,就是简单地用100赫兹乘上10秒。所以有1000个输入,但可能你的输出就没有1000个字母了,或者说没有1000个字符。

这时要怎么办呢?

CTC损失函数允许RNN生成这样的输出:ttt,这是一个特殊的字符,叫做空白符,我们这里用下划线表示,这句话开头的音可表示为h_eee_ _ _,然后这里可能有个空格,我们用这个来表示空格,之后是_ _ _qqq__,这样的输出也被看做是正确的输出。

下面这段输出对应的是"the q"。

CTC损失函数的一个基本规则是将空白符之间的重复的字符折叠起来,再说清楚一些,我这里用下划线来表示这个特殊的空白符(a special blank character),它和空格(the space character)是不一样的。

所以the和quick之间有一个空格符,所以我要输出一个空格,通过把用空白符所分割的重复的字符折叠起来,然后我们就可以把这段序列折叠成"the q"。这样一来你的神经网络因为有很多这种重复的字符,和很多插入在其中的空白符(blank characters),所以最后我们得到的文本会短上很多。

于是这句"the quick brown fox"包括空格一共有19个字符,在这样的情况下,通过允许神经网络有重复的字符和插入空白符使得它能强制输出1000个字符,甚至你可以输出1000个y值来表示这段19个字符长的输出。这篇论文来自于Alex Grace以及刚才提到的那些人。我所参与的深度语音识别系统项目就使用这种思想来构建有效的语音识别系统。

希望这能给你一个粗略的理解,理解语音识别模型是如何工作的:

注意力模型是如何工作的,以及CTC模型是如何工作的,以及这两种不同的构建这些系统的方法。

现今,在生产技术中,构建一个有效语音识别系统,是一项相当重要的工作,并且它需要很大的数据集,下节笔记我想做的是告诉你如何构建一个触发字检测系统(a rigger word detection system),其中的关键字检测系统(keyword detection system)将会更加简单,它可以通过一个更简洁的数量更合理的数据来完成。所以我们下节课再见

扫描二维码推送至手机访问。

版权声明:本文由小草网发布,如需转载请注明出处。

本文链接:http://www.nzt88.com/87725.html

“字母圈rigger是什么意思(吴恩达深度学习笔记(136) - 语音识别)” 的相关文章

庄子送葬(庄子送葬过惠子之墓顾谓从者曰翻译)

庄子送葬(庄子送葬过惠子之墓顾谓从者曰翻译)

庄子送葬这个故事的目的是什么庄子葬礼后,经过惠子的墓地,回头对跟随的人说。 “郤地的人把白垩泥抹在他自己的鼻尖上,大小如蚊蝇的翅膀,让匠石用斧子把这个小白点砍掉。 匠石挥斧呼呼,漫不经心地砍下白点,鼻尖上的白泥已完全清除,但鼻子一点儿也没有受伤,英地人站在那里若无其事地保持常态。 宋元君知道了这件事...

竹问(竹问 沈西峡)

竹问(竹问 沈西峡)

苏轼写的这些关于竹子的诗句分别表达了什么寓意?年轻时:门前有竹子,堂上有四库书。 中年时:疏帘外竹、浏竹听雨。 窗户安静无尘,几砚寒生雾。 老年时:疲惫无言,风来竹啼,披衣坐小阁,临修竹散。 不同时期的寓意是什么? 寓意啊。 大家帮帮忙。公刘诗歌火的风格的代表《为灵魂辩护》、《竹问》、《寄冥》、《哦...

中国地震烈度表(中国地震烈度表将地震烈度分为)

中国地震烈度表(中国地震烈度表将地震烈度分为)

地震震级共分多少级?每级的伤害程度是什么?震级分类:1 .划分震源释放能量大小等级。 释放能量越大,地震的震度也越大。 震级为9级,一般低于2.5级的地震人感觉不到; 2.5级以上的人感受到的5级以上的地震会引起破坏。 简称震级。(一般不到1级的地震称为超地震A (低于1级、3级的称为弱震或微震)...

张国荣遗言(哥哥张国荣遗书)

张国荣:留17字遗书,从24楼一跃而下,是谁将他逼上了绝路?事实上,有自杀倾向是重度抑郁症最常见的症状。 坠楼前,他在写的笔记中写道:“Depression (注:抑郁症),谢谢朋友。 谢谢梅雷菲教授。 这一年很辛苦。 我受不了了。 感谢唐老师。 感谢家人。 感谢胖姐姐。 我一辈子都没做坏事。 为...

圆谷光彦(圆谷光彦的真实身份)

在《名侦探柯南》里面,少年侦探团的家庭背景怎样?在《名侦探柯南》中,我们一直关注的是新一和兰什么时候能在一起,柯南什么时候能回到成年。 而且少年侦探团的很多柯南迷不太喜欢他们。 他们认为是熊孩子。 只是打扰,没什么用,只是打扰。但是,有时我们必须思考他们只是孩子,孩子们的想法能成熟到什么程度。我们经...

愚不可及的意思(愚不可及的意思和造句)

愚不可及的意思(愚不可及的意思和造句)

愚不可及是什么意思愚蠢透顶的中文解释以下结果由汉典提供词典说明...

相看两相厌(相看两相厌的厌)

《如懿传相看两相厌》台词是什么?1、原本由于过于年轻,也可以变得令人刮目相看。 古今之情,本来是可以接受的。 冷漠的人,如何结伴而行呢?2、你有小妾的脸吗? 你还会给自己脸。 你总是有很多说辞,其实意气用事,薄情沉默寡言,自私虚伪的是你,多疑的是你。3、臣妾一生如梦,后悔也来不及。 一生,充满春风,...

悉知是什么意思(望大家知悉是什么意思)

“知悉”与“悉知”有什么区别?哪个用法更正式?与知不同的是,知是知内情,知是知都是知。 一般请谅解。一、认识[zhx]释义:我知道。 ~没办法。来源:曹禺《北京人》第一幕:“她心慈手软,嘴巴吵,知道曾经家务最多,有什么事,惹不起她曾经的家上下。 ”1 .当一个人知道了自己的未来后,他的一生就会混杂着...

王的宠姬(王的宠姬好看吗)

《王的宠姬》txt下载在线阅读全文,求百度网盘云资源《王的宠姬》百度网盘txt最新全集下载:? pwd=2gq3提取代码: 2gq3他迷人的琥珀眼里充满了焦急和不安,这个整个午阳帝国都是我的,我拥有你的所有权! 你的身体,你的心,甚至你的生死! 他掐住我的喉咙,腥甜的气味涌向我的嘴里,他用颤抖的声音...

晚上当你面对北极星时你的后面是(晚上,当你面对北极星时,你的左边是)

晚上当你面向北极星时,你的后面是什么面?左面是什么面?右面是什么面?生活中辨别方向的方法16人赞同了文章1、太阳辨别方向。太阳升起的一侧是东方,面对着太阳。 前面是东,后面是西,左边是北,右边是南。2、指南针可以分辨方向。指南针上的红针指向北方,另一边指向南方。3、积雪判别方向。雪早积为南,晚积为北...

童言无忌啥意思(童言无忌,童叟无欺,啥意思啊)

童言无忌的意思?也就是说,虽然大人们说话总是很客气,但孩子们的心是天真的,诚实的,说话没有任何禁忌,孩子的话也毫不嫌弃。 tng解释说,旧俗迷信,新年大厅里贴了很多这四个字。 也就是说,孩子说话不是禁忌,说不吉利的话也没关系。 既可以说可爱,孩子说话的幽默生动,让人捧腹大笑。 巴金《家》 :“爷爷觉...

素数和合数(素数和合数是什么时候入教材的)

素数和合数是什么?_?素数也称为素数。 大于1的自然数中,除1及其整数本身外,不能被其他自然数整除的数。 也就是说,只有两个正因数( 1和自己)的自然数就是质数。合数是指自然数中能被1和根数整除的数,是指能被其他数整除的数。大于1但不是素数的数称为合数。 1和0既不是质数也不是合数。素数和合数是什么...

鳄鱼的眼泪比喻什么(鳄鱼的眼泪比喻什么给我们什么启示)

鳄鱼的眼泪比喻什么(鳄鱼的眼泪比喻什么给我们什么启示)

鳄鱼的眼泪比喻什么?传说鳄鱼吃了其他动物后,会为自己吃的动物伤心流泪。 如果有人在,你甚至会不停地哭,尖叫。 后来,人们把那种假仁假义的伪善者对伙伴的死装慈悲比喻为“鳄鱼的眼泪”。鳄鱼到底不会流泪吗? 这个问题人们一时答不上来。为了弄清传说的正确与否,瑞典科学家范盖和尼尔森两人决定进行实地考证。 2...

齐桓公伐楚翻译(齐桓公伐楚翻译朗读)

齐桓公伐楚翻译(齐桓公伐楚翻译朗读)

齐伐楚盟于召陵全文翻译鲁西公爵四年春天,齐桓公率领诸侯国军队攻打蔡国。 蔡国崩溃了,然后去攻击楚国。 楚成王派使节到齐军对齐桓公说:“你住在北方,我住在南方,牛马发情也到不了双方领土。 没想到你进入了我们的国土。 这是为了什么? ”关仲这样回答。 “从前召见康公,命我们先君太公,说:‘五等诸侯和九州...

龚六堂(龚六堂发改委)

北京大学有哪些著名的经济学教授单忠东男教授光华管理学院国际金融国际贸易高西庆男教授光华管理学院公司法证券法何小锋男教授经济学院投资银行学国际投资学胡坚女教授经济学院投资学与资本市场亚洲金融市场李庆云男教授经济学院国际金融李心愉女教授经济学院公司财务应用经济统计刘力男教授光华管理学院证券市场与金融工程...