当前位置:首页 > 问答 > 正文内容

字母圈rigger是什么意思(吴恩达深度学习笔记(136) - 语音识别)

wwwnzt88com2年前 (2023-01-20)问答227
语音识别(Speech recognition)

现今,最令人振奋的发展之一,就是seq2seq模型(sequence-to-sequence models)在语音识别方面准确性有了很大的提升。这门课程已经接近尾声,现在我想通过剩下笔记,来告诉你们,seq2seq模型是如何应用于音频数据的(audio data),比如语音(the speech)。

什么是语音视频问题呢?

现在你有一个音频片段x(an audio clip,x),你的任务是自动地生成文本y

现在有一个音频片段,画出来是这样,该图的横轴是时间。

麦克风的作用是测量出微小的气压变化,现在你之所以能听到我的声音,是因为你的耳朵能够探测到这些微小的气压变化,它可能是由你的扬声器或者耳机产生的,也就是像图上这样的音频片段,气压随着时间而变化。

假如这个我说的音频片段的内容是:"the quick brown fox"(敏捷的棕色狐狸),这时我们希望一个语音识别算法(a speech recognition algorithm),通过输入这段音频,然后输出音频的文本内容。

考虑到人的耳朵并不会处理声音的原始波形,而是通过一种特殊的物理结构来测量这些,不同频率和强度的声波。音频数据的常见预处理步骤,就是运行这个原始的音频片段,然后生成一个声谱图(a spectrogram),就像这样。同样地,横轴是时间,纵轴是声音的频率(frequencies),而图中不同的颜色,显示了声波能量的大小(the amount of energy),也就是在不同的时间和频率上这些声音有多大。

通过这样的声谱图,或者你可能还听过人们谈到过伪空白输出(the false blank outputs),也经常应用于预处理步骤,也就是在音频被输入到学习算法之前,而人耳所做的计算和这个预处理过程非常相似。

语音识别方面,最令人振奋的趋势之一就是曾经有一段时间,语音识别系统是用音位(phonemes)来构建的,也就是人工设计的基本单元(hand-engineered basic units of cells),如果用音位来表示"the quick brown fox",我这里稍微简化一些,"the"含有"th"和"e"的音,而"quick"有"k" "w" "i" "k"的音,语音学家过去把这些音作为声音的基本单元写下来,把这些语音分解成这些基本的声音单元,而"brown"不是一个很正式的音位,因为它的音写起来比较复杂,不过语音学家(linguists)们认为用这些基本的音位单元(basic units of sound called phonemes)来表示音频(audio),是做语音识别最好的办法。

不过在end-to-end模型中,我们发现这种音位表示法(phonemes representations)已经不再必要了,而是可以构建一个系统,通过向系统中输入音频片段(audio clip),然后直接输出音频的文本(a transcript),而不需要使用这种人工设计的表示方法。使这种方法成为可能的一件事就是用一个很大的数据集,所以语音识别的研究数据集可能长达300个小时,在学术界,甚至3000小时的文本音频数据集,都被认为是合理的大小。

大量的研究,大量的论文所使用的数据集中,有几千种不同的声音,而且,最好的商业系统现在已经训练了超过1万个小时的数据,甚至10万个小时,并且它还会继续变得更大。在文本音频数据集中(Transcribe audio data sets)同时包含x和y,通过深度学习算法大大推进了语音识别的进程。

那么,如何建立一个语音识别系统呢?

在上一节笔记中,我们谈到了注意力模型,所以,一件你能做的事就是在横轴上,也就是在输入音频的不同时间帧上,你可以用一个注意力模型,来输出文本描述,如"the quick brown fox",或者其他语音内容。

还有一种效果也不错的方法,就是用CTC损失函数(CTC cost)来做语音识别。

CTC就是Connectionist Temporal Classification,它是由Alex Graves、Santiago Fernandes, Faustino Gomez、和Jürgen Schmidhuber提出的。(Graves A, Gomez F. Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks[C]// International Conference on Machine Learning. ACM, 2006:369-376.)

算法思想如下:

假设语音片段内容是某人说:"the quick brown fox",这时我们使用一个新的网络,结构像这个样子,这里输入x和输出y的数量都是一样的,因为我在这里画的,只是一个简单的单向RNN结构。

然而在实际中,它有可能是双向的LSTM结构,或者双向的GRU结构,并且通常是很深的模型。但注意一下这里时间步的数量,它非常地大。在语音识别中,通常输入的时间步数量(the number of input time steps)要比输出的时间步的数量(the number of output time steps)多出很多。

举个例子,比如你有一段10秒的音频,并且特征(features)是100赫兹的,即每秒有100个样本,于是这段10秒的音频片段就会有1000个输入,就是简单地用100赫兹乘上10秒。所以有1000个输入,但可能你的输出就没有1000个字母了,或者说没有1000个字符。

这时要怎么办呢?

CTC损失函数允许RNN生成这样的输出:ttt,这是一个特殊的字符,叫做空白符,我们这里用下划线表示,这句话开头的音可表示为h_eee_ _ _,然后这里可能有个空格,我们用这个来表示空格,之后是_ _ _qqq__,这样的输出也被看做是正确的输出。

下面这段输出对应的是"the q"。

CTC损失函数的一个基本规则是将空白符之间的重复的字符折叠起来,再说清楚一些,我这里用下划线来表示这个特殊的空白符(a special blank character),它和空格(the space character)是不一样的。

所以the和quick之间有一个空格符,所以我要输出一个空格,通过把用空白符所分割的重复的字符折叠起来,然后我们就可以把这段序列折叠成"the q"。这样一来你的神经网络因为有很多这种重复的字符,和很多插入在其中的空白符(blank characters),所以最后我们得到的文本会短上很多。

于是这句"the quick brown fox"包括空格一共有19个字符,在这样的情况下,通过允许神经网络有重复的字符和插入空白符使得它能强制输出1000个字符,甚至你可以输出1000个y值来表示这段19个字符长的输出。这篇论文来自于Alex Grace以及刚才提到的那些人。我所参与的深度语音识别系统项目就使用这种思想来构建有效的语音识别系统。

希望这能给你一个粗略的理解,理解语音识别模型是如何工作的:

注意力模型是如何工作的,以及CTC模型是如何工作的,以及这两种不同的构建这些系统的方法。

现今,在生产技术中,构建一个有效语音识别系统,是一项相当重要的工作,并且它需要很大的数据集,下节笔记我想做的是告诉你如何构建一个触发字检测系统(a rigger word detection system),其中的关键字检测系统(keyword detection system)将会更加简单,它可以通过一个更简洁的数量更合理的数据来完成。所以我们下节课再见

扫描二维码推送至手机访问。

版权声明:本文由小草网发布,如需转载请注明出处。

本文链接:http://www.nzt88.com/87725.html

“字母圈rigger是什么意思(吴恩达深度学习笔记(136) - 语音识别)” 的相关文章

珍宝岛之战(苏联与中国珍宝岛之战)

珍宝岛之战简介 珍宝岛之战发生在哪一年1969年3月2日,苏军入侵珍宝岛,我们的防卫部队被迫反击。 在珍宝岛的自卫反击作战整体中,中国边防军死伤苏军230多人,苏联公布的苏军死伤人数为152人。 损伤了19辆坦克装甲车辆。事件经过:1969年3月2日,苏方派出大量武装军人,分为装甲车、汽车4辆,从下...

一个金字旁一个本(一个金字旁一个本是什么字)

一个金一个本念什么在金字旁边写上杀字。 这个字写“铩”,读作“sha第一声”。 与“沙”字同音,意为“与矛相似的古代兵器”、“伤害、伤害”、“失意、失败”。 组成“枪羽而归”这个词。金字旁过来一个本怎么读读钵-bo (第一声),...

tot是什么意思(totally是什么意思)

tot是什么意思tot翻译成中文的意思是幼儿、幼儿。由于英语使用范围极大,不可避免地会出现各种地域变体。 也有语言学家把伦敦和英国高层人士的英语视为地区英语之一,而不是唯一的标准英语。 除英国英语外,最值得注意的是美国英语。 美国在18世纪建国后,本土语言仍然以英语为宗,美国学者最先将其称为“在美国...

杨丞琳李荣浩领证(杨丞琳李荣浩领证安徽)

杨丞琳承认和李荣浩领证结婚,为什么这一对恋情公开的这么大方痛快?首先,一定是真爱。 而且,他们俩已经不年轻了。 同期很多演员和歌手现在都结婚生子。所以,两个人宣布结婚没什么大不了的,不会影响事业的发展。 今年李荣浩34岁了。 最近,终于宣布和恋人杨丞琳收到了证明书。 他们俩恋爱至今已经四年多了,终于...

喧腾的意思(喧腾的意思怎么解释)

喧腾意思1 .吵闹沸腾.2.形容声音杂乱。 例如;《在山的那边》王家新:我听到大海还在远处为我打闹……这个回答由网友推荐喧嚣 喧腾 喧闹 喧哗的区别一、喧哗、喧哗、喧哗、吵闹表示意义的不同喧嚣表示声音大而吵闹的意思; 吵闹表示喧闹沸腾的意思,常用于表示声音杂乱; 吵闹的意思是声音大而且热闹; 吵闹常...

霸王花演员表(女子霸王花演员表)

霸王花演员表(女子霸王花演员表)

霸王花中的女演员胡慧中、惠英红、萝芙洛、柏安妮、简慧真、陈雅伦、吴君如。《霸王花》是由香港导演钱升玮执导的系列电视剧电影,由胡慧中、惠英红等主演。 本片于1988年票房一千六百万,在电影主推新人的阵容中,这一收益已经极为罕见。霸王花( 1988年)。胡慧中萝芙洛女警长活跃,警察一把手决定成立女子特警...

修禊事也(修禊事也)

修禊事也(修禊事也)

兰亭集序中“修禊事也”的禊怎么读禊(古代春、秋为消除不祥而在水边举行的祭祀。来源:魏晋.王羲之《兰亭集序》原文摘录:永和九年,岁在癸丑,暮春初,会智山阴兰亭,亦修禊。 群贤至,少长咸集。 这里有崇山峻岭、茂林修竹,又有清流激荡,带子左右相映,以为流水可鉴曲水,就坐下一排。 没有丝竹管弦之盛,只需一瞥...

陂怎么读拼音(陂怎么读拼音组词)

“北陂杏花” 陂读什么音?“北陂杏花”陂读作“b殅I”,是池塘的意思。)拼音) b栏I、p、p、部首(阝、部外画) 5、总画) 7、五画) BHCY仓颉: NLDHE、郑符: YXI、笔顺编号: 5253254、方块编号: 74247[ b栏I ]1 .池塘: ~池塘。 ~池塘。 过了一会儿。2...

变身情缘(变身情缘性别游戏)

《变身情缘》深藏blue电子书txt全集下载《变身情缘》深藏蓝牙全集小说附件已上传百度网盘,点击免费下载。 南国夏天很热,特别是今年八月,灰色的天空万里无云,猛烈的阳光毫不在意地照射在a城这片混凝土森林里,几座高楼顽强地矗立在大地里,留下黑影,像一条黑色的巨蛇,城市街道上今年夏天的最高温度是四十度正...

惜缘是什么意思(缘来惜缘是什么意思)

惜缘的真正的含义?其实惜缘的真正意义很简单。 珍惜缘分。其实任何人见面都是缘分。 即使能认识也是缘分。 不管怎样,说前面的话也是缘分。 其实也有很快就消失的缘分。 但是,某种缘分确实是永恒的。 那取决于你和那个人相遇的缘分。 有人见过一次。 我说过几句话。 平水相遇了,但之后一生再也见不到第二次了。...

蕹菜怎么读(蕹菜粤语怎么读)

ONG菜是什么“ONG菜”又称薗菜、空心菜,原只在中国南方种植,在北方各省新引进地区被称为空心菜。 十字花科,甘薯属,一年生或多年生草本植物。 嫩茎、叶炒着吃,煮汤,富含各种维生素、矿物盐,是夏秋重要蔬菜。该物种原产于东亚,目前作为蔬菜广泛栽培,或处于野生状态。 我国中部及南部福建、广西、贵州、江苏...

铁骨丹心(铁骨丹心电视剧全集免费观看)

七律长征全诗朗读《七律长征》是毛泽东主席作的七言律诗,全诗原文如下:红军不怕远征的困难,万水千山只是悠闲而已。五岭蜿蜒细浪,乌蒙气势磅礴地走泥丸。金沙水拍云崖温暖,过桥旁铁索冰冷。更喜欢岷山千里雪,三军之后露面。白话文释义:红军不怕万里长征路上的一切苦难,看得千山万水。 绵延的五岭,在红军看来不过是...

沈泉庄村(山东沈泉庄村)

沈泉庄村(山东沈泉庄村)

中国最富有的三个村,是那三个?1 .随着大邱庄(天津市静海县,原华夏第一村,原庄主禹作敏的囚禁,持续了10多年的神话也破灭了,走上了衰退的道路,大邱庄的等级也晋升到了城镇。 1997年,该村年产值达到100多亿元,利税达到9000多万元。 2000年跌落谷底。 2005年,大邱庄镇工业总产值150亿...

古风名字女生清冷孤傲(古风名字女生清冷孤傲带符号)

2字清冷孤傲古风名字有哪些?“染尘”是根据成语一点也不打的名字。 一尘不染,就是排除物欲,保持心灵清洁。 从意义上来说,感觉非常清廉傲慢。 而且,名字有很古老的味道,和现在常见的名字很不一样。从《王事有休沐,驾言指林丘》诗句中提取。 “沐”字有滋润之意,名字中给人一种清爽古朴的感觉。 “言”字在男孩...

秦皇岛乐购(秦皇岛乐购几点开门营业)

秦皇岛火车站到乐购打车多少钱秦皇岛站打车去秦皇岛乐购超市,车费要52元。 最短路线约21.7公里,需要40分钟。秦皇岛站坐出租车去秦皇岛买河北大街的店,车费要11元。 最短路线约为4.1公里,时间需要9分钟。秦皇岛火车站到乐购打车多少钱秦皇岛站打车去秦皇岛乐购超市,车费要52元。 最短路线约21.7...

七大洲为什么叫五大洲(七大洲为什么叫五大洲七大洋八大洲是什么)

七大洲为什么叫五大洲有什么区别五大洲( Five continents )是指分为亚洲( Asia )、欧洲( Europe )、非洲( Africa )、美国( America )、大洋洲)的地球陆地的五个版本地理学又把美国分为北美洲和南美洲,南极洲无人居住,故又称七大洲。 所以还有五...