• 欢迎光临本网站,有人模仿我的站 注意:本站唯一域名:www cnit5 com(原创稿件投递)请联系:QQ442727852期待与您的合作!
  • 设为首页 设为首页 收藏 收藏本站
  • 首页
  • IT行业
  • IT新闻
  • IT资讯
  • 数码产品
  • IT人物
  • 科技资讯
  • IT财经
  • 手机资讯
  • 游戏新闻
  • 区块链
  • IT资讯网
    主页 > IT资讯 >
  • 谷歌的Parrotron是一个人工智能工具,适用于有语言障碍的人

  • 发布时间:2019-07-18 11:46  来源:www cnit5 com 作者:IT行业资讯网
  • 4.09K
  •   对于全世界数百万人来说,言语障碍是生活中的事实。美国大约有750万人难以发出单词和短语,涉及音高,响度和质量的紊乱影响了一年级儿童的5%。

      这对可访问性工程师开发AI驱动的语音识别和文本到语音合成产品提出了挑战,这些产品必须适应一系列有限数据集可用的损伤。幸运的是,谷歌的科学家正在研究如何最大限度地减少语音模型中的单词替换,删除和插入错误,作为Parrotron的一部分,这是一项旨在帮助那些非典型语言的人更好地理解的研究计划。

    人工智能工具

      研究科学家Fadi Biadsy和软件工程师Ron Weiss写道:“在当今的技术环境中,有限的语音接口访问,例如依赖于直接理解一个人的语音的数字助理,意味着被排除在最先进的工具和经验之外。”在博客文章中。“Parrotron使非典型语音用户能够更容易地与其他人和语音界面进行交流和理解,其端到端语音转换方法更有可能重现用户的预期语音。”

      这是一个原始的演讲样本:

      音频播放器00:0000:00使用向上/向下箭头键增大或减小音量。

      这是Parrotron的输出:

      音频播放器00:0000:00使用向上/向下箭头键增大或减小音量。

      Parrotron利用端到端的人工智能系统,该系统经过培训,能够将有障碍的人的语音直接转换为“流畅的”合成语音,有效地跳过文本生成。它仅考虑语音信号而不是视觉提示,例如嘴唇运动,并且使用平行的输入/输出语音对语料库进行两阶段训练。

      一般的语音 - 语音转换模型首先从大数据集馈送样本,然后暴露于语料库,该语料库将其变量调整为来自目标人的非典型语音模式。通常,建立这种高质量的模型需要演讲者记录数小时的训练数据,但研究人员设法从现有的文本到语音系统中提取数据,使他们能够利用先前存在的转录语音识别语料库。

      第一阶段利用了大约30,000小时的数据集,其中包括数百万个话语对,每个话语对包括来自Google的Parallel WaveNet文本到语音转换系统的自然话语和相应的合成话语。研究人员指出,语料库包括来自“数千”发言者的片段,其中包含数百种方言,口音和声学条件,这使得一系列语言和非语言内容,口音和噪音条件的建模成为可能,具有“典型”用同一种语言讲话。

      完全训练的转换模型为第二个训练阶段提供种子,该阶段涉及一个单独的话语对数据集,可选择由目标发言者提供,但也可以从Google正在进行的项目Euphonia等来源获得。第二个语料库用于使网络适应独特的声学/语音,语音和语言模式,包括说话者如何改变,替换或删除某些元音或辅音。

      该团队报告说,使用多任务目标训练系统- 即,预测目标音素,同时生成目标语音的频谱图(声音信号频率随时间的视觉表示),从而显着提高质量。他们与ALS的一组发言人以及谷歌的聋人研究科学家和数学家Dimitri Kanevsky一起验证了他们的方法,他们录制了15个小时的个人语料库。在Kanevsky的案例中,Parrotron的输出将谷歌自动语音识别的单词错误率从89%降低到32%。至于ALS发言人,人类志愿者几乎在所有病例中都报告了可懂度方面的改善。

      “鉴于Parrotron的端到端语音转语音训练目标函数,即使出现错误,生成的输出语音也可能在声学上与输入语音相似,因此说话者的初衷不太可能Biadsy和Weiss写道,他们可能会有很大的改变,而且通常仍然可以理解其意图。“此外,由于Parrotron并没有强烈偏向于从预定义的词汇集中产生单词,因此对模型的输入可能包含全新发明的单词,外来单词/名称,甚至是无意义的单词。”

      该团队将未来的工作从独立调整的AI模型组合转变为单一模型,他们期望这将带来“显着”的性能改进,并大大简化Parrotron的架构。他们目前正在招募志愿者来记录短语 - 有兴趣的人可以在这里报名参与。

      Parrotron的曝光是在谷歌在其I / O 2019开发者大会上推出三项独立的可访问性工作之后发布的:前面提到的Project Euphonia,旨在帮助有语言障碍的人; 直播中继,旨在帮助聋人用户; 和Project Diva,通过Google智能助理为人们提供一些独立性和自主权。当时,Mountain View公司指出了世界卫生组织的一些指标,以支持其努力:超过10亿人,或15%的人口,患有某种残疾。

    有人模仿我们的网站请记住我们的唯一地址(www cnit5 com)为您提供以上文章内容。郑重声明:IT行业资讯网站刊登/转载此文出于传递更多信息之目的 ,并不意味着赞同其观点或论证其描述。本站不负责其真实性。
    上一篇:微软与AT&T合作伙伴关系是5G的先发制人
    下一篇:让科技与年轻共振,OPPO发起OGeek网络安全挑战赛
  • 图说天下
  • [ IT资讯]AI如何帮助电子商务行业? [ IT资讯]AI如何帮助电子商
  • [ IT资讯] 在2019年变革中宣布AI创新奖获奖者 [ IT资讯] 在2019年变革中宣
  • AI开放共享,“中国力量”全球化加速 AI开放共享,“中国力量”全
  • 广告中的区块链角色是否被高估了? 广告中的区块链角色是否被高
  • 映客上市首日高开高走大涨40% 总市值突破百亿港元 映客上市首日高开高走大涨40
  • 浮躁的IT信息世界,个人安全意识到底有多重要! 浮躁的IT信息世界,个人安全
  • Facebook事件背后,剑桥分析公司扮演什么角色 Facebook事件背后,剑桥分析
  • 人工智能创造了3种新的职业类别 人工智能创造了3种新的职业
  • 外媒报道澳大利亚政府认为网络安全“世界领先” 外媒报道澳大利亚政府认为网
  • 40 岁之后,程序员真的就穷途末路了吗? 40 岁之后,程序员真的就穷
  • 首页 | IT行业 | IT新闻 | IT资讯 | 数码产品 | IT人物 | 科技资讯 | IT财经 | 手机资讯 |
  • Copyright @ 2012 {Copyright © 2002-2014 CNIT5. IT资讯网 IT新闻网 IT行业网 版权所有
    欢迎广大网友来本网站投稿,网站内容来自于互联网或网友提供,有人模仿我的站(本站唯一域名地址:www cnit5 com)