为了开发能够理解多种不同方言的人工智能,Meta创建了一个名为SeamlessM4T的人工智能模型,它可以在文本和语音之间翻译和转录近100种语言。
Meta声称,SeamlessM4T可以与开源的SeamlessAlign一起使用,SeamlessAlign是一个新的翻译数据集,代表了人工智能驱动的语音到语音和语音到文本领域的“重大突破”。
SeamlessM4T在某种程度上是Meta的“No Language Left Behind”(无语言被遗漏)的精神继承者,这是一个文本到文本的机器翻译模型,以及“Universal Speech Translator”(通用语音翻译器),这是为数不多支持闽南语的直接语音到语音翻译系统之一。
它还建立在“Massively Multilingual Speech”框架之上,该框架在1100多种语言中提供了语音识别、语言识别和语音合成技术。
Meta并不是唯一一家投入资源开发复杂的人工智能翻译和转录工具的公司。
除了已经从亚马逊、微软、OpenAI以及一些创业公司获得的丰富商业服务和开源模型外,谷歌还正在创建所谓的“Universal Speech Model”(通用语音模型)。
这是这家科技巨头努力构建的一个能够理解全球1000种最常用语言的模型的一部分。与此同时,Mozilla推动了“Common Voice”项目,这是最大的多语言语音集之一,用于训练自动语音识别算法。
但是,SeamlessM4T是迄今为止将翻译和转录能力结合到一个单一模型中的更为雄心勃勃的努力之一。
在开发过程中,Meta表示它从网络上抓取了公开可用的文本(约数十亿句)和语音(400万小时)。
在接受TechCrunch采访时,Meta人工智能研究部门的研究科学家兼项目贡献者Juan Pino没有透露数据的确切来源,只是表示有“多种来源”。
并不是每个内容创作者都同意利用公开数据来训练可能会商业化的模型的做法。
一些人对那些在公开可用数据之上构建人工智能工具的公司提起了诉讼,认为这些供应商应该被要求提供信用,如果不是补偿的话,还应该提供明确的退出方式。
但是,Meta声称,它挖掘的数据(可能包含个人身份信息,公司承认)没有受到版权保护,主要来自开源或经许可的来源。
研究人员将443000小时的语音与文本对齐,创建了29000小时的“语音到语音”对齐,这“教会”了SeamlessM4T如何将语音转录为文本,翻译文本,从文本生成语音,甚至将一种语言中的口语翻译为另一种语言中的口语。
在内部基准测试中,Meta声称相较于目前最先进的语音转录模型,SeamlessM4T在背景噪音和“说话者变化”方面在语音转文本任务中表现更好。
Meta将这归因于训练数据集中丰富的语音和文本数据的组合,Meta认为这使得SeamlessM4T在仅有语音或仅有文本的模型面前具有优势。
“通过最先进的结果,我们相信SeamlessM4T是AI社区在创建通用多任务系统方面的重要突破,”Meta在博客文章中写道。
但人们也会想知道这个模型可能包含什么偏见。
《The Conversation》近期的一篇文章指出了AI驱动的翻译中的诸多缺陷,包括不同形式的性别偏见。
例如,Google翻译曾经在某些语言中假定医生是男性,而护士是女性;而Bing的翻译器将“the table is soft”(桌子很软)翻译成了德语的女性形式“die Tabelle”,指的是一张表格。
语音识别算法也常常带有偏见。发表在《美国国家科学院院刊》上的一项研究表明,来自领先公司的语音识别系统在错误地转录黑人演讲者的音频时,错误的可能性是错误地转录白人演讲者音频的两倍。
毫不意外,SeamlessM4T在这方面并不唯一。
在与博客文章一起发布的一份白皮书中,Meta透露该模型在从中性术语翻译时“过分倾向于男性形式”,在大多数语言中,从男性参考(如英语中的“he”)翻译时表现更好。
此外,在没有性别信息的情况下,SeamlessM4T在翻译时更倾向于翻译男性形式,占约10%的时间——这可能是由于训练数据中“男性词汇”过度表示,Meta猜测。
Meta提出的观点是,SeamlessM4T在翻译中不会特意加入明显偏见的文本,这是翻译和生成型AI文本模型普遍存在的问题。它并不完美。
在一些语言中,比如孟加拉语和吉尔吉斯语,SeamlessM4T会生成更多有毒的翻译,即恶意或亵渎的翻译,涉及到社会经济地位和文化。而且一般情况下,SeamlessM4T在涉及性取向和宗教的翻译中更具有毒性。
Meta指出,SeamlessM4T的公开演示包含了对输入语音中毒性的过滤器,以及对可能有毒性的输出语音的过滤器。然而,在模型的开源版本中,默认情况下没有这个过滤器。
在白皮书中未解决的AI翻译器的更大问题是由于过度使用而可能导致的词汇丰富性的丧失。与人工智能不同,人类口译员在将一种语言翻译成另一种语言时会做出独特的选择。
他们可能会解释、规范化、概括和总结,从而创造出非正式地称为“翻译语”的指纹。AI系统可能会生成更“准确”的翻译,但这些翻译可能是以翻译的多样性和丰富性为代价的。
这可能是为什么Meta不建议将SeamlessM4T用于长篇翻译和得到政府机构和翻译机构认可的认证翻译,比如合格翻译。
Meta不鼓励将SeamlessM4T用于医疗或法律目的——这可能是为了在发生错误翻译的情况下保护自己的立场。
这是明智的。至少已经发生过几起因为AI错误翻译导致执法失误的案例。在2012年9月,警方因为一条错误翻译的短信错误地指责一名库尔德男子涉嫌资助恐怖主义。
在2017年,堪萨斯州的一名警察使用Google翻译询问一名西班牙语使用者是否可以搜查他们的汽车查找毒品,但由于翻译不准确,司机没有完全理解自己同意了什么,最终该案件被驳回。
“这种单一系统方法可以减少错误和延迟,提高翻译过程的效率和质量,使我们更接近实现无缝翻译,”Pino说道。
“在未来,我们想探索这个基础模型如何能够实现新的交流能力,最终让我们更接近一个每个人都可以被理解的世界。”
希望在那个未来,人类不会被完全排除在外。
发布者:5840,转转请注明出处:https://www.5840.cn/lives/844.html
评论列表(0条)