认识Gladia,这是一家法国的 AI 初创公司,它希望改变公司与音频数据交互的方式。该公司开发了一个音频转录应用程序编程接口(API),您可以将其与其他产品集成,它应该比目前市面上的其他产品更加出色。而这一技术基础也为音频带来了新的应用场景。
如果您熟悉音频转录 API,就会知道大型云提供商已经拥有自己的 API。有 Google 的speech-to-text API、Amazon Transcribe、Microsoft 的Speech to Text等,它们运行良好,但价格昂贵、速度慢且功能不多。
Gladia 的联合创始人兼首席执行官 Jean-Louis Quéguiner 曾是 OVHcloud 的 AI 负责人,并与 Jonathan Soto 共同创立了这家公司,他告诉我现有 API 的一些局限性。
据他介绍,现有产品存在三个痛点。首先,在价格方面,通常转录一小时的音频,每小时要花费 1.50 到 2 美元。
其次,由于某些语言的支持程度较低,因此输出音频品质并不总是非常可靠。当涉及到高级功能时,如果人们使用多种语言进行交流,API很可能无法检测到语言的变化,并且无法将音频转录为多种语言。
最后,转录 API 的速度很慢。转录一个小时的音频可能需要 15 分钟以上的时间。如果您不需要立即转录,那很好,但这意味着您将无法在某些行业中使用这些 API。
基于Whisper改良的Gladia
Gladia 是基于OpenAI 的Whisper改良的音频AI 。“我们从 Whisper 开始。我们没有重新发明新的软件,但我们听取了客户的意见,他们告诉我们:'我想要的是像 Whisper 一样有效的东西,'”Jean-Louis Quéguiner 告诉我。
但Whisper并不完美,它的原始版本运行和转录仍然很慢,因此 Gladia 花了很多时间将 Whisper 变成一个快速响应的转录模型。当然,这也不是Whisper唯一存在的问题。Quéguiner 说,“Whisper 的一半来源于 GPT-2,你应该看过 LLM 和 ChatGPT的图标,他们的图标很容易让人产生幻觉。我们也做了很多工作来避免图标让人产生幻觉问题。”
Quéguiner 还说,Whisper 接受过字幕方面的培训,您可以在互联网(例如 YouTube)上找到这些内容。OpenAI 的模型还倾向于听到在线视频中常见的短语,比如“如果你喜欢这个视频,请点赞和订阅”。类似这样的语句会容易造成数据不准确等问题,而Gladia试图解决这些缺陷。
除了对 Whisper 的缺点和现有的问题进行修改之外,Gladia还具有一些预处理和后处理算法,以改善最终的转录结果。
Gladia 承诺它可以以 0.61 美元的价格转录一小时的音频,转录过程大约需要 60 秒。它的 API 可以检测到多个说话者、添加时间戳、检测语言并在需要时从一种语言切换到另一种语言。
Gladia 还会自动添加标点符号和大小写。与大多数 API 一样,Gladia最终结果采用 JSON 格式。但 Gladia 还支持 SRT 和 VTT 文件,供想要生成字幕的公司使用。
我创建了一个帐户并上传了一段采访录音,以了解 Gladia 的工作原理。它花费的时间比预期的要多一些,但绝对比谷歌或 Azure 的语音到文本 API 快得多。虽然转录的结果并非完美无缺,但相对于市面上其他产品而言,它已经非常好了!它甚至可以理解首字母缩略词和一些技术术语。
我在Aiko中打开了相同的音频文件,这是一款由 Sindre Sorhus 开发的 Mac 应用程序,可让您使用 Whisper 在本地转录音频文件。正如预期的那样,输出的质量非常接近于 Gladia ,但 Gladia 比在我的 MacBook Pro 上运行 Aiko 快得多。总的来说,Gladia 是我用过的最好的转录 API。
成为音频智能 API
Gladia公司目前与呼叫中心公司、虚拟会议服务和视频发布商合作,包括Claap、Livestorm和Selectra。
Gladia 在由New Wave领投的一轮融资中筹集了 400 万美元的种子轮资金。其他投资者包括红杉资本、Cocoa 和天使投资人,如 Solomon Hykes、Pierre Betouin、Miroslaw Klaba 和 Alexandre Berriche。
拥有稳定可靠的转录API只是Gladia的第一步。该公司希望在这个强大的技术基础上构建更多功能。例如,在转录音频文件后,Gladia 可以结合语句中的时间戳点,将文本翻译成另一种语言,这意味着一家公司可以在短短几分钟内上传一个音频文件并获得几十种语言的字幕。
未来,该公司希望能够对音频文件的内容进行归纳、将内容分类为多个主题类别、自动创建章节、进行情感分析等。
“我们的长期愿景是从 2D 数据转向 3D 数据。音频非常平坦,我们的想法是用智能来增强它,”Quéguiner 说,“我们认为转录将成为一种具有商业价值的商品,但我们认为更重要的是提供功能更加全面的软件。”
发布者:5840,转转请注明出处:https://www.5840.cn/lives/196.html
评论列表(0条)