实时音频转录利器,Gladia颠覆转录领域!

Gladia以更低价格,更快速度和更多功能优势脱颖而出。目前,Gladia已与多家公司合作,获得400万美元种子轮资金投资,发展前景可期。

认识Gladia,这是一家法国的 AI 初创公司,它希望改变公司与音频数据交互的方式。该公司开发了一个音频转录应用程序编程接口(API),您可以将其与其他产品集成,它应该比目前市面上的其他产品更加出色。而这一技术基础也为音频带来了新的应用场景。
 
如果您熟悉音频转录 API,就会知道大型云提供商已经拥有自己的 API。有 Google 的speech-to-text API、Amazon Transcribe、Microsoft 的Speech to Text等,它们运行良好,但价格昂贵、速度慢且功能不多。
 
Gladia 的联合创始人兼首席执行官 Jean-Louis Quéguiner 曾是 OVHcloud 的 AI 负责人,并与 Jonathan Soto 共同创立了这家公司,他告诉我现有 API 的一些局限性。
 
据他介绍,现有产品存在三个痛点。首先,在价格方面,通常转录一小时的音频,每小时要花费 1.50 到 2 美元。
 
其次,由于某些语言的支持程度较低,因此输出音频品质并不总是非常可靠。当涉及到高级功能时,如果人们使用多种语言进行交流,API很可能无法检测到语言的变化,并且无法将音频转录为多种语言。
 
最后,转录 API 的速度很慢。转录一个小时的音频可能需要 15 分钟以上的时间。如果您不需要立即转录,那很好,但这意味着您将无法在某些行业中使用这些 API。
 

基于Whisper改良的Gladia

Gladia 是基于OpenAI 的Whisper改良的音频AI 。“我们从 Whisper 开始。我们没有重新发明新的软件,但我们听取了客户的意见,他们告诉我们:'我想要的是像 Whisper 一样有效的东西,'”Jean-Louis Quéguiner 告诉我。
 
但Whisper并不完美,它的原始版本运行和转录仍然很慢,因此 Gladia 花了很多时间将 Whisper 变成一个快速响应的转录模型。当然,这也不是Whisper唯一存在的问题。Quéguiner 说,“Whisper 的一半来源于 GPT-2,你应该看过 LLM 和 ChatGPT的图标,他们的图标很容易让人产生幻觉。我们也做了很多工作来避免图标让人产生幻觉问题。”
 
Quéguiner 还说,Whisper 接受过字幕方面的培训,您可以在互联网(例如 YouTube)上找到这些内容。OpenAI 的模型还倾向于听到在线视频中常见的短语,比如“如果你喜欢这个视频,请点赞和订阅”。类似这样的语句会容易造成数据不准确等问题,而Gladia试图解决这些缺陷。
 
除了对 Whisper 的缺点和现有的问题进行修改之外,Gladia还具有一些预处理和后处理算法,以改善最终的转录结果。
 
 
Gladia 承诺它可以以 0.61 美元的价格转录一小时的音频,转录过程大约需要 60 秒。它的 API 可以检测到多个说话者、添加时间戳、检测语言并在需要时从一种语言切换到另一种语言。
 
Gladia 还会自动添加标点符号和大小写。与大多数 API 一样,Gladia最终结果采用 JSON 格式。但 Gladia 还支持 SRT 和 VTT 文件,供想要生成字幕的公司使用。
 
我创建了一个帐户并上传了一段采访录音,以了解 Gladia 的工作原理。它花费的时间比预期的要多一些,但绝对比谷歌或 Azure 的语音到文本 API 快得多。虽然转录的结果并非完美无缺,但相对于市面上其他产品而言,它已经非常好了!它甚至可以理解首字母缩略词和一些技术术语。
 
我在Aiko中打开了相同的音频文件,这是一款由 Sindre Sorhus 开发的 Mac 应用程序,可让您使用 Whisper 在本地转录音频文件。正如预期的那样,输出的质量非常接近于 Gladia ,但 Gladia 比在我的 MacBook Pro 上运行 Aiko 快得多。总的来说,Gladia 是我用过的最好的转录 API。

成为音频智能 API

Gladia公司目前与呼叫中心公司、虚拟会议服务和视频发布商合作,包括Claap、Livestorm和Selectra。
 
Gladia 在由New Wave领投的一轮融资中筹集了 400 万美元的种子轮资金。其他投资者包括红杉资本、Cocoa 和天使投资人,如 Solomon Hykes、Pierre Betouin、Miroslaw Klaba 和 Alexandre Berriche。
 
拥有稳定可靠的转录API只是Gladia的第一步。该公司希望在这个强大的技术基础上构建更多功能。例如,在转录音频文件后,Gladia 可以结合语句中的时间戳点,将文本翻译成另一种语言,这意味着一家公司可以在短短几分钟内上传一个音频文件并获得几十种语言的字幕。
 
未来,该公司希望能够对音频文件的内容进行归纳、将内容分类为多个主题类别、自动创建章节、进行情感分析等。
 
“我们的长期愿景是从 2D 数据转向 3D 数据。音频非常平坦,我们的想法是用智能来增强它,”Quéguiner 说,“我们认为转录将成为一种具有商业价值的商品,但我们认为更重要的是提供功能更加全面的软件。”

发布者:5840,转转请注明出处:https://www.5840.cn/lives/196.html

(2)
Lomu Bella
上一篇 2023年06月20日 14:37
下一篇 2023年06月20日 18:34

发表回复

登录后才能评论

评论列表(0条)

相关推荐

  • WhatsApp Business API入门:功能、收费、申请方法全解析

    WhatsApp Business API是为企业量身打造的一种高级服务,它提供了一组编程接口(API),而不是一个可以直接操作的用户界面。与免费版的WhatsApp Business应用不同,WhatsApp Business API并不能在应用商店如App Store或Google Play中直接下载。企业需要通过认证的第三方服务提供商获取这些API,或者根据自己的需求找技术人员进行定制开发。

    2024年02月29日
    427 0
  • Facebook自动回复优化指南:提升客户满意度的策略

    在这个数字化的时代,快速响应已经成为企业在与客户沟通的必备要素。但是当经常面对大量的相同信息时,如何可以提高效率呢?目前很多社交媒体平台都内设了自动回复功能,像是Facebook。这个功能确保无论何时有人联系你,都会立即收到回复,无需24小时紧盯屏幕,客户依然感受到被重视和及时服务的体验。

    2024年02月22日
    178 0
  • Facebook自动回复优化指南:提升客户满意度的策略

    在这个数字化的时代,快速响应已经成为企业在与客户沟通的必备要素。但是当经常面对大量的相同信息时,如何可以提高效率呢?目前很多社交媒体平台都内设了自动回复功能,像是Facebook。这个功能确保无论何时有人联系你,都会立即收到回复,无需24小时紧盯屏幕,客户依然感受到被重视和及时服务的体验。

    2024年02月22日
    213 0
  • LINE官方账号全攻略:设置流程与基本功能

    LINE官方账号是一种适合企业和品牌的社交媒体平台,它在中国台湾、日本和东南亚等地区拥有庞大的用户基数和影响力。LINE官方账号提供了多种商业功能和定制选,帮助企业更有效地进行营销和服务.

    2024年02月05日
    780 0
  • 学会使用Facebook Messenger:一步步教你配置Messenger来助力推广营销

    是全球最受欢迎的通讯工具之一,不仅可以用于个人沟通,还可以用于商业用途,如与客户互动,提供客服,发送通知,甚至进行销售。Facebook Messenger还有一个广告平台,可以帮助企业触达潜在客户。

    2024年01月31日
    218 0

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@5840.com

工作时间:周一至周六,9:30-18:30,节假日休息

关注微信