回顾:Epiphan LiveScrypt
Epiphan的 LiveScrypt 结合了用于音频输入的硬件设备和用于转录的云应用程序. 总之,他们提供了一个抛光,廉价,易于使用 为会议、培训或类似会议实时转录语音到文本的解决方案. 您可以在监视器上本地显示文本, 将其显示为直播流中的封闭字幕, 并通过URL或QR码在网上发布标题.
像所有的转录服务一样, 机器的还是人的, 准确性不是完美的, 但Epiphan使用的是谷歌基于人工智能的语音转文本应用程序编程接口, 所以它会随着时间的推移而改善. 如果你正在为如何在你的演讲中添加经济实惠的现场文稿而苦恼, LiveScrypt绝对值得一看.
引入LiveScrypt
LiveScrypt硬件是一个基于触摸屏的设备,它将来自多个来源的传入音频馈送到云端, 通过语音到文本转换成文本. 一旦转换, 您可以在设备本身上显示文本, 通过HDMI连接的显示器, 在一个专门的网页上,大多数移动设备都可以访问. 你也可以将文本输入到直播应用程序中,如Telestream的Wirecast或Epiphan的Pearl,以封闭字幕的形式显示. 一旦事件发生 已经结束,你可以从网上下载完整的成绩单吗.
硬件售价1499美元.在亚马逊上售价95美元,转录服务售价9美元.每小时95美元. 任何演讲的前5分钟是免费的, 每小时或其中的一部分是每小时的全部价格,没有比例.
拿到设备后,你就登陆伊泼芬的网站 livcrypt门户输入信用卡信息并注册设备. 之后, 您可以完全通过触摸屏界面运行LiveScrypt,也可以通过门户远程访问它. 稍后会详细介绍.
输入与输出
硬件支持非常广泛的音频输入, 包括两个XLR输入(带有Phantom电源), 立体声RCA连接器, a 3.5mm音频接口,2个HDMI接口,SDI音频,2个USB接口 图1中, 在页面顶部). 音频不是直通的,所以你可能需要加倍输出来支持 live-streaming/local speaker和Live-Scrypt. 在我的测试中,我通过XLR和RCA连接器输入音频,两者都工作得很好.
如前所述,您可以在本地或通过web界面驱动该单元. 有一次我配对了设备,并通过XLR连接了麦克风, I was transcribing in seconds; the only hiccup was that I had to manually enable Phantom power to the condenser microphone in the software. 你可以看到结果 图2.
![Epiphan LiveScrypt web界面](http://dzceab466r34n.cloudfront.net/Images/ArticleImages/InlineImages/133649-Ozer_LiveScrypt_Fig2-ORG.jpg)
图2. 我把传送门里的装置配对后,几秒钟内就完成了转录.
操作上, 你开始和停止转录通过控制左上角的触摸屏或使用等效的网络控制. 您可以看到开始按钮 Figure 3 停止按钮和运行时间码如图2所示. 使用右下角的三个按钮之一打开图3所示的控件.
如图3所示,这些控件相当简单. System选项卡包含IP地址和序列号等信息. 音频允许您静音不同的音频输入和设置增益水平上的一些,但不是全部,输入.
![Epiphan LiveScrypt启动按钮](http://dzceab466r34n.cloudfront.net/Images/ArticleImages/InlineImages/133650-Ozer_LiveScrypt_Fig3-ORG.jpg)
图3. 机载控制
“转录”选项卡允许您从系统当前支持的30种语言中选择一种(您可以在 go2sm.com/livescrypt). 目前, 系统只支持转录, 如果你说的是德语, 你可以只输出德语字幕. 然而,翻译在发展的道路上. 转录选项卡还提供了启用自动插入标点符号的选项,以及将脏词转换为星号的亵渎过滤器. 安全选项卡允许您设置密码来操作触摸屏和web界面.
您将在Output选项卡中花费大部分时间,如图3所示. 在这里,您可以配置本机的文本HDMI输出,用于本地显示或输入到Wirecast等实时流媒体系统, 所示 图4. 您可以将此输出配置为纯文本输出或带有文本和QR码的输出,以便观看本地显示的观众可以在其移动设备上检索标题提要.
![Epiphan直播到wirect](http://dzceab466r34n.cloudfront.net/Images/ArticleImages/InlineImages/133651-Ozer_LiveScrypt_Fig4-ORG.jpg)
图4. 这是插入到Wirecast中的转录.
为了在Wirecast中捕获文本,我将LiveScrypt HDMI输出连接到Epiphan AV.io 4K USB采集设备并配置AV.IO输入到出现在视频输入底部的裁剪框中. 郑重声明, 这个视频来自几年前Sennheiser的麦克风评测, 音频质量也相当不错. 我在一台Mac笔记本电脑上播放了视频文件,并通过RCA连接器将其输入到LiveScrypt设备中. 同时, 我在一台惠普笔记本电脑上播放了同样的视频, 我通过桌面演示器输入到Wirecast. 我用图4所示的转录记录了您可以查看的演示文稿.
让我感到惊讶的是,闭标题用例没有通过一个预设来显式支持,该预设以短而宽的输出分辨率输出两到三行. 在Wirecast这样的系统中配置标题的输出并不难, 但要想清晰地模拟出封闭字幕,还需要一些实验. 我本以为这个用例会很常见,Epiphan会用预设来支持它.
演讲结束后,你可以下载两种版本的文稿 .srt或 .. TXT格式的web界面 图5. 注意,此门户包含LiveScrypt硬件本身上可用的所有控件,因此您可以远程运行系统. 在右上方 图5,您可以在web上看到显示转录的流URL.
![Epiphan LiveScrypt流URL转录](http://dzceab466r34n.cloudfront.net/Images/ArticleImages/InlineImages/133652-Ozer_LiveScrypt_Fig5-ORG.jpg)
图5. AVStudio为配对的LiveScrypt单元提供控制,并下载完成的演示文稿.
准确性如何??
为了了解LiveScrypt是如何工作的,我 看了一些 epiphan网站上有视频. 在其中一个视频中, Epiphan的发言人声称准确率为92%, 这感觉是对的, 虽然 一些文章认为谷歌的准确率高达95%.
请注意,人类转录器的准确率从95%到 98% 在我找到的一些文章中. 所以,商业上是买不到完美的.
最大的问题是需要多大的精确度才能称得上“有用”.“你可以通过观察自己来判断 Sennheiser的视频记录如图4所示.
看了大半个视频, 精确度相当好,只比音频慢一两秒, 这让人印象深刻. 有些情况下,转录会落后, 在此之后,系统会出现大量文本,这有点难以理解(见1:24左右)。. 注意,如果你在一个有独特行话的特定行业工作, 您可以输入北美工业分类系统(NAICS)代码,以提高特定术语和缩略语的转录准确性, 我没有尝试过吗.
我还应该指出的是,测试视频中显示的准确性是我测试中最好的情况. 我还测试了一些欧洲人说英语的录音,这些英语有轻微或严重的口音, 结果是无法使用的. 当然, 因为Epiphan依靠谷歌来转录, 您应该期望所有用例的准确性随着时间的推移而提高.
在这方面, 评估LiveScrypt的一种方法是,它是一种硬件设备和服务,旨在为谷歌提供来自不同来源的高质量音频,并检索并使转录可灵活交付. 从这个角度看, Epiphan做了一个伟大的工作,结合了一系列的音频输入,使操作极其简单. 唯一的问题是Google在这一点上提供的准确性是否满足您的应用程序的需要.
相关文章
Mike Sandler, Epiphan Video首席执行官
2019年1月15日
Epiphan视频的珍珠迷你提供亲质量的现场活动视频制作.
2019年1月11日