上下文感知式实时会议音频转录
背景技术:
1.个体的群组通常使用各种类型的音频和音视频(“a/v”)会议技术进行会议。在诸如这些的会议中,每个会议与会者利用被配置有会议客户端应用和适当硬件的计算设备来生成与会者的音频和/或视频。在会议期间,由每个与会者计算设备生成的音频和/或视频与其他与会者的计算设备共享。以这种方式,所述与会者中的每位与会者都能够听到和/或看到会议中的其他与会者。
2.尽管诸如上文所描述的那些的会议对于许多类型的用户会非常有用,但是一些会议技术使得这些种类的会议对于其他类型的与会者益处不大。例如,具有听力障碍的人可能难以参与这样的会议或者可能根本无法参与。会议中与其他与会者不讲同一种语言的与会者也可能无法使用当前的会议技术有效沟通或者根本无法沟通。
3.存在用于转录音频的技术;然而,这些技术存在若干技术限制。例如,许多转录方案仅仅执行对音频的离线转录,因此,对于在会议期间的与会者没用。此外,通过当前技术生成的转录的质量可能很差。例如,如果与会者使用行话、缩略语或者其他类型的领域特定术语,则可能发生这种情况。当会议中的与会者讲不同语言时,也可能发生这种情况。
4.低质量的转录也会导致对计算资源的低效使用,所述计算资源诸如是存储器、处理循环、存储装置和功率。例如,低质量的转录可能需要被重新转录或编辑以校正错误。该过程将不必要地消耗诸如上文所标识的那些的计算资源。
5.相对于这些和其他技术挑战,提出了在本文中所做出的公开内容。
技术实现要素:
6.公开了用于上下文感知式实时会议音频转录的技术。通过实施所公开的技术,能够在会议期间实时地进行会议中由与会者生成的音频的高质量转录,并且向会议与会者显示。通过生成会议特定统计语言模型并且使用所述模型来执行转录,与此前的方案相比,可以改善所述转录的质量。
7.通过在会议期间实时地生成并且呈现会议音频的高质量转录,具有听力障碍的会议与会者能够更有效地参与会议。另外,通过转换使用在本文中所公开的技术生成的转录,不同外语的讲话者能够更有效地参与会议。最后,可以通过提供不需要被编辑的高质量实时会议转录而节省计算资源,诸如上文所描述的那些资源。在本文中未具体提到的其他技术益处也能够通过对所公开主题的实施来实现。
8.为了实现上文简要提到的技术益处,提供了一种上下文感知式转录系统。所述上下文感知式转录系统能够使用会议特定统计语言模型来生成在会议期间生成的音频的高质量转录。具体地,所述上下文感知式转录系统能够包括语言模型准备服务,所述语言模型准备服务在会议之前或者在会议期间取回会议特定数据。所述会议特定数据能够包括,但不限于:由会议与会者生成或者以其他方式与会议与会者相关联的消息、消息的附件、会议与会者的姓名、或者由会议与会者创建或者以其他方式与会议与会者相关联的文件。所述会议特定数据能够包括行话、缩略语、或者与会议与会者相关联的其他类型的领域特定术
语。
9.一旦所述语言模型准备服务已经收集了会议特定数据,该服务就利用所述会议特定数据来生成会议特定统计语言模型。在一些配置中,在所述会议的持续时间期间存储所述会议特定统计语言模型以用于恢复的目的,并且在会议的结束之后被销毁。
10.语音转录服务能够利用会议特定统计语言模型来生成会议的音频的文本转录。在一些配置中,所述语音转录服务利用所述会议特定统计语言模型,结合基础(即,非领域特定)语言模型,来生成转录。
11.在一些配置中,在会议期间将所述转录传输到与会议与会者相关联的计算设备。所述计算设备被配置为实时地或接近实时地在会议期间在用户界面(“ui”)中呈现所述转录。例如,ui能够在与会者在会议期间生成的视频内容上覆盖转录的文本。
12.在一些配置中,所述语言模型准备服务响应于接收到由调度处理器和触发服务(“sts”)生成的会议前信号而生成会议特定统计语言模型。所述会议前信号能够包括描述所述会议的数据,诸如,例如标识所述会议的数据以及标识所述会议的开始时间的数据。
13.为了生成所述会议前信号,sts能够取回预定义日程上即将举行的会议的列表(例如,每天一次)。利用该数据和会议的开始时间,sts能够在会议的开始时间之前的预定时间量(例如,一小时)时生成会议前信号。以这种方式,能够在会议之前的预定时间量处开始对针对会议的会议特定统计语言模型的生成。
14.sts还可以或者替代地订购接收描述对会议的更改的会议更改事件通知,所述更改诸如例如是添加或移除与会者、添加或移除文件、或者对会议的开始时间的修改。sts能够响应于接收到会议更改事件通知而生成会议前信号。这能够在会议之前或者在会议期间发生。例如,在参与者加入或离开会议时,可以在会议期间生成额外的信号。以这种方式,能够在会议之前或者在会议期间利用额外的或者经修改的会议特定数据来更新针对会议的会议特定统计语言模型,以保持针对转录的上下文聚焦于活动的参与者并且进一步提高所生成的转录的准确度。
15.应当意识到,上文所描述的主题能够被实现为计算机控制的装置、计算机实现的方法、计算设备或者诸如计算机可读介质的制品。通过阅读以下具体实施方式并且查阅相关联的附图,这些和各种其他特征将是显而易见的。
16.提供该明内容部分是为了以简化形式介绍所公开的技术的一些方面的简述,下文在具体实施方式中进一步对其进行了描述。该发明内容部分并非意在标识所要求保护的主题的关键特征或基本特征,也不意在将本发明内容用于限定所要求保护的主题的范围。此外,所要求保护的主题并不限于克服了在本公开的任何部分中指出的任何或全部缺陷的实施方式。
附图说明
17.图1是根据在本文中所公开的一个实施例的计算架构图,其示出了上下文感知式转录系统的配置和操作的各方面;
18.图2是根据在本文中所公开的一个实施例的计算架构图,其示出了在图1中所示的上下文感知式转录系统用于生成会议特定统计语言模型的配置和操作的各方面;
19.图3是根据在本文中所公开的一个实施例的计算架构图,其示出了在图1和图2中
或者以单数形式被称为“与会者104”)能够分别利用相关联的计算设备106a和106b(在本文中可以被统称为“计算设备106”或者以单数形式被称为“计算设备104”)。
31.计算设备106被配置有会议客户端应用108和适当的硬件(例如,麦克风或网络摄像头),其分别用于生成会议与会者104的音频114a和114b和/或视频。会议客户端应用108可能是:来自microsoft corp.的skype、skype for business或teams会议客户端应用,来自zoom video communications的zoom会议客户端应用,来自amazon.com的chime会议客户端应用,或者来自另一供应商的、促进音频和/或视频会议的另一种应用。
32.在会议期间,会议客户端应用108与其他与会者104的计算设备106共享由每个与会者计算设备106所生成的音频114和/或视频。以这种方式,与会者104中的每个与会者104能够听到和/或看到会议中的其他与会者104。应当意识到,能够利用在图1中所示的那些之外的联网组件、服务器计算机和软件组件来实现该功能。
33.在一些配置中,上下文感知式转录系统102结合会议客户端应用108来操作,以转录音频114中的口头词语,从而生成会议的文本转录112。为了实现该功能,会议客户端应用将由计算设备106所生成的音频114传输到上下文感知式转录系统102。继而,上下文感知式转录系统102实时地生成所述音频114的转录112。下文将相对于图2
‑
图7来提供关于转录112的生成的细节。
34.在一些配置中,在会议期间,转录112被传输到与会议与会者104相关联的计算设备106。会议客户端应用108能够接收转录112并且在会议期间实时地在ui 110中向与会者104呈现转录112。ui 110例如能够在会议期间在由计算设备106所生成的视频内容上覆盖转录112的文本。下文将相对于图6来提供关于一个这样的ui 110的细节。
35.图2是计算架构图,其示出了在图1中所示的和上文简要描述的上下文感知式转录系统102的配置和操作的额外方面。具体地,图2图示了上下文感知式转录系统102用于生成会议特定统计语言模型216以用于转录会议的音频114的各方面。
36.在一些配置中,能够定义转录策略204,其包括指定是否要为组织中的用户安排的会议生成转录112的数据。例如,具有适当管理员特权的用户218能够利用计算设备106c和应用程序202a(例如,网络浏览器应用)来访问管理门户220。
37.通过管理门户220,用户218能够定义指示要生成转录112的转录策略204。转录策略204能够被存储在包括存储装置和处理设施的基板206中。基板206可以与上下文感知式转录系统102集成或者由其他配置中的另一种系统来实现。
38.如在图2中所示的,会议与会者104a或者另一用户能够利用计算设备106b和应用202b(例如,个人信息管理器(“pim”)应用或者另一类型的本地或基于网络的日历应用)来与一个或多个其他与会者104安排会议。描述所述会议的数据被存储在会议定义208中,会议定义208在一些配置中也被驻留在基板206中。
39.会议定义208能够包括关于会议的各种类型的数据,包括,但不限于:针对会议的独有标识符、会议的日期和时间、以及会议的与会者104的列表。会议定义208能够包括在本文中未具体标识的其他类型的数据。
40.也如在图2中所示的,上下文感知式转录系统102在一些配置中包括语言模型准备服务210。语言模型准备服务210是能够在会议之前或者在会议期间取回会议特定数据214的网络服务。会议特定数据214能够包括,但不限于:由会议与会者104生成或者以其他方式
与会议与会者相关联的消息(例如,电子邮件、文本消息、即时消息等)、消息的文件附件、会议与会者104的姓名、或者由会议与会者104生成或者以其他方式与会议与会者104相关联的文件。
41.能够在预定义时间段内取回会议特定数据214。例如,能够取回针对会议与会者中的每个会议与会者前六个月(或者其他时间段)的消息。会议特定数据214能够包括行话、缩略语、或者与会议与会者104相关联的其他类型的领域特定术语。能够基于会议定义208(例如,与会者的列表)和/或其他类型的信息来标识会议特定数据214。
42.一旦语言模型准备服务210已经收集了会议特定数据214,该服务210就利用会议特定数据214来生成会议特定统计语言模型216。在一些配置中,会议特定统计语言模型216在会议的持续时间期间被存储在基板206中以用于恢复的目的,并且在会议的结束之后被删除。
43.会议特定统计语言模型216定义能够被用于在给定其前方的词语的情况下预测序列中的下一词语的概率分布。这样的语言模型基于文本的示例,诸如会议特定数据214,来学习词语出现的概率。以这种方式,所述会议特定统计语言模型能够被用于确定音频中的口语词语的概率,并且基于所计算出的概率来生成转录。
44.能够使用各种技术来实现会议特定统计语言模型216,包括,但不限于:递增语言模型、n元语法语言模型、均匀分布(零元语法)语言模型、一元语法语言模型、二元语法语言模型、跳跃语言模型、类语言模型、主题语言模型、神经网络语言模型、长短期记忆(“lstm”)模型、或者递归神经网络语言模型。
45.在一些配置中,语言模型准备服务210响应于接收到由调度处理器和触发服务(“sts”)302(在图3中所示的)所生成的会议前信号212而生成会议特定统计语言模型216。如下文将要更详细描述的,会议前信号212能够包括描述会议的数据,诸如,例如标识会议的数据和标识会议的开始时间的数据。下文将相对于图3和图4来提供关于会议前信号112的生成的细节。
46.如下文也将更详细描述的,语音转录服务502(在图5中所示的)能够利用会议特定统计语言模型216来生成会议的音频114的文本转录112。在一些配置中,语音转录服务502利用会议特定统计语言模型216,结合基础(即,非领域特定)语言模型,来生成转录112。下文将相对于图5来提供关于语音转录服务502的操作的细节。
47.图3是根据在本文中所公开的一个实施例的计算架构图,其示出了在图1和图2中所示的上下文感知式转录系统102用于生成触发生成会议特定统计语言模型216的会议前信号212的配置和操作的各方面。如上文所简要论述的,在本文中被称为调度处理器和触发服务(“sts”)302的网络服务在一些配置中生成会议前信号212。
48.为了生成会议前信号212,sts 302能够利用基于调度的处理306和/或基于事件的处理304。当利用基于调度的处理306时,sts 302取回预定义调度上即将举行的会议的列表310(例如,每天一次)。例如,但是并非限制,sts 302可能调用日历应用编程接口(“api”)308以根据预定义日程从基板206取回在将来的预定时间段(例如,七天)内即将举行的会议的列表310。能够基于在基板206中或者在另一位置中存储的用户的日历314上定义会议312的数据来生成会议的列表310。
49.使用标识即将举行的会议的列表310中指定的会议的开始时间的数据,sts 302能
够在每次会议的开始时间之前的预定时间量(例如,一小时)时生成会议前信号212。例如,但是并非限制,如果安排会议在下午2:00开始,sts 302能够在下午1:00向针对所述会议的语言模型准备服务210传输会议前信号212。如上文所简要描述的,语言模型准备服务210针对由会议前信号212标识的会议生成会议特定统计语言模型216。以这种方式,能够在会议的开始时间之前的预定时间量处开始为会议生成会议特定统计语言模型216。
50.如上文所描述的,sts还可能或替代地使用基于事件的处理302以触发为会议生成会议前信号212。为了利用基于事件的处理302,sts 302能够订购接收会议更改事件通知316。在一个特定实施例中,例如,事件信令服务318能够响应于检测到会议已经更改而生成会议更改事件通知316。例如,事件信令服务318可以响应于检测到向/从会议添加或移除与会者、添加或移除与会议相关联的文件、或者修改会议的开始时间而生成会议更改事件通知316。会议更改事件通知316包括描述检测到的对会议的更改的数据。
51.一旦sts 302已经订购接收会议更改事件通知316,sts 302就能够响应于接收到会议更改事件通知316而生成会议前信号212。这能够在会议之前或者在会议期间发生。以这种方式,能够在会议之前或者在会议期间利用额外的或者经修改的会议特定数据214来更新用于会议的会议特定统计语言模型216,以进一步提高会议的所生成的转录112的准确度。例如,当接收到指示新与会者104已经加入会议的通知316时,可以利用与新与会者104相关联的会议特定数据214来更新用于会议的会议特定统计语言模型216。在接收到指示与会者104已经离开会议的通知316之后,可以以类似的方式来更新会议特定统计语言模型216。如上文所简要描述的,基于调度的处理306和基于事件的处理304在一些配置中都被用于生成会议前信号212。
52.图4是根据在本文中所公开的一个实施例的数据结构图,其示出了被用于触发生成会议特定统计语言模型216的例示性会议前信号212的配置的各方面。在图4中所示的实施例中,会议前信号212包括标识会议的开始时间的数据402a、标识能够找到关于会议的信息的碎片(即数据库)的数据402b、指定针对会议的独有标识符的数据402c、以及包含会议特定值的数据402d。
53.如下文将要更详细描述的,语言模型准备服务210能够利用在会议前信号212中所包含的数据来获得由会议前信号212所标识的针对会议的会议特定数据214。下文参考图5提供了关于该过程的额外细节。
54.图5是根据在本文中所公开的一个实施例的计算架构图,其示出了在图1
‑
图3中所示并且如上文所描述的上下文感知式转录系统102用于使用会议特定统计语言模型216来执行实时会议转录的配置和操作的额外方面。如上文所简要描述的,接收到会议前信号212触发语言模型准备服务210针对由会议前信号212标识的会议生成会议特定统计语言模型216。
55.为了生成针对会议的会议前信号212,语言模型准备服务212使用在会议前信号212中所包含的数据来从基板206和/或另一位置定位并且取回针对所述会议的会议特定数据214。如上文所论述的,会议特定数据214能够包括,但不限于:由会议与会者104生成或者以其他方式与会议与会者相关联的消息(例如,电子邮件、文本消息、即时消息等)、消息的文件附件、会议与会者104的姓名、或者由会议与会者104生成或者以其他方式与会议与会者104相关联的文件。会议特定数据214能够包括行话、缩略语、或者与会议与会者104相关
联的其他类型的领域特定术语。
56.一旦语言模型准备服务210已经生成了会议特定统计语言模型216,语言模型准备服务210就能够在基板206中或者在另一位置处存储会议特定统计语言模型216。如上文所论述的,能够在会议的持续时间期间存储会议特定统计语言模型216以用于恢复的目的,并且在一些配置中在会议的结束之后被销毁。
57.如在图5中所示的,语言模型准备服务210也向语音转录服务502提供会议特定统计语言模型216。如上文所简要描述的,语音转录服务502是一种被配置为接收会议的音频114并且生成在音频114中所包含的语音的文本转录112的网络服务。为了提供该功能,在一种配置中利用复用器504从参与计算设备106接收会议的音频114。复用器504向语音转录服务502提供音频114。如在图5中所示的,复用器504还能够向参与计算设备106中的每个参与计算设备提供音频114。
58.语音转录服务502接收音频114并且利用会议特定统计语言模型216来实时地(即,在与会者104讲话时)生成音频114的转录112。语音转录服务502利用会议特定统计语言模型216,在一些配置中结合基础统计语言模型506。会议特定统计语言模型216包括领域特定(即,会议特定)术语,而基础统计语言模型506通常不包括领域特定术语。
59.如会议特定统计语言模型216那样,基础统计语言模型506也定义能够被用于在给定其前方的词语的情况下预测序列中的下一词语的概率分布。能够使用各种技术来实现基础统计语言模型506,包括,但不限于:递增语言模型、n元语法语言模型、均匀分布(零元语法)语言模型、一元语法语言模型、二元语法语言模型、跳跃语言模型、类语言模型、主题语言模型、神经网络语言模型、或者递归神经网络语言模型。
60.语音转录服务502在生成转录时向复用器504提供转录。继而,复用器504向在参与会议的计算设备106上执行的会议客户端应用108的实例提供转录112。复用器504也能够在基板206中存储转录112以供将来取回和查看。
61.如上文所论述的,会议客户端应用108在会议期间实时地在ui 110中呈现转录112。下文参考图6描述了用于呈现转录112的一个例示性ui 110。
62.图6是根据在本文中所公开的一个实施例的用户界面图,其示出了使用在图1
‑
图5中所示的上下文感知式转录系统102呈现会议的音频114的转录112的示例性ui 110。如在图6中所示的,ui 110能够在由语音转录服务502生成转录112时实时呈现所述转录112。
63.也如在图6中所示的,ui 110能够包括若干ui元件,其用于控制对转录112的呈现。例如,但是并非限制,ui 110能够包括菜单602,菜单602具有ui控件604a,当选择所述ui控件604a时,将打开或关闭ui 110中的转录112的呈现。菜单602能够包括ui控件,其用于执行其他类型的功能,包括,但不限于:记录会议、打开或关闭视频或音频、显示聊天窗口、以及结束会议。菜单602能够包括其他ui控件,用于以其他配置来执行其他类型的功能。
64.菜单606也能够被呈现在ui 110中,其包括菜单项608a,当选择所述菜单项608a时,将打开或关闭转录112的生成。菜单606能够包括用于执行其他类型功能的菜单项,所述其他类型的功能包括,但不限于:示出设备设置、进入全屏模式、开始模糊背景的视频、示出小键盘、或者关闭进入的视频。菜单606能够包括其他ui控件,用于以其他配置来执行其他类型的功能。就此而言,应当意识到,在图6中所示的ui 110的示例性配置仅仅是示例性的,并且能够利用其他类型的用户界面来实时地呈现转录112。
65.图7是根据在本文中所公开的一个实施例的示出例程700的流程图,其示出了上文参考图1
‑
图6所描述的上下文感知式转录系统102用于实时地生成会议音频114的转录112的操作的各方面。应当意识到,在本文中结合图7和其他图所描述的逻辑操作能够被实施为:(1)计算机实施的动作的序列或者在计算设备上运行的程序模块,和/或(2)计算设备之内的互连机器逻辑电路或电路模块。
66.在本文中所公开的技术的特定实施方式是取决于计算设备的性能和其他要求的选择问题。因此,在本文中所描述的逻辑操作以各种方式被称为状态、操作、结构设备、动作或模块。这些状态、操作、结构设备、动作和模块能够以硬件、软件、固件、专用数字逻辑单元以及其任意组合来实现。应当意识到,能够比在附图中所示和在本文中所描述地执行更多或更少的操作。能够以与在本文中所描述的那些不同的次序来执行这些操作。
67.例程700在操作702处开始,其中,语言模型准备服务210确定是否从sts 302接收到针对会议的会议前信号212。如上文所论述的,sts 302能够利用基于调度的处理306和基于事件的处理304来确定生成针对会议的会议前信号212。如果语言模型准备服务210接收到针对会议的会议前信号212,则例程700从操作702进行到操作704。
68.在操作704处,语言模型准备服务210针对由所接收到的会议前信号212标识的会议取回会议特定数据214。会议特定数据214能够从基板206和/或从另一位置或多个位置取回。例程700然后从操作704进行到操作706。
69.在操作706处,语言模型准备服务210使用在操作704处取回的会议特定数据214来生成会议特定统计语言模型216。例程700然后进行到操作708,其中,语言模型准备服务210在基板206中存储会议特定统计语言模型216。例程700然后从操作708进行到操作710。
70.在操作710处,语言模型准备服务210向语音转录服务502提供会议特定统计语言模型216。例程700然后从操作710进行到操作712,其中,语音转录服务502使用会议特定统计语言模型216来生成会议的音频114的转录112。在一些配置中,语音转录服务502利用会议特定统计语言模型216和基础统计语言模型506来生成转录112。
71.从操作712,例程700进行到操作714,其中,复用器504或者另一组件向参与所述会议的计算设备提供转录112。继而,在计算设备106上执行的会议客户端应用108接收转录112并且在上文所描述的ui 110中呈现转录112。例程700然后从操作714进行到操作716,其中,复用器504在基板206或另一位置存储转录112以供将来使用。
72.从操作716,例程700进行到操作718,其中,确定会议是否完成。如果会议未完成,例程700进行回到操作712,其中,语音转录服务502继续以上文所描述的方式生成会议的音频114的转录112。也如上文所描述的,能够在会议期间基于从事件信令服务318接收到的会议更改事件通知316来更新会议特定统计语言模型216。如果会议完成,则例程700从操作718进行到操作720。
73.在操作720处,能够从基板206删除会议特定统计语言模型720。另外,在操作722处,能够使得会议的完整转录112可以为会议与会者104可用。例如,会议客户端应用108能够提供用于使得与会者104能够审查会议的完整转录112的功能。例程700然后从操作722进行到操作724,例程在此结束。
74.图8是计算机架构图,其示出了用于能够实现在本文中提出的各种技术的数据处理系统的例示性计算机硬件和软件架构。具体地,能够利用在图8中所图示的架构来实现服
务器计算机、移动电话、电子阅读器、智能电话、台式计算机、ar/vr设备、平板计算机、膝上型计算机或者另一种计算设备。
75.在图8中所图示的数据处理系统800包括中央处理单元(“cpu”)802、系统存储器804,所述系统存储器804包括随机存取存储器806(“ram”)和只读存储器(“rom”)808以及将存储器804耦合到cpu 802的系统总线810。包含基本例程的基本输入/输出系统(“bios”或“固件”)能够被存储在rom 808中,所述基本例程帮助在数据处理系统800之内的元件之间、诸如在启动期间传输信息。数据处理系统800还包括用于存储操作系统822、应用程序和其他类型的程序的海量存储设备812。例如,海量存储设备812可以在用于实现计算设备106时存储会议客户端应用108。海量存储设备812可以在被用于实现上下文感知式转录系统102中的计算系统时存储语音转录服务502。海量存储设备812还能够被配置为存储其他类型的程序和数据。
76.通过被连接到总线810的海量存储控制器(未示出)将海量存储设备812连接到cpu 802。海量存储设备812以及与其相关联的计算机可读介质提供用于数据处理系统800的非易失性存储装置。尽管在本文中所包含的计算机可读介质的描述指代海量存储设备,诸如硬盘、cd
‑
rom驱动器、dvd
‑
rom驱动器、或者usb存储键,但是本领域技术人员应当意识到,计算机可读介质能够是能够由数据处理系统800访问的任何可用计算机存储介质或通信介质。
77.通信介质包括计算机可读指令、数据结构、程序模块或者在经调制的数据信号(诸如载波或者其他传输机制)中的其他数据,并且包括任何递送介质。术语“经调制的数据信号”意指具有以在信号中编码信息的方式来改变或设置其特性中的一个或多个特性的信号。作为示例而非限制,通信介质包括诸如有线网络或直接有线连接的有线介质以及诸如声、射频、红外以及其他无线介质的无线介质。任何上述内容的组合也应当被包括在计算机可读介质的范围之内。
78.例如而非限制,计算机存储介质能够包括在用于存储诸如计算机可读指令、数据结构、程序模块或者其他数据的信息的任何方法或技术中实现的易失性和非易失性、可移除和不可移除介质。例如,计算机存储介质包括但不限于:ram、rom、eprom、eeprom、闪存存储器或者其他固态存储技术、cd
‑
rom、数字通用盘(“dvd”)、hd
‑
dvd、蓝牙或者其他光学存储设备、磁带盒、磁带、磁盘存储器或者其他磁性存储设备,或者能够被用于存储所需信息并且能够由数据处理系统800访问的任何其他介质。出于权利要求的目的,短语“计算机存储介质”以及其各种变体不包括波或信号自身或者通信介质。
79.根据各种配置,数据处理系统800能够使用通过诸如网络820的网络通往远程计算机的逻辑连接而在联网环境中操作。数据处理系统800能够通过被连接到总线810的网络接口单元816连接到网络820。应当意识到,还能够利用网络接口单元816以连接到其他类型的网络和远程计算机系统。数据处理系统800还能够包括用于从包括键盘、鼠标、触摸输入、电子笔(在图8中未示出)或者诸如视频相机的物理传感器的若干其他设备接收并且处理输入的输入/输出控制器818。类似地,输入/输出控制器818能够向显示屏或者其他类型输出设备(在图8中也未示出)提供输出。
80.应当意识到,在本文中所描述的软件组件当被加载到cpu 802中并且被运行时,能够将cpu 802和总体数据处理系统800从通用计算设备转换成定制为促进在本文中所提出
的功能的专用计算设备。cpu 802能够由任意数量的晶体管或者其他分立电路元件构成,其能够单独地或共同地采取任意数量的状态。更具体而言,响应于在本文中所公开的软件模块内所包含的可执行指令,cpu 802能够作为有限状态机来操作。这些计算机可执行指令能够通过指定cpu 802如何在各状态之间过渡而转换cpu 802,由此转换构成cpu 802的晶体管或者其他分立硬件元件。
81.编码在本文中所提出的软件模块也能够转换在本文中所提出的计算机可读介质的物理结构。在本说明书的不同实施方式中,物理结构的具体转换取决于各种因素。这样的因素的示例包括,但不限于:用于实现计算机可读介质的技术、计算机可读介质被表征为主要还是次要存储装置等。例如,如果计算机可读介质被实现为基于半导体的存储器,就能够通过转换半导体存储器的物理状态而在计算机可读介质上对在本文中所公开的软件进行编码。例如,所述软件能够转换晶体管、电容器或者构成半导体存储器的其他分立电路元件的状态。所述软件也能够转换这样的组件的物理状态,以便在其上存储数据。
82.作为另一示例,能够使用磁或光学技术来实现在本文中所公开的计算机可读介质。在这样的实施方式中,当软件在其中被编码时,在本文中所提出的软件能够转换磁或光学介质的物理状态。这些转换能够包括改变在给定磁性介质内的特定位置的磁特性。这些转换也能够包括改变在给定光学介质之内的特定位置的物理特征或特性以改变那些位置的光学特性。物理介质的其他转换也是可能的,而不脱离本说明书的范围和主旨,提供前述示例仅仅为了促进本论述。
83.考虑到上述内容,应当意识到,许多类型的物理转换发生在数据处理系统800中,以便存储并且执行在本文中所提出的软件组件。还应当意识到,在图8中针对数据处理系统800所示的架构,或者类似的架构,能够被用于实现其他类型的计算设备,包括手持计算机、视频游戏设备、嵌入式计算机系统、诸如智能电话的移动设备、平板计算机和ar/vr设备,以及本领域技术人员已知的其他类型的计算设备。还设想到了,数据处理系统800可以不包括在图8中所示的全部组件,能够包括在图8中未明确示出的其他组件,或者能够利用与在图8中所示完全不同的架构。
84.图9是根据在本文中所提出的各实施例的网络图,其图示了能够实施所公开技术的各方面的分布式网络计算环境900。如在图9中所示的,一个或多个服务器计算机900a能够经由通信网络820(其可以是有线或无线lan、wan、内联网、外联网、对等网络、虚拟专用网络、互联网、蓝牙通信网络、专有低电压通信网络或者其他通信网络中的任意一种或组合)而与若干客户端计算设备互连,客户端计算设备诸如是,但不限于:平板计算机900b、游戏控制台900c、智能手表900d、诸如智能电话的电话900e、个人计算机900f、以及ar/vr设备900g。
85.在通信网络820是互联网的网络环境中,例如,服务器计算机900a能够是可操作用于经由若干已知协议中的任意协议向和从客户端计算设备900b
‑
900g处理并且传送数据的专用服务器计算机,所述协议诸如是超级文本传输协议(“http”)或简单对象访问协议(“soap”)。另外,联网的计算环境900能够利用各种数据安全协议,诸如安全套接字层(“ssl”)或良好隐私(“pgp”)。客户端计算设备900b
‑
900g中的每个客户端计算设备能够被装备有操作系统,所述操作系统能操作用于支持一个或多个计算应用或终端会话,诸如web浏览器(在图9中未示出)或者其他图形用户界面(在图9中未示出)或者移动桌面环境(在图
9中未示出),以获得对服务器计算机900a的访问权。
86.服务器计算机900a能够被通信地耦合到其他计算环境(在图9中未示出)并且接收关于参与用户的交互/资源网络的数据。在例示性操作中,用户(在图9中未示出)可以与客户端计算设备900b
‑
900g上运行的计算应用交互以获得期望的数据和/或执行其他计算应用。
87.数据和/或计算应用可以被存储在一个或多个服务器900a上并且通过示范性通信网络820经由客户端计算设备900b
‑
900g被传输到协作用户。参与用户(在图9中未示出)可以请求访问整体或部分容纳在服务器计算机900a上的特定数据和应用。这些数据可以在客户端计算设备900b
‑
900g于服务器计算机900a之间传送以供处理和存储。
88.服务器计算机900a能够托管用于生成、认证、加密和传送数据和应用的计算应用、过程和小程序,并且可以与其他服务器计算环境(在图9中未示出)、第三方服务提供商(在图9中未示出)、附网存储(“nas”)和存储区域网(“san”)协作以实现应用/数据事务。
89.应当意识到,为了易于论述,已经简化了在图8中所示的计算架构和在图9中所示的分布式网络计算环境。还应当意识到,计算架构和分布式计算网络能够包括并且利用更多的计算组件、设备、软件程序、联网设备和在本文中未具体描述的其他组件。
90.在本文中提出的公开内容也涵盖在以下条款中所阐述的主题:
91.条款1。一种由数据处理系统执行的计算机实现的方法,所述计算机实现的方法包括:取回与会议相关联的会议特定数据,所述会议特定数据包括与所述会议的与会者相关联的数据;基于所述会议特定数据来生成会议特定统计语言模型;使用所述会议特定统计语言模型来生成在所述会议期间生成的音频的转录;以及向一个或多个计算设备提供在所述会议期间生成的所述音频的所述转录以用于在用户界面(ui)中呈现。
92.条款2。根据条款1所述的计算机实现的方法,其中,所述会议特定数据包括以下中的一项或多项:与所述会议的所述与会者相关联的消息、所述消息的附件、所述与会者的姓名、或者与所述与会者相关联的文件。
93.条款3。根据条款1或2所述的计算机实现的方法,还包括在所述会议的持续时间期间存储所述会议特定统计语言模型。
94.条款4。根据条款1
‑
3中的任一项所述的计算机实现的方法,其中,所述会议特定统计语言模型的生成响应于接收到会议前信号而发生,所述会议前信号包括标识针对所述会议的开始时间的数据。
95.条款5。根据条款1
‑
4中的任一项所述的计算机实现的方法,其中,所述会议前信号是在所述会议的所述开始时间之前的预定时间量时生成的。
96.条款6。根据条款1
‑
5中的任一项所述的计算机实现的方法,其中,所述预定时间量是通过取回标识预定日程上针对所述会议的所述开始时间的数据来计算的。
97.条款7。根据条款1
‑
6中的任一项所述的计算机实现的方法,其中,所述会议特定统计语言模型定义针对所述会议特定数据中的词语的词语出现的概率分布,并且其中,使用所述会议特定统计语言模型来生成在所述会议期间生成的音频的所述转录包括使用所述会议特定统计语言模型来确定所述音频中的口语词汇的概率以及基于所述概率来生成所述转录。
98.条款8。一种在其上存储有计算机可执行指令的计算机可读存储介质,所述计算机
可执行指令当由处理器运行时使得所述处理器:取回与会议相关联的会议特定数据,所述会议特定数据包括与所述会议的与会者相关联的数据;使用所述会议特定数据来生成会议特定统计语言模型;以及使用所述会议特定统计语言模型来生成所述会议的音频的转录。
99.条款9。根据条款8所述的计算机可读存储介质,在其上还存储有另外的计算机可执行指令,所述另外的计算机可执行指令用于向一个或多个计算设备传输所述会议的所述音频的所述转录以用于在所述会议的时间期间在用户界面(ui)中呈现。
100.条款10。根据条款8或9所述的计算机可读存储介质,其中,所述会议特定数据包括以下中的一项或多项:与所述会议的所述与会者相关联的消息、所述消息的附件、所述与会者的姓名、或者与所述与会者相关联的文件。
101.条款11。根据条款8
‑
10中的任一项所述的计算机可读存储介质,其中,所述会议的所述音频的所述转录是进一步至少部分地使用基础统计语言模型来生成的。
102.条款12。根据条款8
‑
11中的任一项所述的计算机可读存储介质,其中,所述会议特定统计语言模型的生成响应于接收到会议前信号而发生,所述会议前信号包括标识针对所述会议的开始时间的数据。
103.条款13。根据条款8
‑
12中的任一项所述的计算机可读存储介质,其中,所述会议前信号是在所述会议的所述开始时间之前的预定时间量时生成的。
104.条款14。根据条款8
‑
13中的任一项所述的计算机可读存储介质,其中,所述会议前信号是响应于接收到会议更改事件通知而生成的。
105.条款15。一种用于生成会议的音频的转录的装置,所述装置包括:用于取回与所述会议相关联的会议特定数据的模块,所述会议特定数据包括与所述会议的与会者相关联的数据;用于基于所述会议特定数据来生成会议特定统计语言模型的模块;以及用于使用所述会议特定统计语言模型来生成所述会议的所述音频的转录的模块。
106.条款16。根据条款15所述的装置,还包括用于向一个或多个计算设备提供所述会议的所述音频的所述转录以用于在所述会议期间在用户界面(ui)中呈现的模块。
107.条款17。根据条款15或16所述的设备,其中,与所述会议相关联的所述会议特定数据是响应于接收到在所述会议之前在预定义日程上所生成的信号而取回的。
108.条款18。根据条款15
‑
17中的任一项所述的设备,其中,与所述会议相关联的所述会议特定数据是响应于在所述会议的开始之前或之后接收到事件通知而取回的。
109.条款19。根据条款15
‑
18中的任一项所述的设备,其中,所述会议特定数据包括以下中的一项或多项:与所述会议的所述与会者相关联的消息、所述消息的附件、所述与会者的姓名、或者与所述与会者相关联的文件。
110.条款20。根据条款15
‑
19中的任一项所述的设备,其中,所述会议的所述音频的所述转录是进一步至少部分地使用基础统计语言模型来生成的。
111.尽管以特定于结构特征和/或方法动作的语言对在本文中所提出的技术进行了描述,但是应当理解,随附的权利要求并不一定限于所描述的特征或动作。相反,特征和动作被描述为这样的技术的示例性实施方式。此外,上述主题可以被实现为计算机控制的装置、计算机过程、计算系统或者被实现为制品,诸如计算机可读存储介质。
112.在本文中所提出的示例性方法的操作被例示于各个框中并且参考这些框进行总结。方法被例示为框的逻辑流,其中的每个框能够不是能够以硬件、软件或者其组合实施的
一个或多个操作。在软件的上下文中,操作表示被存储在一个或多个计算机可读介质上的计算机可执行指令,所述计算机可执行指令当在由一个或多个处理器运行时使得所述一个或多个处理器能够执行所述操作。
113.通常,计算机可执行指令包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、模块、组件、数据结构等。描述操作的顺序并不旨在被解读为是限制,并且任意数量的被描述操作可以按照任意次序来执行、按照任意次序组合、细分成多个子操作和/或被并行执行以实施所述过程。所述过程可以由与一个或多个设备和/或硬件逻辑的一个或多个实例相关联的资源执行,一个或多个设备例如是一个或多个内部或外部cpu或gpu,硬件逻辑例如是fpga、dsp或者其他类型的加速器。
114.上文所描述的所有方法和过程可以被体现在由一个或多个通用计算机或处理器执行的软件代码模块中并且经由其完全自动化。代码模块可以被存储在任何类型的计算机可读存储介质或者其他计算机存储设备中。一些或全部方法可以替代地被体现在专用计算机硬件中。
115.应当在介绍某些示例包括某些特征、元件和/或步骤而其他示例不包括所述特征、元件和/或步骤的语境下理解条件性措辞(例如,尤其是“能够”、“会”、“可能”或者“可以”),除非做出另外的具体陈述。因而,这样的条件性措辞一般并非意在暗示一个或多个示例无论如何需要某些特征、元件和/或步骤,或者一个或多个示例必然包括用于判定(借助于或者无需用户输入或提示)某些特征、元件和/或步骤被包含到任何特定示例中或者将由其执行的逻辑。连接性措辞(例如,短语“x、y或z的至少其中之一”)应当被理解为介绍项目、条款等可以是x、y或z或者其组合,除非做出另外的具体陈述。
116.在本文中所描述和/或附图绘示的流程图中的任何例程描述、元件或框应当被理解为可能代表代码中包括用于实施例程中特定逻辑功能或元件的一个或多个可执行指令的模块、段落或部分。在本文中所描述的示例范围之内包括替代实施方式,其中,根据本领域技术人员会理解为涉及的功能,元件或功能可以被删除,或者不按所示或所述次序执行,包括基本同步或按相反次序执行。
117.应当强调的是,可以对上述示例做出许多变化和修改,其要素要被理解为在其他可接受示例之间。所有这样的修改和变化意在包括在本文中,在本公开范围内并且受以下权利要求的保护。
转载请注明原文地址:https://win.8miu.com/read-7813.html