语音识别技术

语音识别，设备响应语音命令的能力。语音识别可实现对各种设备和设备的免提控制（对许多残疾人特别有益），为自动翻译提供输入，并创建可打印的听写。语音识别的最早应用包括自动电话系统和医疗听写软件。它通常用于命令，查询数据库以及向基于计算机的系统发出命令，特别是在依赖于专业词汇的行业中。它还使车辆和智能手机（例如Apple的Siri）中的私人助理成为可能。

在任何机器都可以解释语音之前，麦克风必须将人的声音的振动转换为波状电信号。该信号又被系统的硬件（例如计算机的声卡）转换为数字信号。语音识别程序分析的数字信号是为了识别单独的音素，这是语音的基本组成部分。然后将音素重新组合成单词。但是，许多单词听起来很相似，并且为了选择合适的单词，程序必须依赖上下文。许多程序通过三字组分析来建立上下文，三字组分析是一种基于频繁的三字簇的数据库的方法，在该数据库中分配了概率，任何两个字都将跟随给定的第三个字。例如，如果说话者说“谁”，那么下一个单词将被识别为代词“ I”，而不是听起来相似但不太可能的“眼睛”。但是，有时仍需要人为干预以纠正错误。

诸如电话语音导航系统之类的用于识别几个孤立单词的程序几乎适用于每个用户。另一方面，必须训练连续的语音程序，例如听写程序，以识别个人的语音模式。培训涉及用户大声阅读文本样本。如今，随着个人计算机和移动设备功能的增强，语音识别的准确性已显着提高。包含成千上万个单词的词汇表中的错误率已降低到大约5％。对于专用应用（例如，放射诊断的命令），在有限的词汇表中甚至可以达到更高的准确性。