标题 | 名称 |
---|---|
中文名称 | 腾讯云语音识别(ASR)插件 |
英文名称 | tencentcloud-plugin-asr |
最新版本 | v1.0.2 (2020.11.05) |
适用平台 | DCloud uni-app |
适用产品 | 腾讯云语音识别(ASR)插件 |
GitHub 项目 | tencentcloud-uniapp-plugin-asr |
主创团队 | 腾讯云中小企业产品中心(SMB Product Center of Tencent Cloud) |
兼容平台 | H5、小程序、APP |
一款帮助开发者在 uni-app 项目开发中快捷使用腾讯云语音识别(ASR)插件产品功能的插件。
- 一句话语音识别
- 录音文件识别(仅支持H5)
- 实时语音识别(支持H5和小程序)
本插件需要调用 uniCloud 云函数,而使用云函数的前提是:
- 使用 DCloud 官方开发工具 HBuilderX 2.7+;
- 已注册 DCloud 开发者账号并通过实名认证;
- 开通了 uniCloud 并创建一个腾讯云的服务空间;
- 打开 HBuilderX 开发工具;
- 新建或打开一个 uni-app 项目;
- 访问 DCloud 插件市场的 腾讯云插件 - 云函数模板 详情页;
- 点击详情页右上角 使用 HBuilderX 导入插件,将云函数模板导入到您的项目中;
- 在项目中打开 cloudfunctions/tencentcloud-plugin/config.js 文件,将腾讯云的密钥信息配置进去,可以在腾讯云 API 密钥管理 中获取 SecretId、SecretKey 和 APPID;
- 在uniCloud控制台注册HBuild账号并登录,创建云服务空间;
- 绑定云函数的云服务空间,将云函数 上传部署 到您的云服务空间;
如果您之前在使用其它腾讯云产品的 uni-app 插件时已经导入过此云函数模板,则前 4 个步骤可以省略。
若导入失败或有其它疑问,请查看 uniCloud 帮助文档 云函数相关章节。
- 访问 DCloud 插件市场 腾讯云语音识别(ASR)插件 详情页;
- 点击详情页右上角 使用 HBuilderX 导入插件 ,将插件导入到您的项目中;
- 在项目中通过 import 语法将插件提供的方法导入到相关业务组件并使用;
本插件的默认导入位置是在您项目的“js_sdk”目录下
// 一句话语音识别示例代码
import {
sentenceRecognition,
toBase64,
Recorder,
} from "@/js_sdk/tencentcloud-plugin-asr";
methods: {
onLoad: function () {
// 初始化录音实例
this.rec = new Recorder();
},
// 开始录音
async startRecord() {
try {
this.status = true;
await this.rec.start();
} catch (e) {
throw new Error(e);
}
},
// 停止录音
async endRecord() {
this.status = false;
try {
// 录音完成获取录音文件和音频大小
const { voiceBase64, size } = await this.rec.stop();
uni.showLoading({
mask: true,
});
// 发起一句话识别请求
const { result } = await sentenceRecognition({
engSerViceType: "8k_zh",
sourceType: 1,
voiceFormat: "mp3",
usrAudioKey: "test",
dataLen: size,
data: voiceBase64,
});
this.resultText = result.Result;
} catch (error) {
throw new Error(error);
} finally {
uni.hideLoading();
}
},
},
};
// 录音文件识别
import {
createRecTask,
describeTaskStatus,
blob2Base64,
} from "@/js_sdk/tencentcloud-plugin-asr";
export default {
data() {
return {
inputEl: "",
taskId: null,
resultText: "", // 语音识别结果
};
},
methods: {
// 文件转码上传
async uploadFile() {
try {
const event = await this.chooseFile();
// 文件转换为base64编码
const fileBase64 = await blob2Base64(event.target.files[0]);
this.sendRecord(fileBase64, event.target.files[0].size);
} catch (error) {
throw new Error(error);
}
},
// 选择录音文件
chooseFile() {
return new Promise((resolve, reject) => {
if (!this.inputEl) {
this.inputEl = document.createElement("input");
this.inputEl.type = "file";
this.$refs.input.$el.appendChild(this.inputEl);
}
this.inputEl.onchange = (event) => {
resolve(event);
};
this.inputEl.click();
});
},
// 录音文件识别请求
async sendRecord(file, size) {
try {
uni.showLoading({
mask: true,
});
const { result } = await createRecTask({
engineModelType: "8k_zh",
channelNum: 1,
resTextFormat: 0,
sourceType: 1,
data: (/.+;\s*base64\s*,\s*(.+)$/i.exec(file) || [])[1],
dataLen: size,
});
this.taskId = result.Data.TaskId;
} catch (error) {
throw new Error(error);
} finally {
uni.hideLoading();
}
},
// 录音文件识别结果查询
async getResult() {
try {
uni.showLoading({
mask: true,
});
const { result } = await describeTaskStatus(this.taskId);
this.resultText =
result.Data.StatusStr === "waiting" ||
result.Data.StatusStr === "doing"
? "正在解析中,请稍后再试"
: result.Data.Result;
} catch (error) {
throw new Error(error);
} finally {
uni.hideLoading();
}
},
},
};
// 实时语音识别
import {
realtimeVoice,
randStr,
Recorder,
blob2Base64,
RealTimeVoiceSplit,
} from "@/js_sdk/tencentcloud-plugin-asr";
export default {
data() {
return {
resultText: "", // 语音识别结果
status: false, // 录音状态
voice_id: "", // 识别音频的唯一id
recorder: null, // 录音实例
realTimeVoice: null, // 录音分片实例
};
},
methods: {
onUnload() {
// 离开页面时卸载掉正在进行的录音行为
this.recorder && this.recorder.stopRealTime();
},
/**
* 实时语音录音回调
* @param {string} data 实时音频的返回结果
* @param {boolean} isClose 是否为录音的最后一段
*/
async onProcess(data, isClose) {
// #ifdef H5
// data: 分片后Base64编码的音频 seq: 当前第几个录音分片,初始为1
const {
data: voiceBase64,
seq,
} = await this.realTimeVoice.realTimeSendTryH5(this.recorder.rec);
// #endif
// #ifndef H5
// data: 分片后Base64编码的音频 seq: 当前第几个录音分片,初始为1
const {
data: voiceBase64,
seq,
} = await this.realTimeVoice.realTimeSendTryMP(data);
// #endif
// 实时语音参数
let params = {
engine_model_type: "16k_zh",
seq: seq - 1,
end: isClose ? 1 : 0,
voice_id: this.voice_id,
res_type: 0,
voice_format: 8,
};
// 调用实时语音识别的jssdk
const { result } = await realtimeVoice(voiceBase64, params);
// 语音识别的文本结果
this.resultText = result.text;
},
// 开始录音
async startRecord() {
try {
// 初始化录音和回调实例
this.voice_id = randStr(16);
// 实时语音需要在初始化Recorder时传入回调函数接收语音的回调
this.recorder = new Recorder(this.onProcess);
// 初始化语音分片类,H5平台可以传入参数设定语音分片的间隔
this.realTimeVoice = new RealTimeVoiceSplit();
this.status = true;
await this.recorder.startRealTime();
} catch (e) {
throw new Error(e);
}
},
// 停止录音
async endRecord() {
this.status = false;
// 停止语音录制
this.recorder.stopRealTime();
},
},
};
实时语音识别
Kind: global function
Returns: Promise.<object>
- result 语音识别结果
Param | Type | Description |
---|---|---|
data | object |
// base64 编码的 voice 文件 |
params | object |
// 参数 |
params.engine_model_type | string |
引擎模型类型。8k_zh:电话 8k 中文普通话通用;8k_zh_finance:电话 8k 金融领域模型;16k_zh:16k 中文普通话通用;16k_en:16k 英语;16k_ca:16k 粤语;16k_ko:16k 韩语;16k_zh-TW:16k 中文普通话繁体。 |
params.seq | integer |
语音分片的序号,序号从 0 开始,每次请求递增 1, 两个 seq 之间间隔不能超过 6 秒。 |
params.end | integer |
是否为最后一片,最后一片语音片为 1,其余为 0。 |
params.voice_id | string |
16 位 String 串作为每个音频的唯一标识,用户自己生成。 |
[params.hotword_id] | string |
热词 id。用于调用对应的热词表,如果在调用语音识别服务时,不进行单独的热词 id 设置,自动生效默认热词;如果进行了单独的热词 id 设置,那么将生效单独设置的热词 id。 |
[params.result_text_format] | integer |
识别结果文本编码方式。0:UTF-8;1:GB2312;2:GBK;3:BIG5。 |
[params.res_type] | integer |
结果返回方式。 0:同步返回;1:尾包返回。 |
[params.voice_format] | integer |
语音编码方式,可选,默认值为 4。1:wav(pcm);4:speex(sp);6:silk;8:mp3;10:opus(opus 格式音频流封装说明)。 |
[params.needvad] | integer |
0:关闭 vad,1:开启 vad。如果音频流总时长超过 60 秒,用户需开启 vad。 |
[params.vad_silence_time] | integer |
语音断句检测阈值,静音时长超过该阈值会被认为断句(多用在智能客服场景,需配合 needvad=1 使用),取值范围 150-2000,单位 ms,目前仅支持 8k_zh 引擎模型。 |
[params.source] | int |
默认值为 0。 |
[params.filter_dirty] | integer |
是否过滤脏词(目前支持中文普通话引擎)。默认为 0。0:不过滤脏词;1:过滤脏词;2:将脏词替换为 * 。 |
[params.filter_modal] | integer |
是否过滤语气词(目前支持中文普通话引擎)。默认为 0。0:不过滤语气词;1:部分过滤;2:严格过滤 。 |
[params.filter_punc] | integer |
是否过滤句末的句号(目前支持中文普通话引擎)。默认为 0。0:不过滤句末的句号;1:过滤句末的句号。 |
[params.convert_num_mode] | integer |
是否进行阿拉伯数字智能转换。0:全部转为中文数字;1:根据场景智能转换为阿拉伯数字。 |
[params.word_info] | integer |
是否显示词级别时间戳。0:不显示;1:显示。支持引擎:8k_zh, 8k_zh_finance, 16k_zh, 16k_en, 16k_ca,默认为 0。 |
录音文件识别请求
Kind: global function
Returns: Promise.<object>
- result 录音上传结果
Param | Type | Description |
---|---|---|
params | object |
|
params.engineModelType | string |
引擎模型类型。 电话场景: • 8k_zh:电话 8k 中文普通话通用(可用于双声道音频); • 8k_zh_s:电话 8k 中文普通话话者分离(仅适用于单声道音频); 非电话场景: • 16k_zh:16k 中文普通话通用; • 16k_zh_video:16k 音视频领域; • 16k_en:16k 英语; • 16k_ca:16k 粤语; |
params.channelNum | integer |
语音声道数。1:单声道;2:双声道(仅支持 8k_zh 引擎模型)。 |
params.resTextFormat | integer |
识别结果返回形式。0: 识别结果文本(含分段时间戳); 1:仅支持 16k 中文引擎,含识别结果详情(词时间戳列表,一般用于生成字幕场景)。 |
params.sourceType | integer |
语音数据来源。0:语音 URL;1:语音数据(post body)。 |
[params.callbackUrl] | string |
回调 URL,用户自行搭建的用于接收识别结果的服务器地址, 长度小于 2048 字节。如果用户使用回调方式获取识别结果,需提交该参数;如果用户使用轮询方式获取识别结果,则无需提交该参数。 |
[params.url] | string |
语音 URL,公网可下载。当 SourceType 值为 0(语音 URL 上传) 时须填写该字段,为 1 时不填;URL 的长度大于 0,小于 2048,需进行 urlencode 编码。音频时间长度要小于 60s。 |
[params.data] | string |
语音数据,当 SourceType 值为 1(本地语音数据上传)时必须填写,当 SourceType 值为 0(语音 URL 上传)可不写。要使用 base64 编码(采用 python 语言时注意读取文件应该为 string 而不是 byte,以 byte 格式读取后要 decode()。编码后的数据不可带有回车换行符)。音频数据要小于 600KB。 |
[params.dataLen] | integer |
数据长度,单位为字节。当 SourceType 值为 1(本地语音数据上传)时必须填写,当 SourceType 值为 0(语音 URL 上传)可不写(此数据长度为数据未进行 base64 编码时的数据长度)。 |
[params.hotwordId] | string |
热词 id。用于调用对应的热词表,如果在调用语音识别服务时,不进行单独的热词 id 设置,自动生效默认热词;如果进行了单独的热词 id 设置,那么将生效单独设置的热词 id |
[params.filterDirty] | integer |
是否过滤脏词(目前支持中文普通话引擎)。0:不过滤脏词;1:过滤脏词;2:将脏词替换为 * |
[params.filterModal] | integer |
是否过语气词(目前支持中文普通话引擎)。0:不过滤语气词;1:部分过滤;2:严格过滤 。默认值为 0。 |
[params.convertNumMode] | integer |
是否进行阿拉伯数字智能转换。0:不转换,直接输出中文数字,1:根据场景智能转换为阿拉伯数字。默认值为 1 |
[params.extra] | string |
附加参数 |
[params.speakerDiarization] | integer |
是否开启话者分离,0:不开启,1:开启(仅支持 8k_zh/16k_zh 引擎模型,单声道音频) |
[params.speakerNumber] | integer |
话者分离人数(需配合开启话者分离使用),支持 2-10(8k_zh 仅支持 2, 16k_zh 支持 2-10)注:话者分离目前是 beta 版本,请根据您的需要谨慎使用 |
录音文件识别结果查询
Kind: global function
Returns: Promise.<object>
- result 录音识别结果
Param | Type | Description |
---|---|---|
taskId | integer |
录音上传后返回的 TaskID |
一句话识别 api
Kind: global function
Returns: Promise.<object>
- result 音频识别结果
Param | Type | Description |
---|---|---|
params | object |
|
params.engSerViceType | string |
引擎模型类型。 8k_zh:电话 8k 中文普通话通用;16k_zh:16k 中文普通话通用;16k_en:16k 英语;16k_ca:16k 粤语。 |
params.sourceType | integer |
语音数据来源。0:语音 URL;1:语音数据(post body)。 |
params.voiceFormat | string |
识别音频的音频格式。mp3、wav。 |
params.usrAudioKey | string |
用户端对此任务的唯一标识,用户自助生成,用于用户查找识别结果。 |
[params.url] | string |
语音 URL,公网可下载。当 SourceType 值为 0(语音 URL 上传) 时须填写该字段,为 1 时不填;URL 的长度大于 0,小于 2048,需进行 urlencode 编码。音频时间长度要小于 60s。 |
[params.data] | string |
语音数据,当 SourceType 值为 1(本地语音数据上传)时必须填写,当 SourceType 值为 0(语音 URL 上传)可不写。要使用 base64 编码(采用 python 语言时注意读取文件应该为 string 而不是 byte,以 byte 格式读取后要 decode()。编码后的数据不可带有回车换行符)。音频数据要小于 600KB。 |
[params.dataLen] | integer |
数据长度,单位为字节。当 SourceType 值为 1(本地语音数据上传)时必须填写,当 SourceType 值为 0(语音 URL 上传)可不写(此数据长度为数据未进行 base64 编码时的数据长度)。 |
[params.hotwordId] | string |
热词 id。用于调用对应的热词表,如果在调用语音识别服务时,不进行单独的热词 id 设置,自动生效默认热词;如果进行了单独的热词 id 设置,那么将生效单独设置的热词 id |
[params.filterDirty] | integer |
是否过滤脏词(目前支持中文普通话引擎)。0:不过滤脏词;1:过滤脏词;2:将脏词替换为 * |
[params.filterModal] | integer |
是否过语气词(目前支持中文普通话引擎)。0:不过滤语气词;1:部分过滤;2:严格过滤 。 |
[params.filterPunc] | integer |
是否过滤句末的句号(目前支持中文普通话引擎)。0:不过滤句末的句号;1:过滤句末的句号。 |
[params.convertNumMode] | integer |
是否进行阿拉伯数字智能转换。0:不转换,直接输出中文数字,1:根据场景智能转换为阿拉伯数字。默认值为 1 |
服务空间:一个服务空间对应一整套独立的云开发资源,包括数据库、存储空间、云函数等资源。服务空间之间彼此隔离。更多详情请访问 uniCloud 开发文档
云函数:云函数是运行在云端的 JavaScript 代码,更多详情请见 uniCloud 云函数文档
插件入口 | 链接 |
---|---|
DCloud 插件市场 | 腾讯云语音识别(ASR)插件 |
Q:实时语音识别功能支持APP端吗?
A:目前实时语音识别只支持H5和小程序端,暂不支持APP端
- 新增一句话语音识别功能支持APP端
- 目录结构优化
- 新增一句话语音识别功能
- 新增录音文件识别功能
- 新增实时语音识别功能
- 该插件的 H5 平台语音录制功能参考了Recorder,特此对其主创团队进行致谢