有什么录音软件可以转文字(自己实现录音文件转文字)
如果有更好的建议或者想看更多关于问答经验技术大全及相关资讯,可以多多关注茶馆百科网。

分享各种知识,一起学习,一起理解,一起快乐!努力学习,天天向上,知识能量小超人。在妻子之前,他们单位的会议比较多,有的会议时间比较长,会议内容需要审核,所以基本上会议都是记录下来的。但回顾录音往往是一个痛苦的过程,基本上很难找到录音中重要内容所在的位置,有时还会有一些现场讨论,听录音的时间比开会还要长。
一开始遇到这种问题,我在网上找了几个软件做音频文件转文本,要么太贵,要么只支持1分钟试用,最后发现一个勉强能用,准确率也不太高。但这足以满足部分需求。
0
(我之前用过百度的OCR和地图API,每天都有一定的免费次数,不确定其他服务是否也有免费试用的次数,其他云平台也可以多学学,拉羊毛。)
首先,注册一个腾讯云账号,我使用微信绑定银行卡的实名认证。2. 购买9.9录音文件识别资源包(这里正常价格为72元60小时)。
0
购买完成后,发现可用资源包中还有一些免费资源,但是在一个月内到期。
资源包详细信息
0
接口文档
第四,调用接口还需要腾讯云平台SecretId和SecretKey两个信息在个人头像——访问管理——访问密钥——API密钥管理中创建
获取SecretId和SecretKey
创建一个好的SecretId和SecretKey
五、根据API文档调用的接口地址是https://cloud.tencent.com/document/product/1093/37823接口文档,有漏洞,有两种方式将录音文件上传到云平台:
1. 通过网络URL地址,前提是你的文件在网络上有一个可公开访问的URL,这里限制文件不超过512M,上市时间不超过5小时
2. 直接通过请求体发送,将文件限制在5M以内(我只是想问一下,5M里面可以放什么?)
参数要求
由于我手上的文件有4个多小时,140多米,我觉得我不能压缩到5米以下,所以我放弃了第二种方式。
一开始我想把文件放到云盘或者网盘上,发现上传后没有云盘和网盘可以直接访问,无论是登录还是输入提取码。
最后,我没有办法在我的华为云ECS中安装nginx,我做了一个简单的文件服务器,将文件传输到服务器上,并获得一个可以直接访问录音文件的URL
简单文件服务器
调用的方式比较简单,参考文档上的接口参数列表,以及github上的调用示例,或者腾讯云提供的API Explorer工具,我使用的是Python版本。
接口文档
API资源管理器示例
在github上调用描述
参考地址:
录音文件文本API地址:https://cloud.tencent.com/document/product/1093/37823
API Explorer地址:https://console.cloud.tencent.com/api/explorer?product=asrversion=2019-06-14action=createrectasksignversion=
Python调用腾讯云平台介绍:https://cloud.tencent.com/document/sdk/python
制作云平台API和腾讯文档:https://github.com/tencentcloud/tencentcloud-sdk-python
具体代码的前期工作完成后,代码其实比较简单,主要使用两个接口,一个发送转换任务,另一个查询转换任务的结果
1. 提交转换任务
从tencentcloud.asr导入tencentcloudsdkexception。v20190614导入asr_client, Modelstry: # cred。=凭据EnvironmentVariableCredential () get_credential (cred)=凭据证书('您的SecretId ', '您的SecretKey ')客户端=asr_client。AsrClient (cred,' the ap - Shanghai ')=model。CreateRecTaskRequest () params={' Action ': 'CreateRecTask','Version': '2019-06-14',' engineemodeltype ': '16k_zh','ChannelNum': 1,'ResTextFormat': 0,'SourceType': 0,'Url': 'http:/files/Chen: m4a'}的网络地址。From_json_string (json。dump (params) resp=client.CreateRecTask(req)print(resp.to_json_string())除了TencentCloudSDKException为err:print(err)
api说,您可以通过设置环境变量来设置TENCENTCLOUD_SECRET_ID和TENCENTCLOUD_SECRET_KEY的值。然后通过cred=凭据。EnvironmentVariableCredential () get_credential初始化(),但我尝试了初始化失败,没有发现问题在哪里,是直接初始化写死两个值。
2. 查询转换结果
从tencentcloud.common.exception.tencent_cloud_sdk_exception . import TencentCloudSDKExceptionfrom tencentcloud.asr. import jsonfrom tencentcloud.commonV20190614导入asr_client, modelstry:cred=credential。凭证('您的SecretId', '您的SecretKey')endpoint='asr.tencentcloudapi.com' ClientProfile=ClientProfile() ClientProfile。httpProfile=httpProfileclient=asr_client。AsrClient(cred, ", clientProfile)req=models. descripbetaskstatusrequest ()params={'Action': ' descripbetaskstatus ','Version': '2019-06-14','TaskId':您的任务id,此值是上一个接口返回的消息}req.from_json_string(json.dumps(params))resp=client. descripbetaskstatus (req)print(resp.to_json_string())除了TencentCloudSDKException为err:print(err)
转换首先执行第一个方法并返回任务
{'Data': {'TaskId': *********}, 'RequestId': '*******************'}
这里我要用*,它会返回实际的数字
执行第二个方法后,将返回状态码0,并且状态正在等待(可能需要1个多小时)。我不确定实际的执行时间,因为没有培训轮换或回调。过了6、7个小时后,我起床重新运行第二种方法,发现执行已经完成(实际执行时间应该不会那么长)。
附加部分执行结果(实际返回值有n个换行字符,需要在word中手动替换为^p个换行字符)
部分转换结果
利用单词统计,将4个多小时的语音文件转换成6w个单词,准确率基本OK,也就是说,“学钢琴”我听不懂是什么意思,可能是口音比较重,没有转换成功。
字数
实际上,在转换参数中有一些选项可以进行转换,例如:
是否开启说话人分离,要分离的说话人数量,是否进行阿拉伯数字的智能转换,是否过滤脏词,是否过滤标点符号,是否过滤情态词等
转换完成后,我看了看资源包,优先扣除的是部分礼品资源,即购买的60小时还在。后来考虑写一个简单的GUI界面,好用,再加上自动上传音频文件的功能就完美了。
自己调整API转换更便宜,而且质量有保证。
只写有趣的、有思想的、有意义的百科全书。关注身边的小事,关注生活大事想知道的一切,关注百科小百科。
本文主要介绍了关于有什么录音软件可以转文字(自己实现录音文件转文字)的相关养殖或种植技术,问答经验栏目还介绍了该行业生产经营方式及经营管理,关注问答经验发展动向,注重系统性、科学性、实用性和先进性,内容全面新颖、重点突出、通俗易懂,全面给您讲解问答经验技术怎么管理的要点,是您问答经验致富的点金石。
以上文章来自互联网,不代表本人立场,如需删除,请注明该网址:http://23.234.50.4:8411/article/3757482.html