【openclaw实用Skill】openai-whisper-api 技能

张开发
2026/6/10 4:55:40 15 分钟阅读
【openclaw实用Skill】openai-whisper-api 技能
通过OpenAI音频转录API(Whisper)转录音频文件。使用curl脚本调用OpenAI的/v1/audio/transcriptions端点,支持多种参数配置和输出格式。技能概述openai-whisper-api 技能使用OpenAI的音频转录API将音频文件转换为文本。该技能通过curl脚本调用OpenAI的/v1/audio/transcriptions端点,提供了一个简单而强大的音频转录解决方案。支持多种音频格式,包括MP3、M4A、OGG等,并提供多种配置选项,如模型选择、语言指定、提示词设置等。输出可以是纯文本或JSON格式,满足不同的使用需求。下载地址:https://github.com/openclaw/openclaw/tree/main/skills主要功能音频转录: 将音频文件转录为文本多格式支持: 支持MP3、M4A、OGG等多种音频格式模型选择: 支持选择不同的Whisper模型语言指定: 可以指定音频的语言提示词支持: 可以提供提示词来改善转录质量多种输出格式: 支持文本和JSON输出触发条件在以下情况下应该调用此技能:用户需要使用OpenAI API转录音频用户需要高质量的音频转录用户需要指定音频语言或提供提示词用户需要JSON格式的转录结果使用场景场景1: 基本转录用户需要转录音频文件,使用默认设置进行转录。场景2: 指定语言用户知道音频的语言,指定语言以提高转录准确性。场景3: 使用提示词用户提供提示词(如说话人姓名)以改善转录质量。处理过程1. 基本转录使用默认设置转录音频文件:{baseDir}/scripts/transcribe.sh /path/to/audio.m4a2. 使用参数转录使用自定义参数转录音频:{baseDir}/scripts/transcribe.sh /path/to/audio.ogg --model whisper-1 --out /tmp/transcript.txt {baseDir}/scripts/transcribe.sh /path/to/audio.m4a --language en {baseDir}/scripts/transcribe.sh /path/to/audio.m4a --prompt Speaker names: Peter, Daniel {baseDir}/scripts/transcribe.sh /path/to/audio.m4a --json --out /tmp/transcript.json输入要求使用此技能时,用户需要提供:音频文件路径: 要转录的音频文件模型(可选): 要使用的Whisper模型语言(可选): 音频的语言提示词(可选): 改善转录质量的提示词输出格式(可选): 文本或JSON格式输出说明技能将提供:转录文本: 音频的文本转录JSON数据(可选): 结构化的转录数据使用示例示例: 转录音频文件并输出为JSON格式{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --json --out /tmp/transcript.json最佳实践指定语言: 如果知道音频语言,指定语言以提高准确性使用提示词: 提供提示词(如说话人姓名、专业术语)以改善转录质量选择输出格式: 根据需求选择文本或JSON输出指定输出路径: 使用--out参数指定输出文件路径配置API密钥: 确保OPENAI_API_KEY已正确配置默认设置模型: whisper-1输出: .txtAPI密钥配置环境变量: 设置OPENAI_API_KEY环境变量配置文件: 在~/.openclaw/openclaw.json中配置配置文件示例{ skills: { openai-whisper-api: { apiKey: OPENAI_KEY_HERE, }, }, }

更多文章