声音转文字

说话转文字（stt, speech-to-text）：
- 本地视频GUI的话用剪映（文本>智能字幕）
- Youtube、Bilibili都可能会自带的智能字幕（看所有者设置），youtube批量下载字幕可以考虑用yt-dlp，B站批量下载用DownKyi，不要字幕格式的话，正则表达式替换成空就行
- 对于歌曲，最好做个前处理：音乐源分离
- whisper，自己编程玩，做成公开服务都不错

更多问题：多个角色同时说话怎么办？比如开群会的场景