Skip to content

声音转文字

  • 说话转文字(stt, speech-to-text):
    • 本地视频GUI的话用剪映(文本>智能字幕)
    • Youtube、Bilibili都可能会自带的智能字幕(看所有者设置),youtube批量下载字幕可以考虑用yt-dlp,B站批量下载用DownKyi,不要字幕格式的话,正则表达式替换成空就行
    • 对于歌曲,最好做个前处理:音乐源分离
    • whisper,自己编程玩,做成公开服务都不错

更多问题:多个角色同时说话怎么办?比如开群会的场景