Skip to content
AICanDo
Search
K
Main Navigation
音乐suno
ChatGPT
主题
回到顶部
页面导航
声音转文字
说话转文字(stt, speech-to-text):
本地视频GUI的话用剪映(文本>智能字幕)
Youtube、Bilibili都可能会自带的智能字幕(看所有者设置),youtube批量下载字幕可以考虑用yt-dlp,B站批量下载用DownKyi,不要字幕格式的话,正则表达式替换成空就行
对于歌曲,最好做个前处理:
音乐源分离
whisper
,自己编程玩,做成公开服务都不错
更多问题:多个角色同时说话怎么办?比如开群会的场景