今天跟大家伙儿唠唠我这几天折腾的“岳云鹏帮于谦查户口”的事儿,可不是真去派出所,咱是在电脑上玩儿!

岳云鹏帮于谦查户口后续:老郭知道后都乐开花了!

起因是这样的,前几天刷B站,看见好几个德云社的相声切片,岳云鹏跟于谦老师那叫一个“你损我捧”,乐得我差点没把手机摔了。突然我就冒出一个想法,能不能用点啥技术手段,把他们俩的相声段子扒下来,做个啥好玩的玩意儿?

说干就干!我先是琢磨着,这音频从哪儿来?总不能一段一段录?那得录到猴年马月去。 第一步,找资源! 后来发现B站上有人把他们的相声合集都上传了,虽然不是高清无损,但也凑合能用。我就开始研究怎么把这些音频扒下来。

一开始我想用Python写个爬虫,之前学过一点点,感觉应该能搞定。结果吭哧吭哧写了一下午,发现B站的反爬机制还挺厉害,各种参数加密,我这半吊子水平根本搞不定。 爬虫失败!

后来我灵机一动,干嘛非得用爬虫?直接用浏览器插件不香吗?我在网上搜了一下,发现还真有不少能下载网页音频的插件。我试了好几个,选了一个叫“猫抓”的,还挺好使。 第二步,曲线救国! 它可以直接抓取网页上的音频链接,然后下载下来。

有了音频,接下来就是怎么把这些段子从里面提取出来。这可不是个轻松活儿,好几个小时的音频,总不能一句一句听? 第三步,音频切割! 这时候就得靠工具了。我找了个免费的音频编辑软件Audacity,把音频文件导入进去,然后一点一点地听,把岳云鹏和于谦老师的对话部分截取出来。这活儿贼费耳朵,听多了感觉整个世界都是他俩的声音。

音频截取完之后,我寻思着,能不能把这些对话转换成文字,这样就能更方便地搜索和利用了。 第四步,语音转文字! 我又在网上找了个语音转文字的工具,试了一下,效果还不错,虽然有些地方识别不太准确,但大部分都能识别出来。我把所有截取出来的音频都转换成了文字,然后保存成txt文件。

有了文字,就能开始玩点高级的了。我想做一个简单的搜索功能,用户输入关键词,就能找到包含这个关键词的相声段子。 第五步,文本搜索! 我用Python写了个小程序,读取所有的txt文件,然后用字符串匹配的方式,查找包含关键词的段落。虽然代码很简单,但跑起来还挺快。

  • 我把这些东西整合了一下,做了一个简单的界面,用户可以输入关键词,然后程序会列出所有包含这个关键词的段子,并且可以播放对应的音频。
  • 虽然界面很丑陋,功能也很简陋,但总算是把这个“岳云鹏帮于谦查户口”的工具给搞出来了。

这回折腾,虽然没啥技术含量,但还是挺有意思的。也让我明白,有时候解决问题不一定非得用最高深的技术,用一些简单的小工具,也能达到目的。下次再整点更高级的!

相关推荐