如何用python抓取B站数据

编辑: admin 分类: python 发布时间: 2021-12-24 来源:互联网
目录
  • 概述
  • 我是对比
  • 快速开始
    • 1)安装过程
    • 2)获取弹幕数据
    • 3)绘制词云
    • 4)最终效果
  • 小结

    概述

    可以获取的数据包括:

    video-视频模块

    user-用户模块

    dynamic-动态模块

    这次用“Running Man”十周年特辑的视频,来做个获取弹幕的Demo。

    我是对比

    没有对比,就没有伤害,就像最近的“哈工大”某学生和“浙大”某学生一样。

    这是之前获取弹幕的过程:

    1、弹幕数据接口

    https://comment.bilibili.com/123072475.xml (一个固定的url地址 + 视频的cid + .xml)

    2、利用Request模块,获取数据

    3、利用Xpath解析数据

    接下来,是时候表演真正的技术了。

    经过bilibili_api的封装,弹幕数据获取的部分仅用了一行代码:

    danmu = video_info.get_danmaku()

    相应的获取视频的基本信息和评论信息也是一样的便捷。

    basic_info = video_info.get_video_info()
    comments = video_info.get_comments()

    快速开始

    接下来,本文将用bilibili_api获取“Running Man”十周年特辑的弹幕数据,并绘制词云。

    视频的链接:

    https://www.bilibili.com/video/BV1gC4y1h722

    B站有av号和bv号,改版之后,在链接中直接显示的是bv号,这两个必须提供一个。

    bvid是b站新的视频唯一标识符,由12位数字、字母组成,大小写敏感,传入时请包含头部的“BV”

    比如:“BV1gC4y1h722”

    1)安装过程

    安装需要依赖request 模块,它是把B站数据的API封装起来了。

    通过pip安装即可:

    pip install bilibili_api

    导入模块

    from bilibili_api import Verify
    from bilibili_api.video import VideoInfo
    from bilibili_api.video import Danmaku

    VideoInfo类-获取视频的信息(弹幕、评论、投币数量、播放量等)

    Danmaku类-弹幕类,用于获取和发送弹幕

    Verify 类,可用可不用。部分视频信息需要登录(即需要 SESSDATA )后才能使用(如历史弹幕获取)。

    对视频进行点赞、投币等用户操作则需要 SESSDATA 和 csrf 。

    关于 SESSDATA 和 csrf 获取的详细方法,可参考如下链接:

    https://github.com/Passkou/bilibili_api/wiki/SESSDATA和CSRF获取方法(Chrome为例)

    2)获取弹幕数据

    创建VideoInfo对象,传入两个参数:

    bvid="BV1gC4y1h722"(视频的BV号)

    verify=verify(根据sessdata和csrf,获取弹幕)

    获取的弹幕数据为“Danmaku类”的列表,通过遍历,打印它的text即可

    贴个代码:

    verify = Verify(sessdata="你的", csrf="你的")
    video_info = VideoInfo(bvid="BV1gC4y1h722", verify=verify)
    
    danmu = video_info.get_danmaku()
    for i in danmu:
        print(i.text)

    3)绘制词云

    通过jieba分词和WorldCloud绘制词云。

    可通过WordCloud对象,传入“背景颜色”,“背景图”,“字体”等参数。

    贴个代码:

    wc = WordCloud(
        background_color='white',
        mask=background_Image,
        font_path=r'./SourceHanSerifCN-Medium.otf',
        color_func=random_color_func,
        random_state=50,
    )
    
    word_cloud = wc.generate(words_str) # 产生词云
    word_cloud.to_file("rm.jpg") #保存图片
    
    # 显示词云图片
    plt.imshow(word_cloud)
    plt.axis('off')
    plt.show()

    4)最终效果

    通过词云,可以看到最明显的就是 “快乐 十周年”、“RM 十周年”、“哈哈哈哈哈哈”等,

    小结

    通过这个模块“bilibili_api”,可以快速的获取B站视频和用户的数据,至于数据获取下来怎么玩,就看自己的想象力啦~

    本文相关源码下载:https://alltodata.cowtransfer.com/s/6c255cd808b742

    以上就是如何用python抓取B站数据的详细内容,更多关于python抓取B站数据的资料请关注hwidc其它相关文章!