分享
Flomo小红书评论研究
输入“/”快速插入内容
Flomo小红书评论研究
飞书用户4543
10月22日修改
背景介绍
在之前的文章里面我写到相关数据分析师站在产品的角度上能够进行分析或者改进的地方,这一篇则是真实的从小红书上爬取的近1000条最近关于flomo的评论,从
真实世界里面用更多的视角
去看看flomo这款产品。
爬取的账号涉及flomo官号和大部分其他有关flomo的帖子, 使用的工具是是MediaCrawler。
变量介绍:
comment_id
: 每一条评论的唯一身份编号。
create_time
: 用户发布这条评论的具体时间点。
ip_location
: 用户发布评论时所在的地理位置(如:上海、广东)。
note_id
: 这条评论所属的那篇笔记(帖子)的唯一 ID。
content
: 用户评论的具体文字内容。
user_id
: 用户 ID。
nickname
: 用户昵称。
avatar
: 用户头像。
sub_comment_count
: 子评论数。
pictures
: 评论图片。
parent_comment_id
: 父评论 ID。
last_modify_ts
: 最后修改时间戳。
like_count
: 点赞数。
数据清理
数据清理作为能否有一个好的结果基石,从
缺失值处理
和
重复值检验
这两个方向进行检查。
缺失值处理
数据清理作为能否有一个好的结果基础,
一共数据读取有910条最后我们发现了
ip_location,pictures
缺失最多,占比超过
90%
,除此
avator,nickname
根据上述的变量解释为用户头像和昵称,对于我们的分析也同样意义不大,选择删除这四列ip_location,pictures,avator,nickname。
重复值检验
•
检查用户与content是否有重复值
目的是为了保证没有重复出现爬取的帖子,最后的结果是有小部分的帖子,一共为49条为重复值,删除以保证相同的评论为同一个。
•
检查是否有多个用户进行留言
列 ['user_id'] 标记为重复的行数: 55,出现次数大于1的值及其次数下图: