数据挖掘 · 2019年11月26号 0

爬取的数据能干什么

核心的一些知识点:数据抓取(ETL),NLP(分词、情感分析、语义分析等等)以及SNA(Social Network Analysis,网络理论中的各种指标)。视频热点分析、酒店价格分析、文章类型分析、训练人工智障、弹幕热词分析。

1、关键词统计及分词
把所有回答抓取下来,并利用NLP分词以及建立行业关键词典对热门行业进行统计,2015年最热门最衰落的行业。给大家择业提供方便的信息。

爬取的数据能干什么

2、用户画像
利用汽车之家等论坛发言的抓取以及NLP,对各种车型的车主做画像。

爬取的数据能干什么

抓取大众点评的数据,在文章中,对小龙虾的用户进行画像,并与其它夜宵食品的用户进行比较。

爬取的数据能干什么

3、情感分析
抓取各大电商的评论及销量数据,对各种商品(颗粒度可到款式)沿时间序列的销量以及用户的消费场景进行分析

爬取的数据能干什么

然后根据用户评价做情感分析,实时监控产品在消费者心目中的形象,对新发布的产品及时监控,以便调整策略。

爬取的数据能干什么

4、傅里叶分析
抓取B站上面关于《感觉身体被掏空》中所有的弹幕,并对弹幕的数量以及情绪进行时域和频域的分析后续的创作工作有价值。

爬取的数据能干什么

数量的时域分析。

爬取的数据能干什么

数量及情绪的频域分析。

爬取的数据能干什么

5、社交网络分析
在专栏文章中,抓取IT橘子和36Kr的各公司的投融资数据,利用SNA分析中国各家基金之间的互动关系。

爬取的数据能干什么

爬取的数据能干什么

爬取的数据能干什么