


01
前言
音乐为什么会火?
有人说靠旋律,有人说靠平台推荐,也有人说靠短视频“二创”。但如果从数据分析角度看,一首歌的流行并不是完全随机的。用户每天的播放、收藏、下载、互动行为,其实都在悄悄记录歌曲热度的变化轨迹。
本次整理搜集的开源数据集,正适合用来做音乐热度分析与流行趋势预测。它由两张核心数据表组成:一张记录歌曲和艺人的基础信息,另一张记录用户对歌曲的行为日志。简单理解,就是一张告诉我们“这首歌是谁的、什么时候发布、初始热度如何”,另一张告诉我们“用户什么时候对它做了什么”。
02
数据集包含什么?
该数据集主要包含两个 CSV 文件:
1️⃣ mars_tianchi_songs.csv用于存放歌曲与艺人的元信息,包括歌曲 ID、艺人 ID、发布时间、初始播放量、语言类别、歌手性别类别等字段。
2️⃣ mars_tianchi_user_actions.csv用于记录用户行为日志,包括用户 ID、歌曲 ID、行为发生时间戳、行为类型以及日期分区。
两个文件都没有表头,因此在使用 Pandas 读取时,需要手动指定字段名。对于做数据分析、机器学习建模或者时间序列预测的同学来说,这类数据非常适合练手,因为它既有静态属性,也有动态行为。
03
数据规模有多大?
从本地统计结果来看,歌曲表共有 26,958 条记录,对应 26,958 首唯一歌曲,覆盖 100 位艺人。歌曲发布时间跨度较长,从 1960 年 7 月 28 日 到 2016 年 2 月 7 日,说明其中既有老歌,也有较新的歌曲。
用户行为表规模更大,共有 15,884,087 条用户行为记录,涉及 536,024 位唯一用户 和 24,943 首歌曲。行为日期范围为 2015 年 3 月 1 日至 2015 年 8 月 30 日。从行为类型分布看:
可以看出,行为类型 1 占比最高,行为类型 3 相对稀少。这一点在后续建模时很重要,因为不同用户行为对“歌曲热度”的贡献可能并不一样。
04
它能做哪些分析?
这个数据集最直接的用途,是做音乐热度时间序列分析。
✅ 例如,我们可以按天统计每首歌的行为次数,得到“某首歌每天被用户互动了多少次”。再进一步,可以观察它的热度是突然爆发、平稳增长,还是短期冲高后快速回落。
✅ 除了歌曲维度,还可以从艺人维度分析。将同一艺人名下歌曲的用户行为进行聚合,就可以构造艺人每日热度曲线,用来判断某位艺人在一段时间内是否处于上升期。
✅ 此外,还可以做用户行为类型分析。比如行为类型 1、2、3 分别代表不同互动方式时,就可以分析用户从轻度互动到深度互动的转化情况。虽然字段本身是编码形式,但只要结合业务定义,就能进一步构建加权热度指标。
05
建模时要注意什么?
这类数据最容易踩的坑,是信息泄漏。
如果我们要预测未来几天的歌曲热度,就不能把未来发生的用户行为统计进特征里。正确做法是按照时间切分训练集和验证集,而不是随机切分。比较推荐的处理流程是:
先基于 ds 字段做日粒度聚合,例如统计每首歌每天的行为量;再构造滑窗特征,比如过去 3 天、7 天、14 天的行为总量、均值、增长率等;然后结合歌曲发布时间、初始播放量、语言类别、歌手性别类别等静态特征进行建模。
如果要提升预测效果,还可以分别构造歌曲级特征和艺人级特征。例如某首歌最近 7 天热度增长很快,同时它所属艺人的整体热度也在上升,那么这首歌未来继续增长的概率可能更高。
06
适合哪些项目
这个数据集非常适合以下几类项目:
音乐热度预测、歌曲趋势分析、艺人热度排名、用户行为分布分析、推荐系统特征工程、时间序列建模实践,以及数据分析作品集项目。
对于初学者来说,它可以帮助理解从原始日志到建模样本的完整流程;对于进阶用户来说,它也适合尝试 LightGBM、XGBoost、LSTM、Transformer 等模型。

音乐会不会火,除了好听,也藏在用户行为数据里。如果你也想学习数据分析、趋势预测、推荐系统建模,欢迎关注我。后续会继续分享更多真实数据集案例、建模思路和项目实战。觉得有用的话,记得点赞、收藏、转发给正在做数据分析项目的朋友。



往期推荐
杭州二手房开源数据集:从房源表格里看懂城市居住样本
LongCat-Video-Avatar-1.5:开源虚拟人视频生成,离“能商用”又近了一步
MinerU2.0:让PDF不再只是“电子纸”,而是AI能读懂的数据
MGeo地址解析:让中文地址从“看不懂”变“可计算”
emotion2vec+large:让机器听懂语气背后的情绪




