用数据预测音乐流行趋势:从歌曲热度到艺人增长

为了给大家带来更好的阅读、使用体验，【柯影效率研究站】已全面升级！现在，你只需要在后台输入任何问题，AI就能根据本号历史文章智能回答，并附上相关参考文章，帮助你快速找到需要的信息。欢迎将本号添加“🌟”，随时来问、随时来查。若问题超出历史文章范围，也可直接点弹出的咨询卡片，与我们进一步交流。

01

前言

音乐为什么会火？

有人说靠旋律，有人说靠平台推荐，也有人说靠短视频“二创”。但如果从数据分析角度看，一首歌的流行并不是完全随机的。用户每天的播放、收藏、下载、互动行为，其实都在悄悄记录歌曲热度的变化轨迹。

本次整理搜集的开源数据集，正适合用来做音乐热度分析与流行趋势预测。它由两张核心数据表组成：一张记录歌曲和艺人的基础信息，另一张记录用户对歌曲的行为日志。简单理解，就是一张告诉我们“这首歌是谁的、什么时候发布、初始热度如何”，另一张告诉我们“用户什么时候对它做了什么”。

02

数据集包含什么？

该数据集主要包含两个 CSV 文件：

1️⃣ mars_tianchi_songs.csv用于存放歌曲与艺人的元信息，包括歌曲 ID、艺人 ID、发布时间、初始播放量、语言类别、歌手性别类别等字段。

2️⃣ mars_tianchi_user_actions.csv用于记录用户行为日志，包括用户 ID、歌曲 ID、行为发生时间戳、行为类型以及日期分区。

两个文件都没有表头，因此在使用 Pandas 读取时，需要手动指定字段名。对于做数据分析、机器学习建模或者时间序列预测的同学来说，这类数据非常适合练手，因为它既有静态属性，也有动态行为。

03

数据规模有多大？

从本地统计结果来看，歌曲表共有 26,958 条记录，对应 26,958 首唯一歌曲，覆盖 100 位艺人。歌曲发布时间跨度较长，从 1960 年 7 月 28 日 到 2016 年 2 月 7 日，说明其中既有老歌，也有较新的歌曲。

用户行为表规模更大，共有 15,884,087 条用户行为记录，涉及 536,024 位唯一用户 和 24,943 首歌曲。行为日期范围为 2015 年 3 月 1 日至 2015 年 8 月 30 日。从行为类型分布看：

✅ 行为类型 1：13,515,496 次

✅ 行为类型 2：2,215,769 次

✅ 行为类型 3：152,822 次

可以看出，行为类型 1 占比最高，行为类型 3 相对稀少。这一点在后续建模时很重要，因为不同用户行为对“歌曲热度”的贡献可能并不一样。

04

它能做哪些分析？

这个数据集最直接的用途，是做音乐热度时间序列分析。

✅ 例如，我们可以按天统计每首歌的行为次数，得到“某首歌每天被用户互动了多少次”。再进一步，可以观察它的热度是突然爆发、平稳增长，还是短期冲高后快速回落。

✅ 除了歌曲维度，还可以从艺人维度分析。将同一艺人名下歌曲的用户行为进行聚合，就可以构造艺人每日热度曲线，用来判断某位艺人在一段时间内是否处于上升期。

✅ 此外，还可以做用户行为类型分析。比如行为类型 1、2、3 分别代表不同互动方式时，就可以分析用户从轻度互动到深度互动的转化情况。虽然字段本身是编码形式，但只要结合业务定义，就能进一步构建加权热度指标。

05

建模时要注意什么？

这类数据最容易踩的坑，是信息泄漏。

如果我们要预测未来几天的歌曲热度，就不能把未来发生的用户行为统计进特征里。正确做法是按照时间切分训练集和验证集，而不是随机切分。比较推荐的处理流程是：

先基于 ds 字段做日粒度聚合，例如统计每首歌每天的行为量；再构造滑窗特征，比如过去 3 天、7 天、14 天的行为总量、均值、增长率等；然后结合歌曲发布时间、初始播放量、语言类别、歌手性别类别等静态特征进行建模。

如果要提升预测效果，还可以分别构造歌曲级特征和艺人级特征。例如某首歌最近 7 天热度增长很快，同时它所属艺人的整体热度也在上升，那么这首歌未来继续增长的概率可能更高。

06

适合哪些项目

这个数据集非常适合以下几类项目：

音乐热度预测、歌曲趋势分析、艺人热度排名、用户行为分布分析、推荐系统特征工程、时间序列建模实践，以及数据分析作品集项目。

对于初学者来说，它可以帮助理解从原始日志到建模样本的完整流程；对于进阶用户来说，它也适合尝试 LightGBM、XGBoost、LSTM、Transformer 等模型。

关注我们

音乐会不会火，除了好听，也藏在用户行为数据里。如果你也想学习数据分析、趋势预测、推荐系统建模，欢迎关注我。后续会继续分享更多真实数据集案例、建模思路和项目实战。觉得有用的话，记得点赞、收藏、转发给正在做数据分析项目的朋友。

如果需要本开源数据，关注【柯影效率研究站】，后台回复【音乐数据】即可获得数据。

微信公众号

微信服务号

粉丝群

往期推荐

杭州二手房开源数据集：从房源表格里看懂城市居住样本

LongCat-Video-Avatar-1.5：开源虚拟人视频生成，离“能商用”又近了一步

MinerU2.0：让PDF不再只是“电子纸”，而是AI能读懂的数据

MGeo地址解析：让中文地址从“看不懂”变“可计算”

emotion2vec+large：让机器听懂语气背后的情绪

转载是一种动力分享是一种美德~

音乐

用数据预测音乐流行趋势:从歌曲热度到艺人增长

01

02

数据集包含什么？

03

数据规模有多大？

04

它能做哪些分析？

05

建模时要注意什么？

06

适合哪些项目

发表评论

控制面板

网站分类

最新留言

猜您喜欢坚持每天更新，让您每天都有新鲜的资源下载

歌曲欣赏-踏马寻花向自由

歌曲欣赏-踏马寻花向自由

邓丽君传世经典版歌曲,一开口就温柔到你

傣族歌曲《凤凰情歌》

原创歌曲《宋诗之河》正式出炉,泛舟常山江,唱响千年宋韵山水文脉

一支《暗香》舞蹈小舞段:老歌一响,半生心事尽数翻涌

[治愈音画】雷鬼《恋曲1990》,老歌焕发全新韵味

歌曲《山河执戈》创作手记

音乐

用数据预测音乐流行趋势:从歌曲热度到艺人增长

01

02

数据集包含什么？

03

数据规模有多大？

04

它能做哪些分析？

05

建模时要注意什么？

06

适合哪些项目

发表评论取消回复

控制面板

网站分类

最新留言

猜您喜欢坚持每天更新，让您每天都有新鲜的资源下载

发表评论