Yandex 发布最大音乐推荐开源数据集 Yambda

2025-05-30 发布浏览527次点赞0次收藏0次

5 月 30 日消息，俄罗斯搜索引擎巨头 Yandex 昨日发布了世界上最大的音乐推荐系统开源数据集 Yambda，包含 47.9 亿条匿名用户的交互数据，旨在帮助开发者创建智能音乐服务。

The free Yahdex Yambda dataset allows anyone to create their own music recommendation service. (Image source: Yandex)

Yandex 在十个月内收集了近 2800 万 Yandex Music 月度用户的数据，具体为用户与 939 万首歌曲的 47.9 亿次交互，数据集包括听众对歌曲好恶的关键反馈，所有交互都带有时间戳以提高准确度。

user history length

user history length log-scale

Yambda 在 Hugging Face 提供三种大小的数据集供自由下载：Yambda-5B（来自 100 万名用户的行为）、Yambda-500M（10 万用户）和 Yambda-50M（1 万用户）。其中规模最大的 5B 数据集至少需要 85 GB 存储空间。

数据集包含音乐听众的偏好信息，以 Apache Parquet 格式存储，可用作研究用途或开发类似 Spotify 等流媒体服务提供的 AI 音乐推荐功能。

据了解，Spotify 和 Tidal 等流媒体服务通常不会发布其音乐推荐算法的代码或模型，因为推荐听众喜爱歌曲的能力被视为其成功的商业秘密。

数据集 Yambda 推荐算法 AI Yandex

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！