Ads Area

Yandex Music Billion-Interactions Dataset Yambda yayınladı.

Yandex, öneri sistemlerini geliştirmek için dünyanın en büyük etkinlik veri setini yayınlıyor
 

Yandex, öneri sistemleri için şu anda genel erişime açık, dünyanın en büyük veri setini kullanıma sunarak araştırma ve geliştirmeyi küresel ölçekte ilerletiyor.
 


 Açık veri seti, Yandex Music akışı servisinden 10 ay boyunca toplanan 4,79 milyar anonimleştirilmiş kullanıcı etkileşimini (dinleme, beğenme, beğenmeme) içeriyor. 
 
 Veri seti; anonimleştirilmiş ses katıştırmaları, organik etkileşim işaretleri ve gerçek dünya davranış analizi için hassas zaman damgaları kapsıyor.
 
Etkinlik dizilerini korumak amacıyla, referans noktaları için temel algoritmalarla eşleştirilmiş Global Temporal Split (GTS) değerlendirmesi kullanılıyor. 
 
Farklı araştırma ve geliştirme ihtiyaçlarına yönelik üç farklı büyüklükte (5 milyar, 500 milyon ve 50 milyon etkinlik) veri setine Hugging Face’ten erişilebiliyor. 
 
Yandex, müzik akış platformu Yandex Music'teki ses parçalarıyla yaklaşık 5 milyar anonimleştirilmiş kullanıcı etkileşimini içeren ve öneri sistemleri için dünyanın en büyük açık veri seti olan Yambda'yı (Yandex Music Billion-Interactions Dataset) yayınladı. 
 
Yambda, öneri sistemlerini kullanan tüm alan adlarında (e-ticaret, sosyal ağlar ve kısa video platformları) yeni yaklaşım ve algoritmaları test etmek için evrensel bir ölçüt olarak hizmet veriyor. Veri seti, araştırmacıların yeni öneri algoritmalarını baz modellerle karşılaştırarak geliştirmelerini ve test etmelerini sağlayarak inovasyonu hızlandırıyor. 
 
Sınırlı veriye sahip startup’lar ölçeklendirmeden önce Yambda kullanarak sistem oluşturmak ve test etmek için veri setinden faydalanabiliyor. Böylece, dünya çapında iş ihtiyaçlarına göre uyarlanmış ileri teknolojilerin oluşturulması hızlandırılıyor. 
 
Araştırma ve sektör arasındaki boşluk dolduruluyor Eğitim verilerinin kalitesi ve ölçeği; yayın hizmetleri, sosyal ağlar, kısa video uygulamaları ve e-ticaret pazaryerleri gibi platformlarda amaca uygun önerileri sunabilmek için kritik önem taşır. 
 
Bununla birlikte, öneri sistemlerine yönelik araştırmalar büyük ölçekli veri setlerine sınırlı erişim nedeniyle büyük dil modelleri gibi hızla ilerleyen alanların gerisinde kalmıştır. 
 
Etkili öneri modelleri, ticari platformların sahip olduğu fakat nadiren kamuya açık olarak paylaştığı terabaytlarca davranış verisi gerektiriyor.  
 
Araştırmacılar genellikle modern kullanımın karmaşıklığını yakalayamayan küçük ve eski veri setleriyle baş başa kalıyor: 
 
Spotify Million Playlists veri seti, ticari ölçekli öneri sistemleri için çok küçüktür. Netflix Prize veri seti, yaklaşık 17.000 öğesi ve yalnızca tarih damgalarıyla zamansal modelleme ve büyük ölçekli araştırmalar için elverişli değil. 
 
Criteo 1TB Click Logs veri seti, uygun dokümantasyondan ve tanımlayıcılardan yoksun olup, reklam tıklamalarına odaklanıyor. Yandex Öneri Sistemleri Başkanı Nikolai Savushkin, "Öneri sistemleri, yapısı gereği hassas verilere bağlıdır. 
 
Şirketler öneri sistemi veri setlerini ancak kapsamlı ve yorucu bir anonimleştirme işleminden sonra kamuya açık olarak yayınlayabilirler. Bu da açık inovasyonu yavaşlatan, yoğun kaynak gerektiren bir süreçtir" diyor. 
 
Bu veri kıtlığı bir boşluk yaratıyor: Akademik ortamlarda mükemmel olan modeller gerçek dünya uygulamalarında genellikle düşük performans sergiliyor. Öneri sistemlerini gelişmiş yapılarla entegre etme çabaları da uygun eğitim verilerinin yokluğu nedeniyle kısıtlanıyor. 
 
Yambda Veri Seti Hakkında Yambda, aylık yaklaşık 28 milyon kullanıcısı olan müzik akışı servisinin büyük ve anonimleştirilmiş veri setini sunarak öneri sistemi zorluklarına çözüm getiriyor. 
 
Bu veri seti, dinleme deneyimini her bir kullanıcının zevkine göre uyarlayan My Wave öneri sistemiyle tanınan Yandex Music servisinin içerikleriyle kullanıcıların nasıl etkileşime girdiğine dair önemli bilgiler sağlıyor. Gizliliği korumak için tüm kullanıcı ve izleme verileri, gizlilik standartları doğrultusunda sayısal tanımlayıcılarla anonimleştirilmiş oluyor. 
 
 Veri setinin temel özellikleri: 
10 ay boyunca toplanan 4,79 milyar anonimleştirilmiş kullanıcı etkileşimi. 1 milyon kullanıcıdan alınan veriler ve 9,39 milyon parça için anonimleştirilmiş tanımlayıcılar. İki geri bildirim türü içerir: örtülü etkileşimler (dinleme) ve açık etkileşimler (beğenme, beğenmeme ve bunların iptali). 
 
Ses katıştırmaları (konvolüsyonel sinir ağları aracılığıyla oluşturulan vektör temsilleri) ve parçalar hakkında anonimleştirilmiş bilgiler sunar. 
 
Kullanıcıların parçaları bağımsız olarak mı yoksa öneriler yoluyla mı keşfettiğini gösteren bir “is_organic” işareti içerir ve daha derin davranış analizi sağlar. 
 
Tüm etkinliklerin zaman damgalı olması, kullanıcı davranışının zaman içinde analizini destekler ve modellerin gerçek dünya kullanımına çok benzeyen koşullar altında değerlendirilmesine olanak tanır. 
 
Veri seti Spark ve Hadoop gibi dağıtık işleme sistemlerinin yanı sıra Pandas ve Polars gibi analiz kütüphaneleriyle uyumlu Apache Parquet formatında yayınlanıyor Nikolai Savushkin "Yambda, araştırmacıların yenilikçi hipotezleri test etmelerini ve işletmelerin daha akıllı öneri sistemleri oluşturmalarına yardımcı oluyor. Sonuçta, kullanıcılar da mükemmel şarkıyı, ürünü veya hizmeti bularak bundan yararlanıyor" diyor. 
 
Veri Seti Sürümleri ve Değerlendirme Yaklaşık 5 milyar, 500 milyon ve 50 milyon etkinlik olmak üzere üç farklı büyüklükte kullanılabilen Yambda veri seti, farklı ihtiyaçları ve hesaplama kapasiteleri olan araştırmacılara ve geliştiricilere hitap ediyor.  
 
Farklı Veri Seti Boyutları 
 

Veri seti

Kullanıcı

Öğe

Dinleme

Beğenme

Beğenmeme

Yambda-50M

10.000

934.057

46.467.212

881.456

107.776

Yambda-500M

100.000

3.004.578

466.512.103

9.033.960

1.128.113

Yambda-5B

1.000.000

9.390.623

4.649.567.411

89.334.605

11.579.143

 


Veri seti, değerlendirme için etkinlik dizilerini korumak amacıyla verileri zaman damgalarına göre bölen bir yöntem olan Global Temporal Split (GTS) kullanılıyor. 
 
Test için her kullanıcının geçmişindeki son pozitif etkileşimi kaldıran Leave-One-Out yönteminin aksine GTS, eğitim ve test setleri arasındaki zaman bağlarını koparmıyor. 
 
Bu sayede, ileriye dönük verilerin olmadığı gerçek dünya koşullarını taklit eden daha gerçekçi bir modelleme elde edilebiliyor. Yeni öneri sistemi yaklaşımlarını karşılaştırmaya yönelik ölçütler sunan temel uygulamalar arasında 
 
MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA ve SASRec yer alıyor. Bu temeller, aşağıdakiler de dahil olmak üzere standart metriklerle değerlendirilir: 
 
 NDCG@k (sıralama kalitesi) Recall@k (geri alım etkililiği) Coverage@k (katalog çeşitliliği) Nikolay Savushkin, “Sektör liderleri zor kazanılan araçları ve verileri paylaştığında, yükselen bir dalga etkisi yaratır. 
 
Araştırmacılar gerçek dünya ölçütlerine kavuşur, startup’lar sadece teknoloji devlerinin erişebildiği kaynaklara erişir ve kullanıcılar da daha iyi bir kullanım deneyiminin keyfini çıkarır” diye ekliyor. 
 
Dünyanın en büyük açık öneri sistemi veri seti olan Yambda’ya artık Hugging Face'ten erişilebiliyor.
Tags

Yorum Gönder

0 Yorumlar
* Please Don't Spam Here. All the Comments are Reviewed by Admin.

Ads Area