i kollektivt val: betygssystem diskuterar jag betygsskalor av olika slag, från eBays 3-punkts skala till Rpgnets dubbla 5-punkts skala och BoardGame Geeks 10-punkts skala.
av de olika betygsskalorna är 5-punktsskalor förmodligen de vanligaste på Internet. Du hittar dem inte bara i min egen RPGnet, men också på Amazon, Netflix och iTunes, liksom många andra webbplatser och tjänster. Tyvärr 5-punkts betygsskalor står också inför många utmaningar i deras användning, och olika studier tyder på olika brister med denna speciella metod.
För det första har en studie med Amazon-data visat att många odetailerade betyg (där rater inte krävs för att lägga till ytterligare information än det Betyg de väljer) visar en bimodal distribution. Med andra ord tenderar fördelningen av Betyg att kluster runt två olika nummer (t.ex. 1 och 5) snarare än att erbjuda en normalfördelning där Betyg kluster runt en enda höjd (t. ex. 3). Medianen av dessa betyg är således inte en korrekt återspegling av produktkvaliteten, utan är istället ett uttalande om motstridiga åsikter.
För det andra har vår egen studie med rpgnet-data visat att många detaljerade betyg (där ratern lägger till ytterligare information, i detta fall en fullständig recension) erbjuder normala fördelningar, men det är förspänt mot skalans höga ände. På RPGnet upptäckte vi till exempel att 90% av detta 5-punkts klassificeringssystem var 3 eller högre med ett genomsnitt runt 4.
Randy Farmer of Yahoo föreslår att denna skalbegränsning är särskilt besvärlig för fanbaserade betyg, som de som finns på episodiska TV-webbplatser:
endast fansen av en show utvärderar episoderna, och att vara fans, kommer aldrig att betygsätta en episod en eller två stjärnor, någonsin. Jag har sett detta försök om och om igen på nätet med samma resultat varje gång: varje avsnitt av en show är 4-stjärnor +/- .5 stjärnor. Detta går hela vägen tillbaka till Babylon-5 webbplats, förmodligen den första källan för denna typ av data.
(och faktiskt, TV-episoden TKO, från Babylon 5S första säsong, anses vara en helt grym episod av även fansen. Ändå har den en 6.1 av 10 ”rättvis” betyg på tv.com.)
således även när en bimodal fördelning inte är ett problem, på en 5-punkts skala resulterar den uppåtgående förspänningen ofta i endast 2 eller 3 meningsfulla datapunkter. Detta är problematiskt eftersom det minimerar differentieringen. I många fall är ett 5-stjärnigt betygssystem där de flesta betyg är antingen 3 eller 4 faktiskt inte bättre än bara ett thumbs-up/thumbs-down-betygssystem.
men med tanke på att 5-punkts skalor förmodligen är här för att stanna, är vi tvungna att göra det bästa av dem vi kan.
först måste vi ge bedömare incitament, så att de ger meningsfulla betyg. Vi har redan sett att detta kan göras genom att begära detaljerade betyg: när en person tar sig tid att skriva text och vet att hans namn kommer att bifogas det, gör han i allmänhet ett bättre jobb i sitt betyg. Det finns också andra möjliga incitamentstekniker, till exempel Rpgnets nya XP-System.
För det andra måste vi tillhandahålla medel för en 5-punkts skala för att bli mer meningsfull genom att uppmuntra bedömare att använda inte bara den övre halvan av skalan, men den nedre halvan också. En metod för att uppnå detta är att göra betyg distinkta-som jag kort nämnde i min tidigare artikel om detta ämne-och uppmuntra standarder så att ett ”genomsnittligt” betyg är 2 eller 3, inte 4.
som ett exempel på hur man uppnår båda dessa mål med redan befintliga 5-punkts betygsskalor har jag detaljerat mina egna erfarenheter av att använda betyg på två populära tjänster-iTunes och Amazon. Genom att ge mig själv incitament och göra min användning av betyg mycket distinkt har jag skapat mer meningsfull och användbar produktion för mig själv.
Music Ratings-iTunes
Apples iTunes-programvara ger Dig möjlighet att betygsätta enskilda låtar med 0-5 Stjärnor. Om du använder iTunes med en iPod kan du ändra betyg på en låt på din iPod och ändringen kommer att återspeglas i din iTunes-databas nästa gång du synkroniserar din iPod. Funktionen ”Shuffle Songs” som finns på modernare iPods har möjlighet att låta låtar med högre betyg spelas oftare. En mycket kraftfull funktion, smarta spellistor, kan dynamiskt skapa sofistikerade spellistor baserat på betyg. Allt detta gör betygsmusik på iTunes mycket användbar.
Efter att Shannon och jag skrev vår artikel om betygssystem undersökte jag betyg i min iTunes-katalog. Med hjälp av Alastairs fantastiska xlst iTunes rating statistics tool upptäckte jag att de betyg jag skapade i iTunes tydligt var förspända för höga och matchade det mönster vi hade beskrivit. Jag hade alldeles för många låtar klassade med 4 stjärnor, och nästan ingenting betygsatt 1 eller 2. Detta gjorde mina betyg mindre användbara.
Här är lite statistik från ditt iTunes-bibliotek: 4172 spår, 412 (10%) betygsatt | |||||
kumulativ % av betyg | |||||
---|---|---|---|---|---|
antal | % av betyg | faktiskt | mål | underskott | spår 5 stjärnor: | 112 | 27 | 27 | 5 | -22 |
spår klassade 4 stjärnor: | 183 | 44 | 72 | 15 | -57 |
spår klassade 3 stjärnor: | 92 | 22 | 94 | 50 | -44 | spår klassade 2 stjärnor: | 22 | 5 | 99 | 90 | -9 |
spår klassade 1 stjärnor: | 3 | 1 | 100 |
så under de senaste månaderna har jag helt förnyade mina iTunes-betyg. Eftersom jag inte kan ändra användargränssnittet har jag ändrat mitt beteende. Jag utnyttjar också två andra områden: ”kontrollerad ”som jag använder för att ge mer särskiljningsförmåga till mina betyg, och” play count ” som visar huruvida jag har lyssnat på något till slutet.
här är kriterierna jag använde:
Klassad 5 – exempel: endast mina mest favoritlåtar är klassade 5. De måste uppfylla följande kriterier: de får mig att må bra eller väcka mig oavsett hur ofta jag lyssnar på dem, jag kan vanligtvis lyssna på dem ofta utan att bli trött på dem, och de är de bästa av deras speciella genre.
Märk 4-Stor : det finns bara en liten skillnad mellan en låt som är klassad 4 och 5 i mina betyg-vanligtvis exciterar det mig inte eller får mig att le lika mycket, eller det är inte nödvändigtvis ett exempel på sin genre. Men jag kan fortfarande vanligtvis lyssna på dem ofta utan att bli trött på dem. Objekt som är klassade 4 och 5 är de som jag bär på min iPod Shuffle.
klassad 4-Stor (omarkerad) : Det finns några låtar som jag anser vara bra, men som jag bara vill spela när jag är på humör för dem, eller Jag vill bara spela i en viss ordning, eller de ”spelar inte bra” med annan musik. Till exempel älskar jag låten ”The Highwayman” av Loreena McKennitt, men den är över 10 minuter lång och jag vill bara inte höra den typen av låt om jag inte är på humör för den. Andra exempel är de 12 låtar som utgör Mussorgskys ”Pictures at an Exhibition” – jag vill att de ska spelas i ordning när jag spelar dem, och jag vill verkligen inte att de ska spelas mitt i mina andra låtar. Tyvärr låter iTunes dig inte bara välja okontrollerade objekt, så jag har inte en Smart spellista för dessa; istället håller jag dem i en vanlig spellista.
Märk 3-bra : det här är låtar Jag gillar. Vanligtvis kan jag spela dem regelbundet men inte för ofta. Låtar klassade 3-5 gå på min iPod Nano.
Märk 3-bra (omarkerad) : det finns mycket musik som jag tycker är bra, men jag vill inte spela hela tiden. Jag har en stor katalog med ljudspår från filmer. Alla utom några av dessa spår är i denna kategori. Återigen låter iTunes dig inte bara välja okontrollerade objekt i en Smart spellista, så jag har flera vanliga spellistor för dessa objekt.
Märk 2-Ok : jag har mycket varierande musiksmak, börjar med jazz, olika etniska och världsmusik, och även med en hel del pop, rap, R&b, punk och metall som jag tycker om. Jag tycker inte om dem hela tiden-men jag gillar att de dyker upp då och då för variation. Så jag betygsätter dessa 2 och lämnar dem kontrollerade. Jag har en gammal 40GB iPod som jag tar på långa resor, och det lagrar allt jag har som kontrolleras och betygsatt 2-5.
Märk 2-Ok (omarkerad) : vissa låtar är OK, men jag måste verkligen vara på humör specifikt för den låten. Att lyssna på Jimmy buffets ”Margaritaville” kan vara ett skyldigt nöje på en lat sommardag på stranden, men det är inte något jag regelbundet vill lyssna på. Jag har ett antal speciella spellistor för låtar som är klassade så här.
Märk 1-gillar inte : Det här är låtarna som jag inte gillar. De är bara inte min stil. Många är fortfarande kvalitetsmusik, de fungerar bara inte för mig. Jag behåller de flesta av dessa för fullständighet-det kan bara vara en eller två låtar på albumet, och jag vill hålla albumet komplett. Eller jag behåller det om min smak förändras. Men i allmänhet, när något är hastighet 1 stjärna, Jag kommer förmodligen aldrig lyssna på det igen.
Märk 1-Trash (Unchecked) : det här är låtar som jag inte bara gillar, de är bara inte bra musik. Jag gillar inte de flesta rap musik, men jag kan säga att de flesta är fortfarande kvalitet. Vissa är skräp-dessa betygsätter jag 1 och avmarkerar, och är kandidater för radering nästa gång jag rensar min samling.
Unrated & lyssnade , playcount > 0: om jag har lyssnat på något till slutet, men inte har betygsatt det ännu, visas det i den här smarta spellistan. Regelbundet kontrollerar jag Den här smarta spellistan, sorterar efter playcount och försöker Betygsätta allt som jag har lyssnat på mer än en gång.
Unrated & Unlistened , spela count=0: Detta är standard när en ny låt läggs till i mitt bibliotek. Så någon låt som är oklassificerad, kontrollerad och har ett spelantal på 0 visas i min ”Unrated & Unlistened” Smart Playlist. När jag är på humör för variation går jag igenom den här spellistan och betygsätter låtar.
att ändra mitt betygssystem på detta sätt har orsakat att mitt genomsnittliga betyg för musik ändras från omkring 4 till någonstans mellan 2 och 3. Det kommer förmodligen med tiden att bli närmare 2 när jag betygsätter mer av min samling. Detta ger mig mycket särskiljningsförmåga så att jag kan skapa smarta spellistor som fungerar bra för mig.
Här är lite statistik från ditt iTunes-bibliotek: 6519 spår, 726 (11%) betygsatt | |||||
kumulativ % av betyg | |||||
---|---|---|---|---|---|
antal | % av betyg | faktiska | mål | underskott | spår betyg 5 stjärnor: | 74 | 10 | 10 | 5 | -5 |
Tracks rated 4 stars: | 144 | 20 | 30 | 15 | -15 |
Tracks rated 3 stars: | 211 | 29 | 59 | 50 | -9 |
Tracks rated 2 stars: | 270 | 37 | 96 | 90 | -6 |
Tracks rated 1 stars: | 27 | 4 | 100 |
självklart betyg en stor musiksamling kan bli en syssla-du vill inte spendera din begränsade musiklyssningstid alltid finjustera dina betyg. Så jag har några tillvägagångssätt som gör det lättare för mig att betygsätta min musik med mindre ansträngning:
-
först sorterade jag min katalog efter mina gamla betyg och ändrade allt ner med 1, börjar med att allt betygsatt 2 blir 1, 3 blir 2, etc. Detta gav mig en bra bas att börja med
-
nästa skapade jag smarta spellistor för varje betyg, dvs” Betyg 5 – Exemplar ”med” Matcha bara markerade låtar ”och” live uppdatering ” markerad. Jag lade sedan till” Play Count ” som en kolumn till min åsikt och sorterades efter den. Detta gav mig de låtar som jag spelade mest och minst, och jag justerade några låtar upp och ner i enlighet därmed.
-
sedan skapade jag en ny Smart spellista som helt enkelt spelar låtar med 3 till 5, vilket begränsar listan till de första 100 GB som valts av slumpmässigt (dvs allt slumpmässigt) och sparade den här smarta spellistan som ”spelar bra med andra”. Jag spelar detta ibland i bakgrunden, och när jag hör något som burkar mig Jag vet något inte betygsatt rätt. Således utan mycket ansträngning kan jag ändra betyg för låtar som inte längre passar deras betyg, eller avmarkera objekt där betyget var lämpligt men det ”spelade inte bra med andra”.
-
Jag försöker vara medveten när jag använder min iPod om vad en låtar betyg är, och ändra det om det verkar fel. Nästa gång jag synkroniserar iPod kommer mina betyg att justeras i min iTunes-katalog.
-
jag försöker också vara medveten om Play Count-detta nummer går bara upp om du spelar en låt till slutet. Så även om jag inte kan titta på betyget (till exempel när jag är i en bil) kan jag åtminstone vidarebefordra till nästa låt. Periodiskt granskar jag spelantalet för låtar som jag har betygsatt och överväger att flytta dem upp och ner i enlighet därmed. Naturligtvis betyder det att jag måste vara försiktig och inte låta iPod fortsätta springa när jag inte lyssnar.
ett tips för dig som lägger mycket ansträngning på dina iTunes-betyg: jag har lärt mig det hårda sättet att till skillnad från de flesta sånginformation lagras inte betyget i själva låten, så om din iTunes-databas blir skadad eller om du flyttar din musik till en annan server, förlorar du alla dina betyg. Ett sätt att undvika detta är att regelbundet säkerhetskopiera dina betyg till ett fält som lagras i själva låten. Jag använder personligen fältet ” gruppering ”eftersom det sällan används, välj Alla låtar med samma betyg och klicka på” Få Info ”och ändra Grupperingsfältet till”mitt betyg: 5 stjärnor”.
Jag har bara 11% av min samling betygsatt hittills, men med det här systemet tycker jag att det är mycket lättare att hantera mina betyg. Jag får redan många fördelar med det-jag spelar min musik oftare, mina iPods har vanligtvis den musik jag vill ha på dem, och olika musikupptäckttjänster kan använda mina betyg för att hjälpa mig att identifiera ny musik jag kan njuta av. Detta ger incitament att hålla mig in meningsfulla betyg.
Book Ratings-Amazon
Amazon använder också ett 5-stjärnigt betygssystem, och dina betyg kan användas av Amazon för att hjälpa dig att hitta böcker som du kanske gillar. Även om jag gillar att stödja mina lokala bokhandlar, är det den här funktionen som tar mig tillbaka till Amazon gång på gång. När jag bläddrar igenom Amazon och ser en bok som jag redan har läst försöker jag ta mig tid att uppdatera mitt betyg.
Amazon har ett antal olika verktyg för att hjälpa dig i dina betyg. Om du är Amazon-kund kan du förbättra dina rekommendationer: Redigera objekt du äger och se alla böcker som du har köpt och snabbt betygsätta dem med en trevlig AJAX gränssnitt. Du kan också granska objekt som du redan har betygsatt, oavsett om du äger dem, på Förbättra dina rekommendationer: Redigera Objekt som du har betygsatt.
Amazon har också nyligen lagt till en mycket trevlig webbtjänst som heter ditt mediebibliotek som kan användas för att hantera ditt mediebibliotek med böcker, musik och DVD-skivor. Jag har personligen bara använt den för att hantera mina böcker och DVD-skivor, eftersom jag tycker att betygsalbum är värdelösa-det är låtar som jag föredrar att betygsätta.
Efter att ha bläddrat igenom mina betyg hittills upptäckte jag samma brister som jag hittade iTunes-mina betyg var vanligtvis för höga; de flesta var en 4. Detta uppmuntras särskilt av popup när markören är över stjärnorna”1 – Jag hatar det, 2 – Jag gillar det inte, 3 – Det är Ok, 4 – Jag gillar det och 5-Jag älskar det”. Jag misstänker att om jag använder samma trick som jag använder för iTunes att göra en rating på 2 stjärnor betyder ”Ok” jag skulle kunna orsaka rekommendationsmotorn att vara mindre effektiv (även om det skulle kunna göra det bättre, jag vet inte). Så jag är mycket mer brutal med mina betyg och driver många fler ner till 3, så att mina betyg på 4 och 5 har mer mening.
5 stjärnor : dessa måste vara exemplarerna-de bästa böckerna jag någonsin har läst, skulle vara glada att läsa igen, skulle vara stolta över att visa upp på min bästa bokhylla och kommer att köpa extra kopior att ge till vänner.
4 stjärnor : dessa måste vara riktigt bra böcker-de flesta av dem är jag villig att läsa igen och jag marknadsför dem genom att erbjuda att låna dem till mina mer diskriminerande vänner. Även om jag kan hålla dem på min bokhylla jag skulle hellre ge dem till en vän sedan sälja dem på en begagnad bokhandel.
3 stjärnor : det här är böcker är anständiga böcker, och jag delar dem med mina glupska läsarvänner. Men jag trycker inte på dem och jag är mycket mer benägna att sälja dem i en begagnad bokhandel och sedan hålla dem på min hylla. Detta är den rating som jag betydligt underutnyttjade tidigare, och jag finner att nyckeln diskriminator för mig hittills är hur mycket jag känner för att rekommendera detta till vänner som är mer diskriminerande läsare.
2 stjärnor : detta betyg är där Amazon-klassificeringssystemet misslyckas mest-det här är suppost att vara böcker som” jag gillar inte”, men för det mesta köper jag inte böcker som jag förmodligen inte skulle vilja, mycket mindre läsa dem, så jag har väldigt få i den här kategorin. Men jag har bestämt mig för att den här kategorin är för böcker som bara inte är tillräckligt bra eller är lite nedslående. Inte dåligt, eller ogillade, men bara lite nedslående.
1 stjärnor : Det är här jag lägger böckerna som jag inte gillar, eller värre, jag hatar. Inte många här, men jag är villig att riskera mer än många människor är så jag har några. Även böcker går här som bara inte passar mitt intresse, som romaner som får rekommenderas till mig eftersom jag gillar några crossover fantasy-romance författare.
sedan jag började mer exakt betygsätta mina böcker på Amazon har jag funnit att deras förslag på andra böcker att läsa för att vara mer exakta. Således får jag värde från att betygsätta dessa böcker, och jag har incitament att fortsätta göra ansträngningen.
slutsats
att erbjuda ett incitament för människor att betygsätta är viktigt för betyg av alla slag, med både individuell vinst och statusigenkänning som kraftfulla motivatorer.
men den enklaste tekniken för att göra en 5-punkts betygsskala mer användbar är att göra den ”distinkt”. Om en användare har en mer specifik betydelse för varje betyg, kommer betyg långsamt att sätta sig mot ett sannare genomsnitt, och därmed kommer mer av varje betygsskala att användas. Vi har också provat den här tekniken nyligen på RPGnet, med vårt nya Spelindex; och hittills är vår nya 10-punkts skala – som har olika betydelser för varje nummer-i genomsnitt 7,27. Det är fortfarande en hel del över det verkliga genomsnittet på 5,5, men åtminstone ligger det under 8+-värdet som vår gamla dubbla 5-punkts skala resulterade i.
ofta kommer du som konsument av klassificeringssystem att använda betygsskalor som designats av andra, snarare än de du utformar själv. För dessa fall är det ofta vettigt att utforma dina egna regler för vad varje nummer betyder, och att göra det på ett sådant sätt att din median är medelvärdet av skalan, snarare än mot en av ytterligheterna. När du gör det, även om du använder en snäv 5-punkts skala, kommer du att få tillräckligt med differentiering för att det faktiskt ska vara mer meningsfullt än tummen upp eller tummen ner.
relaterade artiklar från den här bloggen:
2005-12: system för kollektivt val 2005-12: kollektivt val: klassificeringssystem 2006-01: kollektivt val: Konkurrenskraftiga rankningssystem 2007-01: experimentera med Betyg
relaterade artiklar från Shannon Appelclines försök, triumfer & trivialiteter:
#192: hantera användarkreativitet, del ett #193: hantera Användarkreativitet, del två #196: kollektivt val: betyg, vem litar du på? #198: kollektivt val: fler tankar om betyg