Logo sv.boatexistence.com

Vilka är bristerna med att tillskriva saknade värden med medelvärde?

Innehållsförteckning:

Vilka är bristerna med att tillskriva saknade värden med medelvärde?
Vilka är bristerna med att tillskriva saknade värden med medelvärde?

Video: Vilka är bristerna med att tillskriva saknade värden med medelvärde?

Video: Vilka är bristerna med att tillskriva saknade värden med medelvärde?
Video: How To... Replace Missing Values with Mean Imputation Method in R #77 2024, Maj
Anonim

Mean imputation förvränger relationer mellan variabler Men medelimputation förvränger också multivariatsamband och påverkar statistik som korrelation. Till exempel beräknar följande anrop till PROC CORR korrelationen mellan variabeln Orig_Height och variablerna Weight and Age.

Varför är det en dålig idé att använda ett medel för att sakna data?

Mean minskar en varians av data Om man går djupare in i matematiken leder en mindre varians till ett smalare konfidensintervall i sannolikhetsfördelningen[3]. Detta leder inte till något annat än att införa en partiskhet till vår modell.

Varför är det ett problem med saknade värden?

Saknade data ger upphov till olika problem. För det första, frånvaron av data minskar den statistiska kraften, vilket hänvisar till sannolikheten att testet kommer att förkasta nollhypotesen när den är falsk. För det andra kan förlorad data orsaka förspänning i uppskattningen av parametrar. För det tredje kan det minska provernas representativitet.

Varför är elak tillskrivning dålig?

Problem 1: Genomsnittlig imputation bevarar inte relationerna mellan variabler. Det är sant att imputering av medelvärdet bevarar medelvärdet av de observerade data. Så om data saknas helt slumpmässigt förblir uppskattningen av medelvärdet opartisk.

Ska du ersätta saknad data med medelvärdet?

Outliers datapunkter kommer att ha en betydande inverkan på medelvärdet och därför, i sådana fall, det rekommenderas inte att använda medelvärdet för att ersätta de saknade värdena. Att använda medelvärden för att ersätta saknade värden kanske inte skapar en bra modell och utesluts därför.

Rekommenderad: