Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_edauni.wasp

Title produced by software

Univariate Explorative Data Analysis

Date of computation

Sat, 25 Oct 2008 05:42:22 -0600

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/25/t1224935089nahpj0cdm1luzdm.htm/, Retrieved Thu, 16 May 2024 19:15:06 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=18681, Retrieved Thu, 16 May 2024 19:15:06 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

univariate kledingproductie

Estimated Impact

207

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F       [Univariate Explorative Data Analysis] [Univariate explor...] [2008-10-25 11:42:22] [8da7502cfecb272886bc60b3f290b8b8] [Current]
-   PD    [Univariate Explorative Data Analysis] [Verbetering vraag...] [2008-11-03 19:54:25] [44ec60eb6065a3f81a5f756bd5af1faf] 
-    D      [Univariate Explorative Data Analysis] [ws 3 assumpties] [2009-10-16 08:05:08] [f5d341d4bbba73282fc6e80153a6d315] 
-   P         [Univariate Explorative Data Analysis] [WS 3 assumpties] [2009-10-19 17:53:20] [f5d341d4bbba73282fc6e80153a6d315] 

Feedback Forum

2008-11-03 20:06:46 [Koen Van den Heuvel] [reply] 
Bij het oplossen van vraag 2 zijn er enkele fouten gemaakt: 
- bij het testen op correlatie, en dus op willekeurigheid, is het beter om een lag-plot te gebruiken met een lag van 12 of 36 perioden. De grafiek van de autocorrelation function geeft per lag weer of er autocorrelatie is of niet. 
http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/03/t1225742105lyxylqoyels70qu.htm Hier is er duidelijk een uitschieter bij 12 maanden wat wijst op een zekere correlatie en dus minder willekeurigheid. 
 
-om de spreiding te beoordelen moet je het run sequence plot opdelen in een linker en een rechter kant om zo te kijken of er voor langere perioden een wijziging in de spreiding plaatsvindt. Hier valt op dat de spreiding van de linkerkant groter is dan deze aan de rechterkant. We kunnen hier dus besluiten dat er geen fixed variation is. 
 
-bij het testen van de constante component wordt er gebruik gemaakt van het normal qq plot, er wordt echter wel eigenlijk de normaalverdeling afgelezen, wat te maken heeft met fixed distribution ipv fixed variation. 
Om te testen op fixed distribution kijken we naar het run sequence plot op lange termijn. We zien hier een dalende trend, wat er op zou wijzen dat het gemiddelde geen constante is. Dit kan dan verder getest worden via central tendency 
 
2008-11-04 07:27:25 [Koen De Winter] [reply] 
Je schrijft als conclusie dat de ‘univariate EDA’ 4 belangrijke zaken test. Correct, al geef je weer geen antwoord op de vraag. Bovendien maak je het voor jezelf moeilijk door de 4 veronderstellingen van de voorbeeldstudent over te nemen. Wat tussen de haakjes staat bij de veronderstellingen van de voorbeeldstudent is geschikter om mee te werken. Nog gemakkelijk is om gewoon de cursus te volgen.  
De 4 veronderstellingen (EDA p. 35) zijn:  
1.	random drawings; 
2.	from a fixed distribution; 
3.	with the distribution having fixed location; and 
4.	with the distribution having fixed variation. 
Heel belangrijk bij de analyse is dat de 4 veronderstellingen niet in dezelfde volgorde kunnen behandeld worden als de grafieken. Het lijkt erop dat je dit wel doet. Per grafiek één veronderstelling, zo lijkt het. Dit is ook te zien bij je eigen tijdreeksen. 
Bijvoorbeeld: Je neemt grafiek 1 erbij en test veronderstelling 1, zijnde ‘randomness’ (in jouw geval autocorrelatie). Grafiek 1 toont echter geen autocorrelatie. De ‘run sequence plot’ toont aan of de ‘assumptions’ fixed variation en fixed location aanwezig zijn. Autocorrelatie (of liever geen autocorrelatie) is eerder een element van ‘randomness’ en wordt getest met de ‘lag plot’.  
Voor de duidelijk zal ik het model opnieuw analyseren op jouw manier, grafiek per grafiek, maar dan met de juiste techniek erbij om de veronderstellingen te controleren. 
Ik begin dus met grafiek 1: de ‘run sequence plot’. Deze techniek test de ‘assumptions’ fixed variation en fixed location. Je bent je hier van bewust, want je schrijft: “als je naar de grafiek kijkt is er duidelijk een vaste variatie in, namelijk dalend, stijgend, terug dalend, enz… Een opvallende stijger wordt eveneens gevolgd door een opvallende daler.”  
Maar dit is niet correct. Als je de grafiek in twee verdeelt, zie je echter een groot verschil in variatie tussen de eerste helft en de tweede. De veronderstelling fixed variation is dus niet aanwezig in dit model. De andere veronderstelling die je uit de ‘run sequence plot’ kan halen, is de fixed location. Deze is aanwezig indien de ‘run sequence plot’ vlak is (globaal te bekijken) en niet van zijn trend afschuift. Als we naar de grafiek kijken dan zien we dat deze veronderstelling aanwezig is. 
Zowel uit het histogram (grafiek 2), als uit de ‘density plot’(grafiek 3) kunnen we afleiden dat het om een redelijk normale distributie gaat. Maar we moeten vraaggericht werken en dus de veronderstelling fixed distribution analyseren. Om deze goed af te leiden, moeten we kijken naar de ‘normal probability plot’ of in dit geval de’ normal Q-Q plot’. Als deze lineair is en dat is ze ook, is de veronderstelling van fixed distribution aanwezig. 
Alle grafieken zijn nu behandeld, maar er blijft één veronderstelling over. Die hebben we nog niet getest. Deze laatste is de ‘randomness’. Men kan ze afleiden uit de ‘lag plot’ of uit de ‘autocorrelation plot’. Aangezien beide grafieken niet getoond worden, kan ik moeilijk hier een vaststelling doen. Ik kan geen link van mijn eigen document opnemen omdat ik met hetzelfde probleem zat. Als je toch de juiste grafiek wil zien, moet je naar het document “bespreking tijdens het college” gaan op www.freestatistics.org en daar op de link van de desbetreffende vraag klikken. Als je dan kijkt naar de ‘lag plot’, zie je dat de waarden zeer verspreid zijn. Dit duidt op de ‘randomness’ van het model. 
De eigenlijke conclusie van vraag 2 is dat dit model statistisch gezien geen goed model is. Het is onstabiel en dus niet te voorspellen en niet reproduceerbaar. 
2008-11-04 07:51:13 [Koen De Winter] [reply] 
Hetzelfde probleem als bij Q1. De leestekens (en Enter's) uit Word worden niet goed weergegeven, waardoor de leesbaarheid (en de zin om het te lezen) enorm daalt. Ik zal de tekst aanpassen en opnieuw toevoegen. Nogmaals mijn excuses voor de verwarring. 
 
==> 
 
Je schrijft als conclusie dat de univariate EDA 4 belangrijke zaken test. Correct, al geef je weer geen antwoord op de vraag. Bovendien maak je het voor jezelf moeilijk door de 4 veronderstellingen van de voorbeeldstudent over te nemen. Wat tussen de haakjes staat bij de veronderstellingen van de voorbeeldstudent is geschikter om mee te werken. Nog gemakkelijk is om gewoon de cursus te volgen.  
 
De 4 veronderstellingen (EDA p. 35) zijn:  
1.	random drawings; 
2.	from a fixed distribution; 
3.	with the distribution having fixed location; and 
4.	with the distribution having fixed variation. 
 
Heel belangrijk bij de analyse is dat de 4 veronderstellingen niet in dezelfde volgorde kunnen behandeld worden als de grafieken. Het lijkt erop dat je dit wel doet. Per grafiek één veronderstelling, zo lijkt het. Dit is ook te zien bij je eigen tijdreeksen. 
 
Bijvoorbeeld: Je neemt grafiek 1 erbij en test veronderstelling 1, zijnde randomness (in jouw geval autocorrelatie). Grafiek 1 toont echter geen autocorrelatie. De run sequence plot toont aan of de assumptions fixed variation en fixed location aanwezig zijn. Autocorrelatie (of liever geen autocorrelatie) is eerder een element van randomness en wordt getest met de lag plot.  
 
Voor de duidelijk zal ik het model opnieuw analyseren op jouw manier, grafiek per grafiek, maar dan met de juiste techniek erbij om de veronderstellingen te controleren. 
 
Ik begin dus met grafiek 1: de run sequence plot. Deze techniek test de assumptions fixed variation en fixed location. Je bent je hier van bewust, want je schrijft: als je naar de grafiek kijkt is er duidelijk een vaste variatie in, namelijk dalend, stijgend, terug dalend, enz… Een opvallende stijger wordt eveneens gevolgd door een opvallende daler. Maar dit is niet correct. Als je de grafiek in twee verdeelt, zie je echter een groot verschil in variatie tussen de eerste helft en de tweede. De veronderstelling fixed variation is dus niet aanwezig in dit model.  
 
De andere veronderstelling die je uit de run sequence plot kan halen, is de fixed location. Deze is aanwezig indien de run sequence plot vlak is (globaal te bekijken) en niet van zijn trend afschuift. Als we naar de grafiek kijken dan zien we dat deze veronderstelling aanwezig is. 
 
Zowel uit het histogram (grafiek 2), als uit de density plot(grafiek 3) kunnen we afleiden dat het om een redelijk normale distributie gaat. Maar we moeten vraaggericht werken en dus de veronderstelling fixed distribution analyseren. Om deze goed af te leiden, moeten we kijken naar de normal probability plot of in dit geval de normal Q-Q plot. Als deze lineair is en dat is ze ook, is de veronderstelling van fixed distribution aanwezig. 
 
Alle grafieken zijn nu behandeld, maar er blijft één veronderstelling over. Die hebben we nog niet getest. Deze laatste is de randomness. Men kan ze afleiden uit de lag plot of uit de autocorrelation plot. Aangezien beide grafieken niet getoond worden, kan ik moeilijk hier een vaststelling doen. Ik kan geen link van mijn eigen document opnemen omdat ik met hetzelfde probleem zat. Als je toch de juiste grafiek wil zien, moet je naar het document bespreking tijdens het college gaan op www.freestatistics.org en daar op de link van de desbetreffende vraag klikken. Als je dan kijkt naar de lag plot, zie je dat de waarden zeer verspreid zijn. Dit duidt op de randomness van het model. 
 
De eigenlijke conclusie van vraag 2 is dat dit model statistisch gezien geen goed model is. Het is onstabiel en dus niet te voorspellen en niet reproduceerbaar.  

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'Gwilym Jenkins' @ 72.249.127.135

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 2 seconds \tabularnewline
R Server & 'Gwilym Jenkins' @ 72.249.127.135 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18681&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]2 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Gwilym Jenkins' @ 72.249.127.135[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18681&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18681&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'Gwilym Jenkins' @ 72.249.127.135

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18681&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18681&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18681&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Figure 7

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 0 ; par2 = 0 ;

Parameters (R input):

par1 = 0 ; par2 = 0 ;

R code (references can be found in the software module):

par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot   bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
qqline(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot1.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main='Lag plot (k=1), lowess, and regression line')
lines(lowess(z))
abline(lm(z))
dev.off()
if (par2 > 1) {
bitmap(file='lagplotpar2.png')
dum <- cbind(lag(x,k=par2),x)
dum
dum1 <- dum[(par2+1):length(x),]
dum1
z <- as.data.frame(dum1)
z
mylagtitle <- 'Lag plot (k='
mylagtitle <- paste(mylagtitle,par2,sep='')
mylagtitle <- paste(mylagtitle,'), and lowess',sep='')
plot(z,main=mylagtitle)
lines(lowess(z))
dev.off()
}
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code