Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_edauni.wasp

Title produced by software

Univariate Explorative Data Analysis

Date of computation

Sat, 25 Oct 2008 12:46:02 -0600

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/25/t1224960546wgppeexnzginyu6.htm/, Retrieved Wed, 15 May 2024 20:34:19 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=18793, Retrieved Wed, 15 May 2024 20:34:19 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

185

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F       [Univariate Explorative Data Analysis] [Q7 Distribution] [2008-10-25 18:46:02] [e11d930c9e2984715c66c796cf63ef19] [Current]
F   PD    [Univariate Explorative Data Analysis] [Investigating dis...] [2008-10-27 18:16:47] [090686c1af2bb318059a6f656863a319] 
F    D    [Univariate Explorative Data Analysis] [Q7] [2008-10-27 23:45:08] [b187fac1a1b0cb3920f54366df47fea3] 
-           [Univariate Explorative Data Analysis] [Q7] [2008-10-28 06:52:03] [b641c14ac36cb6fee377f3b099dcac19] 
-   P       [Univariate Explorative Data Analysis] [verbetering task ...] [2008-11-03 21:02:37] [e340b5273efb4d885d02142e6a0fc74b] 
-   PD    [Univariate Explorative Data Analysis] [Q7 correctie] [2008-11-01 14:47:57] [547636b63517c1c2916a747d66b36ebf] 
- R         [Univariate Explorative Data Analysis] [Q7 Assumption 4] [2008-11-01 15:14:56] [547636b63517c1c2916a747d66b36ebf] 

Feedback Forum

2008-11-01 15:19:41 [] [reply] 
Assumption 1: Are the date autocorrelated? 
Net zoals in Q2 moest ik hier ook het aantal lags aanpassen. 
Link naar verbeterde blog: http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/01/t1225551012s57p7hdnb0hps22.htm 
 
Een lag plot checkt of een data ,- tijdreeks random is of niet. 
Data die random is zou geen identificeerbare structuur mogen vertonen in het plot. Verder kan een Lag Plot antwoorden geven op vragen als 
1) Is er sprake van autocorrelatie in de data? 
2) Zijn de waarden random? 
3) Zijn er outliers aanwezig? 
4) Welk model is aangewezen om met deze data te werken. 
 
Bij dit Lag Plot, moest ik dus opmerken dat de waarden in de grafiek redelijk verspreid liggen. Er zou dus kunnen aangenomen worden dat de data random is. 
Maar als we kijken bij het autocorrelation Plot zien we toch dat de data een gemiddelde postitieve correlatie heeft. 
 
Assumptie 2: Is the random component generated by a fixed distribution? 
Hiervoor heb ik correct gekeken naar het Density Plot en histogram. 
Er is inderdaad geen normaalverdeling, dit model komt het best overeen met het model dat beschreven staat in het handboek als Symmetric, Non Normal, Moderate Tailed.  
Gelet ook op het Density Plot met 2speciefieke outliers is hier dus geen sprake van een perfecte normaalverdeling.  
 
Assumptie 3: Is the deterministic component constant? 
Bij deze moest ik het Run Sequence Plot gebruiken. . Om hier een uitspraak over te kunnen doen, is het de bedoeling dat we het niveau bekijken, of dit constant blijft of niet. Fluctuatie heeft hier geen uitstaans. Wanneer ik dit bekijk is het duidelijk dat het niveau niet gelijk blijft, er is een sterke stijgende trend te zien. 
 
Assumptie 4: The random component have a fixed variation. 
Belangrijk bij deze assumptie is de random component. Om hier een antwoord op te kunnen geven moeten we het Run Sequence Plot reproduceren met een aanpassing in de R code. 
 
Bedoeling is het Run Sequence Plot opnieuw te laten tekenen zonder de voorspelling. We halen van de run sequence plot eigenlijk de voorspelling uit. Yt = C + Et => Ft = Yt - Et = c (constante is de voorspelling) 
 
Of de mediaan, of het gemiddelde komen in aanmerking om eruit te halen als voorspelling. Afhankelijk van het aantal outliers(veel = mediaan, weinig = gemiddelde) 
 
In dit geval had je dus in de R code moeten zetten “ x <- x - 17317” en de Run Sequence Plot opnieuw moeten bekijken. 
(17317 is het gemiddelde) 
Zie Blog: http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/01/t1225552573j4mwv8jx578uwux.htm 
 
Wanneer we dit dan bekijken, valt op te merken dat de spreiding overal ongeveer hetzelfde is. Deze blijft voor mij redelijk gelijk.
2008-11-01 15:20:00 [Olivier Uyttendaele] [reply] 
Assumption 1: Are the date autocorrelated?  
Net zoals in Q2 moest ik hier ook het aantal lags aanpassen.  
Link naar verbeterde blog: http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/01/t1225551012s57p7hdnb0hps22.htm  
 
Een lag plot checkt of een data ,- tijdreeks random is of niet.  
Data die random is zou geen identificeerbare structuur mogen vertonen in het plot. Verder kan een Lag Plot antwoorden geven op vragen als  
1) Is er sprake van autocorrelatie in de data?  
2) Zijn de waarden random?  
3) Zijn er outliers aanwezig?  
4) Welk model is aangewezen om met deze data te werken.  
 
Bij dit Lag Plot, moest ik dus opmerken dat de waarden in de grafiek redelijk verspreid liggen. Er zou dus kunnen aangenomen worden dat de data random is.  
Maar als we kijken bij het autocorrelation Plot zien we toch dat de data een gemiddelde postitieve correlatie heeft.  
 
Assumptie 2: Is the random component generated by a fixed distribution?  
Hiervoor heb ik correct gekeken naar het Density Plot en histogram.  
Er is inderdaad geen normaalverdeling, dit model komt het best overeen met het model dat beschreven staat in het handboek als Symmetric, Non Normal, Moderate Tailed.  
Gelet ook op het Density Plot met 2speciefieke outliers is hier dus geen sprake van een perfecte normaalverdeling.  
 
Assumptie 3: Is the deterministic component constant?  
Bij deze moest ik het Run Sequence Plot gebruiken. . Om hier een uitspraak over te kunnen doen, is het de bedoeling dat we het niveau bekijken, of dit constant blijft of niet. Fluctuatie heeft hier geen uitstaans. Wanneer ik dit bekijk is het duidelijk dat het niveau niet gelijk blijft, er is een sterke stijgende trend te zien.  
 
Assumptie 4: The random component have a fixed variation.  
Belangrijk bij deze assumptie is de random component. Om hier een antwoord op te kunnen geven moeten we het Run Sequence Plot reproduceren met een aanpassing in de R code.  
 
Bedoeling is het Run Sequence Plot opnieuw te laten tekenen zonder de voorspelling. We halen van de run sequence plot eigenlijk de voorspelling uit. Yt = C + Et => Ft = Yt - Et = c (constante is de voorspelling)  
 
Of de mediaan, of het gemiddelde komen in aanmerking om eruit te halen als voorspelling. Afhankelijk van het aantal outliers(veel = mediaan, weinig = gemiddelde)  
 
In dit geval had je dus in de R code moeten zetten “ x <- x - 17317” en de Run Sequence Plot opnieuw moeten bekijken.  
(17317 is het gemiddelde)  
Zie Blog: http://www.freestatistics.org/blog/index.php?v=date/2008/Nov/01/t1225552573j4mwv8jx578uwux.htm  
 
Wanneer we dit dan bekijken, valt op te merken dat de spreiding overal ongeveer hetzelfde is. Deze blijft voor mij redelijk gelijk.
2008-11-03 21:24:05 [Bonifer Spillemaeckers] [reply] 
Veel kan ik hier niet meer toevoegen. Olivier zijn opmerkingen en verbeteringen kloppen. 

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'Gwilym Jenkins' @ 72.249.127.135

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 2 seconds \tabularnewline
R Server & 'Gwilym Jenkins' @ 72.249.127.135 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18793&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]2 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Gwilym Jenkins' @ 72.249.127.135[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18793&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18793&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'Gwilym Jenkins' @ 72.249.127.135

Descriptive Statistics
# observations	73
minimum	11703.7
Q1	15420.3
median	17343.4
mean	17317.1931506849
Q3	19090.1
maximum	22238.5

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 73 \tabularnewline
minimum & 11703.7 \tabularnewline
Q1 & 15420.3 \tabularnewline
median & 17343.4 \tabularnewline
mean & 17317.1931506849 \tabularnewline
Q3 & 19090.1 \tabularnewline
maximum & 22238.5 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=18793&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]73[/C][/ROW]
[ROW][C]minimum[/C][C]11703.7[/C][/ROW]
[ROW][C]Q1[/C][C]15420.3[/C][/ROW]
[ROW][C]median[/C][C]17343.4[/C][/ROW]
[ROW][C]mean[/C][C]17317.1931506849[/C][/ROW]
[ROW][C]Q3[/C][C]19090.1[/C][/ROW]
[ROW][C]maximum[/C][C]22238.5[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=18793&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=18793&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations	73
minimum	11703.7
Q1	15420.3
median	17343.4
mean	17317.1931506849
Q3	19090.1
maximum	22238.5

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Figure 7

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 0 ; par2 = 0 ;

Parameters (R input):

par1 = 0 ; par2 = 0 ;

R code (references can be found in the software module):

par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot   bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
qqline(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot1.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main='Lag plot (k=1), lowess, and regression line')
lines(lowess(z))
abline(lm(z))
dev.off()
if (par2 > 1) {
bitmap(file='lagplotpar2.png')
dum <- cbind(lag(x,k=par2),x)
dum
dum1 <- dum[(par2+1):length(x),]
dum1
z <- as.data.frame(dum1)
z
mylagtitle <- 'Lag plot (k='
mylagtitle <- paste(mylagtitle,par2,sep='')
mylagtitle <- paste(mylagtitle,'), and lowess',sep='')
plot(z,main=mylagtitle)
lines(lowess(z))
dev.off()
}
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code