Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_edauni.wasp

Title produced by software

Univariate Explorative Data Analysis

Date of computation

Mon, 27 Oct 2008 13:58:24 -0600

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/27/t1225137595rxsjb6y5rhof81i.htm/, Retrieved Fri, 17 May 2024 04:21:56 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=19534, Retrieved Fri, 17 May 2024 04:21:56 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

149

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F     [Univariate Explorative Data Analysis] [Investigation Dis...] [2007-10-21 17:06:37] [b9964c45117f7aac638ab9056d451faa]
F    D    [Univariate Explorative Data Analysis] [Univariate explor...] [2008-10-27 19:58:24] [d592f629d96b926609f311957d74fcca] [Current]

Feedback Forum

2008-10-28 19:19:51 [Glenn De Maeyer] [reply] 
De student formuleerde de juiste voorwaarden, maar vergat bij de computatie om de lags in te vullen. (best lag = 12 of lag = 36) Enkel indien je dit doet krijg je de lag plot's en de autocorrelation function te zien. 
(LINK: http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/28/t1225208159d9772n9jsvh3lwt.htm) 
 
Voor de bespreking van de eerste voorwaarde (Random drawings, onafhankelijke trekking) maakt de student gebruik van het run sequence plot. Hiervoor dien je eigenlijk te kijken naar het lag plot. Op basis van de lag plot (k=1) lowess and regression line kunnen we stellen dat correlatie 0 is, omdat de puntenwolk rond de rechte ligt. Maar als we dan kijken naar de lag plot (k=12), and lowess en de autocorrelation function zien we dat er wel correlatie is. Er is hier een positieve correlatie. Op de autocorrelation function zien we uitschieters op lag 12, lag 24 en lag 36. We kunnen hier dus spreken van seizoenale correlatie. 
De conclusie had dus moeten zijn dat de tijdreeks niet random is, maar dat ze wel degelijk autocorrelatie bevat. Het is echter een speciale autocorrelatie nl. een seizoenale correlatie. 
 
Bij de tweede voorwaarde (vaste verdeling) concludeert de student omwille van een lichte onregelmatigheid bij zowel histogram als density plot dat er geen sprake is van een normaalverdeling. Deze onregelmatigheid is echter verwaarloosbaar. We kunnen dus stellen dat er wel sprake is van een normaalverdeling. We kunnen dit ook beoordelen op basis van het QQ plot. 
 
Bij de 3e voorwaarde (de verdeling heeft een constant niveau?)heeft de student gebruik gemaakt van het QQ plot. Het beste hier was te kijken naar het run sequence plot. Indien we hier een rechte zouden door tekenen zou deze een dalend verloop kennen. We vermoeden hier dus een daling, maar zijn niet zeker. 
 
De 4e voorwaarde (fixed variation) werd door de student niet besproken. 
Op basis van de run sequence plot zien we in het begin duidelijk een hogere fluctuatie dan naar het einde toe. 
Omdat het hier eigenlijk gaat om de random component zou je eigenlijk het run sequence plot opnieuw moeten laten tekenen zonder de voorspelling. We moeten van de run sequence plot dus eigenlijk de voorspelling aftrekken. (Yt = C + Et => Ft = Yt - Et = c (constante is dus de voorspelling)) 
Welke voorspelling moet je er nu aftrekken? Indien er sprake is van outliers neem je best de mediaan. Indien er geen outliers zijn neem je het gemiddelde. 
Je moet dus eigelijk in de R-code x <- x - 86.69 (gemiddelde) ingeven en dan opnieuw het run sequence plot bekijken. 
Conclusie: Er is dus geen constante spreiding. 
 
De uiteindelijke conclusie, dat dus niet aan alle voorwaarden werd voldaan, had de student wel correct.
2008-10-29 15:07:36 [Jan Van Riet] [reply] 
Bij assumptie 1 ga je zaken afleiden uit de Run Sequence plot. Dit is fout, je moet de lag plot en de autocorrelation plot onderzoeken. Deze plots ontbreken, waarschijnlijk omdat je deze lags niet hebt ingesteld tijdens het invoeren van de gegevens (hiervoor kan je trouwens best 12 of 36 invoeren).  
Aan de hand van deze lags kan je vervolgens het verband onderzoeken tussen het heden en het verleden, om zo een voorspelling te doen over de toekomst. Hier geeft de correlatie aan in hoeverre een puntenwolk op een rechte lijn ligt. Als we gaan kijken naar lag 12, zie ik een positieve seizonale autocorrelatie (waardoor je dus wel een voorspelling kan doen over volgend jaar).  
De autocorrelation function is een samenvatting van alle lag-plots die je kan maken. Wederom zie je op lag 12 een seizonale correlatie, net als op lag 24. Conclusie is dus dat er een autocorrelatie is met seizonale betekenis.  
 
hier is een link naar de berekening met lag plot en autocorrelation function: 
 
http://www.freestatistics.org/blog/index.php?v=date/2008/Oct/27/t122510109796z6abyl5r37kuj.htm 
 
 
2008-10-29 15:17:25 [Jan Van Riet] [reply] 
Assumptie 2: Je geeft hier aan dat de gegevens niet gelijk gespreid zijn. Dit is fout, afgezien van een knik in het histogram en density plot zijn ze gelijk verdeeld.  
 
Assumptie 3: Je beoordeelt de verkeerde grafiek (QQ-plot). Je moet de Run Sequence plot analyseren om tot een besluit te komen over de location van een tijdreeks. Hieruit leren we dat het niveau op lange termijn niet gelijk en constant blijft, maar eerder daalt. Er is geen uitgesproken trend waar te nemen.  
 
Assumptie 4: Deze wordt niet besproken. 
Hiervoor had je de Run Sequence plot moeten onderzoeken, om tot de conclusie te komen dat de spreiding niet constant is (deze conclusie bekom je best door de grafiek in 2 te delen en te gaan kijken of de observaties meer of minder verspreid liggen in het eerste deel dan in het tweede). 
2008-11-02 21:55:01 [Koen Van den Heuvel] [reply] 
Q2: 
Om te testen op correlatie van de getallen wordt het lag-plot gebruikt, niet het Run sequence plot, als we dit bekijken valt er geen duidelijke structuur op, wat er op wijst dat er een zekere willekeurigheid van de getallen is. Het is het best om de lag op 12 of 36 te zetten zodat je op de onderste grafiek kan aflezen of er voor andere lags te kijken of er correlatie is. 
 
Bij het testen van fixed distribution wordt er gekeken of er een min of meer normaalverdeling is. Dit idderdaad door te bekijken in hoeverre histogram en desity-plot bell-shaped zijn, maar daarnaast kijkt men ook hoe lineair het normal qq plot is. Hier valt op in het histogram en density plot dat er aan de linkerkant uitschieters zijn waardoor het afwijkt van de perfecte bell-vorm. Echter deze afwijking is niet erg uigesproken wat bevestigd wordt als we naar het NQQ-plot kijken waar de punten allemaal relatief dicht bij een normaalverdeling liggen. 
 
Om fixed location te beoordelen letten we of er op het run sequence plot op lange termijn een trend waarneembaar is of of deze horizontaal loopt. Het feit dat er op korte termijn veel dalen zijn is niet zo erg. Hier valt op dat er op lange termijn een dalende trend is waardoor we kunnen stelen dat er geen sprake is van een constante. Men kan deze trend nog verder testen via de robuustheid bij Central tendency. 
 
Bij fixed variation kan men het run sequence plot opdelen in 2 delen en kijken of de 2 delen een even grote spreiding hebben. Doen we dit hier dan is de spreiding van het linkse deel groter dan dat van het rechtse, waardoor deze assumptie dus onderuit gaat. 
 
 

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'Gwilym Jenkins' @ 72.249.127.135

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 2 seconds \tabularnewline
R Server & 'Gwilym Jenkins' @ 72.249.127.135 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=19534&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]2 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Gwilym Jenkins' @ 72.249.127.135[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=19534&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=19534&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'Gwilym Jenkins' @ 72.249.127.135

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=19534&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=19534&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=19534&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 0 ; par2 = 0 ;

Parameters (R input):

par1 = 0 ; par2 = 0 ;

R code (references can be found in the software module):

par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot   bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main=paste('Lag plot, lowess, and regression line'))
lines(lowess(z))
abline(lm(z))
dev.off()
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code