Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*The author of this computation has been verified*

R Software Module

rwasp_edauni.wasp

Title produced by software

Univariate Explorative Data Analysis

Date of computation

Mon, 27 Oct 2008 10:49:54 -0600

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Oct/27/t12251262470p043w4jlrowowh.htm/, Retrieved Fri, 17 May 2024 04:47:27 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=19254, Retrieved Fri, 17 May 2024 04:47:27 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Estimated Impact

164

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

F     [Univariate Explorative Data Analysis] [Investigation Dis...] [2007-10-21 17:06:37] [b9964c45117f7aac638ab9056d451faa]
F    D    [Univariate Explorative Data Analysis] [Q2] [2008-10-27 16:49:54] [2ba2a74112fb2c960057a572bf2825d3] [Current]

Feedback Forum

2008-11-03 10:35:56 [Dorien Peeters] [reply] 
Assumptie 1: dit moet je zoals de student zegt, doen via de auto-correlatie.Ik kan hieruit nog wel concluderen dat de tijdreeks niet random is,het bevat wel degelijk auto-correlatie maar het is wel een speciale want het heeft seizoenale correlatie. 
Assumptie 2: hier ontbreekt volgens mij toch nog informatie. Je moet te weten komen of er een vaste verdeling is.Via histogram of density plot. Histogram:min of meer normaal verdeling. Density plot: bult, maar niet erg uitgesproken dus normaalverdeling. Horizontale as:theoretiosche quartielen die je zou krijgen bij normaalverdeling->punten moeten dus zo dicht mogelijk op rechte liggen. Ondanks het feit dat we toch geen auto-correlatie hebben. het is niet omdat je normaalverdeling hebt dat je ook geen auto-correlatie hebt. 
Assumptie3:Ook hier kan je volgens mij nog wat extra informatie geven. DFit mag niet functioneren op LT. Sequence plot gebruiken: kijken naar LT trend: gaat dit niveau constant blijven? 
Op LT->niveau van die reeks is constante. Dit is moeilijk=> andere manier(hoe kijken of gemiddelde constante is)Veranderen module->centrale tendency->die calculator gebruiken. Gemiddelde ligt nu bij 87 (=constante?)outliers hebben geen invloed. De random component->moeilijk te zien, vermoedelijk een dalende trend. 
Assumptie 4:dit kon zeker nog uitgebreider.We moeten kijken naar de sequence plot-> kijken naar spreiding van de reeks over de tijd heen.Reeks in 2 kolommen:spreiding in 1e deel. Reeks 1 schommelt harder->over de tijd heen is er dus een verandering van de spreiding. Truc= als ze vragen naar random component=>van die reeks eerst de voorspelling aftrekken. Probal( alles wat we niet kunnen voorspellen= normaalverdeling) Model Yt=ct+ct. Ft(voorspelling)=Yt+Ct=C(die geeft ons de voorspelling) Welke voorspelling ga je er nu aftrekken?->geen standaard antwoord mogelijk. Bij outliers:gemidddelde nemen. 
gemiddelde, kopieren, x vervangen door x-86.
2008-11-03 17:40:34 [Liese Tormans] [reply] 
Hiervoor moet de tijdreeks voldoen aan bepaalde voorwaarden. 
1. random drawings; 
2. from a fixed distribution; 
3. with the distribution having fixed location; and 
4. with the distribution having fixed variation. 
 
Deze voorwaarden heb ik alle 4 getest. Hieronder vind je de bespreking van Q2 
 
Assumptie 1 
Ik heb voor assumptie 1 gekeken naar de Run sequence plot. Dit is in de praktijk wel mogelijk maar is in de lessen nog niet besproken. Dus ik heb hier dan ook geen duidelijke conclusie uit kunnen trekken. Ik had assumptie 1 moeten oplossen aan de hand van de volgende grafiek: De lag plot.  
 
Hoe bekom ik deze grafieken  
lags (autocorrelation function) (?)-->invullen 12 (1jaar) of 36 voor 3 jaren.  
Waarom is dit niet automatisch ingevuld: Lags enkel gebruiken voor tijdreeksen. 
Link met juiste oplossing			 
Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL http://www.freestatistics.org/blog/date/2008/Oct/29/t1225305186cxgzc1bhcatjb0e.htm , Retrieved Wed, 29 Oct 2008 18:33:10 +0000 
 
De lag plots gaan het verband vast leggen tussen heden en verleden 
Bij de lag plot k=1: punten liggen verspreid rond de rechte lijn ( autocorrelatie (maatstaf die aangeeft hoe dicht de punten op een rechte liggen)-->bijna nul) Het is hier ook moeilijk om uitspraak te doen over de toekomst 
Bij lag plot k=12: samenvatting lag plot 1 jaar: De punten liggen hier veel dichter bij de lijn: positieve helling. We kunnen hier spreken van seizonale correlatie  
 
Bij de samenvattende grafiek zie ik dat er jaar na jaar dezelfde goede maanden zijn en ook jaar na jaar dezelfde slechte maanden: ik kan hier dus spreken van seizonaliteit. Dit wordt duidelijker als ik de lag op 36 zetten. 
 
Zie link 
Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL http://www.freestatistics.org/blog/date/2008/Oct/29/t12253059326fytwv662g6869d.htm , Retrieved Wed, 29 Oct 2008 18:45:41 +0000 
 
Hoogte lijntje gaat bij 12 een stuk boven de stippelijn: Er bestaat maar 5% kans dat dit toeval is. Betekenis :seizonale autocorrelatie 
Hoogte lijntje gaat bij 24 een stuk boven de stippelijn: Er bestaat maar 5% kans dat dit toeval is. Betekenis :seizonale autocorrelatie 
 
De productie van het verleden heeft dus nog altijd iets te maken met het heden. 
Mijn algemene conclusie: De tijdreeks is niet random en bevat wel degelijk autocorrelatie maar dit met seizonale betekenis. 
 
Assumptie 2 
Voor de tweede assumptie heb ik gekeken naar de density plot en het histogram.  
 
Ik heb in mijn conclusie dan ook kort samengevat dat we toch kunnen spreken van een normaal verdeling.  
 
Ik wil in mijn verbetering de oplossing per grafiek toch nog een beetje uitgebreider bespreken. 
 
Op het histogram zien ik dat de verdeling min of meer normaal is, op een kleine uitzondering nl de tweede staart is hoger dan de derde.  
 
Ook op de density plot kan ik een normaalverdeling vast stellen. Er is een heel kleine afwijking merkbaar bij een waarde van ongeveer 70 maar deze is niet doorslaggevend voor de algemene conclusie.  
 
Het is ook mogelijk om de normaalverdeling af te lezen op de Normal Q-Q plot. Dit heb ik in mijn oplossing niet vermeld. Hier onder volgt een korte omschrijving. 
 
Op de verticale as staan dan de gewone quantilen en op de horizontale de theoretische kwantielen. Hoe dichter de punten op  de normaal lijn liggen, hoe normaler de verdeling. 
 
Ik kan hier zien dat de meeste punten op de normaal lijn liggen, hier en daar zijn er een paar heel kleine afwijkingen maar ik kan hieruit concluderen dat er geen uitgesproken verschillen zijn. Dus ook op deze grafiek kan ik aflezen dat er een normaal verdeling is. 
 
Assumptie 3 
Om een conclusie te vormen bij het derde puntje ben ik gaan kijken naar de Q-Q normal plot. Om een goede conclusie te vormen had ik de tijdreeksen moeten ingeven bij de central tendensy en aan de hand van deze gegevens een conclusie kunnen vormen. 
 
Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL http://www.freestatistics.org/blog/date/2008/Oct/30/t1225378639d0ysfw9m5xg2jui.htm , Retrieved Thu, 30 Oct 2008 14:57:36 +0000 
 
Ik heb een gemiddelde van 87, ook kan ik zien dat er niet echt invloeden outliers aanwezig zijn.  
Conclusie: Het is moeilijk te zien maar we vermoeden dat er op LT een dalende trend is. 
 
Assumptie 4: 
Ik heb deze vraag niet opgelost omdat ik niet wist naar welke grafieken ik moest kijken, ik ging ervan uit dat ik naar de grafieken moest kijken die niet weergegeven werden. 
Voor assumptie 4 had ik moeten kijken naar de Run sequence plot. Als ik de grafiek in twee delen splits dan zie ik dat de spreiding in deel 1 groter is dan de spreiding in deel 2. Dus deel 1 schommelt harder als deel 2 
2008-11-03 17:43:10 [Liese Tormans] [reply] 
Q4 
 
Ik heb opgemerkt dat er een vast terugkerend patroon is. Dus seizoensgebondenheid. Ik had misschien nog even kunnen vermelden dat dit belangrijk is voor de toekomst.
2008-11-03 21:45:38 [2b91075c702c6e89854c34747e80ec72] [reply] 
* assumptie 1: Om na te gaan of de dataset autocorrelatie bevat kan je best naar de lag plot kijken en de autocorrelatiefunctie i.p.v. de run sequence plot. Dit kan je instellen door het aantal lags in te vullen. De lag plot zoekt eigelijk het verband tussen het heden en het verleden. Voor het aantal lags kan je best 12 of 36(maximum) nemen. In de eerste lagplot k=1 liggen de punten gespreid rond de rechte. In de 2de lagplot ligt de puntenwolk veel dichter op de rechte en vormt er zich een positieve helling.  Dit wijst op een positieve seizoenale autocorrelatie. Als je naar de autocorrelatiefunctie kijkt dan zie je dat het verticaal lijntje bij 12 en 24 hoog is dus er is sprake van seizoenaliteit. 
 
* assumptie 2: Is correct maar kon misschien iets uitgebreider worden uitgelegd. De normaalverdeling kan je inderdaad op drie wijzen aflezen. Via de histogram, de density plot en de normal QQ plot. De histogram toont aan dat de verdeling min of meer gelijk is. Op de density plot kunnen we zien dat het verloop ook een vrij normale verdeling vertoont , buiten de hobbel die rond de waarde 70 voorkomt al is deze afwijking is niet doorslaggevend. Op de normal QQ plot is te zien dat de punten min of meer op de rechte liggen, wat wil zeggen dat er sprake is van een normaal verdeling. 
 
* assumptie 3: Om na te gaan of de verdeling constant is moet je naar de run sequence plot kijken. Deze daalt lichtjes en is dus niet constant. Maar om een nog naukeuriger resultaat te verkrijgen moet je de central tendency van deze tijdreeksen berekenen. Uit de grafieken van de Trimmed mean en de Winsored mean kunnen we afleiden dat het gemiddelde niet constant blijft maar eerder een dalende trend aanneemt. 
 
* assumptie 4: Om na te gaan of de spreiding vast is moet je naar de Run sequence plot kijken. Je moet kijken naar de spreiding over de tijd heen. Deze grafiek moet je dan in midden delen en vergelijken of de schommelingen aan beide kanten ongeveer gelijk zijn. In het 1ste deel schommelt de reeks harder dan in het 2de deel van de grafiek. De spreiding is niet gelijk aan de linker en rechterkant. 

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	4 seconds
R Server	'Herman Ole Andreas Wold' @ 193.190.124.10:1001

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 4 seconds \tabularnewline
R Server & 'Herman Ole Andreas Wold' @ 193.190.124.10:1001 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=19254&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]4 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Herman Ole Andreas Wold' @ 193.190.124.10:1001[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=19254&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=19254&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	4 seconds
R Server	'Herman Ole Andreas Wold' @ 193.190.124.10:1001

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

\begin{tabular}{lllllllll}
\hline
Descriptive Statistics \tabularnewline
# observations & 61 \tabularnewline
minimum & 66.5 \tabularnewline
Q1 & 80.6 \tabularnewline
median & 87.3 \tabularnewline
mean & 86.8934426229508 \tabularnewline
Q3 & 94.1 \tabularnewline
maximum & 109.7 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=19254&T=1

[TABLE]
[ROW][C]Descriptive Statistics[/C][/ROW]
[ROW][C]# observations[/C][C]61[/C][/ROW]
[ROW][C]minimum[/C][C]66.5[/C][/ROW]
[ROW][C]Q1[/C][C]80.6[/C][/ROW]
[ROW][C]median[/C][C]87.3[/C][/ROW]
[ROW][C]mean[/C][C]86.8934426229508[/C][/ROW]
[ROW][C]Q3[/C][C]94.1[/C][/ROW]
[ROW][C]maximum[/C][C]109.7[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=19254&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=19254&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Descriptive Statistics
# observations	61
minimum	66.5
Q1	80.6
median	87.3
mean	86.8934426229508
Q3	94.1
maximum	109.7

Figure 1

PNG link

Postscript link

PDF link

Figure 2

PNG link

Postscript link

PDF link

Figure 3

PNG link

Postscript link

PDF link

Figure 4

PNG link

Postscript link

PDF link

Figure 5

PNG link

Postscript link

PDF link

Figure 6

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 0 ; par2 = 0 ;

Parameters (R input):

par1 = 0 ; par2 = 0 ;

R code (references can be found in the software module):

par1 <- as.numeric(par1)
par2 <- as.numeric(par2)
x <- as.ts(x)
library(lattice)
bitmap(file='pic1.png')
plot(x,type='l',main='Run Sequence Plot',xlab='time or index',ylab='value')
grid()
dev.off()
bitmap(file='pic2.png')
hist(x)
grid()
dev.off()
bitmap(file='pic3.png')
if (par1 > 0)
{
densityplot(~x,col='black',main=paste('Density Plot   bw = ',par1),bw=par1)
} else {
densityplot(~x,col='black',main='Density Plot')
}
dev.off()
bitmap(file='pic4.png')
qqnorm(x)
grid()
dev.off()
if (par2 > 0)
{
bitmap(file='lagplot.png')
dum <- cbind(lag(x,k=1),x)
dum
dum1 <- dum[2:length(x),]
dum1
z <- as.data.frame(dum1)
z
plot(z,main=paste('Lag plot, lowess, and regression line'))
lines(lowess(z))
abline(lm(z))
dev.off()
bitmap(file='pic5.png')
acf(x,lag.max=par2,main='Autocorrelation Function')
grid()
dev.off()
}
summary(x)
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Descriptive Statistics',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'# observations',header=TRUE)
a<-table.element(a,length(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'minimum',header=TRUE)
a<-table.element(a,min(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q1',header=TRUE)
a<-table.element(a,quantile(x,0.25))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'median',header=TRUE)
a<-table.element(a,median(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'mean',header=TRUE)
a<-table.element(a,mean(x))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Q3',header=TRUE)
a<-table.element(a,quantile(x,0.75))
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'maximum',header=TRUE)
a<-table.element(a,max(x))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code