Repository of Reproducible Computations

Free Statistics

of Irreproducible Research!

Author's title

Author

*Unverified author*

R Software Module

rwasp_bidensity.wasp

Title produced by software

Bivariate Kernel Density Estimation

Date of computation

Sat, 08 Nov 2008 11:58:07 -0700

Cite this page as follows

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?v=date/2008/Nov/08/t1226170862blsex61y83q8aij.htm/, Retrieved Sun, 19 May 2024 02:18:15 +0000

Statistical Computations at FreeStatistics.org, Office for Research Development and Education, URL https://freestatistics.org/blog/index.php?pk=22657, Retrieved Sun, 19 May 2024 02:18:15 +0000

QR Codes:

Paste this QR Code to cite your computation.

Original text written by user:

IsPrivate?

No (this computation is public)

User-defined keywords

Metaalverwerking: X:Machines, apparaten en werktuigen Y:Producten van metaal

Estimated Impact

170

Family? (F = Feedback message, R = changed R code, M = changed R Module, P = changed Parameters, D = changed Data)

-     [Mean Plot] [Mean Plot trimmin...] [2008-11-06 09:55:17] [94862dbeb1b738961deecd49975f349b]
F RMPD    [Bivariate Kernel Density Estimation] [Bivariate Density] [2008-11-08 18:58:07] [3b916296c2d2371d528ff188880e3d2b] [Current]

Feedback Forum

2008-11-22 13:33:46 [An Knapen] [reply] 
Het bivariaat density plot is een scatterplot dat opnieuw wordt weergegeven, maar nu met hoogtelijnen. 
De diagonale lijn geeft de bestmogelijke benadering van de puntenwolk weer. 
De hoogtelijnen op de tekening hebben te maken met de dichtheid(=concentratie). De cijfers die bij de hoogtelijnen genoteerd staan, geven de waarde weer van de concentratie. 
De waarschijnlijkheid dat de waarden zich in het midden bevinden is veel groter dan de waarschijnlijkheid dat ze zich aan de buitenkant bevinden. Aan de hand van de tekening kunnen we zien dat de hoogelijnen eerder ellipsvormig zijn. Dit wijst dat er toch wel een verband is tussen beide variabelen( producten van metaal en machines. Dit verband is positief aangezien de cluster naar rechts is. De grootste concentratie kunnen we opmerken in het midden(roze gebied), hier is de dichtheid gelijk aan ca. 0.2. 
  
2008-11-23 13:33:48 [Nathalie Daneels] [reply] 
Evaluatie opdracht 3 - Blok 8 (Q1) 
 
Bij dit onderdeel van de vraag zou de student ook de tabel van 'bandwith' kunnen bijzetten. Daaruit kan men afleiden wat de correlatie precies is tussen de 2 variabelen en zo die correlatie in verband brengen met de grafiek van de bivariate density. Bij deze student bedraagt de correlatie tussen de variabelen x en y afgerond 0,82. Er is dus sprake van een positieve correlatie, dit kunnen we ook op de grafiek zien. De hoogtelijnen op de grafiek vormen ellipsen, die wijzen op een verband tussen de variabelen. Als de hoogtelijnen cirkels moesten vormen, dan zouden we niet kunnen spreken van een verband. Aangezien de hoogtelijnen van links onder naar rechts boven gaan, is er sprake van een positief verband. Dit wordt dan weer bevestigd door de tabel. We moeten eveneens vermelden dat de hoogtelijnen niet rechtstreeks iets te maken hebben met de derde dimensie, maar wel met de dichtheid/de concentratie van de punten: Ze hebben te maken met de waarschijnlijkheid dat een bepaald verband tussen variabelen zich bevindt waar de hoogtelijnen de hoogste waarde aannemen.  
De bivariate density wordt gevormd aan de hand van de puntenwolk van de scatterplot. Als er op deze scatterplot op bepaalde plaatsen heel veel punten (samen/in groep) bevinden, dan gaat dit duidelijk weerspiegeld worden in de bivariate density: Dat is de plaats waarop de hoogtelijnen de hoogste waarde hebben. Op die plaats is de dichtheid/de concentratie van de variabelen het grootste. Dit is dan ook de uitleg over wat de hoogtelijnen precies weergeven: Zij geven de dichtheid/de concentratie van de punten weer (witte vlek). Op de grafiek kunnen we zien dat de hoogste concentratie van de variabelen zich net onder de rechte bevindt. Deze rechte geeft het gemiddelde van de gegevens weer/ dat is de 'beste' rechte die men door de puntenwolk van de scatterplot kan tekenen.  
We kunnen eveneens vaststellen uit de grafiek dat er zich geen clusters hebben gevormd: dit zou het geval zijn als we verschillende groepen konden waarnemen. Er zouden dus op verschillende plaatsen in de grafiek een hoge waarde van de hoogtelijnen waar te nemen zijn. 

Post a new message

Dataseries X:

Download CSV

Histogram

Boxplots

Dataseries Y:

Download CSV

Histogram

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'Herman Ole Andreas Wold' @ 193.190.124.10:1001

\begin{tabular}{lllllllll}
\hline
Summary of computational transaction \tabularnewline
Raw Input & view raw input (R code)  \tabularnewline
Raw Output & view raw output of R engine  \tabularnewline
Computing time & 2 seconds \tabularnewline
R Server & 'Herman Ole Andreas Wold' @ 193.190.124.10:1001 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=22657&T=0

[TABLE]
[ROW][C]Summary of computational transaction[/C][/ROW]
[ROW][C]Raw Input[/C][C]view raw input (R code) [/C][/ROW]
[ROW][C]Raw Output[/C][C]view raw output of R engine [/C][/ROW]
[ROW][C]Computing time[/C][C]2 seconds[/C][/ROW]
[ROW][C]R Server[/C][C]'Herman Ole Andreas Wold' @ 193.190.124.10:1001[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=22657&T=0

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=22657&T=0

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Summary of computational transaction
Raw Input	view raw input (R code)
Raw Output	view raw output of R engine
Computing time	2 seconds
R Server	'Herman Ole Andreas Wold' @ 193.190.124.10:1001

Bandwidth
x axis	6.10089644870353
y axis	6.46548983714535
Correlation
correlation used in KDE	0.821575855124337
correlation(x,y)	0.821575855124337

\begin{tabular}{lllllllll}
\hline
Bandwidth \tabularnewline
x axis & 6.10089644870353 \tabularnewline
y axis & 6.46548983714535 \tabularnewline
Correlation \tabularnewline
correlation used in KDE & 0.821575855124337 \tabularnewline
correlation(x,y) & 0.821575855124337 \tabularnewline
\hline
\end{tabular}
%Source: https://freestatistics.org/blog/index.php?pk=22657&T=1

[TABLE]
[ROW][C]Bandwidth[/C][/ROW]
[ROW][C]x axis[/C][C]6.10089644870353[/C][/ROW]
[ROW][C]y axis[/C][C]6.46548983714535[/C][/ROW]
[ROW][C]Correlation[/C][/ROW]
[ROW][C]correlation used in KDE[/C][C]0.821575855124337[/C][/ROW]
[ROW][C]correlation(x,y)[/C][C]0.821575855124337[/C][/ROW]
[/TABLE]
Source: https://freestatistics.org/blog/index.php?pk=22657&T=1

Globally Unique Identifier (entire table): ba.freestatistics.org/blog/index.php?pk=22657&T=1

As an alternative you can also use a QR Code:

The GUIDs for individual cells are displayed in the table below:

Bandwidth
x axis	6.10089644870353
y axis	6.46548983714535
Correlation
correlation used in KDE	0.821575855124337
correlation(x,y)	0.821575855124337

Figure 1

PNG link

Postscript link

PDF link

Parameters (Session):

par1 = 50 ; par2 = 50 ; par3 = 0 ; par4 = 0 ; par5 = 0 ; par6 = Y ; par7 = Y ;

Parameters (R input):

par1 = 50 ; par2 = 50 ; par3 = 0 ; par4 = 0 ; par5 = 0 ; par6 = Y ; par7 = Y ;

R code (references can be found in the software module):

par1 <- as(par1,'numeric')
par2 <- as(par2,'numeric')
par3 <- as(par3,'numeric')
par4 <- as(par4,'numeric')
par5 <- as(par5,'numeric')
library('GenKern')
if (par3==0) par3 <- dpik(x)
if (par4==0) par4 <- dpik(y)
if (par5==0) par5 <- cor(x,y)
if (par1 > 500) par1 <- 500
if (par2 > 500) par2 <- 500
bitmap(file='bidensity.png')
op <- KernSur(x,y, xgridsize=par1, ygridsize=par2, correlation=par5, xbandwidth=par3, ybandwidth=par4)
image(op$xords, op$yords, op$zden, col=terrain.colors(100), axes=TRUE,main=main,xlab=xlab,ylab=ylab)
if (par6=='Y') contour(op$xords, op$yords, op$zden, add=TRUE)
if (par7=='Y') points(x,y)
(r<-lm(y ~ x))
abline(r)
box()
dev.off()
load(file='createtable')
a<-table.start()
a<-table.row.start(a)
a<-table.element(a,'Bandwidth',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'x axis',header=TRUE)
a<-table.element(a,par3)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'y axis',header=TRUE)
a<-table.element(a,par4)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'Correlation',2,TRUE)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'correlation used in KDE',header=TRUE)
a<-table.element(a,par5)
a<-table.row.end(a)
a<-table.row.start(a)
a<-table.element(a,'correlation(x,y)',header=TRUE)
a<-table.element(a,cor(x,y))
a<-table.row.end(a)
a<-table.end(a)
table.save(a,file='mytable.tab')

Free Statistics

Description of Statistical Computation

Tree of Dependent Computations

Dataset

Tables (Output of Computation)

Figures (Output of Computation)

Input Parameters & R Code