In dem Streudiagramm sind Ausprägungen der Merkmale X und Y abgetragen.
Um einen möglichen Zusammenhang zwischen den Merkmalen X und Y zu quantifizieren, werden die Mittelwerte von X und von Y verwendet: \(\bar{x}\) bzw. \(\bar{y}\) werden als vertikale bzw. horizontale Linie in das Streudiagramm eingezeichnet. Dadurch wird die Punktwolke in vier Quadranten aufgeteilt (I, II, III und IV).
Hieraus kann bereits jetzt eine Tendenz für den Zusammenhang abgelesen werden: Ein positiver Zusammenhang liegt vor, falls die meisten Beobachtungspunkte in den Quadranten I und III liegen. Befinden sich die Beobachtungspunkte vorrangig in den Quadranten II und IV, spricht man von einem negativen Zusammenhang. Sind die Punkte auf alle vier Quadranten etwa gleich verteilt, liegt vermutlich kein oder nur ein schwacher Zusammenhang zwischen X und Y vor.
In einem nächsten Schritt werden die Abstände jedes Beobachtungspunktes zu den Mittelwerten berechnet.
Abstand für einen Beispielpunkt
Der Abstand eines Beobachtungspunktes zu den Mittelwerten \(\bar{x}\) und \(\bar{y}\) lässt sich als das Produkt der Abstände \(x_i-\bar{x}\) und \(y_i-\bar{y}\) quantifizieren. Grafisch kann das so gebildete Abweichungsprodukt \((x_i-\bar{x})(y_i-\bar{y})\) als dargestellt werden.
Liegt der betrachtete Beobachtungspunkt in den Quadranten I oder III, so ist das berechnete Abweichungsprodukt positiv. Liegt der Punkt dagegen in den Quadranten II oder IV, so ergibt \((x_i-\bar{x})(y_i-\bar{y})\) ein negatives Ergebnis.
Wird dies für alle Beobachtungspunkte berechnet, kann die Kovarianz gebildet werden. Dazu wird das arithmetische Mittel der Abweichungsprodukte aller Beobachtungen gebildet:
$$cov(X,Y)=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})$$
Die Kovarianz wird von den Einheiten der Merkmale beeinflusst. So verändert sie sich etwa, wenn die Einheit eines Merkmals von Meter in Kilometer geändert wird. Um einen quantifizierten Zusammenhang unabhängig von der Merkmalsskala zu erhalten, wird die Kovarianz durch die Standardabweichungen der Merkmale geteilt, d.h. sie wird normiert. Das Ergebnis ist der Korrelationskoeffizient r von Bravais und Pearson:
$$r_{XY}=\frac{cov(X,Y)}{\sqrt{s_X^2 \cdot s_Y^2}}$$ bzw. $$r_{XY}=\frac{\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\frac{1}{n}\sum(x_i-\bar{x})^2}\sqrt{\frac{1}{n}\sum(y_i-\bar{y})^2}}$$ $$=\frac{n\sum x_iy_i-\sum x_i\sum y_i}{\sqrt{n\sum x_i^2-(\sum x_i)^2}\sqrt{n\sum y_i^2-(\sum y_i)^2}}$$