Dieser kurze Artikel beschäftigt sich mit einem Problem der Statistik, das durchaus alltagsnah Anwendung findet. Der Ursprung des Problems ist vertraut: man trifft sich mit Freunden auf ein Mittagessen oder ein Getränk, doch alle Anwesenden können die Hände nicht von den geliebten Smartphones lassen. Um diesem Stimmungskiller vorzubeugen, werden zu Beginn des Treffens alle Smartphones eingesammelt und in einem Beutel verstaut. Am Ende erhalten alle Personen ihr Handy zurück. Allerdings werden sie dabei zufällig gezogen und auf die Anwesenden verteilt, sodass die Chance groß ist, dass jemand nicht sein eigenes Handy zurück erhält. Bei einem Treffen mit n Personen: wie viele werden am Ende ihr eigenes Handy wieder in Händen halten?
Wir nehmen zur Behandlung des Problems an, dass alle Handys eindeutig unterscheidbar sind und Verwechselungen unmöglich sind (immerhin ist jede Handynummer individuell). Zudem soll die Ziehung absolut zufällig erfolgen. Zunächst ist die Frage, wie hoch die Wahrscheinlich keit ist, dass eine Person ihr eigenes Handy zurück erhält. In dem Beutel befinden sich am Anfang n Handys von n Personen. Nun zieht jede Person nach der Reihe ein Handy. Die erste Person hat also n Handys im Beutel, die Wahrscheinlichkeit, ihr eigenes zu ziehen, beträgt demnach 1/n. Nach dem Zug ist Person 2 an der Reihe. Nun befinden sich nur noch n-1 Handys im Beutel, sodass die Wahrscheinlichkeit nun 1/(n-1) beträgt. Die Wahrscheinlichkeit beträgt damit für alle Personen 1/(n!). Es scheint offensichtlich, dass die Wahrscheinlichkeit, dass das eigene Handy gezogen wird, umso kleiner ist, je mehr Personen sich in der Runde befinden. Bei 7 Personen ist die Wahrscheinlichkeitn schon kleiner als 0,1%. Uns interessiert nun aber, wie viele Personen wohl im Schnitt unabhängig von n) ihr eigenes Handy wieder bekommen werden.
Dazu definieren wir zunächst eine Zufallsvariable X als die Zahl der Personen, die ihr eigenes Handy ziehen. Wir suchen nun den Erwartungswert[1] von X, formal: E[X]. Leichter lösbar wird diese Aufgabe, wenn man einen Trick anwendet. Dazu führen wir eine Indikatorvariable Xi ein, die angibt, ob Person i ihr eigenes Handy gezogen hat. Diese Variable kann nur zwei Werte annehmen: 1 (das eigene Handy wurde gezogen) und 0 (das eigene Handy wurde nicht gezogen). Somit gibt es nun eine solche Variable für jede Person aus der Runde, damit n Variablen. Da die Variable diese Eigenschaften hat und quasi binär ist, wird sie auch als Bernoulli-Variable bezeichnet. Wir können nun feststellen, dass die Variable X sich direkt aus den Bernoulli-Variablen berechnen lässt, nämlich: X= X1+X2+X3+...+Xn.
Wie lautet der Erwartungswert für eine dieser Bernoulli-Variablen (formal: E[Xn])? Wir können uns das Leben einfach machen und eine beliebige Variable herausgreifen, dazu bietet sich die mit dem Index 1 an, also: E[X1]. Dieser Erwartungswert ist aber nur die Wahrscheinlichkeit dafür, dass Variable X1 den Wert 1 annimt, formal: (P(X1=1). Diesen Wert wissen wir aber bereits, er ist 1/n, weil Person 1 aus n verschiedenen Handys zieht. Nun können wir dieses Wissen auf den Erwartungswert der Variable X anwenden und diesen anders formulieren: E[X] = E[X1+X2+X3+...+Xn]. Aufgrund der Linearität und der Rechenregeln für den Erwartungswert können wir dies umschreiben also E[X1]+E[X2]+...+E[Xn]. Da wir oben bereits festgestellt haben, dass diese Erwartungswerte aber 1/n sind und hier n Summanden stehen, vereinfacht sich der Ausdruck zu n*(1/n)=1.
Der Erwartungswert der Variable X ist demnach 1. Wir würden nun also, unabhängig von der Größe der Gruppe der Personen, erwarten, dass im Schnitt immer eine Person aus der Runde ihr eigenes Handy zieht. Klingt das vernünftig? Nun, wenn n gleich 1 ist und nur eine Person an der Runde teilnimmt, ist das Ergebnis offenbar korrekt. Bei zwei Personen gibt es zwei Möglichkeiten: Person 1 zieht ihr eigenes Handy, dann muss Person 2 auch ihr eigenes Handy ziehen, ein anderes ist nicht mehr im Beutel. Zieht Person 1 jedoch das falsche Handy, muss auch Person 2 das falsche Handy ziehen. X kann nur zwei Werte annehmen, 0 und 2. Bei vielen Versuchen mittelt sich aber hier das korrekte Ergebnis aus: (0+2)/2=1.
[1]: "Der Erwartungswert einer Zufallsvariablen beschreibt die Zahl, die die Zufallsvariable im Mittel annimmt. Er ergibt sich zum Beispiel bei unbegrenzter Wiederholung des zugrunde liegenden Experiments als Durchschnitt der Ergebnisse." (Wikipedia.de)