Rasenfunk Statistiken

Als einziger Podcast mit einem Head of Statistics (Wink mit dem @zaunpfahl) wollte ich mal anregen, ob ihr Lust hättet unsere Jahresbilanz zu erstellen. Am Samstag, den 23.12., wird die letzte Folge dieses Jahres erscheinen (Ligatour, Zweitligarückblick) und dann war es das bis Anfang Januar, wenn Frank und ich uns mit einem Update zum Rasenfunk melden.

Ich habe hier nur wenig an Statistiken zum Rasenfunk:

  • Laufzeit der Sendungen (wenn auch nicht über Jahre getrennt)
  • wie oft Gäste dabei waren

Was ich aber nicht habe:

  • wie viele Sendungen sind in den jeweiligen Jahren erschienen
  • wie war das Verhältnis zwischen Männern und Frauen
  • wie haben wir über das Jahr verteilt veröffentlicht
  • etc.

Falls jemand Zeit und Lust hat, kann er oder sie gerne mal unser Archiv durchforsten zu diesen Fragen.

Aber: Ist nur ein Gimmick. Bis auf das Geschlechterverhältnis glaube ich, das kaum eine Statistik inhaltlich relevant ist. Ich mag halt nur Zahlen und hab selbst kein Gefühl dafür, wie viel das jetzt in diesem Jahr war, was wir veröffentlicht haben.

4 „Gefällt mir“

yikes… du weißt doch dass du uns damit triggerst. Weihnachten muss jetzt warten :see_no_evil:

Ich habe aber gerade überhaupt nicht während der Arbeitszeit versucht den mp3 feed der Schlusskonferenz zu scrapen, und das scheint relativ einfach machbar zu sein und enthält auch alle wichtigen Parameter. Bin aber absoluter Neuling in Sachen Python, falls das also jemand von den echten Programmiererinnen mal eben schnell hinzaubern kann wäre es noch besser. Im Grunde habe ich mir aber die basic tools quick and very dirty zusammengehackt. Daraus sollte sich relativ einfach eine Datenbank erstellen lassen, mit der dann jeder Spaß haben kann.

Problematischer wird es bei den Gästen. Du sagst du hast eine Liste mit Gästen? Wenn du die zur Verfügung stellen könntest, müsste es möglich sein in den Beschreibungen aller Folgen nach allen Namen zu suchen und so das ganze mit der Brechstange zu lösen. Eventuell müsste die Community das Ergebnis dann nur händisch überprüfen, falls da etwas schief läuft.

Zusätlich haben wir natürlich noch das Problem, dass wir bei den Gästen nicht zwingen das Geschlecht wissen, aber eventuell müssen wir mit der Unschärfe halt leben, wenn wir sowieso schon binär zählen.

Ich weiß nicht ob und wie schnell das ganze geht, eventuell finde ich vor Weihnachten etwas Zeit, aber falls wer anderes schneller ist: Go for it! Ich werd’s in jedem Fall irgendwann probieren, einfach des Spaßes Willen.

PS: Beim rumbasteln ist mir aufgefallen: Wo ist Folge 375 der Bundesliga Männer hin? Die fehlt :smiley:

PPS: Wegen der Feedumstellung ist Folge 400 übrigens erst am 26. November 2023 erschienen :wink:

1 „Gefällt mir“

Update: Letzte Folge wird hoffentlich am Samstag Nachmittag erscheinen, also am 23.12.

Habe jetzt irgendwie etwas zusammengeklöppelt, was tatsächlich halbwegs sinnvolle Datenbanken auswirft, aber leider noch nichts bezogen auf die Gäste.

In Rahmen dessen sind mir aber ein paar Inkonsistenzen aufgefallen, die jetzt nicht schlimm sind aber meinen inneren Drang nach Ordnung ärgern :smiley: Falls @Helmi also Langeweile bekommen sollte über die Feiertage:

Feeds:
Aus irgendeinem Grund haben die Folgen 32 und 37 im Bundesliga-Frauen Feed die Episoden Nummern 1000 und 1001. Zum Reproduzieren: Lade das File „mp3“ runter von https://rasenfunk-bundesliga-f.podigee.io/feed/mp3, öffne im Texteditor und suche nach <itunes:episode>1000</itunes:episode> oder <itunes:episode>32</itunes:episode> (letzteres wird nicht gefunden).

Homepage:
Folgende Episoden haben laut der Homepage eine Laufzeit von „00:00:00“:
BuLi-Frauen #24
BuLi-Frauen #36
Nationalmannschaften #170
Tribünengespräch #106

Außerdem ist Ligatour #2 (2016) irgendwie in das Jahr 2018 zwischen die Folgen #7 und #8 gerutscht. Es ging aber sowieso um den Supportersclub des Rasenfunks und ist daher eh nicht mehr wirklich Teil der „Ligatour“, oder?

Bei der Feedumstellung wurden am 11.07.2023 auf den drei alten Feeds jeweils eine Folge veröffentlicht. Auf der Homepage werden die beiden Folgen in der Ligatour (#98) und BuLi-Männer (#376) nicht geführt, aber im Tribünengesprächs-Feed (#101) schon.

Sonstige Dinge: (Gehe davon aus, dass einige beabsichtigt sind)
BuLi-Männer #375 fehlt
BuLi-Männer #396 & #397 sind vertauscht (überhaupt nicht schlimm, es triggert mich nur :D)
Ligatour #98-#102 fehlen

Wie gesagt, alles nicht schlimm natürlich, es würde aber erklären warum man verschiedene Gesamtlaufzeiten des Rasenfunks erhalten kann, je nachdem wie und wo man guckt. Die Laufzeitangaben auf der Website passen v.a. durch die fehlende Laufzeit einiger Folgen nicht mit der Gesamtlaufzeit der mp3-Feeds zusammen.

Ich würde jetzt noch warten auf die letzten Folge des abends und dann hier den Datensatz bereit stellen für alle zum rumspielen. Falls wer jetzt schon loslegen will auch ohne die letzte Folge im Jahr, kann es mir per DM kundtun.

Ok, das wird jetzt öffentliches Debugging mit @helmi, die meisten Sachen liegen nämlich an der Konfiguration in Podigee (shame on me):

Ist gefixt. War bei beiden falsch eingetragen in Podigee.

Bekannter Bug, aber keine Ahnung woher der kommt. @helmi: Gedanke, der mir gerade kommt: Vielleicht sind das Folgen, die zweimal gepublished worden sind. Folgender Use Case tritt selten auf: Ich lade alle Tracks bei Podigee mit Veröffentlichung in 24 Stunden hoch, mache alles fertig und er produziert via Auphonic das Audio. Das höre ich dann vor, ob alles passt und manchmal muss ich dann noch einmal die Audio-Datei entffernen und neu alles hochladen und produzieren. So war das bei TG106, da war noch eine Sekunde vor der Sendung mit dran, die nicht dabei sein sollte. Aber dann haben wir das Problem, das es schon mal gab: Mit meinem ersten Play auf dem Audio Player bei Podigee wurde das Ding auf einen Server gezogen und man müsste den Cache dort löschen, damit er das File austauscht. Podigee hat da irgendeinen Mechanismus, es landen unveröffentlichte Folgen nie draußen. Aber offenbar fuckt das die API ab. Hatten wir das nicht mal, dass er podigee-Seitig dann die neuen MP3, Wav, etc. einfach dazu packt und wir acht statt vier Downloadlinks dort haben? Vier mit alter Version und vier mit neuer, veröffentlichter. Das haben die inzwischen offenbar gefixt, aber wir hatten so einen Fehler schon mal.

Bei Podigee sieht es zum TG106 (Investor) so aus:

Ich hab die komplett aus den Saisons rausgenommen. War aber ein Fehler. Ich musste alle Folgen nochmal neu einsortieren nach der Umstellung und da hab ich mich im Dropdown verklickt vermutlich.

Ist gewollt so, weil eher Tribünengesprächthema und in den Podcastfeeds (da, wo es drauf ankommt), sind in jedem Feed die Folgen drin. Homepage brauchts nicht.

BLM375 ist die Folge zur Feedumstellung
BLM396+397 war ein Fehler von mir, Eva hat nach mir veröffentlicht, ich aber die höhere Nummer genommen. Wird für immer so bleiben und macht mich genauso wahnsinnig.
LT98-102: Das ist etwas, bei dem ich deinen zweiten Blick brauchen könnte, Frank: Ab 103 beginnt die Ligatour NACH Umstellung der Feeds, bis 97 ist alles davor. Einfachste Erklärung wäre, dass ich einfach mit der falschen Episodennummer nach Feedumstellung weitergemacht habe bei Podigee, aber das wäre irgendwie auch komisch und untypisch. Kann es einen anderen Grund geben? Ansonsten muss ich die Nummern wohl bei Podigee und uns neu vergeben irgendwann, damit es wieder stimmt.

1 „Gefällt mir“

Das dürfte die schnellste Variante sein. Allerdings darf man nicht nur nach den Namen suchen sondern man muss die Namen mit dem Strong-Tag suchen , da du sonst ggf. doppelte Ergebnisse bekommst. Zumindest einem schnellen Blick nach, tauchen die Namen manchmal in der Beschreibung und dann nochmal unter „Unsere Gäste sind:“ auf.
Je nach verwendetem Tool ist die Suche dann auch recht schnell passiert, denke ich.

Die Frage nach dem Geschlecht könnte man ja auch so lösen indem man die Liste erstmal binär aufbaut und Max dann bei den Personen wo er es weiß ggf. korrigiert. Also in etwa so

Name Anzahl Sendungen Geschlecht
Mann 1 5 m
Mann 2 6 m
Frau 1 9 f
Frau 2 7 f

Hi ihr Wahnsinnigen,

sorry, wenn ich hier erstmal mich nur kurz melde. Der Vorweihnachtliche Stress lässt das gerade nicht anders zu.

@zaunpfahl Melde dich gerne mal per PN wegen der Gästeliste, dann können wir drüber sprechen was du brauchst und was ich dir geben kann.

Bzgl. der fehlerhaften Zeiten müsste ich tief eintauchen um zu sehen was wir von der Podigee-API bekommen. Nur so viel: Die Daten auf der Website kommen aus unserem Backend, nicht aus den Feeds. Wir importieren immer von der Podigee-API, die wiederum auch (irgendwie) die Feeds befüllt. Dass Daten in Feeds und in der Website manchmal unterschiedlich sind lässt sich nicht vermeiden - und wie Max schon sagte könnten sie auch zum Veröffentlichkszeitpunkt unterschiedlich gewesen sein. Gegebenfalls muss man diese Fälle dann einzeln in der Datenbank durchgehen und schauen wo der Fehler liegt.

2 „Gefällt mir“

Ahh, da ist die Bestätigung! Langsam stellte sich Gewissheit beim Durchforsten der Feed XMLs ein, dass ihr noch irgendwo magisch Infos herholt. :smiley:
Das bedeutet, die Shownotes die wir von Podigee bekämen, sind nur eingeschränkt geeignet um alle Gäste aufzutun.
@zaunpfahl regelst du das mit der Gästeliste?

So, wem ist langweilig zwischen den Jahren und möchte ein wenig mit Statistiken rumspielen?

Hatte ja schon angefangen die Feeds auszulesen und danach gemerkt, dass wir ja von der Website direkt auch die Gästeliste bekommen konnten. Scrapen lernen macht Spaß, danke für die Idee @gnetzer :smiling_face:. Danke auch and @Fritz „for the fruitful discussions“, wie man immer so schön sagt. Er hat mir auch geholfen nach bestem Wissen und Gewissen die Gäste zu gendern, auch wenn wir uns bewusst waren, dass man dies nicht so einfach auf binäre weise tun sollte.

Die entstandenen Datensätze können interessierte Menschen jetzt hier herunter laden:
rfstatistics.zip (39,9 KB)
Alle Angaben sind wie immer ohne Gewähr! Vor Allem bei Gästen die nur mit Vornamen geführt sind, weiß ich nicht ob sie später nicht unter vollem Namen noch einmal auftauchen. Den Quellcode werde ich die Tage hoffentlich aufräumen und dann auch hier zur Verfügung stellen, so dass man die Listen relativ einfach selbst aktuell halten kann.

Happy analyzing everybody!

Ohne euch voraus greifen zu wollen hier schon einmal ein paar Ergebnisse zu Max ursprünglichen Fragen:

Die Tabellen mit den Zahlen reiche ich dann nach.


Ansonsten noch minor issues:

  • Die Feeds haben alle Links auf die Website zeigen, die sind aber alle leider fehlerhaft :grimacing: Die neuen Feeds haben ein / zuviel (e.g. rasenfunk.de//Bundesliga-F) und die alten feeds haben noch die alten links drin
  • Folge 376 der BuLi-Männer war die Feedumstellung, Folge 375 fehlt trotzdem irgendwie
9 „Gefällt mir“
Gästeanteil Frauen in Prozent
Jahr BL-M BL-F N11 LT TG Total
2014 2.8 0.0 2.6
2015 11.5 0.0 11.1
2016 11.5 8.2 11.1 6.2 10.0
2017 14.5 0.0 0.0 10.5 13.2
2018 20.4 24.4 0.0 25.6 19.8
2019 22.2 50.0 50.0 0.0 7.7 18.9
2020 20.2 100 16.7 0.0 18.5
2021 31.3 75.0 21.7 6.9 20.0 26.7
2022 37.4 63.6 50.0 11.9 33.3 39.7
2023 29.4 66.7 74.4 10.2 15.4 37.6
Anzahl Folgen
Jahr BL-M BL-F N11 LT TG Total
2014 11 0 0 0 1 12
2015 38 0 0 0 3 41
2016 40 0 40 4 12 96
2017 52 0 3 3 12 70
2018 41 0 34 21 28 124
2019 48 1 6 22 20 97
2020 38 1 0 5 7 51
2021 43 4 31 10 5 93
2022 38 12 29 15 6 100
2023 61 23 41 34 12 171
Summe 410 41 184 114 106 855
Schnitt 41.0 4.1 18.4 11.4 10.6 85.5
Gesamtlänge (Stunden)
Jahr BL-M BL-F N11 LT TG Total
2014 17.3 0.1 17.4
2015 85.5 6.8 92.3
2016 101.2 29.3 5.9 21.3 157.7
2017 142.9 2.7 4.0 25.1 174.8
2018 111.4 28.7 15.6 39.0 194.8
2019 144.8 1.4 6.0 20.2 38.2 210.5
2020 116.9 0.9 4.4 16.2 138.4
2021 140.1 4.8 31.7 13.0 5.2 194.9
2022 129.0 21.6 27.8 21.9 8.8 209.0
2023 156.7 36.2 43.8 50.4 22.8 309.8
Summe 1145.8 64.9 170.0 135.4 183.5 1699.6
Schnitt 114.6 13.0 24.3 16.9 18.4 170.0

Disclaimer:
Die Gesamtlängen der einzelnen Feeds unterscheiden sich von denen auf rasenfunk.de. Dies liegt vermutlich sowohl an den Folgen, die mit 00:00:00 auf der Website geführt werden (s.o.) als auch den kurzen Folgen die nur im Feed sind und nicht auf der Website. Die Angaben hier basieren alle auf den Zahlen der mp3-feeds.
Falls man denen trauen kann wird der Rasenfunk in der nächsten Folge vermutlich die 1700te Stunde Rasenfunk versenden und Ende des nächsten Jahres kommt dann voraussichtlich FußballRasenfunk 2000!

EDIT: Vergessen die Diskussion zu schreiben, ansonsten wäre es ja nur ein data dump:

  • der Rasenfunk hat dieses Jahr zum ersten mal die 300-Stunden Marke gerissen! Die Hälfte davon war für die Männer Bundesliga, während die anderen feeds den Rest in etwa gleich verteilten. Nur das Tribünengespräch fällt etwas ab.
  • glaube im Zeitverlauf des Tribünengespräch-Feeds sieht man sehr gut die Arbeitslast für 11 Leben, vorallem im Graphen für die Gesamtlänge der publizierten Sendungen. Dieses Jahr ging der Trend aber wieder nach oben.
  • der Frauenanteil der Gäste ist nahezu monoton nach oben gestiegen über die Jahre und liegt jetzt bei knapp unter 40%. Während es bei den TG noch sehr schwankt (was ich auf die „verfügbaren“ Gäste schiebe) und die Ligatour hinterherhängt, ist die Männerbundesliga doch echt gut vertreten – auch wenn dieses Jahr ein Schritt zurück war.
  • Die Gesamtlänge der Männerbundesliga oszilliert etwas mit den Jahren. Das liegt am Winterroyal, der manchmal vor und manchmal nach Silvester veröffentlicht wurde, bis er dann 2020 eingestampft wurde.
7 „Gefällt mir“

Tausend Dank dir! Ich will das unbedingt alles weiter im Blick behalten, aber bin mit persönlicher Statistikführung einfach nicht mehr hinterher gekommen.

Und total verrückt wie viel in den 11 Leben-Jahren trotzdem erschienen ist so im Vergleich zu den Vorjahren. 2018 war immer so ein Hardcore-Jahr mit der WM und einigen Tribünengesprächen, da ranzukommen (2020 war halt Corona das Problem. Deshalb kaum Tribünengespräche und weirde BLM) ist echt ein Wort. Und dass dieses Jahr in Sachen Output heftig war, wussten wir ja alle.

Diejenigen, die alles hören, werden immer seltener, eine aussterbende Art. Einfach weil es spezifischer und breiter wird, was wir machen. Klingt grotesk, ist aber so.

2 „Gefällt mir“

War mir nicht sicher was genau du meinst, aber hier mal Anzahl und Länge der Sendungen nach Monaten gruppiert (in hoher Auflösung, also draufklicken und reinzoomen):

Wer es pro Jahr haben möchte klicke hier…

... für Anzahl Sendungen










... für Länge der Veröffentlichungen










Beobachtungen:

  • seit Bestehen des Rasenfunks gab es nur zwei Monate in denen keine einzige Folge veröffentlicht wurde: Zum ersten mal Juli 2015, das war nach zu den Anfängen, und im August 2020 als die EM ausfiel und Max vermutlich bis zum Scheitel in 11Leben hing.
  • die großen Turniere produzieren viele Sendungen, die im Schnitt aber gar nicht so lang sind. Nehme aber an, dass sie trotzdem viel Arbeitszeit kosten :sweat_smile:
  • Seit dieser Saison ist der Output vom Rasenfunk deutlich diverser über die Feeds verteilt, man sieht also deutlich wie Max & Helmi da noch einmal die zweite Stufe gezündet haben

Geht mir leider auch so :pensive: gehöre seit 2023 leider nicht mehr zu den Alles-Hörern. Liegt aber mindestens teilweise an mir bzw Corona. Ärgerte mich anfangs massivst, aber eigentlich habe ich ja keinen Verlust, weil der Rasenfunk ja mehr produziert und den „alten“ Content nicht reduziert. Mehr Inhalt für mehr Menschen! Win-Win also, unter der Prämisse, dass Max seine Gesundheit nicht auf Verschleiß fährt.

3 „Gefällt mir“

Thema Allehörer, da hast du, Max, ja nach Feedback gefragt. Besser hier oder lieber im Thread zur Sendung? Kann ja schon mal spoilern: 3 1/2 Folgen nicht gehört, drei Tribünengespräche und das WM-Aus der deutschen Nationalmannschaft. 1 Ligatour, die eigentlich Frauen-BuLi sein müsste und dort im Thread auch gehört markiert ist - zählt dann wohl nicht als nicht gehört :wink:
Das macht mich dann zu so was wie einem Dinosaurier, der sich ein wenig anpasst?

Hab jetzt aus Interesse auch mal in die Daten reingeschaut, gerade eben wie sich die Turniere auf die Folgendauer auswirken. Und das ist tatsächlich spannend, wie die durchschnittliche Folgendauer extrem absinkt in Turnierjahren durch die ganzen kurzen Folgen. Gerade wenn man berücksichtigt, dass (bis zu den Änderungen diese Saison) die Folgen zur Männer-Bundesliga ziemlich konstant länger geworden sind jedes Jahr.

Hier die durschnittliche Folgendauer insgesamt pro Jahr:

Und hier zum Vergleich im Verlauf der Jahre die durchschnittliche Folgendauer der unterschiedlichen Formate:

1 „Gefällt mir“

BL Männer müsste man aber ab der Feedumstellung korrigieren um es mit dem Rest vergleichen zu können: Stattdessen ist vielleicht die Summe von gewichtetem Durchschnitt Schlusskonferenz und gewichteter Durchschnitt Schwerpunkt besser vergleichbar mit den BL Männer Folgen von vor der Umstellung?

Ja, aber das betrifft ja erst ab 2023, war deshalb nicht so wichtig für das was ich schauen wollte

1 „Gefällt mir“