für mein Projekt suche ich eine vollständige Publisherliste.
Auf MobyGames sind zwar die Companies enthalten allerdings nur bis Seite 198 von 201, es erfolgt danach nach dem Eintrag: Bits, Inc. eine Fehlermeldung:
{‚error‘: {‚caused_by‘: {‚caused_by‘: {‚reason‘: 'Result window is too large, ’
'from + size must be less ’
'than or equal to: [10000] ’
'but was [10001]. See the ’
'scroll api for a more ’
'efficient way to request ’
'large data sets. This limit ’
'can be set by changing the ’
'[index.max_result_window] ’
‚index level setting.‘,
‚type‘: ‚illegal_argument_exception‘},
‚reason‘: 'Result window is too large, from + size ’
'must be less than or equal to: [10000] but ’
'was [10001]. See the scroll api for a more ’
'efficient way to request large data sets. ’
'This limit can be set by changing the ’
'[index.max_result_window] index level ’
‚setting.‘,
‚type‘: ‚illegal_argument_exception‘},
‚failed_shards‘: [{‚index‘: ‚companies‘,
‚node‘: ‚XFymGEuMSOSCx2gfCFjsIg‘,
‚reason‘: {‚reason‘: 'Result window is too ’
'large, from + size must be ’
'less than or equal to: ’
'[10000] but was [10001]. ’
'See the scroll api for a ’
'more efficient way to ’
'request large data sets. ’
'This limit can be set by ’
'changing the ’
'[index.max_result_window] ’
‚index level setting.‘,
‚type‘: ‚illegal_argument_exception‘},
‚shard‘: 0}],
‚grouped‘: True,
‚phase‘: ‚query‘,
‚reason‘: ‚all shards failed‘,
‚root_cause‘: [{‚reason‘: 'Result window is too large, from + size ’
'must be less than or equal to: [10000] ’
'but was [10001]. See the scroll api for ’
'a more efficient way to request large ’
'data sets. This limit can be set by ’
'changing the [index.max_result_window] ’
‚index level setting.‘,
‚type‘: ‚illegal_argument_exception‘}],
‚type‘: ‚search_phase_execution_exception‘},
‚status‘: 400}
Entweder ist da ganz bewußt nach 10000 Eintragungen dicht gemacht worden oder es liegt wirklich ein Fehler auf der Seite vor. Ich habe hierzu das Team von MobyGames angeschrieben.
Mein Skript hat gestern leider nicht bei MobyGames funktioniert, da kein Endpunkt ausgemacht werden konnte.
Ich nutze über Google den Api Key zur Auslesung.
Aber wenn Du manuell auf der Seite von Moby gehst siehst Du direkt, dass es nach Seite 198 nicht weitergeht!
Aber ich habe gerade die Information bekommen, dass ich die Publisher direkt hier ausmachen kann:
Sollte jemand noch kommerzielle Publisher wissen, die nicht gelistet sind oder in der englischen Wiki lasst es mich bitte wissen! Quellesoft habe ich bei mir beispielsweise noch hinzugefügt
Das sind die Defaulteinstellungen von Elasticsearch, womit die ihre Suche implementiert haben. Pagination mittels limit/offset zu machen skaliert meistens nicht so wirklich, daher macht das Sinn. Es gibt wohl API Endpunkte für Company auslisten, aber dafür braucht’s den 99$/Monat Plan. Siehe auch letzter FAQ Punkt auf der Seite.
Interessant, dass es mit bezahlter API doch möglich ist. Mich hätte es nicht gewundert, wenn sie mit solchen Limitierungen verhindern wollen, dass man ihre Datenbank komplett ausliest.
Das wollen sie, aber nicht aus den offensichtlichen Gründen. Das Problem sind eben Bots, die regelmässig diesen Endpunkt lesen.
Wenn du die letzten 100 Dokumente von 10.000 sortierten Dokumenten suchst, fragst du von der Datenbank 10.000 Dokumente an, sortierst die und schmeisst 9900 wieder weg. Wenn du das 1-10.000 machst, bringt das ganzschön Last. Normalerweise kappst du solche Seiten irgendwie implizit, hier wird einfach der Fehler nicht abgefangen. Dafür ist die API da.
Und wer geht da einmal von 0-10.000 durch? Google. Und zwar mehrfach hintereinander.
Moby Games hatte ich bereits angeschrieben - aber hab dann über ein anderes Forum die Publisher von der Gamesdatabase.org erhalten!
Für mich ist die Sache geklärt! - Danke Euch!
Weil hier neben mir im Regal die beiden bisher erschienenen Bände der Sierra Collector’s Quest stehen: Bezieht sich „alle“ auch auf verschiedene Länder-Versionen?
Im Rahmen meines Projekts habe ich eine eigene Datenbank mit über 29.000 kommerziellen Spieletiteln erstellt, die bis Ende 2024 erschienen sind. Die Datengrundlage basiert u. a. auf öffentlich zugänglichen Quellen wie der englischen Wikipedia sowie ausgewerteten TOSEC-Listen. Diese Daten dienen der Dokumentation und Analyse von Spieleveröffentlichungen, Plattformen, Publishern und Komponisten im historischen Kontext.
Alle Inhalte wurden händisch recherchiert, systematisch aufbereitet und klar den jeweiligen Quellen zugeordnet.