Digitalisierung der australischen Parlamentsdebatten, 1998
HeimHeim > Blog > Digitalisierung der australischen Parlamentsdebatten, 1998

Digitalisierung der australischen Parlamentsdebatten, 1998

Jul 01, 2023

Scientific Data Band 10, Artikelnummer: 567 (2023) Diesen Artikel zitieren

242 Zugriffe

12 Altmetrisch

Details zu den Metriken

Das öffentliche Wissen darüber, was im Parlament gesagt wird, ist ein Grundsatz der Demokratie und eine entscheidende Ressource für die politikwissenschaftliche Forschung. In Australien ist die schriftliche Aufzeichnung dessen, was im Parlament gesagt wird, in Anlehnung an die britische Tradition als Hansard bekannt. Während der australische Hansard schon immer öffentlich verfügbar war, war es schwierig, ihn für groß angelegte Textanalysen auf Makro- und Mikroebene zu verwenden, da er nur als PDFs oder XMLs verfügbar war. In Anlehnung an das Linked Parliamentary Data-Projekt, das dies für Kanada erreicht hat, stellen wir eine neue, umfassende, qualitativ hochwertige rechteckige Datenbank bereit, die die Verhandlungen der australischen Parlamentsdebatten von 1998 bis 2022 erfasst. Die Datenbank ist öffentlich verfügbar und kann verlinkt werden zu anderen Datensätzen wie Wahlergebnissen. Die Erstellung und Zugänglichkeit dieser Datenbank ermöglicht die Erforschung neuer Fragen und dient als wertvolle Ressource sowohl für Forscher als auch für politische Entscheidungsträger.

Die offizielle schriftliche Aufzeichnung parlamentarischer Debatten, offiziell bekannt als Hansard1, spielt eine grundlegende Rolle bei der Erfassung der Geschichte politischer Vorgänge und erleichtert die Erforschung wertvoller Forschungsfragen. Die Herstellung von Hansard hatte ihren Ursprung im britischen Parlament und wurde in vielen anderen Commonwealth-Ländern wie Kanada und Australien2 zur Tradition. Angesichts des Inhalts und Umfangs dieser Aufzeichnungen sind sie insbesondere im Kontext der politikwissenschaftlichen Forschung von Bedeutung. Im Falle Kanadas wurde der Hansard für die Jahre 1901 bis 20193 digitalisiert. Mit einer digitalisierten Version des Hansard können Forscher Textanalysen und statistische Modellierungen durchführen. In Anlehnung an dieses Projekt stellen wir in diesem Artikel eine ähnliche Datenbank für Australien vor. Dieser besteht aus individuellen Datensätzen für jeden Sitzungstag des Repräsentantenhauses von März 1998 bis September 2022 und enthält Einzelheiten zu allem, was im Parlament gesagt wird, in einer für Forscher leicht nutzbaren Form. Mit der Entwicklung von Tools für die groß angelegte Textanalyse wird diese Datenbank als Ressource für das Verständnis des politischen Verhaltens in Australien im Laufe der Zeit dienen.

Die Einsatzmöglichkeiten dieser Datenbank sind vielfältig. Beispielsweise besteht in Australien erhebliche Sorge darüber, dass die „Qualität“ der öffentlichen politischen Debatte (wie auch immer diese definiert werden mag) nachgelassen hat. Unser Datensatz könnte genutzt werden, um zu untersuchen, ob es sich in bestimmten Bereichen wirklich verschlechtert, und wenn ja, warum. Es könnte uns auch interessieren, ob bestimmte Bevölkerungsgruppen in den Diskussionen im Parlament angemessen vertreten sind. Beispielsweise besteht häufig die Sorge, dass regionale Gebiete im Vergleich zu Ballungsräumen übersehen werden. Auch hier könnte unsere Datenbank genutzt werden, um zu untersuchen, ob sich dies im Laufe der Zeit verändert hat. Wir haben unsere Datenbank so entwickelt, dass sie mit ähnlichen Datenbanken aus anderen Ländern verknüpft werden kann, was eine vergleichende Analyse ermöglicht. Beispielsweise könnte uns interessieren, wie sich der politische Fokus eines Parlaments angesichts verschiedener globaler Ereignisse wie Pandemien oder Kriege ändert. Eine internationale Verknüpfung bietet einen Vergleichsfall, bei dem inländische Probleme unterschiedlich sind, während internationale Probleme üblich sind. Als Beispiel für die Aktivierung dieser Verknüpfung haben wir PartyFacts-IDs (https://partyfacts.herokuapp.com) in unsere Datenbank aufgenommen. Dies soll es ermöglichen, unsere Datenbank mit anderen großen Projekten zur Sammlung parlamentarischer Reden wie ParlaMint4, ParlSpeech5, ParlEE6 und MAPLE7 zu verknüpfen.

Das australische Repräsentantenhaus, oft auch als „das Repräsentantenhaus“ bezeichnet, übt eine Reihe wichtiger Regierungsfunktionen aus, beispielsweise die Schaffung neuer Gesetze und die Überwachung der Staatsausgaben8, Kap. 1. Politiker im Repräsentantenhaus werden als Parlamentsmitglieder (MPs) bezeichnet. Das Repräsentantenhaus arbeitet nach einem parallelen Kammersystem, was bedeutet, dass es zwei Debattenorte gibt, an denen die Verhandlungen stattfinden: die Kammer und die Föderationskammer. Die Sitzungen des Repräsentantenhauses folgen einer vorab festgelegten Geschäftsordnung, die durch Verfahrensregeln, sogenannte Geschäftsordnungen, geregelt wird8, Kap. 8. An einem typischen Sitzungstag in der Kammer sind eine Reihe von Verhandlungen geplant, darunter Debatten über Regierungsangelegenheiten, 90-Sekunden-Erklärungen von Mitgliedern und eine Fragestunde8, Kap. 8. Die Föderationskammer wurde 1994 als nachgeordneter Debattenort der Kammer gegründet. Dies ermöglicht ein besseres Zeitmanagement für die Angelegenheiten des Repräsentantenhauses, da die Verfahren gleichzeitig mit denen der Kammer stattfinden8, Kap. 21. Die Sitzungen in der Föderationskammer unterscheiden sich von denen der Kammer hinsichtlich ihrer Geschäftsordnung und des Diskussionsumfangs. In der Föderationskammer erörterte Geschäftsangelegenheiten beschränken sich weitgehend auf Zwischenstadien der Gesetzesentwurfsentwicklung und die Geschäfte privater Mitglieder8, Kap. 21. Es ist die Aufzeichnung und Zusammenstellung dieser Verfahren, auf die sich Hansard stützt, und zwar im Wesentlichen, aber nicht vollständig, wörtlich.

Etwa eine Woche nach jedem Sitzungstag steht auf der offiziellen Website des australischen Parlaments ein Transkript im PDF- und im XML-Format (Extensible Markup Language) zum Download bereit. Das PDF ist die offizielle Veröffentlichung. Das PDF erfordert eine Formatierung, die für Menschen leicht lesbar ist, während XML auf Konsistenz und Maschinenlesbarkeit ausgelegt ist. Die Natur von XML ermöglicht es uns, diese Datensätze mithilfe von Code einfacher in großem Maßstab zu bearbeiten, was uns dazu veranlasst, unsere Datenbank ausschließlich unter Verwendung der XML-formatierten Dateien zu entwickeln. In Fällen, in denen wir uns nicht sicher sind, wie wir mit der XML-Verarbeitung fortfahren sollen, verweisen wir zunächst auf das PDF und dann auf die Videoaufzeichnung des Verfahrens, sofern verfügbar.

Derzeit ist das Hansard-Format, das auf der Website des australischen Parlaments verfügbar ist, für groß angelegte Analysen nicht leicht zugänglich. Bisher mussten verschiedene Forscher ihre eigenen Datenbanken mit nutzbaren, vollständigen Daten auf der Grundlage von Inhalten der Website des australischen Parlaments erstellen. Beispielsweise hat Tim Sherratt (http://historichansard.net/) eine leicht lesbare Online-Datenbank über Hansard von 1901 bis 1980 unter Verwendung der XML-Dateien erstellt. Diese Daten können nach Jahr, Parlament, Personen und Gesetzentwürfen navigiert werden. Um das Australian Parliamentary Handbook zugänglicher zu machen, hat Patrick Leslie (https://github.com/palesl/AustralianHouseOfRepresentatives) ein R-Paket erstellt, das Daten zu allen Abgeordneten von 1945 bis 2019 enthält. Darüber hinaus gibt es das AustralianPoliticians R-Paket, das mehrere Datensätze zu den politischen und biografischen Informationen australischer Bundespolitiker enthält, die zwischen 1901 und 20219 aktiv waren. Und schließlich wurden zwischen 1990 und 2019 Sprach- und MP-Daten untersucht Australien10. Wie wir durchsuchen sie die Hansard-Aufzeichnung und verknüpfen sie mit biografischen Daten. Der Hauptunterschied besteht darin, dass wir uns auf die Datenbank selbst konzentrieren, während sie sich darauf konzentrieren, eine aus derselben Quelle erstellte Datenbank zu verwenden, um eine bestimmte Frage zur Rednerzeit zu beantworten. Dieser unterschiedliche Fokus führt zu unterschiedlichen Schwerpunkten und Ansätzen.

Es gibt viele Artikel, die Komponenten des australischen Hansard verwenden, um verschiedene Forschungsthemen zu untersuchen. Beispielsweise wurde der Hansard verwendet, um Fälle unparlamentarischer Äußerungen von Abgeordneten zu untersuchen, bei denen der Sprecher den Abgeordneten auffordert, seine Bemerkung zurückzuziehen11. Fragestundedaten aus Hansard-Transkripten im Februar und März 2003 wurden verwendet, um den Widerstand von Politikern bei der Beantwortung von Fragen zum Irak zu untersuchen12. Hansard wurde auch zur Quantifizierung der politischen Bedeutung verwendet, indem die strategische Erwähnung von Interessengruppen durch gewählte Amtsträger untersucht wurde13. Schließlich wurde ein Datensatz des australischen Hansard erstellt und dann verwendet, um die Auswirkungen von Wahlen und Wechseln der Premierminister auf im Parlament behandelte Themen zu analysieren14. Dies wurde mit den statischen PDF-Versionen von Hansard erstellt, wobei die optische Zeichenerkennung (OCR) verwendet wurde, um diese Dateien in Text zu digitalisieren, der für die Analyse geeignet ist. Dies bedeutet, dass insbesondere in der ersten Hälfte des Datensatzes erhebliche Digitalisierungsfehler vorliegen.

Obwohl es offenbar immer mehr Literatur zu diesem Thema gibt, gibt es immer noch keine umfassende Datenbank für den australischen Hansard auf XML-Basis, die von 1901 bis heute reicht. Unsere Arbeit beginnt, diese Lücke zu schließen.

Unsere Datenbank enthält eine CSV-Datei (Comma-Separated Value) und eine Parquet-Datei für jeden Sitzungstag des Repräsentantenhauses vom 2. März 1998 bis zum 8. September 2022. Wir haben vier Skripte entwickelt, um diese Dateien zu erstellen. Jedes Skript analysiert Hansard-Dokumente aus einem bestimmten Abschnitt des Zeitraums 1998 bis 2022.

Dieser Abschnitt ist wie folgt aufgebaut. Zunächst geben wir einen Überblick über unseren Ansatz zum Verstehen und Parsen eines einzelnen Hansard-XML-Dokuments, das die zum Erstellen unserer Datenbank verwendeten Skripte beeinflusst. Dies wird durch einen Auszug aus einem Hansard-XML ergänzt, um ein visuelles Beispiel seiner Struktur zu liefern. Als nächstes erklären wir die spezifischen Unterschiede zwischen den Skripten und skizzieren, welche strukturellen Änderungen ihre separate Entwicklung erforderlich machten. Anschließend geben wir Einzelheiten zu den methodischen Feinheiten der drei Kernkomponenten des Hansard-Verfahrens bekannt: Fragestunde, Zwischenrufe und Regieanweisungen. Darüber hinaus besprechen wir das Skript, das wir entwickelt haben, um verbleibende fehlende Details zum MP-Sprechen zu ergänzen, an das jede Datei in unserer Datenbank nach dem Parsen und Bereinigen übergeben wurde. Abschließend überprüfen wir den ergänzenden Hansard-Debattenthemen-Datensatz und den ergänzenden Abteilungsdatensatz, die wir erstellt haben, um die Vielseitigkeit unserer Datenbank zu erweitern.

Der Ansatz zum Parsen des Inhalts eines XML-Dokuments hängt von seiner Baumstruktur ab. Um diese Datenbank zu erstellen, haben wir uns zunächst ein einzelnes Hansard-XML-Transkript aus dem Jahr 2019 angesehen. Auf diese Weise konnten wir die verschiedenen interessierenden Komponenten im Dokument identifizieren und herausfinden, wie jede einzelne entsprechend ihrer entsprechenden Strukturform analysiert werden kann. Das Parsen wurde in R unter Verwendung der XML- und xml2-Pakete15,16 durchgeführt. Durch die Konzentration auf ein Transkript konnten wir außerdem sicherstellen, dass alle Schlüsselkomponenten des Transkripts analysiert und so detailliert wie möglich erfasst wurden. Die typische Form eines Hansard-XML-Transkripts ist in der folgenden verschachtelten Liste zusammengefasst. Dies bietet einen Überblick, enthält jedoch nicht alle möglichen verschachtelten Elemente, die in einem Hansard-XML gefunden werden können.

1.

2.

a)

b)

ich.

ii.

iii.

iv.

(1)

(2)

(3)

(4)

(a)

(b)

(c)

3.

4.

a)

b)

Der äußerste Knoten, auch Elternknoten genannt, wird mit bezeichnet und dient als Container für das gesamte Dokument. Dieser übergeordnete Knoten kann bis zu vier untergeordnete Knoten haben, wobei der erste untergeordnete Knoten Details zum jeweiligen Sitzungstag enthält. Als nächstes enthält alle Verfahren der Kammer, enthält alle Verfahren der Föderationskammer und enthält die Verfahren der Fragestunde. Die Föderationskammer tritt nicht an jedem Sitzungstag zusammen, daher ist dieses untergeordnete Element nicht in jeder XML-Datei vorhanden. Die Verwendung separater untergeordneter Knoten ermöglicht die Unterscheidung der Verfahren zwischen der Kammer und der Föderationskammer. Die Struktur der Knoten und ist im Allgemeinen gleich, wobei die Vorgehensweise mit beginnt, worauf eine Reihe von Debatten folgt. Debattenknoten können einen untergeordneten Knoten enthalten, in dem ein untergeordneter Knoten verschachtelt ist. Allerdings ist manchmal nicht in verschachtelt. Jedes dieser drei Elemente (d. h. , und ) sowie ihre jeweiligen Unterelemente enthalten wichtige Informationen zum Diskussionsthema, wer spricht und was gerade ist sagte. Der -Knoten in jedem Knoten enthält den Großteil des mit dieser Debatte oder Unterdebatte verbundenen Textes. Ein typischer -Knoten beginnt mit einem -Unterknoten, der Informationen über den Abgeordneten bereitstellt, der an der Reihe ist, und den Zeitpunkt seiner ersten Aussage. Es überrascht nicht, dass Reden in parlamentarischen Debatten selten ununterbrochen verlaufen – sie bestehen oft aus einer Reihe von Zwischenrufen und Fortsetzungen. Diese Aussagen werden je nach Art in verschiedene Unterknoten kategorisiert, z. B. oder . Die letzte Schlüsselkomponente von Hansard ist die Fragestunde, in der Fragen und Antworten als eindeutige Elemente klassifiziert werden. Weitere Einzelheiten zum Zweck und zur Abwicklung der Fragestunde folgen.

Abbildung 1 zeigt ein Beispiel für den Anfang einer XML-Datei für Hansard, das die in der obigen verschachtelten Liste dargestellte Struktur veranschaulicht. Wie bereits erwähnt, beginnt die XML-Struktur mit einem übergeordneten Element (blau hervorgehoben), gefolgt von einem untergeordneten Element (gelb hervorgehoben) mit untergeordneten Elementen wie dem Datum und der Parlamentsnummer alles in rosa hervorgehoben. Als nächstes gibt es das untergeordnete Element, das alles enthält, was in der Kammer geschieht, , das in Abb. 1 ebenfalls gelb hervorgehoben ist. Wie bereits erwähnt, ist der erste Unterknoten von < business.start>. Die Struktur davon ist zwischen den grün hervorgehobenen Knoten in Abb. 1 zu sehen, wobei der Inhalt, den wir vom Geschäftsstart an analysieren, orange hervorgehoben ist.

Schnappschuss vom Anfang der XML-Datei für Hansard am 25. Februar 2020.

Offensichtlich bedeutet die Natur der XML-Formatierung, dass verschiedene Informationen unter einer Reihe eindeutig benannter und verschachtelter Knoten kategorisiert werden. Um jede Information zu analysieren, muss daher die eindeutige Hierarchie der Knoten angegeben werden, in denen sie strukturiert ist. Dies wird als XPath-Ausdruck bezeichnet und teilt dem Parser mit, wie er im XML-Dokument navigieren soll, um die gewünschten Informationen zu erhalten. Auf das Session-Header-Datum in Abb. 1 kann beispielsweise mit dem XPath-Ausdruck „hansard/session.header/date“ zugegriffen werden. Bei der Angabe eines XPath-Ausdrucks kann man einen „oder“-Operator verwenden, um Elemente von mehreren Knotenpfaden gleichzeitig in der Reihenfolge abzurufen, in der sie im Dokument erscheinen. Dies haben wir im gesamten Skript getan, indem wir eindeutig verschachtelte Sprachinhalte analysiert haben. Dadurch kann die korrekte Reihenfolge der Elemente beibehalten werden. Wir begannen unser erstes Skript mit der Analyse aller im XML-Dokument enthaltenen Geschäftsstart-, Sprachtext- und Fragestundeninhalte und verwendeten dazu diese eindeutigen XPath-Ausdrücke.

Der nächste Schritt bestand darin, unser Skript weiterzuentwickeln, um saubere Datensätze zu erstellen17. Diese enthalten alle analysierten Textelemente, wobei jede Aussage in eine eigene Zeile mit Details zum sprechenden Abgeordneten unterteilt ist und die Zeilen in chronologischer Reihenfolge geführt werden. Dazu mussten zunächst die Variablenklassen korrigiert und mehrere Indikatorvariablen hinzugefügt werden, um zu unterscheiden, woher die Aussagen kamen, beispielsweise Chamber versus Federation Chamber oder versus . Die nächste wichtige Aufgabe ergab sich aus der Tatsache, dass die Rohtextdaten beim Parsen nicht nach jeder Anweisung getrennt wurden. Mit anderen Worten: Alle Einwürfe, Kommentare des Sprechers oder stellvertretenden Sprechers und Fortsetzungen innerhalb einer einzelnen Rede wurden alle als eine einzige Zeichenfolge geparst. Daher wurden Name, Namensausweis, Wählerschafts- und Parteidaten nur für die Person bekannt gegeben, die an der Reihe war. Die Aufgabe, diese Reden so aufzuteilen, dass sie über die Sitzungstage hinweg verallgemeinert werden konnten, war mit vielen Komplikationen verbunden. Einzelheiten dazu folgen später.

Da es sich um Dokumente über einen großen Zeitraum handelt, gibt es viele Änderungen in der Art und Weise, wie sie formatiert werden. Diese wurden deutlich, als wir unser Skript mit XML-Dateien aus früheren Sitzungstagen ausführten. Einige Änderungen sind so subtil wie ein anders benannter untergeordneter Knoten, während andere so umfangreich sind wie eine andere Verschachtelungsstruktur. Kleinere Änderungen wurden berücksichtigt, sobald wir davon Kenntnis erlangten, und auf eine Weise in den Code eingebettet, die beim Parsen aktuellerer Hansards mit geringfügigen Unterschieden in der Formatierung keine Probleme verursachte. Allerdings erforderten, wie bereits erwähnt, größere Änderungen in der XML-Struktur von Hansard die Entwicklung separater Skripte, während wir rückwärts arbeiteten. Darüber hinaus enthält nicht jeder Sitzungstag jedes mögliche XML-Element. Beispielsweise gab es an manchen Tagen keinen -Inhalt und an manchen Tagen gab es kein Verfahren vor der Föderationskammer. Um die Generalisierbarkeit dieser Skripte zu verbessern, wurden if-else-Anweisungen überall dort in den Code eingebettet, wo aufgrund eines fehlenden Elements ein Fehler auftreten könnte. Beispielsweise ist der gesamte Codeblock der Federation Chamber für jedes Skript in eine if-else-Anweisung eingeschlossen, sodass es nur dann ausgeführt wird, wenn das, was der Code zu analysieren versucht, in der Datei vorhanden ist.

Nachdem das Skript in den letzten Jahren von Hansard einige Jahre lang fehlerfrei lief, arbeiteten wir weiter rückwärts, bis umfangreiche Änderungen in der Baumstruktur dazu führten, dass unser Skript nicht mehr mit dem Parsen früherer XML-Dateien kompatibel war. Der früheste Sitzungstag, an dem dieses erste Skript erfolgreich parsen kann, ist der 14. August 2012. Bevor wir neue Skripte zum Parsen früherer Hansard-Dokumente entwickelten, haben wir der Bereinigung und Finalisierung dessen, was wir parsen konnten, Priorität eingeräumt. Daher haben wir unser Skript weiter entwickelt, alle Probleme behoben, die uns in den resultierenden Datensätzen aufgefallen sind, wie z. B. überschüssige Leerzeichen oder Abstandsprobleme, und bei Bedarf alle zusätzlichen Abschnitte des analysierten Textes in separate Zeilen aufgeteilt. Insbesondere haben wir einen Abschnitt unseres Drehbuchs hinzugefügt, um allgemeine Regieanweisungen herauszustellen. Weitere Informationen zu dieser Trennung finden Sie im Abschnitt Regieanweisungen. Nachdem wir unser erstes Skript fertiggestellt hatten, wurde es als Funktion formatiert, die ein einzelnes Dateinamenargument verwendet und eine CSV-Datei mit Daten zu allen Verfahren des jeweiligen Sitzungstages erstellt.

Wie bereits erwähnt, haben wir insgesamt vier Skripte entwickelt, um den Zeitraum 1998–2022 der Hansard-Dokumente zu analysieren. Zwei Hauptfaktoren motivierten uns, vier Skripte anstelle von nur einem zu erstellen: Der erste war die strukturelle Variation von XML im Laufe der Zeit und der zweite die verbesserte Recheneffizienz mit separaten Skripten. Während alle vier Skripte denselben allgemeinen Analyseansatz verwenden, der im Abschnitt „Übersicht“ beschrieben wurde, und dieselbe CSV-Struktur erzeugen, verwenden das erste und zweite Skript eine andere Datenverarbeitungsmethode als das dritte und vierte Skript.

Die Notwendigkeit eines zweiten Skripts ergibt sich aus der Tatsache, dass die Föderationskammer bei ihrer Gründung im Jahr 1994 ursprünglich den Namen „Hauptausschuss“ trug. Der Hauptausschuss wurde Mitte 2012 in Föderationskammer umbenannt8, Kap. 21. Daher heißt der untergeordnete Knoten, unter dem die Verfahren der Federation Chamber verschachtelt sind, in allen XML-Dateien vor dem 14. August 2012 . Nachdem wir in den letzten Jahren unser erstes Skript auf Basis von Hansard entwickelt haben, sind alle XPath-Ausdrücke zum Parsen erforderlich Die Verfahren der Federation Chamber enthalten die Spezifikation . Um Probleme in unserem ersten Skript zu vermeiden, das etwa 10 Jahre Hansard erfolgreich analysiert, haben wir ein zweites Skript erstellt, in dem wir alle Vorkommen von durch ersetzt haben. Nachdem diese Änderung vorgenommen und andere kleine Änderungen wie die Zeitstempelformatierung berücksichtigt wurden, analysiert dieses zweite Skript erfolgreich alle Hansard-Sitzungstage vom 10. Mai 2011 bis einschließlich 28. Juni 2012.

Während die für die Entwicklung des zweiten Drehbuchs erforderlichen Änderungen unkompliziert waren, war dies bei unserem nächsten Drehbuch nicht der Fall. Die typische Baumstruktur von Hansard-XMLs aus der Zeit von 1998 bis März 2011 weist einen wichtigen Unterschied zu der von XMLs auf, die nach März 2011 veröffentlicht wurden, was viele Änderungen in unserer Methodik erforderlich macht. In XMLs nach März 2011, die unsere ersten beiden Skripte erfolgreich analysieren, sind die ersten beiden untergeordneten Knoten von normalerweise und . Der erste untergeordnete Knoten enthält Daten über die Person, die an der Reihe ist, zu sprechen, und der zweite enthält den gesamten Inhalt dieser Rede – einschließlich aller Einwürfe, Kommentare und Fortsetzungen. Nachdem das -Element geschlossen wurde, gibt es in der Regel eine Reihe weiterer untergeordneter Knoten, die eine Grundstruktur dafür bereitstellen, wie die Rede in chronologischer Reihenfolge ablief. Wenn die Rede beispielsweise begann, von einem MP unterbrochen wurde und dann ununterbrochen bis zum Ende fortgesetzt wurde, folgten dem Knoten ein -Knoten und ein -Knoten. Diese würden Einzelheiten über den Abgeordneten enthalten, der die jeweilige Erklärung abgegeben hat, beispielsweise über seine Partei und seine Wählerschaft.

Im Gegensatz dazu sind die Sprachinhalte in XMLs von 1998 bis einschließlich 24. März 2011 anders verschachtelt – es gibt keinen -Knoten. Anstelle dieses einzelnen untergeordneten Knotens, der den gesamten Sprachinhalt enthält, werden Anweisungen in einzelnen untergeordneten Knoten kategorisiert. Dies bedeutet, dass wir im Gegensatz zu unserem Code zum Parsen aktuellerer Hansards keinen einzelnen XPath-Ausdruck wie „chamber.xscript//debate//speech/talk.text“ angeben können, um alle Reden in ihrer Gesamtheit auf einmal zu extrahieren. Dieser Unterschied in der Verschachtelungsstruktur machte viele Komponenten unseres zweiten Skripts für die Verarbeitung von Transkripten vor dem 10. Mai 2011 unbrauchbar und erforderte eine erhebliche Änderung unseres Datenverarbeitungsansatzes.

Da die früheren Hansard-XMLs keinen -Knoten hatten, fanden wir, dass der einfachste Weg, die Reihenfolge von Anweisungen beizubehalten und alle Sprachinhalte auf einmal zu analysieren, darin bestand, direkt vom -Element aus zu analysieren. Der Grund dafür, dass wir den untergeordneten Knoten nicht verwendet haben, liegt darin, dass jede Rede eine einzigartige Struktur von untergeordneten Knoten hat, was es schwierig macht, Code für die Datenbereinigung zu schreiben, der über alle Reden und Sitzungstage hinweg verallgemeinert werden kann. Die Herausforderung beim Parsen über das -Element besteht darin, dass jedes in diesem Element gespeicherte Datenelement als einzelne Zeichenfolge analysiert wird, einschließlich aller -Daten und aller verschachtelten Unterdebattedaten. Beispielsweise würden die in Abb. 2 gezeigten -Daten als einzelne Zeichenfolge vor dem Sprachinhalt analysiert, etwa so:

Teil der XML-Datei für Hansard vom 12. Dezember 2002.

09:31:0010261Costello, Peter, MPMr COSTELLOCT4HigginsLPTreasurer10

Dies betraf nicht nur den Beginn von Reden – auch Details zu Personen, die während Reden Einwürfe oder Kommentare abgegeben haben, wurden auf diese Weise erfasst. Um Anweisungen korrekt zu trennen, haben wir alle diese Muster mithilfe des Knotens gesammelt und sie verwendet, um Anweisungen überall dort aufzuteilen, wo eines dieser Muster gefunden wurde. Nach der Trennung der Aussagen konnten wir diese Muster aus dem Textkörper entfernen. Wir haben diese Methode auch zum Extrahieren und späteren Entfernen unerwünschter Muster für andere Datenelemente verwendet, die nicht zum Debattenablauf gehörten, wie zum Beispiel Unterdebattentitel.

Nachdem wir diese neue Methode zur Verarbeitung der Daten fertiggestellt hatten, fuhren wir mit der Datenbereinigung fort und verwendeten dabei denselben allgemeinen Ansatz wie in den ersten beiden Skripten, um dieselbe Struktur der CSV-Ausgabe zu erzeugen. Anschließend arbeiteten wir zeitlich rückwärts und änderten den Code nach Bedarf für die Generalisierbarkeit. Während dieses Prozesses haben wir eine Reihe von Transkriptionsfehlern in den XMLs früherer Jahre festgestellt. Wir haben diese manuell behoben und auf die offizielle Veröffentlichung zurückgestellt, um sicherzustellen, dass die richtigen Informationen eingegeben wurden. Da es eine Reihe von Transkriptionsfehlern speziell für die 2000er Jahre gab, haben wir uns entschieden, ein viertes Skript zum Parsen von 1998 und 1999 zu erstellen. Dadurch konnten wir sie entfernen Der gesamte Code, der zur Behebung spezifischer Transkriptionsfehler der 2000er Jahre benötigt wurde, um ein übermäßig langes Skript zu vermeiden und so die Recheneffizienz zu verbessern. Daher ist unser viertes Skript im Wesentlichen dasselbe wie das dritte, mit dem einzigen Unterschied, dass es spezifischen Code zur Behebung von Transkriptionsfehlern aus den Jahren 1998 und 1999 enthält.

Ein wesentliches Merkmal des australischen parlamentarischen Systems ist die Fähigkeit der Exekutivregierung, für ihre Entscheidungen zur Rechenschaft gezogen zu werden. Ein zentraler Mechanismus, mit dem dies erreicht wird, ist die sogenannte Fragestunde. Dies ist ein Zeitraum an jedem Sitzungstag im Plenarsaal, in dem Abgeordnete den Ministern zwei Arten von Fragen stellen können: schriftliche Fragen, die im Voraus verfasst werden, oder Fragen ohne Vorankündigung, die mündlich im Plenarsaal gestellt und in Echtzeit beantwortet werden18. Fragen ohne Vorankündigung werden direkt in den untergeordneten Knoten eingefügt, mit untergeordneten Knoten namens und , um die beiden zu unterscheiden. Schriftliche Fragen werden jedoch in einen eigenen untergeordneten Knoten namens am Ende der XML-Datei eingebettet.

Unser Ansatz, die in allen vier Skripten verwendeten -Reden zu analysieren, führte dazu, dass alle Fragen ohne Hinweisinhalt bereits der Reihe nach analysiert wurden. Bei den ersten beiden Skripten waren Fragen und Antworten bereits in eigene Zeilen unterteilt. Für das dritte und vierte Skript haben wir, genau wie für den Rest des Sprachinhalts, diese Datenmuster vor dem Text verwendet, um Fragen und Antworten zu trennen. Da schriftliche Fragen schließlich in einem eigenen untergeordneten Knoten vorhanden sind, konnten wir für alle Skripte dieselbe Analysemethode verwenden, die darin bestand, alle Frage- und Antwortelemente aus dem untergeordneten Knoten zu extrahieren.

Anschließend haben wir binäre Flags hinzugefügt, um zwischen Fragen und Antworten zu unterscheiden. Um dies zu erreichen, haben wir im ersten und zweiten Skript den Frage- und Antwortinhalt mithilfe der XPath-Ausdrücke „chamber.xscript//question“ und „chamber.xscript//answer“ separat neu analysiert und die entsprechenden Frage- und Antwortflags hinzugefügt. und fügte diese Flags dann basierend auf genauen Textübereinstimmungen wieder dem Hauptdatenrahmen hinzu. Für das dritte und vierte Skript nutzten wir die Tatsache, dass die Muster, die dem unter einem Frageknoten transkribierten Text vorangehen, getrennt von den unter einem Antwortknoten transkribierten Mustern gespeichert wurden. Daher konnten wir diese Muster problemlos verwenden, um Fragen und Antworten korrekt zu kennzeichnen, basierend auf der Musterliste, zu der sie gehörten. Manchmal haben wir Fragen identifiziert, die unter einem Antwortknoten falsch transkribiert wurden und umgekehrt. In diesem Fall haben wir die Frage- und Antwort-Flags manuell korrigiert. Beispielsweise prüfen wir, ob als Fragen gekennzeichnete Aussagen die Formulierung „hat die folgende Antwort auf die Frage des Herrn Abgeordneten gegeben“ enthalten. In diesem Fall kodieren wir diese Aussage als Antwort um. Es ist jedoch wichtig zu beachten, dass es zu zusätzlichen Kennzeichnungsfehlern kommen kann, die wir nicht erkannt haben, da wir diese Transkriptionsfehler manuell identifiziert und korrigiert haben, sobald wir sie entdeckt haben. Daher können Benutzer gelegentlich falsch gekennzeichnete Fragen oder Antworten in den Daten erkennen und sollten sich vor ihnen in Acht nehmen.

Der nächste Schritt bestand darin, den Inhalt der Fragestunde mit der gesamten Debattenrede zusammenzuführen. Wie bereits erwähnt, war aufgrund unserer Parsing-Methode bereits alles in Ordnung, sodass wir bei Fragen ohne Hinweisinhalt keine zusätzliche Zusammenführung durchführen mussten. Bei schriftlichen Fragen war das Zusammenführen dieser Inhalte ebenfalls unkompliziert, da sie immer am Ende von Hansard stehen. Das bedeutet, dass wir Fragen beim Schreiben von Zeilen an den unteren Rand des Hauptdatenrahmens binden könnten. Dieser Ansatz wurde für alle vier Skripte verwendet.

Wie bereits erwähnt, wurde der Text so strukturiert und analysiert, dass verschiedene Einwürfe und Kommentare, die während einer Rede vorkamen, nicht auf einzelne Zeilen aufgeteilt wurden. Dies war über den gesamten Zeitraum der Dokumente hinweg der Fall. Wir werden zunächst die Methodik besprechen, die zur Aufteilung von Interjektionen im ersten und zweiten Skript verwendet wurde, da sie unseren Ansatz für das dritte und vierte Skript beeinflusste.

Unten sehen Sie ein Beispiel für einen Teil einer Rede, die wir aufteilen müssten. Auszug aus Hansard vom 30. November 2021, wo Bert van Manen vom Sprecher unterbrochen wird, der erklärt, dass die Zeit für die Stellungnahmen der Mitglieder abgelaufen sei.

„Herr VAN MANEN (Forde – Chief Government Whip) (13:59): Es ist mir eine große Freude, dem Repräsentantenhaus mitzuteilen, dass sich die Windaroo Valley State High School für das Finale des australischen Weltraumdesign-Wettbewerbs qualifiziert hat, der im Januar nächsten Jahres beginnt . Der Wettbewerb gilt als der wichtigste MINT-Wettbewerb für Oberstufenschüler und wird von Universitäten im ganzen Land anerkannt. Die Studenten müssen auf branchenübliche Ingenieurs- und Ausschreibungsanfragen für Design und – Der Sprecher: Bestellen! Gemäß Geschäftsordnung 43 ist die Frist für die Stellungnahmen der Mitglieder abgelaufen.“

Wir möchten, dass jede Aussage in einer eigenen Zeile mit dem korrekten Namen, der Namens-ID, den Wählerschafts- und Parteiinformationen der sprechenden Person aufgeführt wird. Diese Aufgabe haben wir in mehreren Schritten angegangen.

Nachdem der gesamte geparste Text aus dem XML in einem Datenrahmen namens „main“ zusammengeführt wurde, bestand unser erster Schritt darin, eine „speech_no“-Variable hinzuzufügen. Dies geschah, um zu verfolgen, zu welcher Rede jeder Zwischenruf, jeder Kommentar oder jede Fortsetzung gehörte, während wir diese Komponenten in ihre eigenen Zeilen aufteilten.

Der nächste Schritt bestand darin, alle Namen und Titel zu extrahieren, die diesen Einwürfen, Kommentaren und Fortsetzungen vorausgehen. Dies würde es uns dann ermöglichen, die Reden an den richtigen Stellen zu trennen, indem wir diese Namen und Titel in Kombination mit regulären Ausdrücken verwenden, bei denen es sich um Zeichenmuster handelt, die zum Durchsuchen von Textkörpern verwendet werden können. Wir haben diesen Extraktionsprozess mit ein paar Zwischenschritten abgeschlossen, da eine große Anzahl von Namensstilen und Interjektionstypen berücksichtigt werden musste, die jeweils ihr eigenes einzigartiges reguläres Ausdrucksformat erforderten.

Wie bereits erwähnt, enthalten Hansard-XMLs neuerer Jahre eine Reihe untergeordneter Knoten, die dazu dienen, die Struktur von Unterbrechungen in dieser Sprache zu erfassen. Abbildung 3 zeigt ein Beispiel hierfür, bei dem die Rede durch einen Kommentar des stellvertretenden Sprechers unterbrochen wurde und der Abgeordnete dann seine Rede fortsetzte. Betrachtet man die blau hervorgehobenen Elementnamen, enthalten diese untergeordneten Knoten nicht den eigentlichen Text für die Interjektion oder Fortsetzung – dieser Text ist in die darüber liegende Rede eingebettet. Wie der in Abb. 3 rosa hervorgehobene Inhalt zeigt, konnten wir jedoch nützliche Details zu den einzelnen Interjektionen extrahieren, die wir später verwenden konnten. Mithilfe dieser Struktur extrahierten wir Namen und Informationen aller Personen, die im XML als Interjektionen kategorisiert wurden. Wir haben dies als Datenrahmen namens „Interject“ gespeichert. Wir haben uns entschieden, diese Daten nicht in unsere endgültige Datenbank aufzunehmen, da sie in unsere resultierenden Datensätze eingebettet sind, die eine Markierung für Interjektionen haben.

Schnappschuss der XML-Struktur mit Zwischenruf und Fortsetzung vom 03. Februar 2021 Hansard.

Anschließend erstellten wir Listen, die sowohl den Interject- als auch den Hauptdatenrahmen verwendeten, um alle Namen der Personen zu erfassen, die an diesem Tag gesprochen haben. Aufgrund der häufigen Unterschiede bei der Transkription von Namen in Hansard haben wir die Namen aller Abgeordneten in verschiedenen einzigartigen Formaten hinzugefügt. Wenn ein Abgeordneter eine Rede unterbricht oder fortsetzt, ist die übliche Form seines Namens ein Titel, gefolgt von seinem Vornamen oder seinem Anfangsbuchstaben und/oder Nachnamen. Es gibt auch Unterschiede in der Groß- und Kleinschreibung dieser Namen. Wenn der Vorname einer Person angegeben wird, wird manchmal nur der Nachname großgeschrieben, während manchmal der vollständige Name großgeschrieben wird oder keiner von beiden großgeschrieben wird. Eine weitere Quelle für Abweichungen sind Personen mit mehr als einem Vornamen, da manchmal nur der anfängliche Vorname geschrieben wird, während manchmal der gesamte Vorname geschrieben wird. Darüber hinaus verfügen einige Nachnamen über Satzzeichen und einige Nachnamen haben eine spezielle Großschreibung, wie z. B. „McCormack“, wobei selbst bei vollständiger Großschreibung das erste „c“ kleingeschrieben bleibt. Diese Variation erfordert sorgfältige Überlegungen beim Schreiben von Mustern für reguläre Ausdrücke. In diesen Listen haben wir auch alle allgemeinen Interjektionsaussagen berücksichtigt, die nicht einer Einzelperson zugeordnet wurden, wie zum Beispiel „Ein Oppositionsmitglied interveniert-“.

Mithilfe dieser Listen konnten wir die Namen von Abgeordneten und die damit verbundenen Titel so extrahieren, wie sie im Text vorkommen, indem wir nach exakten Übereinstimmungen mit regulären Ausdrucksmustern suchten. Anschließend haben wir diese extrahierten Namen verwendet, um alle Reden aufzuteilen, indem wir reguläre Ausdrücke mit Lookarounds verwendet haben. Einem regulären Ausdrucksmuster kann ein Lookaround hinzugefügt werden, um die Spezifität von Übereinstimmungen zu verbessern. Diese wurden verwendet, um sicherzustellen, dass der Text nicht an den falschen Stellen geteilt wurde, beispielsweise an Stellen, an denen Abgeordnete in der Erklärung eines anderen Abgeordneten namentlich genannt wurden.

Nachdem alle Einwürfe, Kommentare und Fortsetzungen mithilfe der von uns erstellten Listen in ihre eigenen Zeilen aufgeteilt wurden, führten wir eine letzte Überprüfung auf etwaige zusätzliche Namen durch, die in diesen Listen nicht erfasst wurden. Wir haben mit allgemeinen regulären Ausdrücken und Lookarounds nach verbleibenden Namensübereinstimmungen in Sprachkörpern gesucht und den gefundenen Text mithilfe dieser Übereinstimmungen getrennt.

Anschließend haben wir dem Datensatz basierend auf der Zeilennummer eine Reihenfolgenvariable hinzugefügt, um die Reihenfolge zu verfolgen, in der alles gesagt wurde. Der nächste Schritt bestand darin, die Variablen Name, Namens-ID, Wählerschaft und Partei mit den richtigen Daten für jede Zeile zu füllen. Wir wollten auch das Geschlecht und die eindeutige Kennung für jede Person hinzufügen, wie sie im AustralianPoliticians-Paket zu finden sind. Zu diesem Zweck haben wir eine Nachschlagetabelle erstellt, die die eindeutige unvollständige Form, in der der Name transkribiert wurde, sowie den entsprechenden vollständigen Namen, die Namens-ID, die Wählerschaft, die Partei, das Geschlecht und die eindeutige ID dieser Person enthielt. Abbildung 4 zeigt ein Beispiel hierfür. Bei der Erstellung jeder Nachschlagetabelle haben wir den Hauptdatensatz aus dem AustralianPoliticians-Paket verwendet9.

Erste 10 Zeilen der Nachschlagetabelle vom 19. Oktober 2017, Hansard-Verarbeitung.

Als Nächstes haben wir unseren Hauptdatenrahmen mit der Nachschlagetabelle zusammengeführt, um alle unvollständigen Namen durch ihre vollständigen Namen zu ersetzen und alle Lücken mit verfügbaren Namens-ID-, Wählerschafts-, Partei-, Geschlechts- und eindeutigen ID-Informationen zu füllen. Schließlich konnten wir eine Flagge für Interjektionen hinzufügen. Indem wir unsere Daten nach Redenummer gruppierten, definierten wir einen Zwischenruf als eine Aussage einer Person, die nicht der Sprecher, der stellvertretende Sprecher oder der Abgeordnete ist, der an der Reihe war, das Wort zu ergreifen. Abbildung 5 zeigt ein Beispiel für die Vorgehensweise einer Föderationskammer mit Einwürfen. Äußerungen des Abgeordneten, der an der Reihe war, oder der stellvertretenden Sprecherin Maria Vamvakinou werden nicht als Zwischenrufe gekennzeichnet.

Beispiel einer Rede mit Zwischenrufen vom 21. November 2016 Hansard.

Nachdem wir eine erfolgreiche Methode zur Aufteilung von Interjektionen entwickelt hatten, nutzten wir diese als Grundlage für unseren allgemeinen Ansatz im dritten und vierten Skript. Allerdings erforderte die in diesen Skripten verwendete unterschiedliche Datenbereinigung eine gewisse Abweichung von der ursprünglichen Methodik. Wie bereits erwähnt, haben wir aus -Knoten extrahierte Zeichenfolgenmuster verwendet, um Reden zu trennen. Wie in Abb. 3 zu sehen ist, sind -Knoten in -Knoten verschachtelt, was bedeutet, dass die Datenmuster aus Interjektionsanweisungen im Prozess herausgetrennt wurden. Dies bedeutete, dass wir nicht wie zuvor Listen mit Namen und Titeln erstellen mussten, nach denen wir im Text suchen mussten. Allerdings verwendeten wir zur Trennung dieselbe Liste allgemeiner Interjektionsaussagen wie in den ersten beiden Skripten. Anschließend haben wir eine zusätzliche Prüfung auf Anweisungen durchgeführt, die möglicherweise aufgrund ihrer Einbettung in das XML nicht getrennt wurden, und diese bei Bedarf herausgetrennt. Während insbesondere die meisten Anweisungen in ihrem eigenen untergeordneten Knoten kategorisiert und daher durch musterbasierte Trennung erfasst wurden, wurden einige nicht einzeln kategorisiert und mussten in diesem Schritt manuell aufgeteilt werden.

Anschließend haben wir die Reden bereinigt und die korrekten Angaben zur Rede des Abgeordneten gemacht. Wir haben zwar den gleichen Nachschlagetabellenansatz wie zuvor verwendet, dies jedoch in Kombination mit einer anderen Methode zum Ausfüllen dieser Details. Die von -Knoten geparsten Muster enthalten wichtige Daten über den MP, der jede Aussage macht. Daher könnten wir die mit jedem Muster verknüpften Daten extrahieren, indem wir ein Element nach innen analysieren und dabei den XPath-Ausdruck „talk.start/talker“ verwenden. Wir haben mit diesen Daten eine Mustersuchtabelle erstellt und diese anhand des ersten in jeder Anweisung erkannten Musters mit dem Hansard-Hauptdatenrahmen zusammengeführt. Abbildung 6 zeigt ein Beispiel dieser Nachschlagetabelle. Dieser Ansatz ermöglichte es uns, fehlende Daten zu jedem sprechenden Abgeordneten mithilfe direkt aus dem XML extrahierter Daten zu ergänzen. Schließlich haben wir dann den Datensatz „AustralianPoliticians“ verwendet, um andere fehlende Daten auszufüllen, und auf die gleiche Weise wie zuvor für Einwürfe markiert.

10 Zeilen der Mustersuchtabelle vom 12. Dezember 2012, Hansard-Verarbeitung.

Bei der Erstellung unserer ersten Drehbücher bestand eine der letzten Komponenten darin, die allgemeinen Regieanweisungen von den Aussagen der Abgeordneten zu trennen. Regieanweisungen sind allgemeine Aussagen, die in das Transkript aufgenommen werden, um das Geschehen im Parlament zu dokumentieren. Beispiele für Regieanweisungen sind „Bill liest ein zweites Mal“, „Frage angenommen“ oder „Debatte vertagt“. Anhand des XML- und PDF-Dokuments war für uns unklar, wem genau diese Aussagen zugeschrieben wurden. Zur weiteren Klärung haben wir uns einige Sitzungstage lang Teile der Videoaufzeichnung angesehen und festgestellt, dass diese Aussagen zwar in Hansard dokumentiert, aber im Parlament nicht ausdrücklich dargelegt werden. Wenn der stellvertretende Sprecher beispielsweise sagt: „Die Frage ist, dass der Gesetzentwurf jetzt ein zweites Mal gelesen wird“, stimmen die Abgeordneten ab, und wenn die Mehrheit dafür ist, lesen sie den Gesetzentwurf ein zweites Mal. Diese Abstimmung und die zweite Lesung werden nicht ausdrücklich transkribiert, sondern es steht geschrieben: „Frage angenommen.“ Bill las ein zweites Mal.“ Aus diesem Grund haben wir die Namensvariable für diese Aussagen mit „Regieanweisung“ gefüllt. Regieanweisungen wurden nicht als Zwischenrufe gekennzeichnet. Diese Regieanweisungen sind nicht anders definiert als die regulären Debattenreden im XML, was bedeutet, dass wir manuell eine Liste von Regieanweisungen erstellen mussten, um sie aus den Reden herauszutrennen. Wir haben diese Liste mit Regieanweisungen erstellt, während wir bei der Analyse von Hansard rückwärts gearbeitet haben, und bei allen vier Drehbüchern den gleichen Ansatz gewählt. Trotz unserer Bemühungen, alle Regieanweisungen in dieser Liste zu erfassen, sollten sich Benutzer darüber im Klaren sein, dass einige Regieanweisungen dabei möglicherweise nicht in ihre eigenen Zeilen aufgeteilt wurden, da sie manuell erstellt werden musste. Darüber hinaus ist es wichtig zu beachten, dass Regieanweisungen keine Sprachkomponenten darstellen, da sie nicht laut ausgesprochen werden, wie dies bei allen anderen Komponenten wie Interjektionen und Fortsetzungen der Fall ist. Sie liefern jedoch wertvolle Informationen über die Abläufe und Struktur parlamentarischer Veranstaltungen. Wenn für den Forschungsschwerpunkt des Benutzers keine Regieanweisungen erforderlich sind, kann dies durch Herausfiltern von Beobachtungen mit Namen wie „Geschäftsbeginn“ oder „Regie“ entfernt werden.

Während wir unser Bestes getan haben, um die Vollständigkeit der Dateien in unserer Datenbank zu maximieren, während sie in den ersten vier Skripten verarbeitet wurden, gab es immer noch eine Reihe von Zeilen, in denen Details zur sprechenden Person fehlten oder der für diese Person transkribierte Name fehlte in Kurzform (z. B. „Mr Abbott“ statt „Abbott, Tony, MP“). Dies kam besonders häufig an Sitzungstagen vor, an denen ein Abgeordneter sprach, dessen Nachname von einem anderen früheren oder gegenwärtigen Abgeordneten geteilt wurde, und eine automatische Eingabe seiner Daten mithilfe von Daten aus dem AustralianPoliticians-Paket wurde vermieden, um eine falsche Zuordnung von Details zu verhindern. Um so viele davon wie möglich zu verbessern, haben wir ein Skript entwickelt, das Kurznamen von Personen mit gebräuchlichen Nachnamen in jeder CSV-Datei identifiziert, nach der vollständigen Version des Namens dieser Person sucht, sofern diese in derselben CSV-Datei verfügbar ist, und ersetzt den Kurznamen durch den vollständigen Namen und füllt die restlichen MP-Details entsprechend mit Daten aus dem AustralianPoliticians-Paket aus. Dieses Skript macht das Gleiche für alle, die zwar einen eindeutigen Nachnamen haben, denen aber immer noch die vollständige Namensform oder Angaben zu Geschlecht, eindeutiger ID, Namens-ID, Partei oder Wählerschaft fehlen. Jede Datei in unserer Datenbank durchlief nach ihrer Erstellung dieses Skript, um sicherzustellen, dass sie so vollständig wie möglich ist.

Aufgrund der Tatsache, dass die Namen der Abgeordneten mit gebräuchlichem Nachnamen nicht alle in ihrer vollständigen Form vorlagen, als wir zum ersten Mal für Interjektionen vorgemerkt haben, war es möglich, dass der Name des Abgeordneten, der an der Reihe war, in ihrem Wortlaut in unterschiedlicher Form transkribiert wurde Rede. Zum Beispiel „Smith, Tony, MP“ am Anfang und dann „Mr Smith“ später in der Rede. Aufgrund der Art und Weise, wie wir Interjektionen gekennzeichnet haben, bedeutet dies, dass Zeilen, in denen der Name die Kurzform „Herr Smith“ lautet, als Interjektionen gekennzeichnet werden, was falsch ist. Um dies zu beheben, haben wir Interjektionen mit derselben Definition wie zuvor neu gekennzeichnet, nachdem alle Namen mit diesem Skript eingegeben wurden.

Um das Spektrum der Forschungsfragen zu erweitern, die mit unseren Daten untersucht werden können, haben wir eine Zusatzdatei erstellt, die Debattenthemen und die entsprechenden Seitenzahlen für jeden Sitzungstag in unserer Datenbank enthält. Um diese Daten zu extrahieren, haben wir ein Skript geschrieben, um Debatte zu analysieren und 1 Informationselemente aus jeder XML-Datei in chronologischer Reihenfolge unter Verwendung des XPath-Ausdrucks „//debate/debateinfo |“ zu analysieren //subdebate.1/subdebateinfo“ und fügte eine Datumsvariable mit dem Datum jedes Sitzungstages hinzu. Beachten Sie, dass es in einigen Fällen mehrere untergeordnete Knoten mit Seitenzahlen für dieselbe Debatte oder denselben Unterdebattentitel gab, was wahrscheinlich auf einen manuellen Transkriptionsfehler zurückzuführen ist. Bei der manuellen Überprüfung stellten wir fest, dass der zweite Knoten mit der Seitenzahl in den meisten Fällen dieselbe Seitenzahl wie der erste Knoten enthielt, und manchmal enthielt der zweite Knoten einen wiederholten Debattentitel oder einen Zeitstempel. Daher haben wir den ersten verfügbaren untergeordneten Knoten mit der Seitennummer für jede Debatte oder jeden Unterdebattenknoten als den Knoten genommen, den wir in unseren Datensatz aufgenommen haben. Nach der Zusammenfassung können diese Themen durch Zusammenfügen dem Haupttext hinzugefügt werden. Beispielcode finden Sie in der README-Datei.

Ein weiterer wesentlicher Bestandteil parlamentarischer Verfahren ist die Abstimmung. Wenn im Repräsentantenhaus eine Frage wie „Die Frage ist, ob dem Änderungsantrag zugestimmt werden soll“ aufkommt, werden die Mitglieder gebeten, ihre Stimme entweder positiv oder negativ abzugeben, und die vom Sprecher beurteilte Mehrheit der Stimmen entscheidet darüber Ergebnis8. Darüber hinaus können Mitglieder in einer inoffiziellen Vereinbarung namens Paare abstimmen, die „genutzt werden kann, um es einem Mitglied auf einer Seite des Repräsentantenhauses zu ermöglichen, bei Abstimmungen abwesend zu sein, wenn gleichzeitig oder wann ein Mitglied der anderen Seite abwesend sein soll.“ „Enthält sich ein Mitglied durch Vereinbarung der Stimme“8. Wenn das vom Sprecher festgelegte Ergebnis von mehr als einem Abgeordneten angefochten wird, führt dies zu einer Spaltung des Repräsentantenhauses, in der die Frage erneut gestellt wird und die Mitglieder je nach ihrer Abstimmung nach links oder rechts von ihrem Stuhl wechseln müssen. damit die Stimmen erneut gezählt und registriert werden können8.

In den Hansard-XML-Dateien sind Divisionsdaten außerhalb des -Inhalts in ihren eigenen -Knoten strukturiert, die die Abstimmungsdaten und das Divisionsergebnis enthalten. Da wir uns in erster Linie auf den gesprochenen -Hansard-Inhalt konzentrieren, erfassen unsere Parsing-Skripte nicht unbedingt alle Abteilungsdaten aus den Sitzungen des Repräsentantenhauses. Unser im Abschnitt „Skriptunterschiede“ beschriebener Ansatz zum Parsen von Hansard im dritten und vierten Skript ermöglichte natürlich, dass viele der Divisionsdaten zu unseren resultierenden Dateien für 1998 bis März 2011 hinzugefügt wurden, die Parsing-Skripte, die für Hansard von Mai 2011 bis September 2022 verwendet wurden nicht. Um unsere Datenbank zu ergänzen und diese Lücke bei den Abteilungsdaten zu schließen, haben wir eine zusätzliche Datei erstellt, die alle unter dem XPath „//chamber.xscript//division“ verschachtelten Abteilungsdaten aus den Hansard-Dateien in unserem Zeitraum enthält. Um diese Datendatei zu erstellen, haben wir für jedes Hansard-XML die untergeordneten Knoten , und dort analysiert, wo sie vorhanden waren, alle Zeitstempel extrahiert, sofern verfügbar, und zusätzliche Datenbereinigungen durchgeführt wie nötig. Wir haben in diesem Skript eine Reihe von if-else-Anweisungen verwendet, um Variationen in der Struktur des -Knotens im Laufe der Zeit zu berücksichtigen. Schließlich haben wir noch eine Datumsvariable hinzugefügt, um zwischen Sitzungstagen zu unterscheiden.

Unsere Datenbank ist sowohl im CSV- als auch im Parkettformat verfügbar. Sowohl CSV als auch Parkett sind offene Standards. Wir bieten beides, denn während CSVs häufig verwendet werden und manuell überprüft werden können, sind Parquet-Dateien in der Regel kleiner und bewahren ihre Klasse. Unsere Datenbank deckt alle Sitzungstage des Repräsentantenhauses vom 2. März 1998 bis zum 8. September 2022 ab, für die ein XML-Transkript verfügbar ist. Es gibt also 1.532 einzelne Sitzungstagesdateien für jedes Format. Darüber hinaus gibt es eine einzige Korpusdatei sowohl im CSV- als auch im Parkettformat, die die Daten aller Sitzungstage enthält, wobei eine Datumsvariable hinzugefügt wurde, um die Unterscheidung und Filterung einzelner Sitzungstage zu ermöglichen. Es gibt auch eine CSV- und Parquet-Datei, die alle analysierten Debattenthemen enthält. Alle Datensätze sind im Allzweck-Repository Zenodo unter https://doi.org/10.5281/zenodo.733607519 verfügbar. Für jede Hansard-Datendatei, also das Korpus und die einzelnen Sitzungstagesdateien, enthält jede Zeile eine individuelle Aussage mit Einzelheiten zu den einzelnen Rednern. Für allgemeine Erklärungen, die beispielsweise von „Ehrenwerten Mitgliedern“ abgegeben wurden, können diese Variablen nicht angegeben werden. Tabelle 1 bietet einen Überblick über jede Variable, die in den Hansard-Datendateien in der Datenbank gefunden wird.

Die Variablen name, page.no, time.stamp, name.id, electorate, party, in.gov, first.speech und body stammen alle direkt aus dem XML-Inhalt. Zusätzlich zu diesen Variablen haben wir eine Reihe von Flags hinzugefügt, um das einfache Filtern von Anweisungen zu ermöglichen. Beispielsweise sorgt das Hinzufügen des „fedchamb_flag“ für eine klare Unterscheidung zwischen den Verfahren der Kammer und denen der Föderationskammer. Die Flags „Frage“, „Antwort“ und „q_in_writing“ wurden hinzugefügt, um Aussagen, die zur Fragestunde gehören, und die Art dieser Aussagen zu identifizieren. Wir haben auch Interjektionen markiert (Interject), und die Variable div_flag wurde hinzugefügt, um die Zeilen zu kennzeichnen, in denen „Das Haus geteilt“ wurde. wurde in der Körpervariablen erkannt. Die Variablen „gender“ und „uniqueID“ wurden basierend auf dem Hauptdatensatz aus dem AustralianPoliticians-Paket hinzugefügt, und die Variable „partyfacts_id“ wurde mithilfe von Code und Daten hinzugefügt, die von der Website des Party Facts Project bereitgestellt wurden. Beachten Sie, dass wir gemäß dem auf der Party Facts-Downloadseite (https://partyfacts.herokuapp.com/download/) bereitgestellten Code nur die vom Party Facts-Projekt verwalteten Kerndatensätze verwendet haben, nämlich das Manifesto Project und ParlGov. Einzelheiten zu diesen Datensätzen finden Sie auf der Dokumentationsseite zu Party Facts-Datensätzen (https://partyfacts.herokuapp.com/documentation/datasets/). Einzelheiten zur Verwendung von uniqueID und partyfacts_id finden Sie in den folgenden Nutzungshinweisen. Darüber hinaus ermöglicht uns die Variable „speech_no“, die Sprachnummer zu verfolgen, zu der jede Aussage und jeder Interjektion gehört. Mit der Variable „Sprachanzahl“ können Sie Aussagen auf einfache Weise nach Sprache gruppieren oder bestimmte interessante Reden isolieren. Zuletzt wurde die Variable „order“ hinzugefügt, um die Reihenfolge des Verfahrens beizubehalten, nachdem alle einzelnen Aussagen in ihre eigenen Zeilen aufgeteilt wurden.

Wie bereits erwähnt, enthält unsere Datenbank zusätzlich zu den oben beschriebenen Hansard-Daten auch eine CSV- und Parkett-Datei mit den analysierten Debattenthemen. Diese Datei heißt all_debate_topics und enthält eine Datumsvariable, die den Tag der Sitzung angibt, eine item_index-Variable, um die Reihenfolge der Verhandlungen anzugeben (dh die Reihenfolge, in der diese Themen besprochen wurden), und eine Titelvariable, die den Titelinhalt der Debatte oder Unterdebatte enthält und eine page.no-Variable, die angibt, auf welcher Seite dieser Titel aufgezeichnet wurde, der im offiziellen Hansard-PDF zu finden ist.

In unserer Datenbank gibt es auch eine CSV-Datei mit dem Namen PartyFacts_map.csv. Diese Datei wurde unter Verwendung von AustralianPoliticians-Daten, vom Party Facts-Projekt heruntergeladenen Daten und unserer eigenen Hansard-Datenparteivariablen erstellt. Da es in diesen Quellen einige Inkonsistenzen bei der Schreibweise von Parteinamen und Abkürzungen gibt, konnten wir durch die Erstellung dieses Datenrahmens die korrekte Zusammenführung der PartyFacts-ID-Nummern mit der zugehörigen Partei gemäß der in unseren Hansard-Daten transkribierten Schreibweise der Parteiabkürzungen sicherstellen. Darüber hinaus haben wir der Vollständigkeit halber die entsprechende Parteiabkürzung und die vollständige Schreibweise des Namens aus dem AustralianPoliticians-Paket hinzugefügt. Eine Übersicht über die in dieser Datei vorhandenen Variablen finden Sie in Tabelle 2.

Schließlich enthält unsere Datenbank eine Datei mit allen analysierten Divisionsdaten in unserem Zeitraum. Dies wird „division_data“ genannt und ist im RDA-Format und im Parkett-Format verfügbar. Der Grund dafür, dass es nicht im CSV-Format verfügbar ist, liegt darin, dass drei der Variablen (names_AYES, name_NOES und name_PAIRS) Listen sind, die von der rechteckigen CSV-Datenstruktur nicht unterstützt werden. Die in diesen Daten gefundenen Variablen sind unten in Tabelle 3 zusammengefasst.

Wir haben ein Skript entwickelt, um automatisierte Tests für jede Datei in unserer Datenbank durchzuführen und so deren Qualität und Konsistenz zu verbessern. Unser erster Test überprüft, ob das in jedem Dateinamen angegebene Datum mit dem im entsprechenden XML-Sitzungsheader angegebenen Datum übereinstimmt. Diese XML-Komponente ist in Abb. 1 zu sehen, wo der erste untergeordnete Knoten des -Elements das Datum ist. Jede Datei hat diesen Test bestanden und wir haben eine Diskrepanz in einer XML-Datei vom 3. Juni 2009 festgestellt, bei der der Sitzungsheader das falsche Datum enthielt. Wir haben überprüft, ob unser Dateiname und das Datum korrekt waren, indem wir die offizielle PDF-Veröffentlichung von diesem Sitzungstag überprüft haben.

Der zweite Test soll auf Duplikatfehler in den Daten prüfen, indem überprüft wird, ob zwei unmittelbar aufeinander folgende Zeilen denselben Text (d. h. gesprochenen Inhalt) haben. Bei diesem Test wurden 131 Daten erkannt, an denen doppelte Aussagen gemacht wurden, und zwar direkt nacheinander. Beachten Sie, dass dieser Test nicht berücksichtigt, wer welche Aussage macht, was bedeutet, dass ein Abgeordneter, der die Worte eines anderen Abgeordneten wiederholt, auch in diesem Test berücksichtigt wird. Wir haben eine Stichprobe von 40 % dieser Duplikate überprüft und manuell validiert, dass es sich bei allen um wiederholte Aussagen handelt, die tatsächlich existieren und eng beieinander in der XML-Datei dieses Tages transkribiert werden und durch unsere Methode so geparst werden sollten, dass eine dieser Aussagen unmittelbar folgt vom anderen.

Wenn einem Abgeordneten die für seine Rede vorgesehene Zeit ausgeht, transkribieren die Hansard-Redakteure nach ihrem letzten Wort „(Zeit abgelaufen)“. Um zu überprüfen, ob wir Reden richtig getrennt haben, prüft unser dritter Test, ob der Ausdruck „(Zeit abgelaufen)“ in einem Textkörper ganz am Ende vorkommt. Wenn dies nicht der Fall ist, wissen wir, dass wir die Trennung der nächsten Anweisung in eine eigene Zeile verpasst haben und können dies entsprechend beheben.

Der vierte Test soll Probleme bei der Zeitstempelformatierung in den Daten erkennen, indem er alle Zeitstempel in unserer Datenbank erkennt, die nicht dem richtigen „HH:MM:SS“-Format entsprechen. Wir haben insgesamt 88 falsch formatierte Zeitstempel gefunden, mit häufigen Problemen wie der „HH“- oder „MM“-Komponente, die als „NaN“ (z. B. „NaN:28:00“ oder „09:NaN:00“) aufgezeichnet wurde sowie Zeitstempel mit einer dritten Ziffer in der Minutenkomponente (z. B. „09:497:00“ oder „13:445:00“). Wir haben eine Zufallsstichprobe von 25 % dieser falsch formatierten Zeitstempel gezogen und manuell überprüft, ob sie als solche im ursprünglichen XML-Hansard-Transkript transkribiert wurden oder nicht. Wir haben festgestellt, dass jeder falsch formatierte Zeitstempel in unserer Zufallsstichprobe tatsächlich als solcher in seine ursprüngliche XML-Datei transkribiert wurde, was bedeutet, dass diese Fehler das Ergebnis eines Transkriptionsfehlers und nicht eines Fehlers sind, der aus unserem Datenanalyse- oder Bereinigungscode resultiert. Daher haben wir diese Zeitstempel in ihrem ursprünglich transkribierten Format in unserer Datenbank belassen.

Die restlichen Tests konzentrieren sich auf die an jedem Sitzungstag anwesenden Abgeordneten. Unser fünfter Test überprüft, ob jedem Einzelnen an jedem Sitzungstag eine eindeutige Partei und Wählerschaft zugeordnet wird. Als wir Hansard weiter in der Zeit analysierten, fanden wir eine Reihe von Fällen, in denen eine Person aufgrund von Übertragungsfehlern der falschen Wählerschaft oder Partei zugeordnet wurde. Als wir diese Datenfehler entdeckten, haben wir sie auf der Grundlage der offiziellen Veröffentlichung korrigiert. Dieser Test bietet uns eine automatisierte Möglichkeit, diese Fehler zu erkennen und im großen Maßstab zu korrigieren.

Als nächstes testen wir, ob der eindeutige Namensidentifikationscode, der jeder Person zugeordnet ist, im Australian Parliamentary Handbook zu finden ist. Wir tun dies mit dem ausPH-Paket. Dieser Test dient als weiteres Mittel zur Korrektur von Transkriptionsfehlern, diesmal im Fall von Namens-IDs. Wir haben eine Reihe gängiger Namens-ID-Transkriptionsfehler gefunden und korrigiert, die bei diesem Test festgestellt wurden, wie z. B. ein Großbuchstabe „O“ anstelle einer Null.

Unser siebter Test überprüft, ob die identifizierten Personen an einem bestimmten Sitzungstag am Leben sind. Dazu haben wir den Hauptdatensatz aus dem AustralianPoliticians-Paket verwendet, der die Geburts- und gegebenenfalls Sterbedaten aller Politiker enthält. Dieser Test bestätigte, dass nicht alle Abgeordneten, bei denen festgestellt wurde, dass sie an jedem Sitzungstag sprechen, verstorben sind.

Schließlich bestätigt unser achter Test, dass alle sprechenden Personen an diesem bestimmten Tag Abgeordnete sind. Wir verwenden den MPS-Datensatz aus dem AustralianPoliticians-Paket, der die Daten enthält, wann jeder Abgeordnete im Parlament war. Anhand dieser Daten überprüfen wir, ob jede Person, die an jedem Sitzungstag spricht, an diesem Tag tatsächlich ein Abgeordneter ist.

Um die Qualität unserer Daten weiter zu untersuchen und unerwartete oder eindeutige Trends zu erkennen, haben wir unter Verwendung des gesamten Hansard-Korpus eine Reihe zusammenfassender Statistiken erstellt. Zunächst haben wir uns die Anzahl der täglich gehaltenen Reden angesehen, aufgeschlüsselt nach den Debatteorten der Kammer und der Föderationskammer. Wie in Abb. 7 dargestellt, werden in den Kammerverfahren durchweg mehr Reden gehalten als in der Föderationskammer, was mit dem breiteren Geschäftsspektrum der Kammer übereinstimmt. Darüber hinaus scheint die Zahl der täglichen Reden an beiden Veranstaltungsorten im Laufe der Zeit leicht zugenommen zu haben.

Anzahl der an jedem Sitzungstag im Repräsentantenhaus gehaltenen Reden.

Als nächstes untersuchten wir die Anzahl der eindeutigen Namen, die an jedem Sitzungstag entdeckt wurden, aufgeschlüsselt nach Debattenort, dargestellt in Abb. 8. Wie erwartet, sind in unseren Daten im Allgemeinen mehr einzelne Abgeordnete in den Kammerverhandlungen anwesend als in der Föderationskammer Verfahren. Darüber hinaus scheint an beiden Veranstaltungsorten die Zahl der pro Sitzungstag erkannten Personen seit etwa 2008–2009 gestiegen zu sein, wobei für die Kammer und die Föderationskammer maximal 116 bzw. 87 eindeutige Namen festgestellt wurden. Über den Zeitraum unserer Daten hinweg wurden im Tagesdurchschnitt 84 eindeutige Namen in der Kammer und 34 in der Föderationskammer entdeckt. Diese Beobachtungen stehen im Einklang mit der offiziellen Zahl der Mitglieder des Repräsentantenhauses, die 1998 148, 2001 150 betrug und bei den Parlamentswahlen 2019 auf 151 anstieg8.

Tägliche Anzahl eindeutiger Namen, die in unseren Hansard-Daten erkannt wurden.

Anschließend berechneten wir die Gesamtzahl der in unserer Datenbank gehaltenen Reden nach politischer Partei, zusammengefasst in Tabelle 4. Wir stellten fest, dass die Australian Labour Party insgesamt die meisten Reden hielt, gefolgt von der Liberal Party of Australia und der National Party of Australia. Dieses Ranking ist nicht überraschend, da diese Parteien die drei wichtigsten politischen Parteien im australischen Repräsentantenhaus sind20.

Um die Benutzerfreundlichkeit unserer Datenbank zu verbessern, haben wir jeder Datei eine UniqueID-Variable hinzugefügt. Dies dient als eindeutige Kennung für jeden sprechenden Abgeordneten und stammt aus der Variable „uniqueID“, die in den Daten sowohl des AustralianPoliticians R-Pakets9 als auch des AustralianElections (https://github.com/RohanAlexander/AustralianElections) R-Pakets enthalten ist, das von erstellt wurde Rohan Alexander. Durch die Einbeziehung dieser Variablen können unsere Datensätze mit den in diesen beiden Paketen verfügbaren Datensätzen integriert werden. Ebenso haben wir unseren Daten die Variable partyfacts_id hinzugefügt, die es Benutzern ermöglicht, unsere Daten mit externen Datenquellen politischer Parteien mit dieser eindeutigen Kennung zu verknüpfen.

Darüber hinaus ist die in jeder Datei enthaltene Variable name.id eine weitere eindeutige Kennung für jeden MP. Diese Variable wurde direkt aus den Hansard-XML-Dateien geparst und ist im Australian Parliamentary Handbook zu finden. Daher können unsere Datensätze mit denen aus dem ausPH-Paket integriert werden, das Datensätze für Inhalte des Australian Parliamentary Handbook bereitstellt. Dies ermöglicht die bequeme Extraktion weiterer Details zu jedem MP in einem übersichtlichen, analysebereiten Format.

Schließlich enthält die README-Datei in unserem GitHub-Repository und auf Zenodo Beispielcode zum Einlesen einer Datei aus unserer Datenbank, sowohl für CSV- als auch für Parquet-Formate. Sollte ein Benutzer das einzelne Hansard-Korpus anstelle einzelner Sitztagsdateien verwenden möchten, stellen wir Beispielcode zum Einlesen, zum Filtern nach den interessierenden Sitztagen und zum Aufteilen in verschiedene Datenrahmen bereit. Wir haben auch Beispielcode zum Herausfiltern von Regieanweisungen und zum Aktualisieren der Reihenfolgenvariablen hinzugefügt, um die Reihenfolge der verbleibenden Zeilen widerzuspiegeln, falls der Benutzer Regieanweisungen aus seiner Analyse entfernen möchte. Schließlich enthält die README-Datei Beispielcode, der Benutzern zeigt, wie sie die Debattenthemendaten mit einer Hansard-Datendatei für einen Sitzungstag zusammenführen.

Der zum Erstellen dieser Datenbank geschriebene Code ist im GitHub-Repository verfügbar, das zu diesem Artikel gehört (https://github.com/lindsaykatz/hansard-proj). Alle Skripte wurden mit R-Software21 erstellt. Die zur Entwicklung dieser Skripte verwendeten Kernpakete sind: das XML-Paket15, das xml2-Paket16, die Tidyverse-R-Pakete22, das AustralianPoliticians-Paket9 und das ausPH-Paket. XML und xml2 wurden zum Parsen der XML-Dokumente verwendet, AustralianPoliticians und ausPH wurden zum Bereinigen und Ausfüllen von MP-Details in den Datensätzen verwendet, und in allen Schritten wurden Tidyverse-Pakete verwendet, um die Daten sauber zu verarbeiten.

Commonwealth von Australien. Parlamentsdebatten, Repräsentantenhaus. (2023).

Vice, J. & Farrell, S. Die Geschichte von Hansard. (House of Lords Library; House of Lords Hansard, 2017).

Beelen, K. et al. Digitalisierung der kanadischen Parlamentsdebatten. Canadian Journal of Political Science/Revue canadienne de science politique 50, 849–864 (2017).

Artikel Google Scholar

Erjavec, T. et al. Language Resources and Evaluation 57, 415–448, Die ParlaMint-Korpora parlamentarischer Verfahren (2022).

Artikel PubMed PubMed Central Google Scholar

Rauh, C. & Schwalbach, J. Der ParlSpeech V2-Datensatz: Volltextkorpora von 6,3 Millionen Parlamentsreden in den wichtigsten gesetzgebenden Kammern von neun repräsentativen Demokratien. https://doi.org/10.7910/DVN/L4OAKN (2020).

Sylvester, C., Ershova, A., Khokhlova, A., Yordanova, N. & Greene, Z. ParlEE-Plenarreden V2-Datensatz: Kommentierter Volltext von 15,1 Millionen Plenarreden auf Satzebene von sechs gesetzgebenden Kammern der EU. Harvard Dataverse https://doi.org/10.7910/DVN/VOPK0E (2023).

Kartalis, Y. & Costa Lobo, M. MAPLE Parlamentarische Datensätze: Volltexte und kommentierte Korpora parlamentarischer Reden in den Parlamenten von sechs europäischen Demokratien. https://doi.org/10.7910/DVN/9MN0RL (2021).

Repräsentantenhaus. Praxis des Repräsentantenhauses (Australische Regierung – Abteilung des Repräsentantenhauses, 2018).

Alexander, R. & Hodgetts, PA AustralianPoliticians: Stellt Datensätze über australische Politiker bereit. (2021).

Dowding, K., Leslie, P. & Taflaga, M. Australien. in The Politics of Legislative Debates 130–151. https://doi.org/10.1093/oso/9780198849063.003.0008 (Oxford University Press, 2021).

Salisbury, C. „Herr Sprecher, ich ziehe mich zurück…“: Standards für (Fehl-)Verhalten in den Parlamenten von Queensland, Westaustralien und Commonwealth im Vergleich über Online-Hansard. Australasian Parliamentary Review 26, 166–177 (2011).

Google Scholar

Rasiah, P. Ein Rahmen für die systematische Analyse der Umgehung im parlamentarischen Diskurs. Journal of Pragmatics 42, 664–680 (2010).

Artikel Google Scholar

Fraussen, B., Graham, T. & Halpin, DR Bewertung der Bedeutung von Interessengruppen im Parlament: ein überwachter Ansatz des maschinellen Lernens. The Journal of Legislative Studies 24, 450–474 (2018).

Artikel Google Scholar

Alexander, R. & Alexander, M. Die verstärkte Wirkung von Wahlen und wechselnden Premierministern auf Themen, die zwischen 1901 und 2018 im australischen Bundesparlament diskutiert wurden. arXiv-Vorabdruck arXiv:2111.09299 (2021).

Temple Lang, D. XML: Tools zum Parsen und Generieren von XML in R und S-Plus. (2022).

Wickham, H., Hester, J. & Ooms, J. xml2: XML analysieren. (2021).

Wickham, H. Tidy Data. Journal of Statistical Software 59, (2014).

Repräsentantenhaus. Ein Fenster zum Haus: Praktiken und Verfahren im Zusammenhang mit der Fragestunde. (Australisches Parlament, 2021).

Katz, L. & Alexander, R. Eine neue, umfassende Datenbank aller Verfahren der australischen Parlamentsdebatten (1998–2022). Zenodo https://doi.org/10.5281/zenodo.7336075 (2023).

Parlament von Australien. Infoblatt 22 – Politische Parteien. Infoblätter des Repräsentantenhauses (2022).

R-Kernteam. R: Eine Sprache und Umgebung für statistische Berechnungen. (R Foundation for Statistical Computing, 2022).

Wickham, H. et al. Willkommen im Tidyverse. Journal of Open Source Software 4, 1686 (2019).

Referenzen herunterladen

Wir danken Kristine Villaluna, Monica Alexander und Jack Stephenson für hilfreiche Kommentare. Wir möchten uns insbesondere bei Guy Jones, Chefredakteur, den beiden anonymen Gutachtern und dem Redaktionsmitglied Michael Jankowski für ihre Kommentare bedanken.

Universität von Toronto, Toronto, Kanada

Lindsay Katz und Rohan Alexander

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

LK entwickelte und implementierte den Code zum Abrufen, Erstellen und Testen der Datensätze und verfasste den ersten Entwurf des Papiers. RA konzipierte und gestaltete die Studie und trug zum Schreiben bei. Beide Autoren stimmten der endgültigen Fassung zu.

Korrespondenz mit Lindsay Katz oder Rohan Alexander.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative-Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Katz, L., Alexander, R. Digitalisierung der australischen Parlamentsdebatten, 1998–2022. Sci Data 10, 567 (2023). https://doi.org/10.1038/s41597-023-02464-w

Zitat herunterladen

Eingegangen: 04. Mai 2023

Angenommen: 11. August 2023

Veröffentlicht: 26. August 2023

DOI: https://doi.org/10.1038/s41597-023-02464-w

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt