Philipp Horstenkamp 01b4ce00c1
Spellchecking with PyCharm (#133)
Co-authored-by: KM-R <129882581+KM-R@users.noreply.github.com>
2023-10-02 20:47:42 +02:00

6.3 KiB

Weekly 4: 11.05.2023

Teilnehmer

  • Prof. Arinir
  • Tristan Nolde
  • Tim Ronneburg
  • Philipp Horstenkamp
  • Kim Mesewinkel-Risse
  • Sascha Zhu
  • Sebastian Zeleny

Themen

Organisatorische Absprachen zum Umfang und Inhalt der Seminararbeit:

  • Herr Arinir wird sich nochmal wegen des Umfangs der Seminararbeit bei unserer Gruppe melden
  • In der Seminararbeit sollen Anforderungen und Lösungsskizzen für das Projekt "Transparenzregister" dargestellt werden.
  • Die Seminararbeit soll aus einem theoretischen Teil und einem praktischen Teil, in dem der praktische Nutzen für das Projekt "Transparenzregister" erörtert wird, bestehen; ob das Verhältnis zwischen dem theoretischen und praktischen Teil bei 50:50 oder 40:60 liegt, darüber können die Verfasser der Seminararbeit selbst entscheiden
  • Der Fokus der Seminararbeit soll stets danach ausgerichtet werden, wie die entsprechenden Aspekte bzw. die entsprechenden Technologien für das Projekt "Transparenzregister" genutzt werden können.

Vorstellung des Abstracts der Seminararbeit zu "Dev Ops" (Philipp Horstenkamp):

Abstract siehe Datei in github.

Folgende Punkte wurden bei bzw. nach der Vorstellung des Abstracts diskutiert:

  • Eine sehr straffe Pipeline, die für Seriensoftware in Ordnung wäre, könnte uns für unser Projekt zu sehr „fesseln“ bzw. einschränken.
  • Es wäre zu überlegen, ob die Software-Entwicklung, wie diese früher ablief, mit der Software-Entwicklung von heute ( u.a. mit den Automatisierungsmöglichkeiten von heute) gegenübergestellt werden soll, um daraus zunächst eine Strategie für unser Projekt zu entwickeln, bevor man sich vertieft mit DevOps beschäftigt
  • Die Verwendung von CI/CD (Continuous Integration/Continuous Delivery)-Pipelines für KI-Projekte wäre ein interessantes Thema.

Vorstellung des Abstracts der Seminararbeit zu "Automatisierte Datenextraktion aus Internetquellen als Grundlage für die Analyse von Kapitalgesellschaften" (Tristan Nolde):

Abstract siehe Datei in github.

Folgende Punkte wurden bei bzw. nach der Vorstellung des Abstracts diskutiert:

  • Pros und Cons von WebScraping gegenüber RSS-Feeds und gegenüber der API-Lösung sollen dargestellt werden
  • Die Quelle E-Mail-Newsletter (z.B. vom Handelsblatt) könnte ebenfalls interessant sein, jedoch muss hierfür möglicherweise ein separater E-Mail-Account erstellt werden, was eher aufwändig ist
  • Es wäre eventuell zu prüfen, ob auch Daten aus LinkedIn API, XING oder Facebook extrahiert werden könnten.

Vorstellung des Abstracts der Seminararbeit zu "Datenspeicherung" (Sebastian Zeleny):

Abstract siehe Datei in github.

Folgende Punkte wurden bei bzw. nach der Vorstellung des Abstracts diskutiert:

  • Bei der Wahl der Datenbank müssen verschiedene Anforderungen berücksichtigt werden, mit hohem Abstimmungsbedarf zwischen den Topics "Datenextraktion" und "Datenvisualisierung"

  • Herr Prof. Arinir fragte noch, ob wir das Thema "relationale Datenbanken" als Modul behandelt haben. Dies wurde bejaht, insbesondere SQL Datenbanken und SQL queries waren Gegenstand des Moduls "Datenbankprogrammierung"

Vorstellung des Abstracts der Seminararbeit zu "Verflechtungsanalyse" (Tim Ronneburg):

Abstract siehe Datei in github.

Folgende Punkte wurden bei bzw. nach der Vorstellung des Abstracts diskutiert:

  • Beim Social Graph wäre zu überlegen, nicht nur Beziehungen zwischen Unternehmen via Personen (z.B. Wirtschaftsprüfer), sondern auch Beziehungen zwischen Unternehmen via Kooperationspartner (Stiftungen, Unis, Forschungsinstitute) bzw. Eigentums-, Kunden- und Lieferbeziehungen darzustellen

  • Beim Social Graph wäre zu überlegen, ob man nach Art der Beziehung filtern könnte

Vorstellung des Abstracts der Seminararbeit zu "Text Mining" (Sascha Zhu):

Abstract siehe Datei in github.

Folgende Punkte wurden bei bzw. nach der Vorstellung des Abstracts diskutiert:

  • Bei den Sentiment-Analyse-Tools wie FinBERT oder VADER wäre stets eine maschinelle Übersetzung der deutschen Nachrichtentexte ins Englische erforderlich, da FinBERT oder VADER keine deutschen Texte erkennen können
  • Die Generierung von Ontologien ist zu komplex und soll nicht Gegenstand der Projektarbeit sein
  • Bei der semantischen Textanalyse wäre empfehlenswert, dass dies über "Einzel-Personen" ausgeführt wird (das wäre dann ein Punkt im Graphen)
  • Das Thema "Named Entity Recognition" wird für die Projektarbeit eine hohe Bedeutung haben

Vorstellung des Abstracts der Seminararbeit zu "Datenvisualisierung" (Kim Mesewinkel-Risse):

Abstract siehe Datei in github.

Folgende Punkte wurden bei bzw. nach der Vorstellung des Abstracts diskutiert:

  • Bei der Datenvisualisierung wäre zu überlegen, dass man sich nur auf Python-Bibliotheken beschränkt
  • Die Datenabfrage könnte über SQL oder Spark laufen, eine Schnittstelle zwischen dem Speicher und dem Front-End wird benötigt
  • Zwischen Daten und der Datenvisualisierung werden eventuell Zwischen-Caches benötigt
  • Bezüglich der Frage nach der „Middleware“: Wenn Plotly oder Plotly Dash verwendet wird, wird keine Middleware benötigt, da dies schon eingebaut ist.

Feedback von Herrn Prof. Arinir:

  • Es scheint noch kein Gesamtkonzept für das Gewerk vorzuliegen.
  • Wir sollten uns die Frage stellen: Was soll am Ende für "ein brauchbares Stück Software" herauskommen, damit der Anwender mit der Vielzahl von Informationen und Funktionen zurechtkommt.
  • Eine Lösungsskizze muss definiert werden, wobei ein Pflichtenheft jetzt noch nicht erforderlich ist
  • Es sollen zunächst einige GUI-Designs (mit einem Muster-Datensatz) entwickelt werden.
  • Pros und Cons zwischen einem Wasserfallmodell (Pflichtenheft mit bis zu 1000 Seiten) und der agilen Modellierung sollen berücksichtigt werden.
  • Wie sollen die Verflechtungen eingebaut werden?
  • Wie sollen die Daten persistiert werden?
  • Es wäre empfehlenswert, mit irgendetwas (d.h. einer kleinen Lösung) anzufangen, dann das Ergebnis anzuschauen, und diese kontinuierlich zu verbessern.

Abgeleitete Action Items

Action Item Verantwortlicher Deadline
GUI Designs Alle nächstes Weekly
Rückmeldung zum Umfang der Seminararbeit Prof. Arinir nächstes Weekly

Aktueller Projektstand