mirror of
https://github.com/fhswf/aki_prj23_transparenzregister.git
synced 2025-04-22 22:12:53 +02:00
Merge pull request #42 from fhswf/feature/abstract-data-extraction
Feature/abstract data extraction
This commit is contained in:
commit
d493fd0978
@ -6,10 +6,9 @@ This is the documentation for the AKI project group on the german transparenzreg
|
||||
|
||||
.. toctree::
|
||||
:maxdepth: 3
|
||||
:caption: Project planung
|
||||
:caption: Project Management
|
||||
|
||||
Pflichtenheft
|
||||
timeline.md
|
||||
project_management/*
|
||||
|
||||
.. toctree::
|
||||
:glob:
|
||||
@ -24,15 +23,20 @@ This is the documentation for the AKI project group on the german transparenzreg
|
||||
:caption: Research
|
||||
|
||||
research/*
|
||||
research/*.ipynb
|
||||
|
||||
.. toctree::
|
||||
:glob:
|
||||
:maxdepth: 0
|
||||
:maxdepth: 3
|
||||
:caption: Seminararbeiten
|
||||
|
||||
seminararbeiten/DevOps/Seminarpräsentation.ipynb
|
||||
seminararbeiten/Datenspeicherung/00_Datenspeicherung.md
|
||||
seminararbeiten/*
|
||||
|
||||
.. toctree::
|
||||
:glob:
|
||||
:maxdepth: 1
|
||||
:caption: UI Mock Ups
|
||||
|
||||
mock_up/*
|
||||
|
||||
.. toctree::
|
||||
:glob:
|
||||
|
Before Width: | Height: | Size: 3.3 MiB After Width: | Height: | Size: 3.3 MiB |
@ -1,18 +1,18 @@
|
||||
### Action List "Datenspeicherung
|
||||
## Action List "Datenspeicherung
|
||||
|
||||
- [x] Erstelle ein relationales Schema für Unternehmens- und Finanzdaten, bei welchem die Jahre berücksichtigt werden
|
||||
- [x] Erstelle ein relationales Schema für Unternehmens- und Finanzdaten, bei welchem die Jahre berücksichtigt werden
|
||||
- [x] Erstelle docker-compose für postgresgl, pgadmin, neo4j
|
||||
- [x] Erstelle eine Kurzanleitung für die Handhabung von Docker
|
||||
- [x] erstelle Jupyter Notebook zum Verbinden mit Datenbank und Anlegen von Tabellen
|
||||
- [x] Recherchiere nach den 10 größten deutschen Unternehmen und ermittel Finanzdaten (Umsatz, Ebit, Ebitda)
|
||||
- [x] Recherchiere nach den 10 größten deutschen Unternehmen und ermittel Finanzdaten (Umsatz, Ebit, Ebitda)
|
||||
- [x] Erstelle ein Jupyter Notebook um diese Daten in die Datenbank zu übertragen
|
||||
- [x] Erstelle ein Jupyter Notebook, um die Daten abzufragen
|
||||
- [x] Erstelle ein Schema für Stimmungsdaten
|
||||
- [x] Erstelle ein Schema für Verflechtungen
|
||||
- [ ] Erzeuge Beispieldaten für Stimmung
|
||||
- [x] Erzeuge Beispieldaten für Verflechtung
|
||||
- [ ] Erstelle eine Prototypen GUI in Mercury zur einfachen Abfrage von Daten
|
||||
- [ ] Verwende SQLalchemy, um eine Verbindung zur Datenbank aufzubauen, Tabellen anzulegen und Daten zu schreiben -->
|
||||
- [ ] Erstelle eine Prototypen GUI in Mercury zur einfachen Abfrage von Daten
|
||||
- [ ] Verwende SQLalchemy, um eine Verbindung zur Datenbank aufzubauen, Tabellen anzulegen und Daten zu schreiben -->
|
||||
- [x] Ersetze den enumeration type in den Finanzdaten gegen einzelne (eindeutig bezeichnete) Spalten
|
||||
- [x] Lade das DB Schema hoch, um es den anderen Teammitgliedern bereitzustellen
|
||||
- [ ]
|
||||
- [ ]
|
||||
|
@ -10,7 +10,7 @@
|
||||
- Minimalbeispiele
|
||||
- Anwendung auf unser Projekt:
|
||||
- Vergleich der Bibliotheken mit Blick auf unsere drei Anwendungsbereiche
|
||||
- Welche Daten werden für die einzelnen Diagramme gebraucht?
|
||||
- Welche Daten werden für die einzelnen Diagramme gebraucht?
|
||||
- Welche Ideen/Anforderungen ergeben sich an die anderen Themenbereiche?
|
||||
- Fazit und Handlungsempfehlung
|
||||
- Welche Diagramme und welche Bibliotheken eignen sich für uns?
|
||||
@ -40,8 +40,3 @@ Kennzahlen:
|
||||
Best Practice:
|
||||
- [Science Direct](https://www.sciencedirect.com/science/article/pii/S2666389920301896)
|
||||
- [Toptal](https://www.toptal.com/designers/data-visualization/data-visualization-best-practices)
|
||||
|
||||
|
||||
|
||||
|
||||
|
@ -1,4 +1,4 @@
|
||||
**Abstract/Planung der Seminararbeit zu "Text Mining"**
|
||||
# Abstract/Planung der Seminararbeit zu "Text Mining
|
||||
|
||||
**Sascha Zhu**
|
||||
|
||||
@ -6,7 +6,7 @@
|
||||
|
||||
|
||||
|
||||
Gliederung
|
||||
## Gliederung
|
||||
|
||||
1. Einleitung und Begriffsbestimmung
|
||||
|
||||
@ -32,14 +32,14 @@ Gliederung
|
||||
|
||||
|
||||
|
||||
Die Seminararbeit zu "Text Mining" soll in die oben genannten sechs Abschnitte gegliedert werden.
|
||||
Die Seminararbeit zu "Text Mining" soll in die oben genannten sechs Abschnitte gegliedert werden.
|
||||
|
||||
Nach einer Einleitung, in der der Begriff "Text Mining" näher definiert wird und gegenüber "Data Mining" und "Computational Linguistics" abgegrenzt wird, folgt der zweite Abschnitt zum Text Mining Prozess, der nach Hippner u. Rentzmann (2006) in die folgenden sechs Schritte eingeteilt wird: (a) Aufgabendefinition; (b) Dokumentenselektion; (c) Dokumentenaufbereitung; (d) Untersuchung mit Text-Mining-Methoden; (e) Interpretation und Evaluation; (f) Anwendung der Ergebnisse.
|
||||
Nach einer Einleitung, in der der Begriff "Text Mining" näher definiert wird und gegenüber "Data Mining" und "Computational Linguistics" abgegrenzt wird, folgt der zweite Abschnitt zum Text Mining Prozess, der nach Hippner u. Rentzmann (2006) in die folgenden sechs Schritte eingeteilt wird: (a) Aufgabendefinition; (b) Dokumentenselektion; (c) Dokumentenaufbereitung; (d) Untersuchung mit Text-Mining-Methoden; (e) Interpretation und Evaluation; (f) Anwendung der Ergebnisse.
|
||||
|
||||
Im darauffolgenden dritten Abschnitt zur Verwendung von NLP-Methoden für das Text Mining werden die drei Phasen des Natural Language Processings (NLP), d.h. die morphologische, syntaktische und semantische Textanalyse, näher dargestellt, wobei der Schwerpunkt auf die semantische Analysetechniken wie z.B. "Word Sense Disambiguation" (WSD) und "Named Entity Recognition" (NED) liegen soll.
|
||||
Im darauffolgenden dritten Abschnitt zur Verwendung von NLP-Methoden für das Text Mining werden die drei Phasen des Natural Language Processings (NLP), d.h. die morphologische, syntaktische und semantische Textanalyse, näher dargestellt, wobei der Schwerpunkt auf die semantische Analysetechniken wie z.B. "Word Sense Disambiguation" (WSD) und "Named Entity Recognition" (NED) liegen soll.
|
||||
|
||||
Der vierte Abschnitt soll sich dem Thema "Ontologien und Text Mining" widmen. Einerseits können Ontologien, die domänenspezifisches Wissen abbilden, als Grundlage für NLP-Methoden dienen, um etwa die semantische Textanalyse zu verbessern. Andererseits können mittels Text Mining automatisch bzw. semi-automatisch Ontologien als Repräsentation der Text-Mining-Ergebnisse erstellt werden ("ontology generation"/"ontology learning").
|
||||
|
||||
Im vorletzten, fünften Analyse soll die Sentiment-Analyse als Teilgebiet des Text Mining durchleuchtet werden. Dieser Abschnitt soll den Schwerpunkt der gesamten Seminararbeit darstellen. Die Methodik, Funktionsweise, Varianten und Use Cases der Sentiment Analyse sollen anhand ausgewählter Beispiele erläutert werden. Zudem sollen auch bekannte Sentiment-Analyse-Tools wie z.B. FinBERT, VADER, SentiWS etc. näher beschrieben werden.
|
||||
|
||||
Am Ende der Seminararbeit soll der sechste Abschnitt eine Zusammenfassung liefern und einen Ausblick darüber geben, in welche Richtung die zukünftige Entwicklung auf dem Gebiet des Text Minings gehen wird.
|
||||
Am Ende der Seminararbeit soll der sechste Abschnitt eine Zusammenfassung liefern und einen Ausblick darüber geben, in welche Richtung die zukünftige Entwicklung auf dem Gebiet des Text Minings gehen wird.
|
@ -39,10 +39,10 @@
|
||||
|
||||
## Abstract
|
||||
|
||||
In der Seminararbeit zum Thema: "Verpflechtungsanalyse der Unternehmen und Personen im Transparenzregister" soll einerseits die Theorie für die Analyse von Verflechtungen vermittelt sowie anhand des Projektess aufgezeigt werden wie diese angewendet werden kann.
|
||||
In der Seminararbeit zum Thema: "Verpflechtungsanalyse der Unternehmen und Personen im Transparenzregister" soll einerseits die Theorie für die Analyse von Verflechtungen vermittelt sowie anhand des Projektess aufgezeigt werden wie diese angewendet werden kann.
|
||||
|
||||
Als Fundament dient die Graphentheorie, welche Grundlegen für die Analyse von Netzstrukturen ist. Zunächst werden die wichtigsten Begriffe definiert und es wird eine Einführung ins Thema der Graphentheorie mit Beispielen und Erläuterung gegeben. Darauffolgend wird tiefer in das Thema eingetaucht und sich mit dem Bereich Sociogram/ Social Graph auseinandergesetzt. Ein Sociogram ist ein Model eines Netzwerks von sozialen Verbindungen die durch einen Graphen repräsentiert werden. Diese Idee wurde 2007 von Facebook als Social Graph in der F8 vorgestellt. Diese Art von Graph basiert auf der Graphentheorie. Die stärken dieses Graphen liegen in der Veranschaulichung der sozialen Verflechtungen. Daher wird der Social Graph für die Analyse der Verflechtungen innerhalb des Transparenzregisters genutzt.
|
||||
|
||||
Im Hauptteil der Seminararbeit wird aufgezeigt wie der Social Graph auf das Transparenzregister angewendet werden könnte. Es wird gezeigt welche Komponenten gebildet werden müssten und wie die Daten aufbereitet werden um einen Social graph bauen zu können. Des Weiteren wird auf die Formel und Algorithmen eingegangen die zur Erstellung des Graphen nötig sind. Dabei orientiert sich die Arbeit an Beispielen um die Theorie nachvollziebar zu vermitteln. Dieser Abschnitt wird mit einer Handlungsempfehlung für das Projekt abgeschlossen.
|
||||
|
||||
Abgeschlossen wird das Werk mit einer kritischen Reflexion, gefolgt von einem Fazit und einem Ausblick.
|
||||
Abgeschlossen wird das Werk mit einer kritischen Reflexion, gefolgt von einem Fazit und einem Ausblick.
|
Loading…
x
Reference in New Issue
Block a user