Files
aki_prj23_transparenzregister/html/seminararbeiten/Abstract_Data_Extraction.html
2023-06-20 13:48:13 +00:00

168 lines
8.7 KiB
HTML

<!DOCTYPE html>
<html class="writer-html5" lang="en" >
<head>
<meta charset="utf-8" /><meta name="generator" content="Docutils 0.18.1: http://docutils.sourceforge.net/" />
<meta name="viewport" content="width=device-width, initial-scale=1.0" />
<title>Abstract: Automatisierte Daten Extraktion aus Internetquellen als Grundlage für die Analyse von Kapitalgesellschaften &mdash; transparenzregister 0.1.0 documentation</title>
<link rel="stylesheet" href="../_static/pygments.css" type="text/css" />
<link rel="stylesheet" href="../_static/css/theme.css" type="text/css" />
<link rel="stylesheet" href="../_static/copybutton.css" type="text/css" />
<!--[if lt IE 9]>
<script src="../_static/js/html5shiv.min.js"></script>
<![endif]-->
<script src="../_static/jquery.js"></script>
<script src="../_static/_sphinx_javascript_frameworks_compat.js"></script>
<script data-url_root="../" id="documentation_options" src="../_static/documentation_options.js"></script>
<script src="../_static/doctools.js"></script>
<script src="../_static/sphinx_highlight.js"></script>
<script src="../_static/clipboard.min.js"></script>
<script src="../_static/copybutton.js"></script>
<script src="../_static/js/theme.js"></script>
<link rel="index" title="Index" href="../genindex.html" />
<link rel="search" title="Search" href="../search.html" />
</head>
<body class="wy-body-for-nav">
<div class="wy-grid-for-nav">
<nav data-toggle="wy-nav-shift" class="wy-nav-side">
<div class="wy-side-scroll">
<div class="wy-side-nav-search" >
<a href="../index.html" class="icon icon-home">
transparenzregister
</a>
<div class="version">
0.1.0
</div>
<div role="search">
<form id="rtd-search-form" class="wy-form" action="../search.html" method="get">
<input type="text" name="q" placeholder="Search docs" aria-label="Search docs" />
<input type="hidden" name="check_keywords" value="yes" />
<input type="hidden" name="area" value="default" />
</form>
</div>
</div><div class="wy-menu wy-menu-vertical" data-spy="affix" role="navigation" aria-label="Navigation menu">
<p class="caption" role="heading"><span class="caption-text">Project planing</span></p>
<ul>
<li class="toctree-l1"><a class="reference internal" href="../Pflichtenheft.html">Pflichtenheft: Kapitalgesellschaften referenzregister</a></li>
<li class="toctree-l1"><a class="reference internal" href="../timeline.html">Timeline</a></li>
</ul>
<p class="caption" role="heading"><span class="caption-text">Meeting Notes:</span></p>
<ul>
<li class="toctree-l1"><a class="reference internal" href="../meeting-notes/Meeting_2023-03-30.html">Weekly <em>1</em>: 30.03.2023</a></li>
<li class="toctree-l1"><a class="reference internal" href="../meeting-notes/Meeting_2023-04-13.html">Weekly <em>2</em>: 13.04.2023</a></li>
<li class="toctree-l1"><a class="reference internal" href="../meeting-notes/Meeting_2023-05-04.html">Weekly <em>3</em>: 04.05.2023</a></li>
<li class="toctree-l1"><a class="reference internal" href="../meeting-notes/Meeting_2023-05-11.html">Weekly <em>4</em>: 11.05.2023</a></li>
<li class="toctree-l1"><a class="reference internal" href="../meeting-notes/Meeting_2023_05-25.html">Weekly <em>5</em>: 25.05.2023</a></li>
</ul>
<p class="caption" role="heading"><span class="caption-text">Research</span></p>
<ul>
<li class="toctree-l1"><a class="reference internal" href="../research/RE_Vom-Problem-zur-Loesung.html">Von der Problemstellung zum Lösungskonzept</a></li>
<li class="toctree-l1"><a class="reference internal" href="../research/data_and_metrics.html">Daten und Kennzahlen von Unternehmen</a></li>
<li class="toctree-l1"><a class="reference internal" href="../research/data_and_metrics.html#fazit">Fazit</a></li>
<li class="toctree-l1"><a class="reference internal" href="../research/news_apis.html">Nachrichtenquellen</a></li>
<li class="toctree-l1"><a class="reference internal" href="../research/resarch-central.html">Research Central</a></li>
</ul>
<p class="caption" role="heading"><span class="caption-text">Modules</span></p>
<ul>
<li class="toctree-l1"><a class="reference internal" href="../modules.html">aki_prj23_transparenzregister</a></li>
</ul>
</div>
</div>
</nav>
<section data-toggle="wy-nav-shift" class="wy-nav-content-wrap"><nav class="wy-nav-top" aria-label="Mobile navigation menu" >
<i data-toggle="wy-nav-top" class="fa fa-bars"></i>
<a href="../index.html">transparenzregister</a>
</nav>
<div class="wy-nav-content">
<div class="rst-content">
<div role="navigation" aria-label="Page navigation">
<ul class="wy-breadcrumbs">
<li><a href="../index.html" class="icon icon-home" aria-label="Home"></a></li>
<li class="breadcrumb-item active">Abstract: Automatisierte Daten Extraktion aus Internetquellen als Grundlage für die Analyse von Kapitalgesellschaften</li>
<li class="wy-breadcrumbs-aside">
<a href="../_sources/seminararbeiten/Abstract_Data_Extraction.md.txt" rel="nofollow"> View page source</a>
</li>
</ul>
<hr/>
</div>
<div role="main" class="document" itemscope="itemscope" itemtype="http://schema.org/Article">
<div itemprop="articleBody">
<section id="abstract-automatisierte-daten-extraktion-aus-internetquellen-als-grundlage-fur-die-analyse-von-kapitalgesellschaften">
<h1>Abstract: Automatisierte Daten Extraktion aus Internetquellen als Grundlage für die Analyse von Kapitalgesellschaften<a class="headerlink" href="#abstract-automatisierte-daten-extraktion-aus-internetquellen-als-grundlage-fur-die-analyse-von-kapitalgesellschaften" title="Permalink to this heading"></a></h1>
<section id="gliederung">
<h2>Gliederung<a class="headerlink" href="#gliederung" title="Permalink to this heading"></a></h2>
<ol class="arabic simple">
<li><p>Einleitung (Zielsetzung/Problemstellung, Vorgehen)</p></li>
<li><p>Web Scraping/Crawling</p>
<ol class="arabic simple">
<li><p>Definition und Theorie</p></li>
<li><p>Technologien</p></li>
<li><p>Umsetzung</p></li>
</ol>
</li>
<li><p>RSS Feeds</p>
<ol class="arabic simple">
<li><p>Definition und Theorie</p></li>
<li><p>Technologien</p></li>
<li><p>Umsetzung</p></li>
</ol>
</li>
<li><p>APIs</p>
<ol class="arabic simple">
<li><p>Definition und Theorie</p></li>
<li><p>Technologien</p></li>
<li><p>Umsetzung</p></li>
</ol>
</li>
<li><p>Rechtliche Rahmenbedingungen</p></li>
<li><p>Vergleich der Lösungsansätze</p></li>
<li><p>Zusammenfassung</p></li>
</ol>
</section>
<section id="inhalt">
<h2>Inhalt<a class="headerlink" href="#inhalt" title="Permalink to this heading"></a></h2>
<p>In Zeiten von Big Data und AI stellen Daten und ihre Verfügbarkeit zunehmend eines der wichtigsten Wirtschaftsgüter dar. Als solches können sie auch eingesetzt werden, um Kapitalgesellschaften (eine Subklasse von Unternehmen) anhand verschiedener Kennzahlen wie der Mitarbeiterzahl oder dem Jahresgewinn zu analysieren. Obwohl solche Daten zu Genüge in Zeitungsartikeln, Newslettern oder dedizierten Aktienanalysen zu finden sind, so gestaltet sich eine automatisierte Extraktion dieser Daten aufgrund verschiedener Formate sowie weiterer Restriktionen schwierig.</p>
<p>Daher sollen im Rahmen dieser Seminararbeit verschiedene Wege betrachtet werden, die eben diese Daten erheben und zur Verfügung stellen können. Zu den nennenswerten Quellen gehören: Der Bundesanzeiger, RSS Feeds, Nachrichten APIs. Ziel ist es, aus diesen Quellen wertvolle Informationen bezogen auf den wirtschaftlichen Erfolg einer Kapitalgesellschaft sowie aktueller Nachrichten zu extrahieren und in ein einheitliches Format zu überführen.</p>
<p>Neben des technischen Einsatzes von Web Scraping/Crawling, um Informationen aus Webseiten zu gewinnen, sowie des Abfragens verfügbarer APIs soll auch der rechltiche Aspekt dieser Vorgehens Berücksichtigung finden, um die Rechtmäßigkeit zu bewerten.</p>
<p>Abschließend wird der Einsatz der verschiedenen Technologien an den Faktoren: Flexibilität, Simplizität, Verfügbarkeit und Rechtmäßigkeit, ein Fazit gezogen sowie ein Ausblick des weiteren Einsatzes gegeben.</p>
</section>
</section>
</div>
</div>
<footer>
<hr/>
<div role="contentinfo">
<p>&#169; Copyright 2023, AKI PRJ23.</p>
</div>
Built with <a href="https://www.sphinx-doc.org/">Sphinx</a> using a
<a href="https://github.com/readthedocs/sphinx_rtd_theme">theme</a>
provided by <a href="https://readthedocs.org">Read the Docs</a>.
</footer>
</div>
</div>
</section>
</div>
<script>
jQuery(function () {
SphinxRtdTheme.Navigation.enable(true);
});
</script>
</body>
</html>