Saturday, September 29, 2018

Unstrukturierte Daten - Wikipedia


Unstrukturierte Daten (oder unstrukturierte Informationen ) sind Informationen, die entweder kein vordefiniertes Datenmodell haben oder nicht auf vordefinierte Weise organisiert sind. Unstrukturierte Informationen sind normalerweise textlastig, können jedoch auch Daten wie Datumsangaben, Zahlen und Fakten enthalten. Dies führt zu Unregelmäßigkeiten und Unklarheiten, die das Verständnis herkömmlicher Programme im Vergleich zu Daten, die in Felddaten in Datenbanken gespeichert oder in Dokumenten kommentiert (semantisch markiert) sind, schwierig machen.

1998 zitierte Merrill Lynch eine Daumenregel, wonach etwa 80-90% aller potenziell verwendbaren Geschäftsinformationen in unstrukturierter Form entstehen könnten. [1] Diese Daumenregel basiert nicht auf primärer oder quantitativer Forschung, sondern Dennoch wird von einigen akzeptiert. [2] Andere Quellen berichten von ähnlichen oder höheren Prozentsätzen unstrukturierter Daten. [3] [4] [6] [1945651200] ] Ab 2012 prognostizieren IDC und EMC, dass die Daten bis 2020 auf 40 Zettabyte anwachsen werden, was ab Anfang 2010 zu einem 50-fachen Wachstum führen wird. [6] In jüngerer Zeit prognostizieren IDC und Seagate die globale Datensphäre bis 2025 auf 163 Zettabyte anwachsen [7] und die Mehrheit davon wird unstrukturiert sein.Das Computer World-Magazin gibt an, dass unstrukturierte Informationen möglicherweise mehr als 70% bis 80% aller Daten in Organisationen ausmachen. [1]

Hintergrund edit ]

Der früheste resea In Business Intelligence konzentrierte man sich eher auf unstrukturierte Textdaten als auf numerische Daten. [8] Bereits 1958 hatten Informatikforscher wie H.P. Luhn beschäftigte sich insbesondere mit der Extraktion und Klassifizierung unstrukturierten Textes. [8] Allerdings hat die Technologie erst seit der Jahrhundertwende das Forschungsinteresse eingeholt. Im Jahr 2004 entwickelte das SAS Institute den SAS Text Miner, der mit Hilfe der Singular Value Decomposition (SVD) einen hyperdimensionalen Textraum für eine wesentlich effizientere Maschinenanalyse in kleinere Dimensionen reduziert. [9] Der maschinelle Fortschritt in Mathematik und Technologie Die Textanalyse veranlasste eine Reihe von Unternehmen, Anwendungen zu recherchieren, was zur Entwicklung von Feldern wie Sentiment-Analyse, Voice-of-Customer-Mining und Call-Center-Optimierung führte. [10] Das Aufkommen von Big Data in den späten 2000er Jahren führte zu einem erhöhten Interesse an die Anwendungen der Analyse unstrukturierter Daten in heutigen Bereichen wie Predictive Analytics und Ursachenanalyse. [11]

Probleme mit Terminologie [ edit ]

Der Begriff ist aus mehreren Gründen ungenau:

  1. Struktur ist zwar nicht formal definiert, kann aber immer noch impliziert werden.
  2. Daten mit irgendeiner Form von Struktur können immer noch als unstrukturiert gekennzeichnet werden, wenn ihre Struktur für die vorliegende Verarbeitungsaufgabe nicht hilfreich ist.
  3. Unstrukturierte Informationen könnten vorliegen eine Struktur (halbstrukturiert) oder sogar stark strukturiert sein, aber auf unerwartete oder nicht angekündigte Weise.

Umgang mit unstrukturierten Daten [ edit

Techniken wie Data Mining, natürlich Sprachverarbeitung (NLP) und Textanalyse bieten verschiedene Methoden, um Muster in diesen Informationen zu finden oder auf andere Weise zu interpretieren. Übliche Techniken zum Strukturieren von Text umfassen normalerweise das manuelle Markieren mit Metadaten oder das Markieren von Teilstücken für die weitere Text Mining-basierte Strukturierung. Der UIMA-Standard (Unstructured Information Management Architecture) stellte einen gemeinsamen Rahmen für die Verarbeitung dieser Informationen zur Verfügung, um Bedeutung zu gewinnen und strukturierte Daten über die Informationen zu erstellen. [12]

Software, die eine maschinenverarbeitbare Struktur erstellt, kann die linguistische, auditive und visuelle Struktur, die in allen Formen menschlicher Kommunikation existiert. [13] Algorithmen können diese inhärente Struktur aus Text ziehen, indem sie beispielsweise Wortmorphologie, Satzsyntax und andere klein- und großräumige Muster untersuchen. Unstrukturierte Informationen können dann angereichert und mit Tags versehen werden, um Mehrdeutigkeiten und relevanzbasierte Techniken zu beheben, die dann zur Erleichterung der Suche und Erkennung verwendet werden. Beispiele für "unstrukturierte Daten" können Bücher, Zeitschriften, Dokumente, Metadaten, Gesundheitsakte, Audio, Video, analoge Daten, Bilder, Dateien und unstrukturierter Text sein, wie z. B. der Hauptteil einer E-Mail-Nachricht, einer Webseite oder von Wörtern. Prozessordokument. Während der zu vermittelnde Hauptinhalt keine definierte Struktur hat, kommt er in der Regel in Objekten (z. B. in Dateien oder Dokumenten, ...), die selbst strukturiert sind und daher eine Mischung aus strukturierten und unstrukturierten Daten sind als "unstrukturierte Daten". [14] Beispielsweise wird eine HTML-Webseite mit Tags versehen, aber HTML-Markup dient normalerweise nur zum Rendern. Die Bedeutung oder Funktion von markierten Elementen wird nicht so erfasst, dass eine automatisierte Verarbeitung des Informationsinhalts der Seite möglich ist. Das XHTML-Tagging ermöglicht die maschinelle Verarbeitung von Elementen, obwohl die semantische Bedeutung von markierten Begriffen normalerweise nicht erfasst oder übertragen wird.

Da unstrukturierte Daten in elektronischen Dokumenten häufig vorkommen, wird die Verwendung eines Inhalts- oder Dokumentenverwaltungssystems, mit dem vollständige Dokumente kategorisiert werden können, häufig gegenüber der Datenübertragung und Manipulation innerhalb der Dokumente bevorzugt. Dokumentenmanagement bietet somit die Möglichkeit, Struktur in Dokumentensammlungen zu vermitteln.

Suchmaschinen sind zu beliebten Werkzeugen für das Indizieren und Durchsuchen solcher Daten, insbesondere von Text, geworden.

Ansätze in der Verarbeitung natürlicher Sprache [ edit ]

Es wurden spezifische Computer-Workflows entwickelt, um den unstrukturierten Daten in Textdokumenten eine Struktur aufzuzwingen. Diese Workflows sind im Allgemeinen so konzipiert, dass sie Tausende von Dokumenten oder sogar Millionen von Dokumenten verarbeiten können. Dies ist weit mehr, als manuelle Annäherungsansätze dies zulassen. Einige dieser Ansätze basieren auf dem Konzept der analytischen Online-Verarbeitung (OLAP) und können durch Datenmodelle wie Textwürfel unterstützt werden. [15] Sobald Dokumentmetadaten über ein Datenmodell verfügbar sind, werden Zusammenfassungen von Untermengen von Dokumenten (d. H (Zellen innerhalb eines Textwürfels) können mit auf Phrasen basierenden Ansätzen durchgeführt werden. [16]

Ansätze in der Medizin und biomedizinischen Forschung [ edit

Biomedizinische Forschung erzeugt eine Hauptquelle unstrukturierter Daten Forscher veröffentlichen ihre Erkenntnisse häufig in wissenschaftlichen Zeitschriften. Obwohl die Sprache in diesen Dokumenten herausfordernd ist, Strukturelemente abzuleiten (z. B. aufgrund des komplizierten technischen Vokabulars und des Domänenwissens, das zur vollständigen Kontextualisierung von Beobachtungen erforderlich ist), können die Ergebnisse dieser Aktivitäten Verbindungen zwischen technischen und medizinischen Studien herstellen [19659037] und Hinweise auf neue Krankheitstherapien. [18] Zu den jüngsten Bemühungen um die Durchsetzung von Strukturen auf biomedizinischen Dokumenten gehören selbstorganisierende Kartenansätze zur Identifizierung von Themen zwischen Dokumenten, [19] unüberwachten Algorithmen für allgemeine Zwecke [20] und eine Anwendung des CaseOLAP-Workflows [16] um Zusammenhänge zwischen Proteinnamen und Themen der Herz-Kreislauf-Erkrankungen in der Literatur zu ermitteln. [21] CaseOLAP definiert Phrasen-Kategorie-Beziehungen auf genaue (identifizierte Beziehungen), konsistente (hoch reproduzierbare) und effiziente Weise. Diese Plattform bietet verbesserte Zugänglichkeit und ermöglicht der biomedizinischen Gemeinschaft die Verwendung von Phrasemining-Tools für weit verbreitete biomedizinische Forschungsanwendungen. [21]

Siehe auch [ edit ]

  1. ^ Die heutige Herausforderung in der Regierung: Was tun mit unstrukturierten Informationen und warum nichts zu tun keine Option ist, Noel Yuhanna, Principal Analyst, Forrester Research, Nov. 2010

Referenzen [ edit ]

  1. ^ Shilakes, Christopher C .; Tylman, Julie (16. November 1998). "Enterprise Information Portals" (PDF) . Merrill Lynch .
  2. ^ Grimes, Seth (1. August 2008). "Unstrukturierte Daten und die 80 - Prozent - Regel". Durchbruchanalyse - Brückenpunkte . Clarabridge.
  3. ^ Gandomi, Amir; Haider, Murtaza (April 2015). "Jenseits des Hype: Konzepte, Methoden und Analysen für Big Data". International Journal of Information Management . 35 (2): 137–144. Doi: 10.1016 / j.ijinfomgt.2014.10.007. ISSN 0268-4012.
  4. ^ "Die größten Datenherausforderungen, von denen Sie vielleicht nicht einmal wissen, dass Sie sie haben - Watson". Watson . 2016-05-25 . 2018-10-02 .
  5. ^ "Strukturierte vs. unstrukturierte Daten". www.datamation.com . Abgerufen 2018-10-02 .
  6. ^ "EMC News Pressemitteilung: Neue Studie über ein digitales Universum enthüllt Big Data-Lücke: Weniger als 1% der Weltdaten werden analysiert, weniger als 20% Geschützt". www.emc.com . EMC Corporation. Dezember 2012.
  7. ^ "Trends | Seagate US". Seagate.com . 2018-10-01
  8. ^ a b Grimes, Seth. "Eine kurze Geschichte der Textanalyse". B-Augennetzwerk . 24. Juni 2016 .
  9. ^ Albright, Russ. "Zähmung von Text mit der SVD" (PDF) . SAS . 24. Juni 2016 .
  10. ^ Desai, Manish (2009-08-09). "Anwendungen der Textanalyse". My Business Analytics @ Blogspot . 24. Juni 2016 .
  11. ^ Chakraborty, Goutam. "Analyse unstrukturierter Daten: Anwendungen der Textanalyse und Sentiment Mining" (PDF) . SAS . 24. Juni 2016 .
  12. ^ Holzinger, Andreas; Stocker, Christof; Ofner, Bernhard; Prohaska, Gottfried; Brabenetz, Alberto; Hofmann-Wellenhof, Rainer (2013). "Kombination von HCI, Natural Language Processing und Knowledge Discovery - Potenzial von IBM Content Analytics als unterstützende Technologie auf dem Gebiet der Biomedizin". In Holzinger, Andreas; Pasi, Gabriella. Mensch-Computer-Interaktion und Erkenntnisentdeckung in komplexen, unstrukturierten Big Data . Vorlesungsskript in der Informatik. Springer S. 13–24. doi: 10.1007 / 978-3-642-39146-0_2. ISBN 978-3-642-39146-0.
  13. ^ "Struktur, Modelle und Bedeutung: Sind" unstrukturierte "Daten nur unmodelliert?". Informationswoche . 1. März 2005.
  14. ^ Malone, Robert (5. April 2007). "Strukturierung unstrukturierter Daten". Forbes .
  15. ^ Lin, Cindy Xide; Ding, Bolin; Han, Jiawei; Zhu, Feida; Zhao, Bo (Dezember 2008). Text Cube: Berechnung von IR-Messungen für die Analyse multidimensionaler Textdatenbanken . Achte Internationale IEEE-Konferenz zu Data Mining . IEEE. CiteSeerX 10.1.1.215.3177 . Doi: 10.1109 / icdm.2008.135. ISBN 9780769535029.
  16. ^ a b Tao, Fangbo; Zhuang, Honglei; Yu, Chi Wang; Wang, Qi; Cassidy, Taylor; Kaplan, Lance; Voss, Clare; Han, Jiawei (2016). "Mehrdimensionale, phrasenbasierte Zusammenfassung in Textwürfeln" (PDF) .
  17. ^ Collier, Nigel; Nazarenko, Adeline; Baud, Robert; Ruch, Patrick (Juni 2006). "Neueste Fortschritte in der Verarbeitung natürlicher Sprache für biomedizinische Anwendungen". International Journal of Medical Informatics . 75 (6): 413–417. Doi: 10.1016 / j.ijmedinf.2005.06.008. ISSN 1386-5056. PMID 16139564.
  18. ^ Gonzalez, Graciela H .; Tahsin, Tasnia; Goodale, Britton C .; Greene, Anna C .; Greene, Casey S. (Januar 2016). "Neueste Fortschritte und neue Anwendungen im Text- und Data-Mining für die biomedizinische Entdeckung". Briefings in Bioinformatics . 17 (1): 33–42. doi: 10.1093 / bib / bbv087. ISSN 1477-4054. PMC 4719073 . PMID 26420781.
  19. ^ Skupin, André; Biberstine, Joseph R .; Börner, Katy (2013). "Visualisierung der aktuellen Struktur der medizinischen Wissenschaften: ein selbstorganisierender Kartenansatz". PLOS One . 8 (3): e58779. Doi: 10.1371 / journal.pone.0058779. ISSN 1932-6203. PMC 3595294 . PMID 23554924.
  20. ^ Kiela, Douwe; Guo, Yufan; Stenius, Ulla; Korhonen, Anna (01.04.2015). "Unbeaufsichtigte Entdeckung der Informationsstruktur in biomedizinischen Dokumenten". Bioinformatics . 31 (7): 1084–1092. doi: 10.1093 / bioinformatics / btu758. ISSN 1367-4811. PMID 25411329.
  21. ^ a b Liem, David A .; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H .; Wang, Wei; Ping, Peipei; Han, Jiawei (1. Oktober 2018). "Phrase-Mining von Textdaten zur Analyse extrazellulärer Matrixproteinmuster bei Herz-Kreislauf-Erkrankungen". 19459060 American Journal of Physiology. Herz- und Kreislaufphysiologie . 315 (4): H910-H924. doi: 10.1152 / ajpheart.00175.2018. ISSN 1522-1539. PMID 29775406.

Externe Links [ edit ]

No comments:

Post a Comment