Große Datenmengen sind große Neuigkeiten heutzutage. Aber die meisten Unternehmen horten riesige Datenmengen und hinterließen ein riesiges Depot an unstrukturierten - oder "dunklen" - Daten, die für niemanden von Nutzen sind.

Angesichts der potenziellen Vorteile von Big Data ist es wichtig, dass wir bessere Möglichkeiten finden, Daten zu sammeln, zu speichern und zu analysieren, um das Beste daraus zu machen.

Geschichten von große Datenerfolge haben erhebliche Investitionen in Big-Data-Initiativen ausgelöst. Dies hat viele Organisationen dazu veranlasst, erhebliche Mengen an externen und internen Daten in sogenannte "Datenseen". Dies sind Repositories, die Daten in einem beliebigen Format enthalten, egal ob strukturiert, wie Datenbanken, oder unstrukturiert, wie E-Mails oder Audio und Video.

Infolgedessen wächst das Wachstum der Datenmenge, die erzeugt, gesammelt und gespeichert wird, exponentiell.

Aber nach einem kürzlichen IBM StudieMehr als 80% aller Daten sind inaktiv, nicht verwaltet, oft unstrukturiert, haben keine sinnvollen Metadaten und sind der Organisation sogar unbekannt. Der Anteil dieser dunklen Daten wird voraussichtlich 93% von 2020 erreichen.


Innerself-Abonnieren-Grafik


Zum Beispiel kann erwartet werden, dass Daten, die von Fahrzeugbordgeräten erzeugt werden, jede Sekunde 350MB Daten erreichen. Wohin gehen all diese Daten und wer benutzt sie?

Organisationen können auch wichtige interne Daten generieren. Beispiel: a aktuellen Studie festgestellt, dass ein Unternehmen mit 1,500-Mitarbeitern rund 2.5 Millionen Spreadsheets hatte, die im Durchschnitt nur von 12-Mitarbeitern genutzt wurden.

Darüber hinaus gibt es Hinweise auf eine Vielzahl von unstrukturierten Daten wie Dokumentversionen, Projektnotizen und E-Mails, die von Organisationsprozessen zurückgelassen werden und anschließend in Datenservern ruhen.

Benutze es oder verliere es

Erkenntnisse aus jahrelanger Forschung zum Gebrauch von Informationssystemen haben gezeigt, dass die Annahme, dass "mehr ist besser" ist, wenn es um Daten geht, unbegründet ist.

Selbst in herkömmlichen IT-Projekten, die sorgfältig ausgearbeiteten Analyse- und Designlebenszyklen folgen, war die Fehlausrichtung zwischen wahrgenommenem und tatsächlichem Wert ein notorisch schwieriges Problem, das oft zu geringen Kapitalrenditen führte.

In Big-Data-Projekten können die Daten häufig extern bezogen werden, ohne dass sie Kenntnisse über ihre Schemata, die Qualität oder den erwarteten Nutzen haben. Dadurch wird das Risiko, dass Investitionen getätigt werden, die nicht ausreichen, erheblich erhöht.

Das alte Sprichwort "Benutze es oder verliere es" ist keineswegs veraltet und bringt die Aufmerksamkeit wieder auf den Zweck zurück, wie wir Big Data nutzen. Organisationen können Daten aus einer Vielzahl von Gründen speichern, einschließlich Vorratsdatenspeicherung, aber der wahrgenommene zukünftige Wert ist typischerweise der Hauptgrund.

Obwohl die Speicherung relativ billig ist, sind angesichts der Datenmenge, die assimiliert wird, die Wartung und der Datenverkehr gering Energieverbrauch von Rechenzentren ist nicht trivial. Darüber hinaus gibt es Kosten und Risiken im Zusammenhang mit der Sicherheit solcher nicht verwalteten Daten.

Die Festlegung des Zwecks ist daher von entscheidender Bedeutung, um sicherzustellen, dass Big-Data-Investitionen auf sinnvolle Probleme ausgerichtet sind, und die Datenerhebung und -speicherung ist gut begründet.

Ansätze wie Design Thinking, die Menschen dazu ermutigt, kreatives lösungsorientiertes Denken zu nutzen, erweist sich bei der echten Problemformulierung für Big Data als äußerst erfolgreich.

Was ist Designdenken?

Bei richtiger Anwendung kann Design Thinking Datenwissenschaftler ausstatten, um Erwünschtheit (Kundenbedürfnis) und Lebensfähigkeit (Geschäftswert) mit technologischer Machbarkeit zusammenzuführen und sie so zur Entwicklung bedeutungsvoller Lösungen zu führen.

Müll rein, Müll raus

Wenn die Lücke zwischen Datenerstellung und -nutzung größer wird, wird die Datenqualität wahrscheinlicher. Dies bedeutet, dass eine Organisation viel Mühe aufwenden muss, um alte Daten zu bereinigen, wenn sie sie heute nutzen möchte.

Nach Angaben des US-Chief Data Scientist DJ Patil:

Die Daten sind sehr unordentlich und die Datenbereinigung wird immer buchstäblich 80% der Arbeit sein. Mit anderen Worten, Daten sind das Problem.

Anfang dieses Jahres hat eine Gruppe globaler Vordenker aus der Datenbank der Forschungsgemeinschaft die große Herausforderungen bei der Wertschöpfung aus Big Data. Die Kernbotschaft war die Notwendigkeit, die Fähigkeit zu entwickeln, "zu verstehen, wie die Qualität dieser Daten die Qualität der Erkenntnisse beeinflusst, die wir daraus ableiten".

Das goldene Prinzip von "Müll rein, Müll raus" gilt immer noch im Zusammenhang mit Big Data. Ohne wissenschaftlich glaubwürdiges Wissen, das die Möglichkeit bietet, die zugrunde liegenden Qualitätsmerkmale der Daten effizient zu bewerten, besteht ein erhebliches Risiko, dass Organisationen und Regierungen große Mengen an Daten sammeln Daten mit niedriger Wertdichteoder in Produkte mit geringem Return-on-Investment zu investieren.

Darüber hinaus könnte das mangelnde Wissen über die zugrunde liegenden Daten (Verteilungen, Semantik und andere Nuancen) dazu führen analytische Fallen, wo die Datenanalyse zu fehlerhaften und möglicherweise gefährlichen Schlussfolgerungen führen kann.

Datenexploration entwickelt sich zu einem viel versprechenden Ansatz, um Benutzer mit explorativen Fähigkeiten zu befähigen, die Qualität der Daten zu untersuchen und das Bewusstsein für die Unzulänglichkeiten von Daten in Bezug auf ihre beabsichtigte Verwendung zu schärfen, bevor sie in teure Datenbereinigungs- und -herstellungsaufgaben investieren.

Die Suche nach Erleuchtung aus der Datenflut wird in absehbarer Zeit die Energie und Investitionen der datengetriebenen Gesellschaft verbrauchen. Während die Datenmenge immens ist, werden Unternehmen, wenn sie unbeaufsichtigt gelassen werden, Organisationen in den Abgrund dunkler Daten treiben.

All dies unterstreicht den wachsenden Bedarf an gut ausgebildeten Datenwissenschaftlern, die in der Lage sind, einen gut begründeten geschäftlichen, wissenschaftlichen oder sozialen Zweck zu artikulieren und ihn mit den technologischen Bemühungen um Datensammlung, -speicherung, -kuratierung und -analyse in Einklang zu bringen.

Das Gespräch

Über den Autor

Shazia Sadiq, Professor für Daten- und Wissenstechnik, Die Universität von Queensland

Dieser Artikel wurde ursprünglich veröffentlicht am Das Gespräch.. Lies das Original Artikel.

Bücher zum Thema

at InnerSelf Market und Amazon