Δρ. Πέτρος Λάλος

Καθηγητής Πληροφορικής, Epsilon College

Ζωγραφίζοντας στην άμμο μαζί με τον 13ο πολεμιστή (από τα δεδομένα στην Επιχειρηματική νοημοσύνη)

Home // Article Writings // Ζωγραφίζοντας στην άμμο μαζί με τον 13ο πολεμιστή (από τα δεδομένα στην Επιχειρηματική νοημοσύνη)

Υπάρχει ένας διάλογος στην ταινία «Ο 13ος πολεμιστής» του 1999 (βασισμένο σε νουβέλα του Michael Crichton), όπου ο ηγέτης των Βίκινγκ (Buliwyf ερμηνεύει ο Vladimir Kulich πολεμιστών) απευθύνεται στον Άραβα (Ahmed Ibn Fahdlan ερμηνεύει ο Antonio Banderas συμπολεμιστή τους):
• Buliwyf: μπορείς να “ζωγραφίσεις” ήχους;
• Ahmed Ibn Fahdlan: Να “ζωγραφίσω” ήχους; [συνειδητοποιεί σιγά-σιγά τι εννοεί ο Buliwyf] Ναι, μπορώ να ‘ζωγραφίσω ήχους… και μπορώ να τους μιλήσω μετά ξανά πίσω
• Buliwyf: Δείξε μου
• Ahmed Ibn Fahdlan: [Γράφοντας στο χώμα] Υπάρχει μόνο ένας Θεός, και ο μοχάμεντ είναι ο προφήτης του
[Αργότερα, καθώς ο Buliwyf και ο Ahmed φτάνουν στην ακτή]
• Buliwyf: Άραβα! μίλα αυτά που “ζωγραφίζω”! [καθώς γράφει στην άμμο]
[Ο Άχμεντ κοιτά αυτά που έγραψε ο Buliwyf και καταλαβαίνει τι επιδιώκει να κάνει]
• Ahmed Ibn Fahdlan: Υπάρχει μόνο ένας Θεός, και ο μοχάμεντ [διορθώνοντας τη γραφή του Buliwyf’s] είναι ο προφήτης του
[Ο Buliwyf γνέφει καταφατικά και φεύγει]
Προς το τέλος της ταινίας, ο Buliwyf θρηνεί το γεγονός ότι πεθαίνει χωρίς το δικό του Βασίλειο:
“Ένας άνθρωπος θα μπορούσε να θεωρηθεί πλούσιος αν κάποιος ‘ζωγράφιζε’ την ιστορία των πράξεών του, ώστε να θυμούνται” και ο Ibn Fadlan απαντά:
“Ένας τέτοιος άνθρωπος μπορεί να θεωρηθεί πραγματικά πλούσιος”.

Η προσπάθεια του Buliwyf να «ζωγραφίσει» τους ήχους, πηγάζει από τη βαθιά ριζωμένη ανάγκη του να καταγράψει τα ανδραγαθήματα του αλλά και της ομάδας της οποίας ηγείται για τις επόμενες γενεές, ώστε να διασφαλιστεί η υστεροφημία του και να αποτελέσει πρότυπο για τις νέες γενεές των πολεμιστών Bίκινγκ. Κατανοεί την ανάγκη της καταγραφής των «δεδομένων» και την αξία τους για το μέλλον καθώς μπορούν να αποτελέσουν πηγή έμπνευσης και γνώσης αλλά και ιστορικής συνέχειας. Θεωρεί την καταγραφή των δεδομένων ως την πραγματική περιουσία που μπορεί να αφήσει κάποιος πίσω του.
Πολλούς αιώνες μετά, στη σημερινή εποχή, η αξία των δεδομένων είναι αδιαμφισβήτητη. Στη σημερινή επιχειρησιακή πραγματικότητα, μακριά από την αγνά υστερόβουλη ανάγκη για υστεροφημία και ιστορική συνέχεια μιας κουλτούρας που έχει πιά σβήσει, τα δεδομένα (ιστορικά και όχι μόνο) συνεχίζουν και θεωρούνται πολύτιμα (αποκαλούνται και «ψηφιακό χρυσάφι», για διαφορετικούς όμως λόγους.
Σήμερα τα δεδομένα και ειδικότερα η ανάλυσή τους, βοηθούν ποικιλοτρόπως σε πάρα πολλούς τομείς της ανθρώπινης δραστηριότητας. Στην υγειονομική περίθαλψη, τα δεδομένα και η ανάλυση τους βοηθά στην αποφυγή ασθενειών που μπορούν να προληφθούν, ανιχνεύοντάς τες στα αρχικά τους στάδια. Στον τραπεζικό τομέα, βοηθούν στην αναγνώριση παράνομων δραστηριοτήτων όπως το ξέπλυμα χρήματος. Τέλος, στη μετεωρολογία, τα ιστορικά δεδομένα βοηθούν στη μελέτη της υπερθέρμανσης του πλανήτη.
Ο τρόπος με τον οποίο πλεόν σήμερα «ζωγραφίζουμε»τα δεδομένα και έπειτα τα αποθηκεύουμε, δεν είναι «ζωγραφίζοντας» στην άμμο αλλά γίνεται ψηφιακά. Η μαζική χρήση ψηφιακών εργαλείων που αξιοποιούν αυτή την τεχνολογία έχει δημιουργήσει ένα τεράστιο αριθμό δεδομένων. μερικά από τα πιο εντυπωσιακά στατιστικά στοιχεία των δεδομένων της τελευταίας διετίας είναι:

  • Η Google λαμβάνει πάνω από 3,5 δισεκατομμύρια αναζητήσεις καθημερινά. (Πηγή: Internet Live Stats): Η Google είναι η πιο διαδεδομένη μηχανή αναζήτησης, με 87,35% του παγκόσμιου μεριδίου αγοράς μηχανών αναζήτησης (στοιχεία του 2021). Τα στατιστικά στοιχεία των δεδομένων για το 2021 δείχνουν ότι αυτό μεταφράζεται σε 1,2 τρισεκατομμύρια αναζητήσεις ετησίως και περισσότερα από 40.000 ερωτήματα αναζήτησης ανά δευτερόλεπτο.
  • Οι χρήστες του WhatsApp ανταλλάσσουν έως και 65 δισεκατομμύρια μηνύματα καθημερινά. (Πηγή: Connectiva Systems): Tο WhatsApp είναι η πιο δημοφιλής εφαρμογή ανταλλαγής μηνυμάτων παγκοσμίως με μια βάση χρηστών 2 δισεκατομμυρίων ανθρώπων.
  • Το 2020, κάθε άτομο παρήγαγε 1,7 megabyte ανά δευτερόλεπτο. (Πηγή: IBM): Το Facebook, το Instagram, το Fortnite, το TikTok, το Netflix, το IoT και οι πολλές άλλες μεγάλες ψηφιακές πλατφόρμες δημιουργούν τις προϋποθέσεις ώστε ο μέσος διαδικτυακός χρήστης να παράγει 1,7 megabyte νέων δεδομένων – ανά δευτερόλεπτο!
  • Το 95% των επιχειρήσεων αναφέρουν την ανάγκη διαχείρισης μη δομημένων δεδομένων ως πρόβλημα για την επιχείρησή τους. (Πηγή: Forbes): Όσοι διαθέτουν τη σωστή μορφή δεδομένων μπορούν να ελιχθούν με επιτυχία στην αγορά, να κάνουν μελλοντικές προβλέψεις και να προσαρμόσουν την επιχείρησή τους ώστε να ταιριάζουν στις τάσεις της αγοράς. Τα περισσότερα από τα δεδομένα που παράγονται είναι αδόμητα, έρχονται δηλαδή σε διαφορετικές μορφές και μεγέθη. Ως εκ τούτου, είναι δύσκολη και δαπανηρή η διαχείριση και η ανάλυση, γεγονός που εξηγεί γιατί αποτελεί μεγάλο πρόβλημα για τις περισσότερες εταιρείες.

Γιατί όμως είναι τόσο πολύτιμα τα Δεδομένα για μια Επιχείρηση;
Το μυστικό κρύβεται στην εξόρυξη των δεδομένων και στη συμβολή τους στην επιχειρηματική ευφυία. Η σωστή αξιοποίηση των δεδομένων μπορεί μέσα από έναν κύκλο αναλυτικών διαδικασιών να βοηθήσει μια επιχείρηση να πάρει τις σωστές αποφάσεις για το μέλλον της.
Ο T.S. Eliot περιέγραψε το 1934 την ιεραρχία στο θεατρικό έργο «The Rock» (Faber & Faber 1934):
Πού είναι η ζωή που έχουμε χάσει καθώς ζούμε;
Πού είναι η σοφία που έχουμε χάσει από τη γνώση;
Που είναι η γνώση που έχουμε χάσει στην πληροφορία;
Με το απόφθεγμα αυτό έβαλε τα θεμέλια για την πυραμίδα DIKW (Εικόνα 1), γνωστή και ως ιεραρχία DIKW όπου το ακρωνύμιο περιγράφει πώς προκύπτει η βαθιά κατανόηση ενός θέματος, περνώντας από 4 ποιοτικά στάδια: «D» – Data, «Ι» – Information, «Κ» – Knowledge και «W» – Wisdom.

Data, Information, Knowledge, Wisdom
Το πέρασμα από τα δεδομένα-Data (στοιχειώδεις αναπαραστάσεις της πραγματικότητας) στη σοφία-Wisdom (ολοκληρωμένη αντίληψη της πραγματικότητας) πραγματοποιείται μέσα από την πληροφορία και τη γνώση, σύμφωνα με το ιεραρχικό μοντέλο DIKW (Data – Information – Knowledge – Wisdom). Οι σχέσεις των δεδομένων μεταξύ τους (context) τα καθιστούν πληροφορία, η απόδοση σημασίας στην πληροφορία την καθιστά γνώση, και ο εμπλουτισμός της γνώσης με τη διαίσθηση την καθιστά σοφία.

Δεδομένο (Data)
Τα δεδομένα είναι μη-οργανωμένα και μη-επεξεργασμένα γεγονότα σχετικά με αντικείμενα ή συμβάντα του πραγματικού κόσμου. Συνήθως αποτελούν κάποιες μετρήσιμες ή υπολογίσιμες τιμές των ιδιοτήτων των αντικειμένων όπως για παράδειγμα η ημερομηνία γέννησης ενός ατόμου. Τα δεδομένα είναι στατικά και από τη στιγμή που θα καταγραφούν δεν αλλάζουν. Από μόνα τους τα δεδομένα, χωρίς ένα πλαίσιο αναφοράς, δεν είναι ιδιαίτερα χρήσιμα, δηλαδή δεν αποτελούν πληροφορία.

Πληροφορία (Information)
Αποτελείται από δεδομένα τα οποία όμως έχουν φιλτραριστεί και μορφοποιηθεί κατάλληλα. Για παράδειγμα, το ετήσιο άθροισμα των πωλήσεων που προέρχονται από κάποιο υποκατάστημα μιας επιχείρησης αποτελεί επεξεργασμένη πληροφορία, λόγω της άθροισης, και φιλτραρισμένη, λόγω του συγκεκριμένου υποκαταστήματος. Η πληροφορία χρειάζεται ένα εννοιολογικό πεδίο που να επιτρέπει την ερμηνεία της. Σε σύγκριση με τα δεδομένα, η πληροφορία έχει νόημα, σκοπό και συνάφεια για να μπορεί να ερμηνεύεται και να διευκολύνει στη λήψη αποφάσεων.

Γνώση (Knowledge)
Η γνώση είναι πληροφορία η οποία έχει υποστεί μία σειρά ειδικών ελέγχων για την πιστοποίησή της. Για παράδειγμα, η επαναλαμβανόμενη παρατήρηση πως οι πωλήσεις από ένα συγκεκριμένο υποκατάστημα αυξάνονται 20% κατά τους καλοκαιρινούς μήνες αποτελεί γνώση. Η γνώση αναδεικνύει τη σημαντικότητα της πληροφορίας συσχετίζοντάς τη με χρήσιμα συμπεράσματα ή αναγκαίες ενέργειες. Η ποιότητα της πληροφορίας μαζί με την αξιοπιστία των κανόνων πιστοποίησής της συντελεί στην ποιότητα της γνώσης.

Σοφία (Wisdom)
Σοφία είναι η ικανότητα να χρησιμοποιεί κάποιος τη γνώση όσο το δυνατόν αποδοτικότερα (αναθεώρηση, μάθηση, διορατικότητα, πρόβλεψη). Είναι η ικανότητα να γνωρίζει κανείς ποια γνώση θα πρέπει να χρησιμοποιηθεί, ανάλογα με την περίσταση, και πότε καθώς και να αναθεωρεί τη γνώση και να μαθαίνει από τα λάθη του. Είναι επίσης η ικανότητα πρόβλεψης και διορατικότητας για δυνητικά μελλοντικά δρώμενα.

Εξόρυξη γνώσης και Δεδομένων
Η εξόρυξη γνώσης από δεδομένα (data mining) βοηθάει τις επιχειρήσεις να εστιάσουν στη σημαντική πληροφορία που βρίσκεται μέσα στα δεδομένα τους. Η εξόρυξη γνώσης επιτρέπει την αναζήτηση κρυμμένων προτύπων (patterns) στις βάσεις δεδομένων. Στην ουσία είναι η διαδικασία εξαγωγής υπονοούμενης και εν πολλοίς άγνωστης αλλά ενδεχομένως χρήσιμης γνώσης υπό τη μορφή συσχετίσεων προτύπων και τάσεων, μέσω της εξέτασης ανάλυσης και επεξεργασίας βάσεων δεδομένων, συνδυάζοντας και χρησιμοποιώντας τεχνικές από τη μηχανική μάθηση, την αναγνώριση προτύπων, τη στατιστική, τις βάσεις δεδομένων και την οπτικοποίηση.
Η εξόρυξη γνώσης περιλαμβάνει ένα ευρύ πεδίο υπολογιστικών μεθόδων που μεταξύ άλλων περιλαμβάνουν, τη στατιστική ανάλυση (statistical analysis), τα δένδρα αποφάσεων (decision trees), τα νευρωνικά δίκτυα (neural networks), την εξαγωγή κανόνων (rule induction) και τη γραφική οπτικοποίηση (graphic visualization). Τέτοιες μέθοδοι χρησιμοποιούνται για την εύρεση συσχετίσεων, προτύπων και δομών σε μεγάλες και διαρκώς αυξανόμενες βάσεις δεδομένων.

Τα βήματα από τα οποία αποτελείται η διαδικασία ανεύρεσης γνώσης είναι τα ακόλουθα:

  1. Καθαρισμός δεδομένων (Data cleaning): Στο βήμα αυτό, αφαιρούνται από τη βάση δεδομένων όλα εκείνα τα στοιχεία που μπορούν να επηρεάσουν ή και να διαστρεβλώσουν το αποτέλεσμα.
  2. Ενσωμάτωση δεδομένων (Data integration): Σε αυτό το βήμα τα δεδομένα που έχουν συλλεχθεί, πολλές φορές ανομοιογενή και από πολλές διαφορετικές πηγές, ενσωματώνονται σε μια κοινή βάση δεδομένων.
  3. Επιλογή δεδομένων (Data selection): Από όλα τα δεδομένα επιλέγονται εκείνα που είναι σχετικά και χρήσιμα για την ανάλυση που θα ακολουθήσει.
  4. μετασχηματισμός δεδομένων (Data transformation): Τα επιλεγμένα δεδομένα μορφοποιούνται κατάλληλα ώστε να είναι κατάλληλα για τη διαδικασία της εξόρυξης.
  5. Εξόρυξη δεδομένων (Data mining): Εξελιγμένες τεχνικές χρησιμοποιούνται για την εξαγωγή δυνητικά χρήσιμων προτύπων.
  6. Αξιολόγηση προτύπων (Pattern evaluation): Αναγνωρίζονται χρήσιμα πρότυπα που αναπαριστούν γνώση, βάσει συγκεκριμένων μέτρων αξιολόγησης (evaluation measures).
  7. Αναπαράσταση γνώσης (Knowledge representation): Στο τελικό αυτό στάδιο, η γνώση που έχει ανακαλυφθεί παρουσιάζεται στους ενδιαφερόμενους, βοηθώντας τους στην κατανόηση και ερμηνεία των αποτελεσμάτων της εξόρυξης δεδομένων.

Στόχοι της εξόρυξης δεδομένων
Η εξόρυξη δεδομένων έχει σαν βασικούς της στόχους την εφαρμογή τεχνικών πρόβλεψης και συμπεριφοράς τάσεων (prediction), την αναγνώριση, την περιγραφή (description) σε μεγάλες βάσεις δεδομένων, καθώς επίσης την ταξινόμηση και τη βελτιστοποίηση των πόρων της. Ειδικότερα:
Πρόβλεψη: Περιλαμβάνει τη χρήση μερικών μεταβλητών ή χαρακτηριστικών μιας βάσης δεδομένων για την πρόβλεψη άγνωστων ή μελλοντικών τιμών χρήσιμων μεταβλητών. με άλλα λόγια, οι διαδικασίες πρόβλεψης της εξόρυξης δεδομένων (predictive data mining tasks), προσπαθούν να κάνουν εκτιμήσεις βγάζοντας συμπεράσματα από τα διαθέσιμα δεδομένα. Η προσπάθεια πρόβλεψης μελλοντικών συμπεριφορών έχει ως στόχο να ληφθούν αποφάσεις που να μεγιστοποιούν το κέρδος και να προλαμβάνουν δυσάρεστες καταστάσεις.
Αναγνώριση: Σε αυτή τη φάση οι τυποποιημένες μορφές των δεδομένων αξιοποιούνται για να δείξουν την ύπαρξη μιας δραστηριότητας ή ενός γεγονότος.
Περιγραφή: Οι περιγραφικές διαδικασίες της εξόρυξης δεδομένων (descriptive data mining tasks) περιγράφουν τις γενικές ιδιότητες των υπαρχόντων διαθέσιμων δεδομένων.
Ταξινόμηση: Σε αυτό το στάδιο έχουμε διαχωρισμό των στοιχείων, με αποτέλεσμα να προκύπτουν διαφορετικές κατηγορίες ή κλάσεις. Έτσι για παράδειγμα, οι πελάτες ενός σούπερ μάρκετ είναι δυνατόν να χωριστούν σε παρορμητικούς, πιστούς ή αλλιώς όπως θα λέγαμε κανονικούς, σπάνιους και σε φίλους των εκπτώσεων και προσφορών. Κατά την ανάλυση των πωλήσεων αυτή η κατηγοριοποίηση χρησιμοποιείται για να ληφθούν αποφάσεις, ώστε να προσελκυστούν περισσότεροι πελάτες ανεξαρτήτως κατηγορίας.
Βελτιστοποίηση: μεταξύ των άλλων σκοπός της εξόρυξης γνώσης είναι η βέλτιστη χρήση κάποιων πόρων κάτω από περιορισμούς όπως ο χρόνος, ο χώρος, το χρήμα και η μεγιστοποίηση κάποιων μεγεθών, όπως είναι τα κέρδη είτε οι πωλήσεις.

Που και πως εφαρμόζεται η εξόρυξη γνώσης
Τα παραδείγματα εξόρυξης γνώσης από δεδομένα ποικίλουν ανάλογα με τον τομέα στον οποίο εφαρμόζονται. Η σωστή ανάλυση των δεδομένων οδηγεί πάντα στην ανάδειξη και οργάνωση της πληροφορίας, η γνώση της οποίας είναι ο σημαντικότερος παράγοντας για την εύρεση μιας στρατηγικής και την ορθολογική λήψη αποφάσεων.
Ο χρηματοοικονομικός τομέας, ο τομέας των τηλεπικοινωνιών, της υγείας και της εκπαίδευσης, ο δημόσιος τομέας καθώς επίσης και αυτός της βιομηχανίας και της έρευνας, αποτελούν ίσως το μεγαλύτερο δείγμα εφαρμογών των τεχνολογιών εξόρυξης γνώσης από δεδομένα. Επίσης το λιανικό εμπορίου είναι ένας άλλος κλάδος ιδιαίτερα ανταγωνιστικός, όπου οι εφαρμογές εξόρυξης γνώσης βρίσκουν μεγάλη ανταπόκριση. Οι συνεχείς αλλαγές των καταναλωτικών προτιμήσεων και οι τεράστιοι όγκοι δεδομένων πωλήσεων, κρύβουν πολύτιμα στοιχεία εκ των οποίων ελάχιστα μπορούν να αξιοποιηθούν από τα συμβατικά συστήματα ανάλυσης πληροφορίας.
Η εξόρυξη γνώσης κάνει εφικτή μια προσωποποιημένη σχέση με κάθε ένα πελάτη χωριστά, κάτι που εξασφαλίζει τη διαχρονική σχέση και τη μεγιστοποίηση του κέρδους ανά πελάτη. Για παράδειγμα, οι επαγγελματίες στο χώρο της υγείας, πάντα αντιμετωπίζουν την ανάγκη να συλλέγουν, να αποθηκεύουν και να αναλύουν μεγάλες ποσότητες δεδομένων που μπορεί να περιλαμβάνουν καρτέλες ασθενών, δοκιμές νέων φαρμάκων, εξάρσεις ασθενειών και πολλά άλλα.
Ένας από τους τομείς που εφαρμόζεται κατά κόρον η εξόρυξη δεδομένων είναι αυτός της οικονομίας. Τα οικονομικά δεδομένα συλλέγονται κυρίως από τράπεζες, σουπερμάρκετ και από άλλους οικονομικούς οργανισμούς. Τα δεδομένα αυτά συνήθως είναι αξιόπιστα, ολοκληρωμένα, έχουν υψηλή ποιότητα και απαιτούν συστηματική μέθοδο για την ανάλυση τους. H συνεισφορά της εξόρυξης δεδομένων στην επιστήμη της οικονομίας συναντάται στη συλλογή, κατανόηση και βελτίωση των δεδομένων, στη δημιουργία και εκτίμηση ενός μοντέλου και στην ανάπτυξη αυτού. Η σωστή ανάλυση των οικονομικών δεδομένων διευκολύνει στο να παρθούν καλύτερες αποφάσεις ενεργώντας σύμφωνα με την ανάλυση της αγοράς.
Τα εργαλεία και οι τεχνικές με τις οποίες εφαρμόζεται η εξόρυξη δεδομένων βοηθούν στο να αναλύσουμε τα οικονομικά δεδομένα και είναι τέτοια η συμβολή τους έτσι ώστε για παράδειγμα, τα οικονομικά ινστιτούτα να αναγνωρίζουν τις απάτες από παραποιημένα δεδομένα από τις διάφορες βάσεις δεδομένων και από το ιστορικό συναλλαγών που έγιναν από τους πελάτες.
Οι τεχνικές οπτικοποίησης βοηθούν στην παρουσίαση δεδομένων με διαφορετικές μορφές, όπως γρίφοι που βασίζονται σε συγκεκριμένα γνωρίσματα. Παραδείγματος χάρη προβάλλοντας τα δεδομένα από διάφορες οπτικές γωνίες, μία τράπεζα δύναται να διακρίνει τους πελάτες που έχουν επιχειρήσει παράνομες πράξεις και μετά μια λεπτομερής έρευνα αυτών των ύποπτων περιπτώσεων βοηθάει στην εξιχνίαση των απατών και των εγκλημάτων.

Συμπέρασμα
Η ραγδαία αύξηση του όγκου δεδομένων έχει καταστήσει σαφές ότι παλιές παραδοσιακές τεχνικές και μέθοδοι, δεν μπορούν πλέον να βοηθήσουν στην ανάλυση και οργάνωση της πληροφορίας. Πολύ περισσότερο, δεν μπορούν να φέρουν στην επιφάνεια γνώση που τα δεδομένα περιέχουν καλά κρυμμένη και η οποία απαιτεί εφαρμογή ειδικών για να αποκαλυφθεί.
Οι εφαρμογές εξόρυξης γνώσης δίνουν μια νέα διάσταση στην παλαιότερη και βασικότερη επιχειρηματική διαδικασία που είχε σαν αρχή: «αναλύοντας ότι έγινε στο παρελθόν και κατανοώντας τα αποτελέσματα μπορούμε να γίνουμε αποτελεσματικότεροι στο μέλλον.» Από όλα τα παραπάνω, συμπεραίνουμε ότι η εξόρυξη γνώσης είναι ένα απαραίτητο εργαλείο σε πολλούς τομείς της σύγχρονης κοινωνίας.

M Masters D Diplomas B Bachelors