Εισαγωγή στο MPEG-7
Το MPEG–7 καθορίζεται από ένα σύνολο από ψηφιακούς περιγραφείς (descriptors) και σχήματα περιγραφής (description schemes), μέσω των οποίων καθιστάτε εφικτή η περιγραφή του ψηφιακού περιεχομένου μη λεκτικής πληροφορίας όπως ήχοι, εικόνες, βίντεο τρισδιάστατα μοντέλα κλπ. Για κάθε τύπο πληροφορίας υπάρχουν και οι αντίστοιχοι βασικοί περιγραφείς οι οποίοι συνδυαζόμενοι μεταξύ τους παράγουν πιο σύνθετους περιγραφείς. Ωστόσο, σε περίπτωση που οι υπάρχων περιγραφείς και ο συνδυασμός τους (σχήματα περιγραφής) δεν ικανοποιούν τις ανάγκες χαρακτηρισμού του περιεχόμενου μιας μη λεκτικής πληροφορίας, τότε υπάρχει η δυνατότητα να κατασκευαστεί ένας νέος τύπος περιγραφής, μέσω της γλώσσας ορισμού περιγραφής (Description Definition Language – DDL) που προβλέπει πρότυπο του MPEG–7 και συντάσσεται κατά τα πρότυπα της γλώσσας XML.
Η παραγόμενη πληροφορία που προκύπτει από τους περιγραφείς συντάσσεται, σύμφωνα με πρότυπα που ορίζει το MPEG–7, ακολουθώντας τη δομή της DDL και είναι συνυφασμένη με τα δεδομένα τα οποία περιγράφει. Με αυτό τον τρόπο επιτυγχάνεται γρήγορη και αποτελεσματική αναζήτηση πολυμεσικών δεδομένων, σύμφωνη με τα κριτήρια που έχει θέσει ο χρήστης της μηχανής αναζήτησης και όχι αυτός που δημοσίευσε, με τυχόν λάθος λεκτική περιγραφή, την πληροφορία στο διαδίκτυο.
Ψηφιακοί περιγραφείς και η λειτουργία τους
Όπως προαναφέραμε, οι ψηφιακοί περιγραφείς είναι τα εργαλεία που παρέχει το MPEG–7 για την περιγραφή των περιεχομένων μιας μη λεκτικής μορφής δεδομένων. Είναι αλγόριθμοι που αναγνωρίζουν και κωδικοποιούν τις ιδιότητες των πληροφοριών που κρύβονται μέσα σε ένα πολυμεσικό αρχείο. Για κάθε τύπο αρχείου υπάρχουν και οι αντίστοιχοι περιγραφείς οι οποίοι ανιχνεύουν τα ειδικά χαρακτηριστικά της πληροφορίας. Κατά συνέπεια οι περιγραφείς χωρίζονται ανάλογα με τον τύπο της πληροφορίας που περιγράφουν, άλλοι είναι για τον ήχο, άλλοι για την εικόνα, άλλοι για το βίντεο και άλλοι για τα τρισδιάστατα μοντέλα.
Για παράδειγμα, στην περίπτωση της εικόνας έχουμε περιγραφείς για τα χρώματα, για την υφή και για τα σχήματα που εμφανίζονται στην εικόνα, ενώ αν έχουμε να κάνουμε με κινούμενη εικόνα (βίντεο) τότε προστίθενται και οι περιγραφείς της κίνησης. Για τον ήχο αντίστοιχα υπάρχουν περιγραφείς για το φάσμα του ήχου, τις βασικές αρμονικές του, κλπ. Αντίστοιχα εργαλεία υπάρχουν και για την περιγραφή τρισδιάστατων αντικειμένων, κάποια από τα οποία έχουν τις ρίζες τους στους περιγραφείς σχημάτων για εικόνες και επεκτείνονται από τις δύο στις τρεις διαστάσεις. Με τους περιγραφείς τρισδιάστατων σχημάτων θα ασχοληθούμε στο επόμενο κεφάλαιο όπου και παρουσιάζετε με ευκολονόητο τρόπο η αρχή λειτουργίας τους.
Περιγραφείς τρισδιάστατων μοντέλων
Είναι προφανές πως το σχήμα ενός τρισδιάστατου μοντέλου σαν έννοια είναι ουσιαστικά ανεξάρτητο από τη θέση του στον χώρο, τον προσανατολισμό του και την τριγωνοποιημένη αναπαράστασή του. Για παράδειγμα, το τρισδιάστατο μοντέλο ενός αυτοκινήτου δεν παύει να αναπαριστά ένα αυτοκίνητο, ανεξάρτητα αν αυτό σχηματίζεται από 100 ή 10.000 πολύγωνα, ή αν η μεγαλύτερή του πλευρά έχει μέγεθος εκατό μονάδων και είναι παράλληλη με τον άξονα Χ. Ως εκ τούτου, ένα εργαλείο για την περιγραφή τρισδιάστατων μοντέλων θα πρέπει να είναι ανεπηρέαστο από τους γεωμετρικούς μετασχηματισμούς θέσης, μεγέθους και προσανατολισμού, όπως επίσης και από την οποιοδήποτε μορφή τριγωνοποιημένης αναπαράστασης του μοντέλου (π.χ. αριθμό πολυγώνων, ομαλότητα των άκρων κλπ.).
Τι γίνετε όμως στην περίπτωση αρθρωτών αντικειμένων, δηλαδή αντικειμένων που η μορφή τους σχηματίζεται από περισσότερα του ενός αντικειμένων με θέση πάντα σχετική αλλά ποτέ σταθερή με το κύριο σώμα τους; Για παράδειγμα ένα ανθρωπόμορφο τρισδιάστατο μοντέλο αποτελείται από διάφορα μέλη, τα οποία έχουν την ιδιότητα να περιστρέφονται ελεύθερα σε όλους τους άξονες. Λόγω της ιδιότητας του αυτής ωστόσο, αν το δίποδο ανθρωπόμορφο μοντέλο παριστά κάποιο τετράποδο η περιγραφή του σε καμιά περίπτωση δε θα πρέπει να ταυτιστεί με αυτή ενός τετράποδου. Η σημασιολογική έννοια είναι άμεσα συνδεδεμένη με την μορφή του σχήματος και στις περιπτώσεις αρθρωτών αντικειμένων η ασταθής μορφή τους μπορεί να οδηγήσει ευκολότερα μια «έξυπνη» μηχανή αναζήτησης σε λανθασμένα συμπεράσματα.
Όσο και αν η αναγνώριση αντικειμένων δείχνει μια απλή διαδικασία για τον ανθρώπινο εγκέφαλο, για έναν Η/Υ είναι μια διαδικασία που απαιτεί διαφορετική προσέγγιση σε σχέση με αυτή για τα μη αρθρωτά και στερεά αντικείμενα. Στην περίπτωση των στερεών αντικειμένων ένας καθολικός περιγραφέας επαρκεί για την περιγραφή του σχήματος. Ωστόσο όταν πρόκειται για αρθρωτά αντικείμενα, συμπληρωματικά πρέπει να γίνετε χρήση και τοπικών περιγραφέων για την διάκριση τυχών στάσεων του αντικειμένου. Προηγούμενη έρευνα για την ανάκτηση δεδομένων βάση σχήματος, έδειξε πως οι καθολικοί περιγραφείς πληρούσαν τις κατάλληλες προϋποθέσεις. Είχαν λογικό μέγεθος, υποστήριζαν απλές στον υπολογισμό μετρήσεις ομοιότητας και έτσι επέτρεπαν αποτελεσματική έρευνα πολύ μεγάλων βάσεων δεδομένων.
Οι παραπάνω λόγοι οδήγησαν στον καθορισμό των απαιτούμενων προσόντων που πρέπει να διαθέτει ένας περιγραφέας τρισδιάστατων μοντέλων (3D Shape Descriptor – 3D SD). Έτσι, τα κριτήρια για να θεωρηθεί επιτυχημένος ένας 3D SD έχουν ως εξής:
- Ο 3D SD πρέπει να περιγράφει ένα τρισδιάστατο μοντέλο βασισμένος στις επιφάνειές του και όχι στον όγκο του. Με αυτόν τον τρόπο καλύπτονται περιπτώσεις αντικειμένων με ανοιχτές επιφάνειες, των οποίων ο όγκος είναι μηδενικός. Για παράδειγμα, ένα πανί το οποίο σχηματίζεται από ένα παραμορφωμένο δισδιάστατο πλέγμα πολυγώνων δεν έχει μετρήσιμο όγκο.
- Όταν μεγεθύνεται, περιστρέφεται ή μετακινείται ένα αντικείμενο, τότε η περιγραφή του, παρά τις διάφορες μεγεθύνσεις και Ευκλείδειους μετασχηματισμούς, θα πρέπει να παραμένει αμετάβλητη.
- Ένας 3D SD πρέπει να δίνει την ίδια περιγραφή για αρθρωτά αντικείμενα σε οποιαδήποτε στάση και να βρίσκονται.
Ο 3D SD που προτείνεται από την ομάδα ιδικών κινούμενων εικόνων (Moving Pictures Expert Group) εκπληρώνει όλα τα παραπάνω κριτήρια.
Ονομάζεται περιγραφέας φάσματος τρισδιάστατων σχημάτων (3D Shape Spectrum Descriptor - 3D SSD) και η αρχή λειτουργίας του βασίζεται στην έκφραση των τοπικών γεωμετρικών χαρακτηριστικών του τρισδιάστατου σχήματος. Πιο συγκεκριμένα, εκφράζει το ιστόγραμμα των τιμών των δεικτών σχήματος (shape index) του αντικειμένου.
Ο δείκτης σχήματος του αντικειμένου (shape index – SI), είναι μια έννοια που συστήθηκε από τον J. Koenderik (“Solid Shape”, The MIT Press, Cambridge, Mass., 1990) και καθορίζεται σαν συνάρτηση των δυο κύριων καμπυλοτήτων. Ο SI είναι ένα τοπικό γεωμετρικό χαρακτηριστικό μιας τρισδιάστατης επιφάνειας, το οποίο εκφράζεται σαν τη γωνιακή συντεταγμένη της πολικής αναπαράστασης του διανύσματος της κύριας καμπυλότητας. Παίρνει τιμές από 0 μέχρι 1 και δεν ορίζεται για επίπεδες επιφάνειες. Ο SI αποτελεί την κλίμακα μέτρησης μη επίπεδων στοιχειωδών σχημάτων όπως είναι τα κοιλώματα (SI = 0), οι αυλακώσεις (SI=0.25), τα σαμάρια (SI=0.5), οι ράχες (SI=0.75) και τα κυρτώματα (SI = 1) και είναι ανεπηρέαστος από διάφορους Ευκλείδειους μετασχηματισμούς και κλιμακώσεις.
Σχήματα και ο αντίστοιχος δείκτης σχήματος.
Κατά συνέπεια, ο 3D SSD καθορίζεται ως η κατανομή του SI πάνω σε ολόκληρο το αντικείμενο. Αυτό υλοποιείται διαβαθμίζοντας ομοιόμορφα το φάσμα των τιμών που παίρνει ένας SI (από 0 μέχρι 1) και προσθέτοντας σε κάθε βαθμίδα το σχετικό εμβαδών του κάθε πολυγώνου του μοντέλου με παραπλήσια SI τιμή. Για παράδειγμα, αν έχουμε ένα τρίγωνο του οποίου το εμβαδών αντιστοιχεί στο 2% του συνολικού εμβαδού του μοντέλου και η SI τιμή του είναι ίση με 0.22, τότε στη βαθμίδα οπού ανήκει η τιμή 0.22 προσθέτουμε 2%. Σε περίπτωση που το τρίγωνο βρίσκεται σε επίπεδη περιοχή, όπου όπως προαναφέραμε το SI δεν ορίζεται, τότε το ποσοστό του εμβαδού του προστίθεται σε μια ειδική θέση μόνο για τις επίπεδες επιφάνειες. Παρομοίως, στην περίπτωση όπου το πολύγωνο βρίσκετε στα όρια του μοντέλου, δηλαδή έχει τουλάχιστον μια πλευρά την οποία δεν μοιράζεται με κανένα άλλο πολύγωνο του αντικειμένου, η εκτίμηση της κύριας καμπυλότητας για το πολύγωνο αυτό είναι ανακριβής και γι’ αυτό το λόγω το εμβαδόν του προστίθεται σε μια θέση που είναι μόνο για τέτοιου είδους πολύγωνα. Αυτή γίνεται για όλα τα πολύγωνα του μοντέλου και συνεπώς έως ότου καλυφθεί το 100% του εμβαδού του.
Ωστόσο, πριν εφαρμοστούν τα παραπάνω απαιτείται ειδική προετοιμασία του μοντέλου. Καταρχήν, για να μην επηρεάζεται ο 3D SSD από τις διάφορες τοπολογικές αναπαραστάσεις του μοντέλου και τυχόν λάθη τοπολογίας, θα πρέπει να εφαρμοστεί στο αρχικό μοντέλο ένα φίλτρο κανονικοποίησης. Επίσης, ανωμαλίες στο SI φάσμα του αντικειμένου, προκαλούνται από πολύγωνα με δυσανάλογα μεγέθη, ή πολύγωνα τα οποία ανήκουν στην ίδια επιφάνεια αλλά κοιτούν στην αντίθετη κατεύθυνση σε σχέση με την πλειοψηφία, με αποτέλεσμα να εμφανίζονται σαν τρύπες. Έτσι, για την αποφυγή τυχών ανωμαλιών στο φάσμα του αντικειμένου, θα πρέπει πριν την εφαρμογή του 3D SSD, το μοντέλο να εξομαλύνεται με την τεχνική της εισαγωγής σημείου στο μέσο της κάθε πλευράς των πολυγώνων του και με την εφαρμογή ενός φίλτρου εξομάλυνσης (low-pass filter) στις συντεταγμένες του κάθε σημείου. Αυτό συντελεί στο να δημιουργηθούν ομαλές επιφάνειες με μεγάλο αριθμό μικρών τριγώνων όπου ο 3D SSD αποδίδει καλύτερα.
Όλα τα παραπάνω συντελούν στην υλοποίηση ενός «εύρωστου» περιγραφέα τρισδιάστατων μοντέλων, ο οποίος αντεπεξέρχεται με ευκολία στο δύσκολο έργο της αναζήτησης τρισδιάστατων μοντέλων.