Περιεχόμενα


Γενική Περιγραφή

Λογισμικά

Αναγνώριση Ομιλίας και Γνωστική Ανικανότητα

Υπαγόρευση εξ' Αποστάσεως (Mobile Dictation)

Η Αναγνώριση Ομιλίας στο Office XP





Γενική Περιγραφή


Διακρίνουμε δύο σημαντικές χρήσεις των συστημάτων αναγνώρισης ομιλίας (speech recognition systems) : την υπαγόρευση, όπου η προφορική λέξη που υπαγορεύει ο χρήστης μετατρέπεται σε γραπτό κείμενο, και τον έλεγχο του Η/Υ, όπου ο χρήστης μπορεί να ελέγξει και να καθοδηγήσει τον υπολογιστή και διάφορες εφαρμογές λογισμικού δίνοντας προφορικές εντολές. Η αναγνώριση ομιλίας είναι ένα από τα πιο επιθυμητά και πιο χρήσιμα βοηθητικά τεχνολογικά συστήματα.
Πρέπει, ωστόσο, να ξεκαθαρίσουμε, ότι το να μιλάμε στον υπολογιστή είναι πολύ διαφορετικό από το να μιλάμε σε άλλα πρόσωπα. Ο υπολογιστής, για παράδειγμα, αντίθετα με τους ανθρώπους, χρειάζεται βοήθεια προκειμένου να μπορεί να ξεχωρίζει την ανθρώπινη ομιλία από τους υπόλοιπους ήχους ή από τον απλό θόρυβο. Απαιτεί επίσης μεγαλύτερη ευκρίνεια από μέρους το χρήστη, στις προτάσεις που του υπαγορεύει, σε σχέση με τον τρόπο που διεξάγονται οι καθημερινές συζητήσεις μεταξύ δύο ή περισσοτέρων προσώπων. Έτσι, ο χρήστης πρέπει να υπαγορεύει τις προτάσεις και τις εντολές με καθαρή και σταθερή φωνή, χωρίς απότομες αυξομειώσεις στην ένταση ή στην ταχύτητα, και να αποφεύγει τις ανακριβείς λέξεις και φράσεις που χρησιμοποιεί στην καθημερινότητα. Ακόμα, ο υπολογιστής δεν μπορεί να ξεχωρίσει με την πρώτη δύο ή περισσότερες διαφορετικές φωνές. Αντίθετα, πρέπει να δεχτεί κάποιες ρυθμίσεις και προσαρμογές με την φωνή κάθε νέου χρήστη που εισάγεται. Μερικά άλλα προβλήματα-προκλήσεις που έχει να αντιμετωπίσει ο υπολογιστής στη διαδικασία αναγνώρισης ομιλίας, είναι η εκπαίδευση για την ελαχιστοποίηση των λαθών (που τις πρώτες φορές σίγουρα θα είναι αρκετά και μπορεί να προκαλέσουν την απογοήτευση του χρήστη), η διάκριση μεταξύ δύο φράσεων ή προτάσεων οι οποίες μπορεί να ακούγονται ίδιες αλλά αποτελούνται από διαφορετικές λέξεις, και το γεγονός ότι τα προγράμματα αναγνώρισης ομιλίας δε γνωρίζουν το νόημα και τη σημασία των λέξεων και ως εκ τούτου δεν μπορούν να εφαρμόσουν την κοινή λογική, κάτι που συμβαίνει στους ανθρώπους.
Η συσκευή εισόδου που είναι απαραίτητη για τη χρήση όλων των προγραμμάτων αναγνώρισης ομιλίας, είναι το μικρόφωνο.
Αρχή

Λογισμικά


Ένα αντιπροσωπευτικό πρόγραμμα αναγνώρισης ομιλίας είναι το Naturally Speaking, προϊόν της εταιρείας L&H's Dragon Systems Inc. Με το πρόγραμμα αυτό που λειτουργεί σε περιβάλλον Windows, ο χρήστης μπορεί να δημιουργήσει, να τροποποιήσει και να διορθώσει έγγραφα και να στείλει e-mail, ακόμα και να περιηγηθεί στις σελίδες του Internet, χρησιμοποιώντας απλώς την ομιλία. Έτσι, οι λέξεις που υπαγορεύει ο χρήστης μπορούν να εμφανιστούν τυπωμένες πάνω σε επίσημα έγγραφα, επαγγελματικές κάρτες, αναφορές, e-mail και γενικά σε όλες τις εφαρμογές βασισμένες σε Windows. Με φωνητικές εντολές, ο χρήστης μπορεί επίσης να αλλάξει τα χρώματα και τις γραμματοσειρές του υπολογιστή, να προσθέσει στα έγγραφά του φράσεις και παραγράφους υπαγορεύοντας μερικές μόνο λέξεις, ή να ακούσει τον υπολογιστή να του διαβάζει κείμενα και e-mail με τη φωνή του ίδιου του χρήστη η οποία έχει ηχογραφηθεί από πριν.

speech1.gif

Ας δούμε τώρα ως παράδειγμα, μερικές ενέργειες που μπορούν να εκτελεστούν σε έναν Η/Υ χρησιμοποιώντας το πρόγραμμα Naturally Speaking. Προφέροντας την εντολή "Wake Up", ο χρήστης αφυπνίζει το πρόγραμμα, καθιστώντας το έτοιμο για άμεση αναγνώριση ομιλίας. Για να ξεκινήσει την εκτέλεση της εφαρμογής Microsoft Word 2000, πρέπει να πει "Start Microsoft Word" ενώ για να ανοίξει τον web browser Internet Explorer, θα πρέπει να δώσει την εντολή "Start Internet Explorer". Το πρόγραμμα αναγνωρίζει επίσης και κάποιες άλλες εντολές, οι οποίες επιτρέπουν στον χρήστη να ελέγχει τις διάφορες εφαρμογές λογισμικού. Για παράδειγμα, στο Microsoft Word μπορεί να δοθεί η εντολή "Click File" που θα έχει ως αποτέλεσμα την επιλογή του μενού File, με τον ίδιο τρόπο που θα εμφανιζόταν μετά από ένα κλικ του ποντικιού. Επεκτείνοντας, μέσα από το μενού αυτό, ο χρήστης μπορεί να επιλέξει την εκτέλεση μιας εντολής προφέροντας την ονομασία της, δηλ. "Save", "Save As", "Open", "Print" κλπ.
Αρχή

Αναγνώριση Ομιλίας και Γνωστική Ανικανότητα

Η αναγνώριση ομιλίας συχνά θεωρείται ως ένα βοηθητικό εργαλείο συγγραφής για άτομα με γνωστικές ανικανότητες όπως είναι η δυσλεξία (ανικανότητα βασισμένη στη γλώσσα, όπου ο ασθενής δυσκολεύεται να κατανοήσει λέξεις, προτάσεις ή παραγράφους) και η δυσγραφία (ανικανότητα που σχετίζεται με τη γραφή, όπου ο ασθενής δυσκολεύεται να σχηματίσει σωστά τα γράμματα ή να γράψει μέσα σε ένα καθορισμένο χώρο).
Κάποιος που σχεδιάζει να χρησιμοποιήσει την τεχνολογία αναγνώρισης της ομιλίας, θα πρέπει να έχει υπόψη του εκ των προτέρων ότι θα περάσει πρώτα από μία διαδικασία δοκιμής και εκπαίδευσης, όπου θα του ζητηθεί από το συγκεκριμένο πρόγραμμα να διαβάσει μεγαλόφωνα ένα απόσπασμα από ένα κείμενο που θα του εμφανίζει στην οθόνη το πρόγραμμα αυτό.

Παρόλα αυτά, μέχρι στιγμής δεν υπάρχει έλεγχος της κίνησης του ποντικιού (για παράδειγμα σε ένα πρόγραμμα σχεδίασης) μέσω της αναγνώρισης ομιλίας. Εντούτοις, θεωρείται σίγουρο ότι στο μέλλον θα μπορεί να εφαρμοστεί και αυτή η ενέργεια, καθώς επίσης και πολλές άλλες. Ένα άλλο μειονέκτημα είναι ότι το πρόγραμμα Natural Speaking κυκλοφορεί προς το παρόν μόνο για εντολές στην αγγλική γλώσσα.

Τέλος, να αναφέρουμε δύο ακόμα πολύ γνωστές εφαρμογές αναγνώρισης ομιλίας : το Via Voice for Windows της IBM, και το Voice Xpress της Lernout & Hausprie.
Αρχή


Υπαγόρευση εξ' Αποστάσεως (Mobile Dictation)

Θα δούμε τώρα μία χρήση της τεχνολογίας αναγνώρισης ομιλίας που δεν απευθύνεται κατ' ανάγκη σε άτομα με ειδικές ανάγκες : την υπαγόρευση εξ' αποστάσεως (mobile dictation), και συγκεκριμένα τη συσκευή Naturally Mobile Recorder της L&H's Dragon Systems Inc. Η συσκευή αυτή μπορεί να κρατήσει στην ενσωματωμένη μνήμη της μέχρι και 40 λεπτά συνεχούς ομιλίας και μέχρι 80 επιπλέον λεπτά στις μετακινήσιμες κάρτες μνήμης που τη συνοδεύουν. Ο χρήστης πατάει απλώς το κουμπί ηχογράφησης (record button) και υπαγορεύει τις προτάσεις που θέλει στη συσκευή, ενώ μπορεί να ακούσει ξανά τις προτάσεις αυτές παίζοντάς τις ξανά από το ενσωματωμένο ηχείο, και να κάνει τις όποιες επιθυμητές διορθώσεις. Αργότερα, στο σπίτι ή στο γραφείο, μπορεί να συνδέσει το Naturally Mobile Recorder με τον H/Y και να μεταφέρει το μαγνητοφωνημένο μήνυμα στον υπολογιστή, το οποίο μπορεί στη συνέχεια να μετατρέψει σε κείμενο με κάποιο πρόγραμμα αναγνώρισης ομιλίας.

speech2.gif
Αρχή


Η Αναγνώριση Ομιλίας στο Office XP

Να αναφέρουμε, τέλος, ότι η εταιρεία Microsoft ήδη έχει συμπεριλάβει τη δυνατότητα αναγνώρισης ομιλίας στην τελευταία έκδοση του Office, δηλαδή στο Microsoft Office XP. Έτσι, μπορούμε τώρα να χρησιμοποιούμε την αναγνώριση ομιλίας για να υπαγορεύσουμε κείμενο σε οποιοδήποτε πρόγραμμα του Office XP. Μπορούμε ακόμη να χρησιμοποιούμε τη φωνή μας για να επιλέγουμε στοιχεία μενού και γραμμών εργαλείων και επιπλέον, στην αγγλική έκδοση του Office XP, στοιχεία παραθύρων διαλόγου και παραθύρων εργασιών.
Θα πρέπει ωστόσο να σημειωθεί ότι η αναγνώριση ομιλίας στο Office XP δεν έχει σχεδιαστεί για εργασία χωρίς καθόλου χρήση του ποντικιού ή του πληκτρολογίου. Έτσι, για καλύτερα αποτελέσματα, ο χρήστης πρέπει να χρησιμοποιεί το συνδυασμό φωνής και ποντικιού ή πληκτρολογίου.

speech3.jpg

Αρχή