Ομάδα Τεχνητής Νοημοσύνης

Η Ομάδα Τεχνητής Νοημοσύνης (AI Group) είναι μέρος του Εργαστηρίου Ενσύρματης Τηλεπικοινωνίας και Τεχνολογίας της Πληροφορίας (WCL-IT) του Τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Πανεπιστημίου Πατρών.

Η ομάδα Τεχνητής Νοημοσύνης WCL / AI είναι μια διεθνής ομάδα με περισσότερα από 15 επαγγελματίες σε θέσεις διδασκαλίας και έρευνας απο την Ελλάδα, την Βουλγαρία, τη Ρουμανία και την Αγγλία. Το προσωπικό έρευνας και τεχνολογικής ανάπτυξης, που αποτελεί τον πυρήνα της ομάδας μας, έχει ακαδημαϊκούς τίτλους στην ηλεκτρολογία, την πληροφορική, τη φυσική και τα μαθηματικά. Οι ερευνητικές δραστηριότητες που πραγματοποιήθηκαν από μέλη της ομάδας AI οδήγησαν σε περισσότερες από 20 διδακτορικές διατριβές και πάνω από 300 επιστημονικές δημοσιεύσεις τόσο στη βασική όσο και στην εφαρμοσμένη έρευνα. Η ομάδα WCL / AI, μετρά πάνω από 30 χρόνια συνεχούς δραστηριότητας στην έρευνα και την ανάπτυξη τεχνολογίας. Κατά τη διάρκεια αυτής της περιόδου, ο Όμιλος WCL / AI έχει συμμετάσχει σε περισσότερα από 30 εθνικά και ευρωπαϊκά έργα ΕΤΑ. Οι σημαντικότερες ερευνητικές συνεισφορές της είναι στους τομείς της Τεχνολογίας Ομιλίας και Γλώσσας και της Τεχνητής Νοημοσύνης.

Επεξεργασία Ομιλίας

Βελτίωση ομιλίας
Εντοπισμός και παρακολούθηση ηχου
Ισχυρή αυτόματη αναγνώριση ομιλίας
Αναγνώριση ηχου
Ομιλούμενη γλώσσα και αναγνώριση διαλέκτου
Αναγνώριση συναισθημάτων / επιπτώσεων
Σύνθεση κειμένου σε ομιλία
Αναγνώριση ήχου

Επεξεργασία φυσικής γλώσσας

Κατανόηση και δημιουργία φυσικής γλώσσας
Διαχείριση και επεξεργασία διαλόγου
Ομιλούμενες στρατηγικές αλληλεπίδρασης
Λεξικογραφία
Μηχανική κειμένου
Εξαγωγή πληροφοριών

Τεχνητή νοημοσύνη

Μέθοδοι αναζήτησης
Επίλυση προβλήματος
Συστήματα βάσει κανόνα
Αναπαράσταση γνώσης
Προγραμματισμός λογικής
Μηχανική εκμάθηση
Ευφυής αλληλεπίδραση ανθρώπου-μηχανής
Μοντελοποίηση χρήστη
Θεωρία Automata
Θεωρία παιχνιδιών
Κβαντική AI

Επεξεργασία Ήχου και ομιλίας

Η ομάδα AI έχει μεγάλη παράδοση στους τομείς της Αυτόματης Αναγνώρισης Ομιλίας, της σύνθεσης κειμένου σε ομιλία (TTS), της επαλήθευσης και της αναγνώρισης ηχείων, καθώς και στη μοντελοποίηση γλωσσών ως μέσο για την ενίσχυση της απόδοσης αναγνώρισης ομιλίας.

Τα μέλη της ομάδας AI έχουν αναπτύξει πολλά συστατικά / εφαρμογές επεξεργασίας ομιλίας, μεταξύ των οποίων είναι τα εξής:

Προσαρμοστικό Πλαίσιο για την Ακουστική Παρακολούθηση Πιθανών Κινδύνων σε Πραγματικό Χρόνο, βάσει πιθανών δομών (που αναπτύχθηκαν στο πλαίσιο του έργου Prometheus)
Διακρίσεις ομιλίας / μουσικής, βασισμένες σε HMM, τομείς συχνότητας και βασισμένες σε κύματα
Αυτόματη αναγνώριση εκδηλώσεων αστικού περιβάλλοντος ήχου, βάσει ιεραρχικών δομών
A Speech Annotation Toolbox (αναπτύχθηκε στα έργα SpeechDat (II) και SpeechDat (Car))
Εργαλεία εγγραφής για δημιουργία βάσης δεδομένων ομιλίας
Ένα σύγχρονο ελληνικό σύστημα TTS, βασισμένο σε συνδυαστικό αλγόριθμο MBROLA
Ένα σύγχρονο ελληνικό σύστημα TTS, βασισμένο σε συνθεσάιζερ Klutt formant
Ένα σύγχρονο ελληνικό σύστημα TTS, βασισμένο στην επιλογή μονάδων, με βάση το corpus
Συστήματα επαλήθευσης και αναγνώρισης ηχείων, βασισμένα σε νευρωνικά δίκτυα.
Αυτόματη αναγνώριση ομιλίας για ελληνικές, αγγλικές και γερμανικές γλώσσες
Σύστημα αναγνώρισης ομιλίας, βασισμένο σε PPRLM
Ελληνοκυπριακή αναγνώριση διαλέκτου, με βάση PRLM
Εργαλεία αυτόματης τμηματοποίησης ομιλίας, βασισμένα σε HMM
Σύστημα ανίχνευσης συναισθημάτων βασισμένο σε ομιλία, βασισμένο σε GMM
Σύστημα αναγνώρισης επιπτώσεων με βάση την ομιλία σε πραγματικό χρόνο, βασισμένο σε ακουστικές και γλωσσικές πληροφορίες
Ένα περιβάλλον για την κατασκευή διαδραστικών φυσικών διεπαφών (στο πλαίσιο του έργου GEMINI)
Ένα Σύστημα Διαλόγου για την Αυτοματοποίηση Υπηρεσιών Call Center, αυτοματοποίηση της συλλογής δεδομένων για εταιρείες ασφάλισης αυτοκινήτων (στο πλαίσιο του Ευρωπαϊκού Έργου ACCeSS).
Ένα σύστημα διαλόγου για υπηρεσίες που βασίζονται σε τηλέφωνο (στο πλαίσιο του ευρωπαϊκού έργου IDAS)
Ένα Σύστημα Αλληλεπίδρασης Ομιλούμενου Διαλόγου για περιβάλλον έξυπνου σπιτιού (στο πλαίσιο του έργου INSPIRE)
Ο δρομολογητής τηλεφωνικής κλήσης για το Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών στο Πανεπιστήμιο Πατρών
Η φωνητική πύλη για το Πανεπιστήμιο Πατρών

Επεξεργασία Φυσικής Γλώσσας

Η ομάδα AI έχει αναπτύξει εργαλεία φυσικής γλώσσας για τα νεοελληνικά που καλύπτουν μια μεγάλη ποικιλία εφαρμογών.

Συγκεκριμένα, διατίθενται τα ακόλουθα εργαλεία / στοιχεία:

Ένας μετατροπέας grapheme-to-phoneme (και αντίστροφα) για τη νεοελληνική γλώσσα, βασισμένος στο μοντέλο μορφολογίας δύο επιπέδων.
Ένας μορφολογικός επεξεργαστής για τη νεοελληνική με βάση την τυποποίηση του PC-KIMMO, εκτελώντας μορφολογική ανάλυση και σύνθεση πάνω από ένα λεξικό 30.000 λεμμάτων.
Συντακτικός αναλυτής βασισμένος στην ενοποίηση για τα Νέα Ελληνικά με βάση την τυποποίηση PC-PATR.
Ένας ανιχνευτής φράσεων και ορίων για το απεριόριστο νεοελληνικό κείμενο.
Ένας στυλιστικός αναλυτής για το απεριόριστο νεοελληνικό κείμενο που κατηγοριοποιεί κείμενα ως προς το είδος και τον συγγραφέα.
Δημιουργία επιχειρηματικών επιστολών για τη νεοελληνική που λαμβάνει υπόψη τις στιλιστικές πτυχές (στο πλαίσιο του εθνικού έργου ΔΙΑΛΟΓΟΣ).
Ένας σημασιολογικός αναλυτής για τον προσδιορισμό των χρονικών εκφράσεων στα νεοελληνικά κείμενα.
Αλγόριθμοι για σταδιακή κατασκευή λεξικών σε Directed Acyclic Word Graphs (DAWG) και αλγόριθμοι για γρήγορη πρόσβαση σε αυτά τα λεξικά.

Speech and Language Resources

The AI group created (either on its own or in cooperation with other partners) a number of speech and language resources, among which are the following:

SpeechDat(II)-FDB-5000-Greek – a speech recognition database with 5000 speakers (within the SpeechDat(II) project)
SpeechDat(Car)-Greek – a speech recognition database (within the SpeechDat(Car) project)
PolyCost Speaker Recognition database (within the COST 250 project)
Orientel Cypriot Greek Speech database (within the Orientel project)
MoveOn Motorcycle speech and noise database for police information support systems (within the MoveOn project)
Prosodic database for text-to-speech synthesis for Greek language
Acted emotional speech database for Greek language
Greek speech database for corpus-based text-to-speech synthesis
Real-world Affective Speech corpus (smart-home domain)
PlayMancer Multimodal Affective corpus – video, speech, bio-signals, (serious game domain), (within the PlayMancer project)
Prometheus database – A Multimodal Database of Heterogeneous Sensors for Human Behavior Analysis and Interpretation – microphone arrays, video cameras, infrared cameras, 3D cameras, IR movement detection sensors, (within the Prometheus project)
Various text corpora (with overall size over 50 Mwords)
ESPRIT 860: Greek newspaper corpus with grammatical analysis of words
ORTHO: Greek monolingual lexicon, compiled from several printed dictionaries
COLLINS: Corpus and dictionary
ONOMASTICA: Lexicon of Greek proper names
IDAS: Surnames in phonetic transcription
POLYGLOT: Speech samples, annotated
LIP READING: 157 AVI files with lip moves during word pronunciation
Korais lexicon, with over 80000 lemmas

Artificial Intelligence

Morphological analysers
Syntactic parsers
Lemmatizers (also language independent ones)
Grapheme-to-phoneme and phoneme-to-grapheme converters
A generic platform for semi-automatic generation of multilingual and multimodal interfaces

Past Research Activities

Optical Character Recognition

The AI group has developed tools for the preprocessing of document images and words as well as systems for character recognition. In more detail, the following tools are available:

A skew estimation system for printed and handwritten documents.
A shift correction system for printed and handwritten words.
A handwritten character recognition system for Modern Greek.

Authorship Recognition from text documents

The AI group has developed tools for authorship identification from text documents.

Πληροφορίες