Přejít k hlavnímu obsahu

Přihlášení pro studenty

Přihlášení pro zaměstnance

Publikace detail

Clustering analysis of phonetic and text feature vectors
Autoři: Jičínský Milan | Marek Jaroslav
Rok: 2017
Druh publikace: článek ve sborníku
Název zdroje: Proceeding of 2017 IEEE 14TH International Scientific Conference on Informatics
Název nakladatele: IEEE (Institute of Electrical and Electronics Engineers)
Místo vydání: New York
Strana od-do: 146-151
Tituly:
Jazyk Název Abstrakt Klíčová slova
cze Shlukování fonetických a textových charakteristik Cílem článku je prezentovat využití statistických metod k analýze vlastností řeči a textu. Jako vhodné testovací soubory byly zvoleny novoroční projevy českých a československých prezidentů. V publikaci jsou hledány podobnosti mezi jednotlivými novoročními projevy. Zkoumá se rozpoznatelnost řečníků na základě několika textových a fonetických charakteristik. Srovnávací metoda je založena na analýze hlavních komponent a shlukování. Nejdůležitější částí celého procesu je ovšem vytvoření vhodného příznakového vektoru. Takový vektor může být vytvořen různými způsoby a jednotlivé kombinace parametrů mohou vést k různým výsledkům. Charakteristiky, které podléhají korelaci, nebudou pro analýzu použity. Celý výzkum tedy staví na tom, že někteří řečníci budou mít společné řečové charakteristiky a jiní se budou naopak velmi lišit. Tento přístup umožňuje rozeznávat společné a opakující se znaky jednotlivých řečníků. shlukování; novoroční projevy; prezident; příznakový vektor; analýza hlasu; energie; počet průchodů nulou; rychlost řeči; lingvistika; fonetika, segmentace; zpracování zvuku; porovnání řečníků; metoda hlavních komponent
eng Clustering analysis of phonetic and text feature vectors Our goal is to show an example of using statistical methods to analyse some attributes of speeches. For this purpose, the New Year’s Day speeches of Czech and Czechoslovak presidents are chosen. The aim of our study is researching similarities among these speeches and their recognizability through the history of Czechoslovak politics. All presidents are compared between each other. The comparison method is based on principal component analysis and cluster analysis. Important part is creating a feature vector. The feature vector doesn't have to be the same for successful clustering. There are many varieties and combinations of features that can be selected and used. Correlated variables must be discarded. The most significant features are chosen to represent and characterize the speaker. Some speakers can have something in common according to the chosen features. Or on the other hand they can differ much more from others. This kind of approach can help us to recognize a speech pattern of each spokesman independently. cluster analysis; New Year’s Day speeches; President; feature vectors; voice analysis; energy; zero crossing rate; speech velocity; linguistics; phonetics; segmentation; frames; audio processing; speaker comparison; principal component analysis