extrahieren von pitch-Funktionen aus der audio-Datei

Ich versuche zum extrahieren von pitch-Funktionen von einer audio-Datei, die ich verwenden würde, für eine Klassifizierung problem. Ich bin mit python(scipy/numpy) für die Einstufung.

Ich denke, ich kann die Frequenz Funktionen mit scipy.fft aber ich weiß nicht, wie zu approximieren, werden die Noten mit Frequenzen. Ich habe etwas recherchiert und gefunden, dass ich brauche, um die chroma-Merkmale, die Zuordnung von Frequenzen zu 12 Behälter für Noten einer chromatischen Tonleiter.

Ich denke, es ist ein chroma-toolbox für matlab, aber ich glaube nicht, dass es etwas ähnliches für python.

Wie soll ich vorwärts gehen mit diesem?
Könnte jemand auch vorschlagen, das Lesen material, das ich in Aussehen sollte?

InformationsquelleAutor Ada Xu | 2013-12-22

4

Können Sie anzeigen Frequenzen Noten:

mit die Kammer pitch (in der modernen Musik 440,0 Hz üblich ist).

Wie Sie vielleicht wissen, eine einzige Frequenz nicht machen eine musikalische Tonhöhe. "Pitch" entsteht aus dem Gefühl der Grundfrequenz der harmonischen Klänge, d.h. Töne, die bestehen hauptsächlich aus ganzzahligen vielfachen von einer einzigen Frequenz (= die grundlegenden).

Wenn Sie wollen, um Chroma-Funktionen in Python, die Sie verwenden können, die Bregman Audio-Visuelle Informationen-Toolbox. Beachten Sie, dass die chroma-Funktionen geben Ihnen nicht die Informationen über die Oktave der Tonhöhe, so dass Sie nur Informationen über die pitch-Klasse.
```
from bregman.suite import Chromagram
audio_file = "mono_file.wav"
F = Chromagram(audio_file, nfft=16384, wfft=8192, nhop=2205)
F.X # all chroma features
F.X[:,0] # one feature
```
Das Allgemeine problem, das extrahieren von pitch-Informationen von audio-heißt Erkennung der Tonhöhe.
- Vielen Dank... Könnte dir auch empfehlen die Lektüre oder Bücher über die Erkennung der Tonhöhe oder der Anwendung von dsp-Musik im Allgemeinen?
- Als eine Allgemeine Einführung für eine Breite Palette von computer-Musik-Themen C. Straßen The Computer Music Tutorial (1994), Cambridge: MIT Press) ist ein sehr zugänglicher und umfassender (>1000 Seiten) Nachschlagewerk. Für mich der 1. Teil von M. Möllers Information Retrieval for Music and Motion (2007, Berlin, Heidelberg: Springer) war toll (weniger umfassende, mehr up-to-date, eher technisch). Wenn Sie Interesse an einem bestimmten Thema, die procceedings von ISMIR sind eine reiche Naht von Informationen. Andere können Ihnen andere (und bessere?) Referenzen. Ich würd auch interessieren.
- Danke .. ich werde sehen, was in Ihnen
- Die Tonhöhe IST die Grundfrequenz. Die Obertöne bilden die timbre (ausgesprochen tamber). Zum Beispiel, eine Flöte und eine Geige spielen kann die gleiche Tonhöhe (Grundfrequenz), aber Ihre Klangfarbe ist die harmonische Frequenz-Merkmale, die Sie unterschiedlich klingen.
- Ich denke, Tonhöhe und Klangfarbe sind keine "physikalisch-akustische" Fakten, sondern psychoacoustical Effekte. Deshalb wollte ich betonen, dass "pitch" entsteht aus dem Gefühl der Grundrechte und nicht die Grundrechte selbst. Würden Sie dem Zustimmen?
- Ich Stimme mit Frank Zalkow hier. Nicht-harmonische/nicht-periodische klingt, auch moduliert Lärm platzt, kann die wahrgenommene Tonhöhe, also die Grundfrequenz ist eindeutig nicht alles.
InformationsquelleAutor Frank Zalkow
2

Können Sie versuchen, das Lesen der Literatur über die Erkennung der Tonhöhe, die ist Recht umfangreich. In der Regel Autokorrelation basierende Methoden scheinen ziemlich gut zu funktionieren; Frequenz-domain-oder zero-crossing-Methoden sind weniger robust (also FFT nicht wirklich viel helfen). Ein guter Ausgangspunkt sein kann, um zu implementieren eine der beiden algorithmen:
- YAAPT, aus: Stephen A. Zahorian und Hongbing Hu, "Ein Spektral-zeitliche Methode für robuste fundamentale Frequenz-tracking", J. Acoust. Soc. Bin. 123, 4559 (2008). http://bingweb.binghamton.edu/~hhu1/Papier/Zahorian2008spectral.pdf und MATLAB-code hier: http://ws2.binghamton.edu/zahorian/yaapt.htm
- YIN, aus: De Cheveigné, A., Kawahara, H. YIN, a fundamental frequency estimator for speech and music", J. Acoust. Soc. Bin. 111, 1917-1930 (2002). http://audition.ens.fr/adc/pdf/2002_JASA_YIN.pdf
Soweit off-the-shelf-Lösungen, check-out Aubio, C-code mit python-wrapper, der mehrere pitch-extraction-algorithmen zur Verfügung, einschließlich YIN-und multiple-Kamm.
- Vielen Dank 🙂 Über aubio, ich finde die Umsetzung der Beispiele auf dieser Seite aubio.org/doc/latest/examples.html ein wenig schwierig. Ich kann nicht finden, die Methoden, die Sie verwendet haben, in Ihren Beispielen in der Bibliothek und es ist nicht genug Dokumentation.
InformationsquelleAutor Alex I
2

Wenn Sie bereit sind, zu verwenden 3rd-party-Bibliotheken (zumindest als Referenz für die, wie andere Leute geschafft):

Extraktion musikalischer Informationen aus sound, eine Präsentation von PyCon 2012, zeigt, wie der AudioNest Python-API:
- Demo, pitch-Erkennung in Aktion
- Einige hintergrund-Erklärung
Hier ist der entsprechende EchoNest-Dokumentation:
- Track-API-Methoden
- Detaillierte Analyse-Dokumentation
Relevante Auszug:

pitch-Inhalte ist gegeben durch ein "chroma" - Vektor, entsprechend der
12 pitch classes C, C#, D bis B, wobei die Werte im Intervall von 0 bis 1,
beschreiben die relative Dominanz von jedem Stellplatz in der chromatischen Tonleiter.
Zum Beispiel ein C-Dur Akkord würde wahrscheinlich vertreten durch große
Werte von C, E und G (d.h. die Klassen 0, 4 und 7). Vektoren sind
normalisiert zu 1 von Ihrer stärksten dimension, daher laute Geräusche
wahrscheinlich sind repräsentiert durch Werte, die sind alle in der Nähe von 1, während die Reine
Töne werden beschrieben durch einen Wert 1 (die Tonhöhe) und der andere in der Nähe von 0.

EchoNest hat die Analyse auf seine Server. Sie bieten Kostenlose API-keys für nicht-kommerzielle Nutzung.

Wenn EchoNest ist nicht eine option, ich würde Blick auf die open-source -aubio-Projekt. Es hat python-Bindungen, und Sie können überprüfen, die Quelle, um zu sehen, wie Sie erreicht Erkennung der Tonhöhe.
- Danke. Interessantes vid 🙂
InformationsquelleAutor Leftium

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.