Vergleichen Sie zwei spectogram zu finden, die das offset, wo Sie match-Algorithmus

Nehme ich täglich 2 Minuten-radio-Sendung aus dem Internet. Es sind immer die gleichen Start-und End-jingle. Da die radio-broadcast-genaue Zeit kann variieren von mehr oder weniger 6 Minuten, die ich aufnehmen rund 15 Minuten radio.

Möchte ich, um die genaue Zeit, wo es diese jingles werden in den 15 Minuten aufzeichnen, so kann ich extrahieren Sie die Teil der audio-ich will.

Ich bereits eine C# - Anwendung, wo ich das Dekodieren von MP3 zu PCM-Daten umwandeln und die PCM-Daten, um ein Spektrogramm basierend auf http://www.codeproject.com/KB/audio-video/SoundCatcher.aspx

Ich habe versucht, eine Cross-Correlation-Algorithmus auf die PCM-Daten, aber der Algorithmus ist sehr langsam, etwa 6 Minuten mit einem Schritt von 10ms und gibt Anlass, es nicht zu finden, die jingle-start-Zeit.

Ideen der algorithmen für den Vergleich von zwei Spektrogramm für ein match? Oder einen besseren Weg zu finden, dass jingle Startzeit?

Dank,

Update, sorry für die Verzögerung

Erste, ich danke für alle anwsers die meisten von Ihnen waren relevant und oder interessanten Ideen.

Habe ich versucht zu implementieren, die Shazam-Algorithmus vorgeschlagen von fonzo. Aber nicht zu erkennen, die peaks im Spektrogramm. Hier drei Spektrogramme der Start-jingle aus drei verschiedenen Datensätzen. Ich versuchte AForge.NET mit dem blob-filter (jedoch nicht identifizieren von peaks), verschwimmt das Bild und überprüfen Sie die Differenz in der Höhe, die Laplace-Faltung, slope-Analyse, erkennen der Reihe vertikaler Balken (aber es gab zu viele false positives)...

In der Zwischenzeit, während ich versuchte die Hough-Algorithmus vorgeschlagen, von Dave Aaron Smith. Wo berechne ich den RMS der einzelnen Spalten. Ja ja die einzelnen Spalten, es ist ein O(N*M), aber M << N (Beachte a-Säule ist um 8k-sample). So im gesamten ist es nicht schlecht, noch der Algorithmus dauert etwa 3 Minuten, hat aber nie nicht.

Ich konnte gehen mit, dass die Lösung, aber wenn möglich, würde ich lieber den Shazam, weil es O(N) und wahrscheinlich sehr viel schneller (und Kühler ist Sie auch). Also kennt einer von Euch eine Idee eines Algorithmus erkennt immer die gleichen Punkte in diese Spektrogramme (nicht zu Spitzen), durch einen Kommentar hinzufügen.

Vergleichen Sie zwei spectogram zu finden, die das offset, wo Sie match-Algorithmus

Neues Update

Schließlich ging ich mit dem Algorithmus oben erklärt, habe ich versucht zu implementieren, die Shazam-Algorithmus, aber konnte nicht finden, die richtigen peaks im Spektrogramm, die identifizierten Punkte, wo nicht konstant aus einer sound-Datei zu einer anderen. In der Theorie, die Shazam-Algorithmus ist die Lösung für diese Art von problem. Die Hough-Algorithmus vorgeschlagen, von Dave Aaron Smith war mehr stabil und effektiv. Ich splitten um die 400 Dateien, und nur 20 von Ihnen scheitern zu split richtig. Speicherplatz, wenn von 8 GB auf 1 GB.

Dank, für deine Hilfe.

InformationsquelleAutor Dominik Délisle-Ong | 2011-04-13

algorithm audio c#comparison spectrogram

2

Ich Frage mich, ob Sie könnte ein Hough-Transformation. Sie würde anfangen, durch die Katalogisierung in jedem Schritt der Eröffnungssequenz. Lassen Sie uns sagen, Sie verwenden 10 ms-Schritten und die Anfangssequenz ist 50 ms lang. Sie berechnen einige Metrik auf jedem Schritt und bekommen
```
1 10 1 17 5
```
Gehen Sie nun über Ihr audio-und analysieren jede 10 ms Schritt für die gleiche Metrik. Rufen Sie dieses array have_audio
```
8 10 8 7 5 1 10 1 17 6 2 10...
```
Nun erstellen Sie ein neues leeres array, das die gleiche Länge wie have_audio. Rufen Sie start_votes. Es wird enthalten: "Stimmen" für den start der Eröffnungssequenz. Wenn Sie eine 1, können Sie in der 1. oder Schritt 3 die Anfangssequenz, also Sie haben 1 Stimme für die Eröffnung Sequenz ab dem 1 Schritt vor und 1 Stimme für die Eröffnung Sequenz starten 3 Schritte vor. Wenn Sie sehen, eine 10, Sie haben 1 Stimme für die Eröffnung Sequenz starten 2 Schritte vor, einen 17 Stimmen für Schritt 4 Wochen, und so weiter.

So zum Beispiel, dass have_audio Ihre votes Aussehen wird
```
2 0 0 1 0 4 0 0 0 0 0 1 ...
```
Haben Sie eine Menge von Stimmen an position 6, also gibt es eine gute chance, die Eröffnungssequenz startet es.

Könnte man die Leistung verbessern, indem nicht die Mühe zu analysieren, die gesamte Eingangssequenz. Wenn die opening Sequenz ist 10 Sekunden lang, könnte man nur nach den ersten 5 Sekunden.
- Hi, vielen Dank für Sie Antwort, ich habe heute etwas gelernt. Aber ich weiß wirklich nicht, was Metrik könnte sein verwenden, um repräsentieren einen Teil des Signals. Das Spektrogramm ist ein array, ich könnte führen Sie diesen Algorithmus für verschiedene Frequenzen wie 100 und der Summe der Stimmen für die einzelnen Teile. Allerdings Frage ich mich, über die Leistung.
- Ja, Hough-Transformationen werden in der computer vision verwendet, und ich weiß nicht viel über die audio-signal-Verarbeitung. Das ist eine clevere Idee, zu Messen, bestimmte Frequenzen, wenn auch für die Metrik.
InformationsquelleAutor Dave Aaron Smith
4

Gibt es eine Beschreibung des Algorithmus verwendet, um den shazam-Dienst (worin Musik eine kurze, möglicherweise verrauschten sample) hier : http://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf

Von was ich Verstand, die erste Sache, die getan wird, zu isolieren peaks im Spektrogramm (mit einigen Anpassungen gewährleisten eine gleichmäßige Abdeckung), die eine "Konstellation" von paar Werte (Zeit, - Häufigkeit) von der initial-Spektrogramm. Ist das erledigt, wird die Probe Konstellation ist im Vergleich zu der Konstellation, die volle Strecke durch die übersetzung, ein Fenster von der sample-Länge vom Anfang bis zum Ende und zählen Sie die Anzahl der korrelierten Punkte.

Das Papier beschreibt die technische Lösung fanden Sie in der Lage sein zu tun, den Vergleich schnell, auch mit einer riesigen Sammlung von tracks.
- Hi danke für deine Antwort, ich habe gerade gelesen das Papier. Dieser Algorithmus scheint zu passen, genau mein Bedürfnis, füge ich einem anderen Kommentar einmal getestet. Danke.
InformationsquelleAutor jeremy-george
2

Ist hier ein gutes python-Paket, das nicht nur das:

https://code.google.com/p/py-astm/

Wenn Sie auf der Suche für einen bestimmten Algorithmus, gute Suchbegriffe zu verwenden sind "akustische Fingerabdruck" oder "perceptual hashing".

Hier ist noch ein python-Paket, das könnte auch verwendet werden:

http://rudd-o.com/new-projects/python-audioprocessing/documentation/manuals/algorithms/butterscotch-signatures
- Hi danke für die Antwort. Ich check den code von py-astm und es scheint, um mithilfe von cross correlation unter der Haube, scheint es auch vom Autor kommentiert, dass der Algorithmus langsam ist. Für die andere option, es ist interessant. Ich bin noch am studieren der Algorithmus, füge ich noch eine Bemerkung für diese option. Danke.
InformationsquelleAutor mattgattis
1

Wenn Sie bereits wissen, die jingle-Sequenz, könnten Sie analysieren die Korrelation mit der Sequenz anstelle der Kreuz-Korrelation zwischen den vollen 15 Minuten zu Spuren.

Schnell die Berechnung der Korrelation gegen die (kurze) Sequenz, ich würde vorschlagen, mit einer Wiener-filter.

Edit: ein Wiener-filter ist ein Weg, um suchen Sie ein signal in eine Sequenz mit Lärm. In dieser Anwendung werden wir in Betracht ziehen, alles, was nicht "jingle" als Lärm (Frage an den Leser: können wir noch davon ausgehen, dass das Rauschen ist weiß und nicht korreliert?).

( fand ich den Hinweis, den ich suchte! Die Formeln die ich mich erinnerte, waren ein wenig aus, und ich werde entfernen Sie jetzt)

Die relevante Seite Wiener-Dekonvolution. Die Idee ist, dass wir definieren können, ein system, dessen Impulsantwort h(t) hat die gleiche Wellenform wie der jingle, und wir müssen die Stelle suchen, in einer lauten Sequenz, wo das system erhalten hat, ein Impuls (d.h.: emittiert ein jingje).

Seit der jingle bekannt ist, können wir berechnen, Ihr Leistungsspektrum H(f), und da können wir davon ausgehen, dass ein single-jingle wird in einer aufgezeichneten Sequenz, können wir sagen, dass der unbekannte input x(t) hat die Form eines Impulses, dessen Leistungsdichte S(f) ist konstant auf jeder Frequenz.

Gegeben und die Kenntnisse über, können Sie die Formel zu erhalten, eine "jingle-pass" - filter (wie in, nur Signale geformt wie der jingle kann passieren), dessen Ausgang ist am höchsten, wenn der jingle gespielt wird.
- Hi, vielen Dank für Sie Antwort. Ich bin mir nicht sicher, ich verstehe den ersten Teil, den ich derzeit korrelieren zwischen der vollen 15-Minuten-Strecke und der 10-Sekunden-jingle. Sorry, ich war unklar. Auch der Wiener-filter scheint ein filter, um Rauschen zu entfernen, schlagen Sie vor, dass der Grund, warum irgendwann die Korrelation Versagen ist, weil der Lärm? Dank
- Sobald Sie die jingle-Sequenz, können Sie split der volle clip in 10 Sekunden kürzere clips, und überprüfen Sie die Kreuz-Korrelation der jingle und jeder der clips. Die meisten korreliert clip, ist das mit dem jingle (Frage: was passiert, wenn der jingle ist split zwischen zwei clips?).
- Hinweis: die Erklärung in der Antwort ist eine andere Methode als die, die ich vorgeschlagen, in die Kommentar
- Danke. Eigentlich bin ich momentan genau das aber der Schritt ist 10ms statt 10 Sekunden mit dem clip-Länge von 10 Sekunden, so dass Sie sich überlappen. Und dennoch irgendwann der Algorithmus nicht wieder die gute Antwort. Trotzdem werde ich versuchen, Ihr Vorschlag könnte ich vielleicht die n besten kürzer clips ein re-führen Sie den Algorithmus mit kleineren Schritten. Danke.
- Wenn Sie Zeit haben, versuchen Sie auch Gebäude, die jingle-pass-filter: ein linearer filter sollte es nicht darstellen-Effizienz-Probleme.
InformationsquelleAutor Coffee on Mars

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.