Entfernen Sie doppelte Zeilen zählt, in Hive-SQL?
Einigen Artikeln haben helfen auf dem stack, konnte aber nicht finden, löschen von Zeilen zählt in den Bienenstock.
Gibt es 2 row_counts für Apple. Wie wähle ich nur 1 Zeilenanzahl für Apple?
--Welche Daten aussieht...Insgesamt 14 Datensätze
customerID date product_type
1234abc 20140105 Orange
1234abc 20140105 Apple
1234abc 20140205 Orange
1234abc 20140205 Apple
1234abc 20140205 Apple
1234abc 20140305 Orange
1234abc 20140305 Apple
1234abc 20140305 Apple
1234abc 20140405 Orange
1234abc 20140405 Apple
1234abc 20140405 Apple
1234abc 20140505 Orange
1234abc 20140505 Apple
1234abc 20140505 Apple
--Die Endgültige Ausgabe. Insgesamt 10 Datensätze
customerID date product_type
1234abc 20140105 Orange
1234abc 20140105 Apple
1234abc 20140205 Orange
1234abc 20140205 Apple
1234abc 20140305 Orange
1234abc 20140305 Apple
1234abc 20140405 Orange
1234abc 20140405 Apple
1234abc 20140505 Orange
1234abc 20140505 Apple
- Beide Tabellen haben 10 Zeilen. Ich verstehe nicht, was du meinst, von 14 Datensätzen. Was bedeutet die Daten wirklich Aussehen?
- Daten sieht wie folgt aus. Vielen Dank für den Hinweis.
- Tun Sie wirklich wollen, löschen Sie die Daten aus Ihrer Hive-Tabelle? Oder haben Sie einfach nicht wollen, Duplikate zu zeigen, die in der Abfrage?
- So dass Sie wollen, löschen Sie aus der Tabelle alle Werte von count(product_type), wo product_type ist apple, von denen eine Zählung größer als 1?
Du musst angemeldet sein, um einen Kommentar abzugeben.
select distinct KundenNr,Datum,product_type von your_table
Ich würde vorschlagen, einen 2-Schritte-Ansatz. Schritt 1: erstellen Sie eine temporäre Tabelle mit den doppelten Datensatz-Liste eingefügt werden soll, über das Menü einfügen, und wählen Sie so:
Dann löschen Sie die Duplikate mit
Schritt 2: Legen Sie die Tabelle #temp Inhalt, welcher den Datensatz in der ursprünglichen Tabelle.