Entfernen Sie doppelte Zeilen zählt, in Hive-SQL?

Einigen Artikeln haben helfen auf dem stack, konnte aber nicht finden, löschen von Zeilen zählt in den Bienenstock.

Gibt es 2 row_counts für Apple. Wie wähle ich nur 1 Zeilenanzahl für Apple?

--Welche Daten aussieht...Insgesamt 14 Datensätze

customerID     date product_type            
1234abc       20140105  Orange      
1234abc       20140105  Apple       
1234abc       20140205  Orange      
1234abc       20140205  Apple       
1234abc       20140205  Apple       
1234abc       20140305  Orange      
1234abc       20140305  Apple       
1234abc       20140305  Apple       
1234abc       20140405  Orange      
1234abc       20140405  Apple       
1234abc       20140405  Apple       
1234abc       20140505  Orange      
1234abc       20140505  Apple       
1234abc       20140505  Apple       

--Die Endgültige Ausgabe. Insgesamt 10 Datensätze

customerID     date product_type    
1234abc       20140105  Orange      
1234abc       20140105  Apple       
1234abc       20140205  Orange      
1234abc       20140205  Apple       
1234abc       20140305  Orange      
1234abc       20140305  Apple       
1234abc       20140405  Orange      
1234abc       20140405  Apple       
1234abc       20140505  Orange      
1234abc       20140505  Apple       
  • Beide Tabellen haben 10 Zeilen. Ich verstehe nicht, was du meinst, von 14 Datensätzen. Was bedeutet die Daten wirklich Aussehen?
  • Daten sieht wie folgt aus. Vielen Dank für den Hinweis.
  • Tun Sie wirklich wollen, löschen Sie die Daten aus Ihrer Hive-Tabelle? Oder haben Sie einfach nicht wollen, Duplikate zu zeigen, die in der Abfrage?
  • So dass Sie wollen, löschen Sie aus der Tabelle alle Werte von count(product_type), wo product_type ist apple, von denen eine Zählung größer als 1?
InformationsquelleAutor sharp | 2015-06-11
Schreibe einen Kommentar