Entfernen Sie doppelte Zeilen zählt, in Hive-SQL?

Einigen Artikeln haben helfen auf dem stack, konnte aber nicht finden, löschen von Zeilen zählt in den Bienenstock.

Gibt es 2 row_counts für Apple. Wie wähle ich nur 1 Zeilenanzahl für Apple?

--Welche Daten aussieht...Insgesamt 14 Datensätze

customerID     date product_type            
1234abc       20140105  Orange      
1234abc       20140105  Apple       
1234abc       20140205  Orange      
1234abc       20140205  Apple       
1234abc       20140205  Apple       
1234abc       20140305  Orange      
1234abc       20140305  Apple       
1234abc       20140305  Apple       
1234abc       20140405  Orange      
1234abc       20140405  Apple       
1234abc       20140405  Apple       
1234abc       20140505  Orange      
1234abc       20140505  Apple       
1234abc       20140505  Apple

--Die Endgültige Ausgabe. Insgesamt 10 Datensätze

customerID     date product_type    
1234abc       20140105  Orange      
1234abc       20140105  Apple       
1234abc       20140205  Orange      
1234abc       20140205  Apple       
1234abc       20140305  Orange      
1234abc       20140305  Apple       
1234abc       20140405  Orange      
1234abc       20140405  Apple       
1234abc       20140505  Orange      
1234abc       20140505  Apple

Beide Tabellen haben 10 Zeilen. Ich verstehe nicht, was du meinst, von 14 Datensätzen. Was bedeutet die Daten wirklich Aussehen?
Daten sieht wie folgt aus. Vielen Dank für den Hinweis.
Tun Sie wirklich wollen, löschen Sie die Daten aus Ihrer Hive-Tabelle? Oder haben Sie einfach nicht wollen, Duplikate zu zeigen, die in der Abfrage?
So dass Sie wollen, löschen Sie aus der Tabelle alle Werte von count(product_type), wo product_type ist apple, von denen eine Zählung größer als 1?

InformationsquelleAutor sharp | 2015-06-11

1

select distinct KundenNr,Datum,product_type von your_table

InformationsquelleAutor Will Du

Ich würde vorschlagen, einen 2-Schritte-Ansatz. Schritt 1: erstellen Sie eine temporäre Tabelle mit den doppelten Datensatz-Liste eingefügt werden soll, über das Menü einfügen, und wählen Sie so:

CREATE TABLE #Temp( product_Name Char( 30 ), Date Date, CustomerID int );
INSERT INTO #temp (product_Name, Date, CustomerID)
select x.dup, x.[Product_name] as nameX
      , x.[Date]  as dateX, x.CustomerID
from (
SELECT count(*) as dup
      ,[Product_Name]
      , CustonmerID
      ,[TestDate]
  FROM dbo.[yourtable]
  group by  [Date] ,[Product_Name], CustomerID ) x
  where dup > 1

Dann löschen Sie die Duplikate mit

 delete  from 
 dbo.[originaltable] 
 where EXISTS (SELECT product_Name, Date, CustomerID from #Temp WHERE Product_Name= [dbo].[originaltable].Product_Name and Date=[dbo].[originalTable].Date )

Schritt 2: Legen Sie die Tabelle #temp Inhalt, welcher den Datensatz in der ursprünglichen Tabelle.

InformationsquelleAutor Henry L

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.