DataFrame filtern, basierend auf der zweiten Dataframe

Verwendung von Spark-SQL, ich habe zwei dataframes, Sie werden erstellt von einer, wie:

df = sqlContext.createDataFrame(...);
df1 = df.filter("value = 'abc'"); //[path, value]
df2 = df.filter("value = 'qwe'"); //[path, value]

Möchte ich filtern df1, wenn ein Teil von Ihr " Weg " ist jeder Pfad in df2.
Also, wenn df1 hat die Zeile mit dem Pfad "a/b/c/d/e" würde ich heraus finden, ob in df2 ist eine Zeile, Pfad "a/b/c".
In SQL sollte es sein, wie

SELECT * FROM df1 WHERE udf(path) IN (SELECT path FROM df2)

wo udf user defined function, kürzen ursprünglichen Pfad von df1.
Naive Lösung ist die Verwendung von JOIN und dann die Ergebnisse filtern, aber es ist langsam, seit df1 und df2 haben jeweils mehr als 10mil Zeilen.

Ich habe auch versucht folgenden code, aber Erstens hatte ich zum erstellen von broadcast-variable aus df2

static Broadcast<DataFrame> bdf;
bdf = sc.broadcast(df2); //variable 'sc' is JavaSparkContext 

sqlContext.createDataFrame(df1.javaRDD().filter(
         new Function<Row, Boolean>(){
             @Override
             public Boolean call(Row row) throws Exception {
                 String foo = shortenPath(row.getString(0));
                 return bdf.value().filter("path = '"+foo+"'").count()>0;
             }
          }
    ), myClass.class)

das problem das ich habe ist, dass die Funke zu stecken, wenn die Rückkehr ausgewertet wurde/bei der Filterung von df2 durchgeführt wurde.

Ich würde gerne wissen, wie die Arbeit mit zwei dataframes, dies zu tun.
Ich möchte wirklich vermeiden, BEITRETEN. Irgendwelche Ideen?

EDIT>>

In meinem ursprünglichen code df1 hat alias 'ersten' und df2 "zweiten". Diese Verknüpfung ist nicht Kartesisch, und es ist auch nicht broadcast.

df1 = df1.as("first");
df2 = df2.as("second");

    df1.join(df2, df1.col("first.path").
                                lt(df2.col("second.path"))
                                      , "left_outer").
                    filter("isPrefix(first.path, second.path)").
                    na().drop("any");

isPrefix ist udf

UDF2 isPrefix = new UDF2<String, String, Boolean>() {
        @Override
        public Boolean call(String p, String s) throws Exception {
            //return true if (p.length()+4==s.length()) and s.contains(p)
        }};

shortenPath - es schneidet die letzten beiden Zeichen im Pfad

UDF1 shortenPath = new UDF1<String, String>() {
        @Override
        public String call(String s) throws Exception {
            String[] foo = s.split("/");
            String result = "";
            for (int i = 0; i < foo.length-2; i++) {
                result += foo[i];
                if(i<foo.length-3) result+="/";
            }
            return result;
        }
    };

Beispiel der Rekorde. Pfad ist einzigartig.

a/a/a/b/c abc
a/a/a     qwe
a/b/c/d/e abc
a/b/c     qwe
a/b/b/k   foo
a/b/f/a   bar
...

So df1 bestehend aus

a/a/a/b/c abc
a/b/c/d/e abc
...

und df2 aus

a/a/a     qwe
a/b/c     qwe
...

In Bezug auf: Wie können wir an zwei Spark SQL dataframes mit einem SQL-artige "GEFÄLLT mir" - Kriterium?
Frage bearbeitet wurde. Btw UNION macht Sinn, auch für mich. Aber Funken tut nicht Unterstützung von geschachtelten Abfragen wie "SELECT Pfad FROM blabla WHERE value LIKE 'abc' UND Eltern(Pfad) IN (SELECT Pfad FROM blabla, WO Wert 'qwe')". Es ist auch nicht unterstützt, durch die Verwendung von DataFrame api.
Haben Sie versucht, eine Filter-pattern? Natürlich würden Sie brauchen, um anzupassen, das gegebene Beispiel, aber ich denke, es kann die Antwort sein

InformationsquelleAutor HR.AD | 2015-12-16

1

Gibt es zumindest wenige Probleme mit dem code:
- Sie können keine Aktion ausführen oder transformation in eine andere Maßnahme oder transformation. Es bedeutet, dass eine Filterung ausgestrahlt DataFrame einfach nicht funktionieren, und Sie sollten eine Ausnahme.
- join Sie verwenden, ausgeführt wird, als ein Kartesisches Produkt gefolgt von filter. Da Funke ist mit Hashing für joins nur die Gleichheit basierte Verknüpfungen können effizient ausgeführt, ohne kartesischen. Es ist leicht mit Bezug auf Warum eine UDF-Datei in eine SQL-Abfrage führt zu kartesischen Produkt?
- wenn beide DataFrames sind relativ groß und haben eine ähnliche Größe dann broadcasting ist unwahrscheinlich, nützlich zu sein. Sehen Warum meine BroadcastHashJoin ist langsamer als ShuffledHashJoin Spark
- nicht wichtig, wenn es um die Leistung, sondern isPrefix scheint falsch. Insbesondere sieht es aus wie es passen beide Präfix-und suffix -
- col("first.path").lt(col("second.path")) Zustand sieht falsch aus. Ich nehme an, Sie wollen a/a/a/b/c aus df1 match a/a/a aus df2. Wenn es so sein sollte gt nicht lt.
Wahrscheinlich die beste Sache, die Sie tun können, ist etwas ähnlich wie diese:
```
import org.apache.spark.sql.functions.{col, regexp_extract}

val df = sc.parallelize(Seq(
    ("a/a/a/b/c", "abc"), ("a/a/a","qwe"),
    ("a/b/c/d/e", "abc"), ("a/b/c", "qwe"),
    ("a/b/b/k", "foo"), ("a/b/f/a", "bar")
)).toDF("path", "value")

val df1 = df
    .where(col("value") === "abc")    
    .withColumn("path_short", regexp_extract(col("path"), "^(.*)(/.){2}$", 1))
    .as("df1")

val df2 = df.where(col("value") === "qwe").as("df2")
val joined = df1.join(df2, col("df1.path_short") === col("df2.path"))
```
Können Sie versuchen, die broadcast-einer der Tabellen wie diese (Funke >= 1.5.0 nur):
```
import org.apache.spark.sql.functions.broadcast

df1.join(broadcast(df2), col("df1.path_short") === col("df2.path"))
```
erhöhen und das auto broadcast-Grenzen, aber wie ich schon oben erwähnte, es wird wahrscheinlich werden weniger effizient als die einfache HashJoin.
- Ich bin auch vor Kartesisches Produkt-Problem beim überprüfen nicht die Gleichheit auf dataframe beitreten, gibt es keine Lösung oder Problemumgehung für dieses?
InformationsquelleAutor zero323

Als eine Möglichkeit der Implementierung IN mit Unterabfrage, die LEFT SEMI JOIN können verwendet werden:

    JavaSparkContext javaSparkContext = new JavaSparkContext("local", "testApp");
    SQLContext sqlContext = new SQLContext(javaSparkContext);
    StructType schema = DataTypes.createStructType(new StructField[]{
            DataTypes.createStructField("path", DataTypes.StringType, false),
            DataTypes.createStructField("value", DataTypes.StringType, false)
    });
    //Prepare First DataFrame
    List<Row> dataForFirstDF = new ArrayList<>();
    dataForFirstDF.add(RowFactory.create("a/a/a/b/c", "abc"));
    dataForFirstDF.add(RowFactory.create("a/b/c/d/e", "abc"));
    dataForFirstDF.add(RowFactory.create("x/y/z", "xyz"));
    DataFrame df1 = sqlContext.createDataFrame(javaSparkContext.parallelize(dataForFirstDF), schema);
    //
    df1.show();
    //
    //+---------+-----+
    //|     path|value|
    //+---------+-----+
    //|a/a/a/b/c|  abc|
    //|a/b/c/d/e|  abc|
    //|    x/y/z|  xyz|
    //+---------+-----+

    //Prepare Second DataFrame
    List<Row> dataForSecondDF = new ArrayList<>();
    dataForSecondDF.add(RowFactory.create("a/a/a", "qwe"));
    dataForSecondDF.add(RowFactory.create("a/b/c", "qwe"));
    DataFrame df2 = sqlContext.createDataFrame(javaSparkContext.parallelize(dataForSecondDF), schema);

    //Use left semi join to filter out df1 based on path in df2
    Column pathContains = functions.column("firstDF.path").contains(functions.column("secondDF.path"));
    DataFrame result = df1.as("firstDF").join(df2.as("secondDF"), pathContains, "leftsemi");

    //
    result.show();
    //
    //+---------+-----+
    //|     path|value|
    //+---------+-----+
    //|a/a/a/b/c|  abc|
    //|a/b/c/d/e|  abc|
    //+---------+-----+

Dem Physischen Plan von solchen Abfrage wird wie folgt Aussehen:

== Physical Plan ==
Limit 21
 ConvertToSafe
  LeftSemiJoinBNL Some(Contains(path#0, path#2))
   ConvertToUnsafe
    Scan PhysicalRDD[path#0,value#1]
   TungstenProject [path#2]
    Scan PhysicalRDD[path#2,value#3]

Wird es mit dem LeftSemiJoinBNL für die eigentliche join-operation, sollte die broadcast-Werte intern. Mehr details beziehen sich auf die tatsächliche implementation in Spark - LeftSemiJoinBNL.scala

P. S. ich habe nicht ganz verstehen die Notwendigkeit für das entfernen der letzten beiden Zeichen, aber wenn das nötig ist, es kann getan werden, wie @zero323 vorgeschlagen (mit regexp_extract).

Schön. Ich vergaß zu semi-join. Aber das problem mit contains (oder sogar startsWith und endsWith) ist, dass es nicht optimiert werden kann. Also, wenn Sie reduzieren das problem auf die Geschlechter zu prüfen ist, wie signifikante performance-boost (LeftSemiJoinHash vs LeftSemiJoinBNL).

InformationsquelleAutor rchukh

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.