Die Berechnung der Kosinus-ähnlichkeit zwischen allen Zeilen des dataframe in pyspark

Ich habe einen Datensatz mit Arbeiter mit Ihrer demographischen Daten wie Alter, Geschlecht,Anschrift usw.-und Ihrem Arbeitsort. Ich habe eine RDD aus dem dataset-Objekt und konvertiert es in ein DataFrame.

Gibt es mehrere Einträge für jede ID. Also, ich habe ein DataFrame die enthalten nur die ID der Arbeiter und die verschiedenen Büro-Standorte", dass er/Sie gearbeitet hatte.

    |---------- | ----------------|
    | **ID**    **Office_Loc**  |
    |---------- | ----------------|
    |   1      |Delhi, Mumbai,  |
    |          | Gandhinagar    |
    |---------------------------|
    |   2      | Delhi, Mandi   | 
    |---------------------------|
    |   3      |Hyderbad, Jaipur|
    -----------------------------

Möchte ich berechne die Kosinus-ähnlichkeit zwischen jeder Arbeitnehmer mit jedem anderen Arbeitnehmer, basierend auf Ihrer office-Standorte".

So, ich iteriert über die Zeilen des DataFrame, empfangen einer einzelnen Zeile aus der DataFrame :

myIndex = 1
values = (ID_place_df.rdd.zipWithIndex()
            .filter(lambda ((l, v), i): i == myIndex)
            .map(lambda ((l,v), i): (l, v))
            .collect())

und dann mit Karte

    cos_weight = ID_place_df.select("ID","office_location").rdd\
  .map(lambda x: get_cosine(values,x[0],x[1]))

berechnet den Kosinus-ähnlichkeit zwischen der extrahierten Zeile und das ganze DataFrame.

Ich glaube nicht, dass mein Ansatz ist ein guter, da bin ich zu iterieren durch die Zeilen des DataFrame, es Niederlagen der ganze Zweck der Verwendung von spark.
Gibt es einen besseren Weg, es zu tun in pyspark?
Freundlich beraten.

Ich thibk es eine etwas lange Frage. In der Regel ist es eine gute Praxis, um Fragen der Aufgabe mit den einfachsten Fall, das Sie immer das gleiche Problem.

InformationsquelleAutor Abhinav Choudhury | 2017-10-15

16

Können Sie die mllib - Paket zum berechnen der L2 norm des TF-IDF jeder Zeile. Dann multiplizieren Sie die Tabelle mit sich selbst, um die Kosinus-ähnlichkeit als das Skalarprodukt von zwei durch zwei L2Normen:

1. RDD
```
rdd = sc.parallelize([[1, "Delhi, Mumbai, Gandhinagar"],[2, " Delhi, Mandi"], [3, "Hyderbad, Jaipur"]])
```
- Berechnen TF-IDF:
```
documents = rdd.map(lambda l: l[1].replace(" ", "").split(","))

from pyspark.mllib.feature import HashingTF, IDF
hashingTF = HashingTF()
tf = hashingTF.transform(documents)
```
Können Sie die Anzahl der features in HashingTF um die Funktion matrix kleiner (weniger Spalten).
```
    tf.cache()
    idf = IDF().fit(tf)
    tfidf = idf.transform(tf)
```
- Berechnen L2norm:
```
from pyspark.mllib.feature import Normalizer
labels = rdd.map(lambda l: l[0])
features = tfidf

normalizer = Normalizer()
data = labels.zip(normalizer.transform(features))
```
- Berechnen Kosinus-ähnlichkeit durch die Multiplikation der matrix mit sich selbst:
```
from pyspark.mllib.linalg.distributed import IndexedRowMatrix
mat = IndexedRowMatrix(data).toBlockMatrix()
dot = mat.multiply(mat.transpose())
dot.toLocalMatrix().toArray()

    array([[ 0.        ,  0.        ,  0.        ,  0.        ],
           [ 0.        ,  1.        ,  0.10794634,  0.        ],
           [ 0.        ,  0.10794634,  1.        ,  0.        ],
           [ 0.        ,  0.        ,  0.        ,  1.        ]])
```
  ODER: Mit einem kartesischen Produkt und die Funktion dot auf numpy arrays:
```
data.cartesian(data)\
    .map(lambda l: ((l[0][0], l[1][0]), l[0][1].dot(l[1][1])))\
    .sortByKey()\
    .collect()

    [((1, 1), 1.0),
     ((1, 2), 0.10794633570596117),
     ((1, 3), 0.0),
     ((2, 1), 0.10794633570596117),
     ((2, 2), 1.0),
     ((2, 3), 0.0),
     ((3, 1), 0.0),
     ((3, 2), 0.0),
     ((3, 3), 1.0)]
```
2. DataFrame

Da Sie zu sein scheinen mit dataframes, die Sie verwenden können, die spark mlPaket statt:
```
import pyspark.sql.functions as psf
df = rdd.toDF(["ID", "Office_Loc"])\
    .withColumn("Office_Loc", psf.split(psf.regexp_replace("Office_Loc", " ", ""), ','))
```
- Berechnen Sie TF-IDF:
```
from pyspark.ml.feature import HashingTF, IDF
hashingTF = HashingTF(inputCol="Office_Loc", outputCol="tf")
tf = hashingTF.transform(df)

idf = IDF(inputCol="tf", outputCol="feature").fit(tf)
tfidf = idf.transform(tf)
```
- Berechnen L2 norm:
```
from pyspark.ml.feature import Normalizer
normalizer = Normalizer(inputCol="feature", outputCol="norm")
data = normalizer.transform(tfidf)
```
- Berechnen Sie matrix-Produkt:
```
from pyspark.mllib.linalg.distributed import IndexedRow, IndexedRowMatrix
mat = IndexedRowMatrix(
    data.select("ID", "norm")\
        .rdd.map(lambda row: IndexedRow(row.ID, row.norm.toArray()))).toBlockMatrix()
dot = mat.multiply(mat.transpose())
dot.toLocalMatrix().toArray()
```
  ODER: mit einem join und einer UDF für die Funktion dot:
```
dot_udf = psf.udf(lambda x,y: float(x.dot(y)), DoubleType())
data.alias("i").join(data.alias("j"), psf.col("i.ID") < psf.col("j.ID"))\
    .select(
        psf.col("i.ID").alias("i"), 
        psf.col("j.ID").alias("j"), 
        dot_udf("i.norm", "j.norm").alias("dot"))\
    .sort("i", "j")\
    .show()

    +---+---+-------------------+
    |  i|  j|                dot|
    +---+---+-------------------+
    |  1|  2|0.10794633570596117|
    |  1|  3|                0.0|
    |  2|  3|                0.0|
    +---+---+-------------------+
```
Diesem tutorial listet die verschiedenen Methoden zu multiplizieren großen Maßstab Matrizen: https://labs.yodas.com/large-scale-matrix-multiplication-with-pyspark-or-how-to-match-two-large-datasets-of-company-1be4b1b2871e
- Danke für die Antwort. Ich bin wirklich dankbar für die Hilfe. Aber der code ist mir ein Fehler requirement failed: The input column must be ArrayType, but got StringType.'. während der hashingTF transformation während der Verwendung von dataframe.
- Sie haben nach split der string-Liste in einer word-Liste. Ich habe den Teil über, wie man erstellen Sie df
- Hi, es funktioniert, wenn ich data.cartesian(data)\ .map(lambda l: ((l[0][0], l[1][0]), l[0][1].dot(l[1][1])))\ .sortByKey()\ .take(5). aber wenn ich mit der mllib code und konvertieren Sie die blockMatrix eine LocalMatrix, es gibt mir u'requirement failed: The length of the values array must be less than Int.MaxValue. Currently numRows * numCols: 1006095879729669481' was ich nicht verstehe, wie ich nehme eine kleine Teilmenge der Daten (über 10 ID ' s), so dass die numRows * numCols:100.
- versuchen Sie numFeatures um die Anzahl der verschiedenen Städte, die Sie in Ihrem dataframe, standardmäßig ist es 262144 werden die Anzahl der Spalten in der block-matrix (ich habe es auf 10 für die sample-Daten, die Sie zur Verfügung gestellt). ein cartesian join mit einem dot product auch funktioniert. Schauen Sie sich den link, der für große matrix-Multiplikation
- Wie legen Sie numFeatures? Ich habe es in hashingTF = HashingTF(numFeatures=20,inputCol="Business", outputCol="tf"). aber der Block-matrix hat immer noch 1003043309L cols und rows. Aber für das kleine Beispiel, dass in der Frage, die ich donot haben das problem
- Wenn ich die catesian gemeinsam mit Skalarprodukt mit 288 ID 's und wandeln Sie es in ein DataFrame result=data.cartesian(data)\ .map(lambda l: ((l[0][0]), (l[1][0]), l[0][1].dot(l[1][1])))\ .toDF() bekomme ich die folgende Fehlermeldung nicht unterstützt-Typ: " < " type 'numpy.float64'>`. Wenn ich versuchen ein kleines Beispiel für 10 Einträge, die ich nicht bekomme diese Fehlermeldung
- numpy int or float sind nicht unterstützte Datentypen in pyspark. Spark ML-Bibliothek basiert auf numpy arrays dies ist der Grund, warum konvertieren Sie numpy floats. Sie können dies umgehen, indem man es als float. Ich habe das kartesische Produkt Teil für beide RDD und dataframes
- warum Punkt.toLocalMatrix().toArray() produzieren 4 x 4 array-Größe, anstelle von 3 x 3, da es drei Bezeichnungen (1,2,3)?
InformationsquelleAutor MaFF

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.