Tag: cuda
CUDA ist eine parallele computing-Plattform und Programmier-Modell für Nvidia GPUs (Graphics Processing Units). CUDA bietet eine Schnittstelle für die Nvidia-GPUs durch eine Vielzahl von Programmiersprachen, Bibliotheken und APIs.
NVIDIA CUDA SDK Beispielen Zusammenstellung nicht Unterstützte Architektur "compute_20'

Auf die Kompilierung der CUDA-SDK, ich bin immer ein nvcc fatal : Unsupported gpu-Architektur 'compute_20' Mein toolkit 2.3 und auf einem gemeinsamen system (ich.e kann wirklich aktualisieren) und die Treiber version ist auch 2.3, läuft auf 4
Sparse-matrix-Vektor-Multiplikation in CUDA

Ich versuche zu implementieren matrix-Vektor-Multiplikation auf der GPU (mit CUDA). In meinem C++ - code (CPU), lade ich die matrix als eine Dichte matrix, und dann führe ich die matrix-Vektor-Multiplikation mit CUDA. Ich bin auch mit shared
cuda mit mingw - aktualisiert

Entwickeln wir unseren code in linux, würde aber gerne kompilieren eine ausführbare windows-Datei. Die alten non-gpu-version kompiliert einwandfrei mit mingw unter windows, also hoffte ich, ich wäre in der Lage, das gleiche zu tun mit die CUDA-version.
CUDA-Runtime-API-Fehler 30: Wiederholt kernel-Aufrufe

Habe ich vor kurzem begonnen zu lernen CUDA, und ich stolperte ein sehr seltsames Verhalten, das ich nicht verstehen kann. Mein code im wesentlichen berechnet eine Durchschnittliche Ausführungszeit für eine einfache atomicAdd kernel. Um dies zu erreichen,
Lösung des dichten lineare Systeme AX = B mit CUDA

Kann ich das neue cuSOLVER Bibliothek (CUDA-7) zu lösen, lineare Systeme der form AX = B wo A, X und B sind NxN dichten Matrizen ? Ja. Im Rahmen der cuSOLVER können Sie QR-ZERLEGUNG, siehe QR-ZERLEGUNG zum
Wie Sie host-link-code mit einem statischen CUDA-Bibliothek nach trennbaren Zusammenstellung?

Okay, ich habe ein wirklich beunruhigend CUDA 5.0 Frage zu, wie link die Dinge richtig. Ich wäre wirklich dankbar für jede Hilfe! Mit dem trennbaren Zusammenstellung features von CUDA 5.0, generiert ich eine statische Bibliothek (*.a). Diese
Konstanter Speicher vs Textur-Speicher vs Globalen Speicher in CUDA

Ich versuche die Unterschiede zu finden zwischen konstanter Speicher vs textur-Speicher vs globalen Speicher bei CUDA. Ich bin in der Lage zu finden, die nach entsprechenden Artikeln, aber nicht in der Lage zu finden, die Antwort auf
nvcc fatal : Unsupported gpu-Architektur 'compute_20', während die cuda-9.1+caffe+openCV 3.4.0 installiert ist

Habe ich installiert CUDA 9.1+cudnn-9.1+opencv 3.4.0+caffe. Wenn ich versuchte zu laufen make all -j8 im caffe Verzeichnis, dieser Fehler ist aufgetreten: nvcc fatal : Unsupported gpu-Architektur 'compute_20' Ich habe versucht zu laufen: "cmake -D CMAKE_BUILD_TYPE=RELEASE -D CUDA_GENERATION=Kepler
CUDA Visual Studio 2010 Express build-Fehler

Ich versuche, um loszulegen mit der CUDA-Programmierung unter Windows mit Visual Studio 2010 Express auf einem 64-bit-Windows-7. Es dauerte eine Weile, Einrichtung der Umgebung, und ich schrieb mein erstes Programm, "helloWorld".cu 🙂 Derzeit arbeite ich mit folgendem
CUDA "invalid device" - symbol"

Dem Skelett der code ist a_kernel.cu __constant__ unsigned char carray[256]; ein.cu #include <a_kernel.cu> ... unsigned char h_carray[256]; ... cudaMemcpyToSymbol("carray", h_carray, 256); Die system-Konfiguration Windows7 64bit CUDA toolkit 3.1 SDK 3.1 GeForce GTX 460 rules-Datei im SDK 3.1
CUDA 5.0 Header-Dateien

Ich bin kämpfen, sich mit jemandem furchtbar schriftliche Projekt-und ich versuche es so schnell wie möglich zusammengestellt... (beste Ansatz wäre, diese richtig zu tun, aber Zeit ist ein Problem) ... na ja, Sie scheinen geschrieben zu haben,
Gewusst wie: Debuggen von CUDA mit Nsight eclipse mit nur einer GPU

Ich erhalte eine Fehlermeldung: "alle cuda-Geräte dienen zur Anzeige und kann nicht verwendet werden, während des Debuggens" (Mit Ubuntu) Gibt es eine Möglichkeit zu nutzen Nsight eclipse mit nur einer GPU für die Fehlersuche? Ich habe gesehen,
makefile für C++/CUDA-Projekt

Gelesen habe ich fast alle Fragen zu CUDA, C++ & makefiles hier, aber kann immer noch nicht herausfinden, die Lösung für mein problem. Ich habe ein paar .cpp Dateien & einige .cu Dateien in src/ - Verzeichnis
CUDA Wie die Einführung einer neuen kernel-Aufruf in einer Funktion im kernel?

Ich bin neu CUDA Programmierung. Nun, ich habe ein problem zu handhaben: ich bin versucht, CUDA-parallel-Programmierung zu behandeln, eine Reihe von Datensätzen. Und für die einzelnen Datensätze, gibt es einige matrix-Berechnung getan werden musste. Mein design ist
Warum funktioniert mein CUDA kernel-crash (unspecified launch failure) mit einem anderen dataset-Größe?

Habe ich einen kernel zur Berechnung verschiedener Elemente einer matrix, basierend auf Ihrer position (diagonal-oder off-diagonal). Den kernel wie erwartet funktioniert, wenn die Berechnung der Matrizen der Größen: 14 x 14 (ich verstehe, das ist klein und
Shared-Memory-Bank-Konflikte in CUDA: Wie Speicher ist ausgerichtet auf die Banken

Soweit mein Verständnis geht, shared memory ist unterteilt in Banken und Zugriffe von mehreren threads auf eine einzelne Daten-element innerhalb der gleichen bank wird zu einem Konflikt (oder broadcast). Ich im moment weisen Sie eine relativ große
Konstante Speicher Auslastung in CUDA-code

Ich kann es nicht herausfinden mich, was ist der beste Weg um sicherzustellen, dass der Speicher in meinem kernel ist konstant. Es ist eine ähnliche Frage wie bei http://stackoverflow...r-pleasant-way. Ich arbeite mit GTX 580 und kompilieren, nur
Fehler: Funktion "atomicAdd(double *, double)" wurde bereits definiert

Bekomme ich diese Fehlermeldung beim Versuch zu kompilieren, die von caffe-Derivat DeepLab_v2 auf Ubuntu 14.04.5 mit Cuda 8.0. Weiß jemand, wie man dieses Problem lösen? DeepLab_v2 kompiliert problemlos auf einem anderen computer, Cuda 7.5, aber da in
Wie bekomme ich die nvcc-CUDA-compiler-Optimierung mehr?

Bei Verwendung eines C-oder C++ - compiler, wenn wir passieren die -O3 Schalter, die Ausführung wird schneller. In CUDA gibt es etwas gleichwertiges? Ich bin kompilieren meines Codes mit dem Befehl nvcc filename.cu. Danach führe ich ./a.out.
Was ist der Unterschied zwischen __ldg() intrinsische und eine normale Ausführung?

Ich versuche zu erkunden", __ldg intrinsischen'. Ich bin in der NVIDIA Dokumentation für diese, aber bekam keine befriedigende Antwort über dessen Verwendung und Implementierungen. Außerdem mit Verweis auf DIESE ich versuchte Umsetzung __ldg in eine einfache 1024*1024-matrix-Multiplikation
Erstellen Sie eine verknüpfte Liste mit CUDA

Ist es möglich, erstellen Sie eine verknüpfte Liste, die auf einer GPU mit CUDA? Ich bin versucht, dies zu tun und ich bin encoutering einige Schwierigkeiten. Wenn ich nicht zuordnen dynamische Speicher in einen CUDA-kernel, dann wie
wie für die Synchronisierung zwischen cuda-kernel-Funktion?

Habe ich zwei cuda-kernel solche Funktionen a<<<BLK_SIZE,THR_SIZE>>>(params,...); b<<<BLK_SIZE,THR_SIZE>>>(params,...); Nachdem die Funktion gestartet hat, will ich warten, bis a beendet ist und starten Sie dann die Funktion b. also ich eingefügt cudaThreadSynchronize() zwischen a und b, wie diese,
cudaDeviceReset für mehrere gpu ' s

Ich arbeite derzeit an einem gpu-server mit 4 Tesla T10 gpu ist. Während ich weiter testen, der Kernel und oft töten die Prozesse mit Strg-C), habe ich ein paar Zeilen an das Ende der ein einfaches Gerät-Abfrage-code.
VISUAL STUDIO 2013 : error LNK2019: nicht aufgelöstes externes symbol - cuRAND - Random Number Generator

Habe ich recherchiert, stundenlang, MSDN-Microsoft - Linker Tools Error LNK2019 Wie löst man den Fehler LNK2019: nicht aufgelöstes externes symbol - Funktion? Was ist eine undefined reference/nicht aufgelöstes externes symbol Fehler und wie behebe ich es? Fehler
Fehler "CUDA_SAFE_CALL" ist undefiniert

Ich bin mit Hilfe der source-code von hier. Es geht um Erweiterte GMM für die Hintergrund-Subtraktion auf der GPU mit CUDA und OpenCV. Ich bin Total neu auf CUDA und ich bekam eine Fehlermeldung in MVS 10
Warum nicht CudaFree scheinen, um Speicher frei?

Ich versuche zu reservieren Gerätespeicher zu kopieren, führen Sie die Berechnungen auf die GPU kopieren Sie die Ergebnisse zurück und dann frei bis das Gerät die Erinnerung, die ich zugeordnet. Ich wollte sichergehen, dass ich nicht gehen
Probleme beim kompilieren von helloworld.cu

Während der Erstellung dieses hello-world-Beispiel, in Ubuntu 10.10 Dies ist aus CUDA Beispiel, Kapitel 3 (Keine compile Anweisungen >:@) #include <iostream> __global__ void kernel (void){ } int main(void){ kernel <<<1,1>>>(); printf("Hellow World!\n"); return 0; } Habe ich
tensorflow Fehler. CUDA-Treiber-version ist nicht ausreichend für die CUDA-runtime-version

Bekam ich die Fehlermeldung: Python 3.6.6 |Anaconda, Inc.| (default, Jun 28 2018, 17:14:51) [GCC 7.2.0] on linux Type "help", "copyright", "credits" or "license" for more information. >>> import tensorflow as tf >>> hello = tf.constant('Hello, TensorFlow!') >>>
Ist Cuda 6 wird unterstützt mit Visual Studio 2013?

Ist Cuda 6 wird unterstützt mit Visual Studio 2013? Wenn nicht, gibt es einen hack, um die beiden mit einander arbeiten? Sehe ich viel value in dem Upgrade auf VS 2013, wie es (VC++) besser implementiert die
große integer-addition mit CUDA

Ich habe die Entwicklung eines kryptografischen Algorithmus auf der GPU und derzeit stecken mit einem Algorithmus durchführen zu großen integer-addition. Große Ganzzahlen dargestellt werden, in einer üblichen Weise als eine Reihe von 32-bit-Worten. Zum Beispiel, können wir
Bitte erklären cudaMemcpyToSymbol Beispiel-code aus CUDA Programming Guide

Ist es ein problem in dieser Beispiel-code aus dem CUDA C Programming Guide? __device__ float devData; float value = 3.14f; cudaMemcpyToSymbol(devData, &value, sizeof(float)); Ich kann nicht verstehen, wie man Sie schreiben könnte, um devData zimmerreserviereung, ohne das
CUDA-Kernel-Synchronisierung

Hallo ich habe eine Frage zur Programmierung in CUDA. Ich habe den folgenden code: int main () { for (;;) { kernel_1 (x1, x2, ....); kernel_2 (x1, x2 ...); kernel_3_Reduction (x1); //code manipulation host_x1 //Copy the pointer
Matrix Multiplikation CUDA

Habe ich gelesen, über mehrere Webseiten und auch verwendet NVIDA ist code als Leitfaden, aber ich bin noch immer die falsche Antwort. Der main wird der Benutzer aufgefordert, für die Größe, und zeigt A und B zeigen
Erstellen einer statischen CUDA-Bibliothek in verknüpft werden mit einem C++ - Programm

Ich bin versucht, link ein CUDA-kernel mit C++ autotools-Projekt jedoch nicht scheinen, um passieren die Verknüpfung Bühne. Ich habe eine Datei GPUFloydWarshall.cu enthält den kernel und eine wrapper-C-Funktion möchte ich in einer Bibliothek libgpu.ein. Dies wird konsistent
CUDA externen Klasse "Verknüpfung" und " unresolved extern-Funktion im ptxas Datei

Arbeite ich mit CUDA und ich erstellt haben, ein int2_ Klasse befassen sich mit komplexen zahlen. Klasse Erklärungen in der ComplexTypes.h - Datei wie folgt: namespace LibraryNameSpace { class int2_ { public: int x; int y; //Constructors
Kopieren Sie ein Objekt zu Gerät?

Kann ich kopieren Sie eine C++ - Objekt auf dem Gerät? sagen, ich habe: class CudaClass { public: int* data; CudaClass(int x) { data = new int[1]; data[0] = x; } }; __global__ void useClass(CudaClass cudaClass) {
Cuda mathematische Funktionen

Ich versuche, die floor () - Funktion in einen cuda-kernel, aber ich bekomme immer die folgende Fehlermeldung : aufrufen einer host - Funktion("floor ") von einem globalen - Funktion(" ") ist nicht erlaubt. Habe ich noch die
Problem beim aufrufen der Vorlage CUDA-kernel

Ich habe versucht, erstellen Sie eine template-Kernel, aber ich bin schon mit einigen Schwierigkeiten, ruft Sie in mein Programm. Ich habe eine Matrix<T> template-Klasse und einige Methoden, die darin definiert Matrix.h: template <typename T> class Matrix {
Tensorflow und CUDA-version

Aus, was ich verstehe alle Versionen von CUDA sind abwärtskompatibel, aber nachdem man durch den gesamten Prozess der Installation von CUDA und die Einrichtung einer virtuellen Umgebung mit TF dies geschieht, wenn ich import tensorflow ImportError: libcublas.so.8.0:
Was ist der Unterschied und die Beziehung zwischen 'cuda' 'cudnn' 'cunn' und 'cutorch' in der Fackel?

Sehe ich viele Fackel-codes verwenden: require cudnn require cunn require cutorch Was sind diese Paket verwendet? Was ist Ihre Beziehung mit Cuda? InformationsquelleAutor hunter | 2016-07-05
Trichter-shift - was ist das?

Beim Lesen durch CUDA 5.0 Programming Guide stieß ich auf eine Funktion namens "Trichter shift", die in 3.5 compute-fähigen Gerät, aber nicht 3.0. Es enthält eine annotation "siehe Referenz-Handbuch", aber wenn ich Suche nach dem "Trichter-shift" -
Kann ich kompilieren und ausführen cuda-Programm in windows 7 ohne visual studio?

Aktuell ich bin neu in CUDA habe ich NVIDIA-tesla-c2075-Karte, die ich installieren CUDA-toolkit für windows. Jetzt habe ich visual studio nicht installiert ist. Ich will laufen und testen CUDA-Programme ohne Verwendung von visual studio. Sie können einfach
CUDA Schub-und sort_by_key

Ich bin auf der Suche nach einem Sortier-Algorithmus auf CUDA kann sortiert ein array A von Elementen (Doppel) und gibt ein array von Schlüssel B für das array A. Ich weiß, die sort_by_key Funktion in der Schub-Bibliothek
wie kann ich cuda mit nodejs

Cuda ist Nivida bereitgestellte api, mit der c/c++ verwenden, die gpu für ein paar Sachen, obwohl ich weiß nicht, was, dass einige Sachen & möchte wissen, von dem, was ich sah, die Gewinne waren bemerkenswert. Auch cuda
CUDA cutil.h wo ist es?

Weiß jemand was und wo ist das SDK/toolkits, die Inhalte cutil.h? Ich habe versucht, CUDA toolkits3.2 und toolkits5.0(ich weiß, dass diese version es nicht unterstützt, bereits für cutil.h) Auch ich feststellen, dass einige erwähnt, die es in
Wann wird OpenCL 1.2 für NVIDIA-hardware verfügbar sein?

Hätte ich diese Frage auf der NVIDIA-developer-forum, aber da es noch hin, vielleicht jemand hier kann mir etwas sagen. Weiß jemand, ob es schon OpenCL 1.2 support in NVIDIAs Treiber? Wenn nicht, wird es bald? Ich nicht
CUDA-device-pointer-manipulation

Habe ich verwendet: float *devptr; //... cudaMalloc(&devptr, sizeofarray); cudaMemcpy(devptr, hostptr, sizeofarray, cudaMemcpyHostToDevice); in CUDA C zu reservieren und füllen eines Arrays. Jetzt bin ich versucht, führen Sie einen cuda-kernel, z.B.: __global__ void kernelname(float *ptr) { //... }
Konfiguration von CMake setup CUDA auf Windows

Ich versuche, mit CMake für die Kompilierung der CUDA-basierten Anwendungen für Windows (Visual Studio 2005). Hier ist ein Beispiel abgespeckte CMake-Datei: cmake_minimum_required (VERSION 2.6) project (HELLO) #Support for CUDA Integration FIND_PACKAGE(CUDA) if(CUDA_FOUND) SET(CUDA_NVCC_FLAGS "-arch;sm_13") CUDA_ADD_EXECUTABLE(Hello hello.cu) else(CUDA_FOUND)
Der Cuda-compiler funktioniert nicht mit GCC-4.5 +

Ich bin neu auf der Cuda, und ich bin versucht zu kompilieren dieses einfache test_1.cu Datei: #include <stdio.h> __global__ void kernel(void) { } int main (void) { kernel<<<1,1>>>(); printf( "Hello, World!\n"); return 0; } diesem: nvcc test_1.cu
Was ist die Rolle der cudaDeviceReset() in Cuda

#include "cuda_runtime.h" #include "device_launch_parameters.h" #include <stdio.h> __global__ void funct(void){ printf("Hello from GPU!\n"); } int main(void){ funct << < 2, 4 >> >(); for (int i = 0; i < 10; i++){ cudaDeviceReset(); //cudaDeviceSynchronize(); printf("Hello, World from CPU!\n");