最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

CUDA C 學(xué)習(xí)筆記_2.0.4

2023-02-10 17:13 作者:上岸的小浣熊  | 我要投稿

CUDA 紋理對(duì)象實(shí)現(xiàn)二維卷積

? ? ? ?在筆記 2.0.2?中我們用普通的方法實(shí)現(xiàn)了二維卷積運(yùn)算,本次主要通過(guò)紋理對(duì)象調(diào)用紋理內(nèi)存實(shí)現(xiàn)二維卷積,并對(duì)筆記 1.0.4-3 中紋理內(nèi)存的使用細(xì)則做更詳細(xì)的說(shuō)明。

1 申請(qǐng)數(shù)組

? ? ? ?在 2.0.3 的方法中,我們對(duì)卷積前后的數(shù)據(jù)分別申請(qǐng)了 host 端和 device 端數(shù)據(jù),采用紋理內(nèi)存時(shí),不再分配卷積前數(shù)據(jù)的 device 端內(nèi)存,而是將 host 端數(shù)據(jù)傳入 CUDA 數(shù)組。申請(qǐng)數(shù)組的方式如下:

cudaChannelFormatDesc channelDesc?

? ? ? ? ? ? ? ? ? ? = cudaCreateChannelDesc(32, 0, 0, 0, cudaChannelFormatKindUnsigned);

//這個(gè)函數(shù)中注意兩個(gè)參數(shù),第一個(gè)32是指數(shù)據(jù)大小,常用的int 和float都是32位的,最后一個(gè)參數(shù)有3種:cudaChannelFormatKindUnsigned→無(wú)符號(hào)整型;cudaChannelFormatKindsigned→帶符號(hào)整型;cudaChannelFormatKindFloat→浮點(diǎn)型。

cudaArray_t cuArray;

cudaMallocArray(&cuArray, &channelDesc, width, height);? ? ?//width為列數(shù),height為行數(shù)

2 拷貝數(shù)據(jù)

? ? ? ?數(shù)據(jù)拷貝有許多函數(shù),同時(shí)不同的函數(shù)也可以實(shí)現(xiàn)相同的拷貝需求,參考下方網(wǎng)址:(https://developer.download.nvidia.cn/compute/DevZone/docs/html/C/doc/html/group__CUDART__MEMORY.html),本次拷貝方式如下:

const size_t spitch = width * sizeof(int);

cudaMemcpy2DToArray

? ? ? ??(cuArray, o1, o2, data, spitch, width * sizeof(int), height,?cudaMemcpyHostToDevice);

? ? ? ?cudaArray為目標(biāo)數(shù)組,o1為width方向起始偏移量,o2為height方向起始偏移量,data為源主機(jī)端數(shù)據(jù),最后一個(gè)為不同的拷貝類(lèi)型。

3 給出紋理對(duì)象的屬性參數(shù)并創(chuàng)建紋理對(duì)象

? ? ? ?具體說(shuō)明參考學(xué)習(xí)筆記 1.0.4_3。但需要注意以下事項(xiàng),如果你在紋理內(nèi)存中使用源數(shù)據(jù),texDesc.filterMode 要使用 cudaFilterModePoint,而不能使用線性濾波;想保持源數(shù)據(jù)數(shù)值 texDesc.readMode 使用 cudaReadModeElementType,否則可以選擇進(jìn)行歸一化。索引的坐標(biāo)由texDesc.normalizedCoords 決定是否歸一化,如果歸一化 (值為1) ,在核函數(shù)中訪問(wèn)時(shí)要使用歸一化之后的坐標(biāo)訪問(wèn),否則值為0。

? ? ? ?另外,對(duì)于二維卷積而言,使用紋理可以省去擴(kuò)邊操作,紋理可以對(duì)超出索引范圍的數(shù)據(jù)進(jìn)行內(nèi)部處理,我們只需要選擇超出范圍后賦值 0 即可。

4 核函數(shù)訪問(wèn)并將計(jì)算結(jié)果傳回 host 端

(注意:在VS中tex2D函數(shù)會(huì)出現(xiàn)紅色波浪線報(bào)錯(cuò),直接忽略即可,如果其余部分正確,是可以成功編譯并運(yùn)行的,不要被某些網(wǎng)絡(luò)回答誤導(dǎo))

? ? ? ?在核函數(shù)中使用tex2D等函數(shù)拾取紋理時(shí),要指明數(shù)據(jù)類(lèi)型,同時(shí)避免出現(xiàn)賦值兩邊的數(shù)據(jù)類(lèi)型矛盾,如:tex2D <int> (? ) 和 tex2D <float>?(??) 。函數(shù)中共包含3個(gè)參數(shù),第一個(gè)為紋理名稱(chēng),后面為x和y坐標(biāo) (三維手動(dòng)加1即可)。

5 銷(xiāo)毀紋理釋放CUDA數(shù)組及其余內(nèi)存

完整代碼

#include <stdio.h>

#include <stdlib.h>

#include <math.h>

#include <string.h>

#include "cuda_runtime.h"

#include "device_launch_parameters.h"


const int m = 32, n = 32, p = 3, q = 3;

__constant__ int N[p * q];


__global__ void conv2(int* s, cudaTextureObject_t texObj, int bdy_x, int bdy_y)

{

int i = blockIdx.x * blockDim.x + threadIdx.x;

int j = blockDim.y * blockIdx.y + threadIdx.y;

int i2, j2, r1, r2;

int mids;

if (i < m && j < n) {

? ? for (i2 = 0; i2 < p; i2++) {

? ? ? ? for (j2 = 0; j2 < q; j2++) {

? ? ? ? ? ? r1 = i2 - bdy_x;

? ? ? ? ? ? r2 = j2 - bdy_y;

? ? ? ? ? ? mids += N[i2 * q + j2] * tex2D<int>(texObj, i+r1, j+r2);}}

? ? s[i * n + j] = mids; }

}


int main(int argc, char* argv[])

{

int i, j;

int* a, * d_s;

int B1[p][q], B2[p][q];

int bdy_x = floor(p / 2), bdy_y = floor(q / 2);

cudaMallocHost(&a, m * n * sizeof(int));

cudaMalloc(&d_s, m * n * sizeof(int));

//給出內(nèi)核

for (i = 0; i < p; i++) {

? ? for (j = 0; j < q; j++){

? ? ? ? B1[i][j] = i + j; } }

//給出源數(shù)據(jù)

for (i = 0; i < m; i++) {

? ? for (j = 0; j < n; j++) {

? ? ? ? a[i * n + j] = i+j; } }

//內(nèi)核翻轉(zhuǎn)并拷貝至常量?jī)?nèi)存

for (i = 0; i < p; i++) {

? ? for (j = 0; j < q; j++) {

? ? ? ? B2[i][j] = B1[p - i - 1][q - j - 1]; } }

cudaMemcpyToSymbol(N, B2, p * q * sizeof(int));

//申請(qǐng)數(shù)組并拷貝數(shù)據(jù)

cudaChannelFormatDesc channelDesc =cudaCreateChannelDesc

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(32, 0, 0, 0, cudaChannelFormatKindUnsigned);

cudaArray_t cuArray;

cudaMallocArray(&cuArray, &channelDesc, n, m);

const size_t spitch = n * sizeof(int);

cudaMemcpy2DToArray

? ? ? ? ? ? ? ? ? ? ? ? ? (cuArray, 0, 0, a, spitch, n * sizeof(int), m, cudaMemcpyHostToDevice);

//定義紋理相關(guān)屬性

struct cudaResourceDesc resDesc;

memset(&resDesc, 0, sizeof(resDesc));

resDesc.resType = cudaResourceTypeArray;

resDesc.res.array.array = cuArray;

struct cudaTextureDesc texDesc;

memset(&texDesc, 0, sizeof(texDesc));

texDesc.addressMode[0] = cudaAddressModeBorder;

texDesc.addressMode[1] = cudaAddressModeBorder;

texDesc.filterMode = cudaFilterModePoint;

texDesc.readMode = cudaReadModeElementType;

texDesc.normalizedCoords = 0;

//創(chuàng)建紋理

cudaTextureObject_t texObj = 0;

cudaCreateTextureObject(&texObj, &resDesc, &texDesc, NULL);


dim3 threads(8, 8);

dim3 blocks((m + threads.x - 1) / threads.x, (n + threads.y - 1) / threads.y);

conv2 << <blocks, threads >> > (d_s, texObj, bdy_x, bdy_y);

cudaDeviceSynchronize();

cudaMemcpy(a, d_s, m * n * sizeof(int), cudaMemcpyDeviceToHost);

cudaDestroyTextureObject(texObj);

cudaFreeArray(cuArray);

cudaFreeHost(a);

cudaFree(d_s);

}

CUDA C 學(xué)習(xí)筆記_2.0.4的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
那曲县| 沂源县| 泊头市| 南郑县| 杨浦区| 荥阳市| 林州市| 乐至县| 石屏县| 青海省| 青河县| 门源| 张掖市| 洛浦县| 科技| 涟水县| 甘南县| 东光县| 湘乡市| 吉水县| 永泰县| 商都县| 进贤县| 尚义县| 台州市| 宁城县| 霍山县| 台湾省| 元谋县| 耒阳市| 定西市| 揭东县| 安达市| 融水| 安仁县| 淳安县| 正宁县| 手机| 四子王旗| 天等县| 成安县|