Função Sample() em R

Funcao Sample Em R



Em R, obtemos valores de amostra aleatoriamente de um vetor ou lista usando a função sample(). Ele nos permite selecionar aleatoriamente um subconjunto de dados que é útil em muitas aplicações estatísticas. Se a entrada for uma lista na função sample(), a saída também será uma lista com o mesmo número de elementos, mas com os elementos selecionados. Este artigo demonstra a função sample() de R com a implementação que define os vários argumentos.

Exemplo 1: usando a função Sample() com o argumento Data

A função sample() de R deve ser fornecida com os dados de amostra para gerar um número aleatoriamente. Os dados de amostra são o argumento obrigatório da função sample() cujo código é fornecido a seguir:

dataX < -c ( 10 , vinte , 30 , 40 , cinquenta , 60 , 70 , 80 , 90 , 100 )

amostra ( dataX , 3 )

amostra ( dataX , 3 )

Aqui, primeiro geramos os vetores dos elementos inteiros dentro da variável “dataX”. Em seguida, chamamos a função sample() duas vezes no código e passamos o vetor “dataX” que geramos anteriormente como um argumento para ela. O primeiro uso do sample(dataX, 3) pega uma amostra aleatória de três elementos do vetor “dataX”. Os resultados são uma permutação aleatória de três elementos de “dataX”. Depois disso, usamos novamente o sample(a, 5) que pega outra amostra aleatória independente de três elementos do vetor “dataX”. Desta vez, o resultado é totalmente diferente do anterior.







A saída mostra os diferentes elementos ao chamar a função sample() duas vezes. Observe que toda vez que criamos a amostra aleatoriamente, diferentes elementos dos vetores são obtidos:





Exemplo 2: Usando a Função Sample() com o Argumento Substituir

Além disso, temos o argumento “replace” da função sample() que recebe os valores lógicos. Um elemento semelhante pode ser selecionado mais de uma vez se o elemento for amostrado com a opção de substituição TRUE. No entanto, se o valor for definido como FALSE, pode haver apenas uma seleção de cada elemento, o que faz com que os elementos sejam amostrados sem substituição.





Números aleatórios = c ( onze , 25 , 12 , 89 , Quatro cinco , 16 , 67 , 38 , 96 , 55 , 73 )

amostra ( Números aleatórios , 4 , substituir = verdadeiro )

amostra ( Números aleatórios , 5 , substituir = verdadeiro )

Aqui, primeiro definimos o vetor com alguns valores numéricos na variável “random_numbers”. Depois disso, invocamos a função sample() onde o “random_numbers” é passado como argumento. O valor de “4” é especificado para a função sample() que indica que ela seleciona apenas quatro valores aleatórios dos vetores em “números_aleatórios”.

Em seguida, replace=TRUE na função sample() especifica que cada valor pode ser selecionado mais de uma vez. Em seguida, implantamos a função sample() novamente, que seleciona “5” valores aleatórios dos vetores desta vez. Da mesma forma, definimos o argumento de substituição com “TRUE” como antes para as várias opções de seleção para cada valor.



Como podemos ver, a primeira saída exibe o vetor de 4 elementos selecionados aleatoriamente do vetor “números_aleatórios”. A próxima saída, no entanto, exibe um vetor de “5” elementos selecionados aleatoriamente:

Exemplo 3: Usando a Função Sample() com o Argumento Size

O próximo argumento que a função sample() passa é o “size”. O “tamanho” é um parâmetro opcional que indica o valor das amostras a serem coletadas. O código da função sample() com o parâmetro “size” é dado a seguir:

vetores < - 1 : 10

amostra ( vetores , tamanho = 5 )

Aqui, um vetor numérico é definido como uma sequência de inteiros de 1 a 10 na variável “vetores”. A função sample() é então empregada para selecionar elementos aleatórios do vetor. Como podemos ver, a função sample() recebe dois argumentos. O primeiro argumento são os vetores dos quais obtemos a amostra. O próximo argumento é o tamanho que é especificado com o valor de “5” que indica que existem apenas cinco elementos para selecionar no vetor.

Portanto, os elementos selecionados são retornados em ordem aleatória como um novo vetor na seguinte saída:

Exemplo 4: usando a função Sample() para a lista R

Além disso, a função sample() pode ser usada para a lista em R. Esta seção do exemplo obtém valores aleatórios da lista.

R_lista < - lista ( 1 : 4 ,

913 ,

c ( 'X' , 'AAAA' , 'BOM' ) ,

'ZZZ' ,

5 )

resultado < - R_lista [ amostra ( 1 :comprimento ( R_lista ) , tamanho = 4 ) ]

resultado

Aqui, a lista de “R_list” é definida com elementos de diferentes tipos, incluindo um vetor de números, um único número, um vetor de caracteres, uma string e outro número. Depois disso, criamos uma variável “resultado” onde a função sample() é invocada.

Dentro da função sample(), definimos a expressão “1:length(R_list)” que indica os vetores de índices a serem amostrados. Em seguida, temos um argumento “tamanho” para especificar o número de elementos a serem amostrados, que é “4”. Portanto, a “R_list” gera três elementos selecionados aleatoriamente da lista de “R_list”. Como os elementos na lista de “R_list” são de tipos diferentes, os elementos resultantes em “result” também podem ser de tipos diferentes.

A saída representa a nova lista que contém um subconjunto aleatório da lista original:

Exemplo 5: Usando a função Sample() com o argumento Prob

Além disso, temos o parâmetro “prob” da função sample(). O argumento “prob” dá a probabilidade do elemento selecionado no vetor. Observe que todos os elementos são considerados como tendo probabilidade igual quando o argumento “prob” não é usado.

meus dados = c ( 31 , 99 , 5 , 24 , 72 )

amostra ( meus dados , tamanho = 10 , substituir = verdadeiro ,

problema = c ( 0,5 , representante ( 0,1 , 4 ) ) )

Aqui, os elementos de vetores numéricos são referidos como “my_data”. Na próxima etapa, chamamos a função sample() onde o “my_data” é passado para 10 elementos selecionados aleatoriamente. Em seguida, é definido o argumento “tamanho” que especifica que o valor a ser selecionado aleatoriamente deve ser de tamanho “10”. Depois disso, atribuímos “TRUE” ao argumento “replace”, o que significa que cada elemento selecionado é substituído no vetor antes de selecionar o próximo. O terceiro argumento definido na função sample() é “prob” que define a probabilidade de cada elemento no vetor “my_data” ser selecionado. A probabilidade do primeiro elemento é definida como “0,5”. Para os quatro elementos restantes do vetor, a probabilidade é “0,1”.

A seguinte saída é recuperada com a maior probabilidade do primeiro elemento nos vetores conforme esperado:

Exemplo 6: usando a função Sample() para renderizar o gráfico de barras

Por fim, a função sample() é usada para construir o barplot em R para visualizar a distribuição de uma variável categórica com uma determinada distribuição de probabilidade.

dados de amostra = c ( 1 , 2 , 3 )

barplot ( mesa ( amostra ( dados de amostra , tamanho = 500 , substituir = verdadeiro , problema = c ( .30 , .60 , .10 ) ) ) )

Aqui, depois de definir o “sample_data” com o vetor de um valor inteiro, geramos o barplot implementando a função sample(). Primeiro, chamamos o barplot que chama a função table() para criar uma tabela de frequência da amostra resultante. Em seguida, especificamos a função sample() dentro da função table() onde uma amostra aleatória de tamanho 1000 é extraída de um vetor de inteiros de 1 a 3. Em seguida, o argumento “prob” é usado para especificar a probabilidade de selecionar cada inteiro .

Como podemos ver agora, o barplot é renderizado a seguir com as três barras, uma para cada inteiro, e a altura das barras é relevante para o inteiro que ocorre na amostra:

Conclusão

Vimos como a função sample() funciona com vários exemplos. A função sample() é usada com diferentes argumentos onde os dados de amostra são necessários e todos os outros argumentos são opcionais e são chamados em casos específicos. No entanto, a função sample() é útil na análise estatística ou ao trabalhar com grandes conjuntos de dados.