Como analisar dados de texto em R: noções básicas de manipulação de strings

Como Analisar Dados De Texto Em R Nocoes Basicas De Manipulacao De Strings



Strings são o segundo tipo de dados mais popular na programação R, e a manipulação de strings é uma tarefa crucial em R. A operação de manipulação de strings em R consiste em múltiplas funções para usar e alterar os dados de texto, incluindo alterar e analisar as strings. Neste artigo, mergulharemos em algumas das funções que nos ajudam na manipulação de strings. Essas funções são integradas em R e usadas para diversos fins para executar tarefas de string.

Exemplo 1: Obtenha a posição do padrão da string usando a função Grep() em R

Para extrair a posição do padrão especificado da string, a função grep() de R é empregada.

grep('i+', c('consertar', 'dividir', 'milho n', 'pintar'), perl=TRUE, valor=FALSO)

Aqui, empregamos a função grep() onde o padrão “+i” é especificado como um argumento a ser correspondido no vetor de strings. Definimos os vetores de caracteres que contêm quatro strings. Depois disso, definimos o argumento “perl” com o valor TRUE que indica que R usa uma biblioteca de expressões regulares compatível com perl, e o parâmetro “value” é especificado com o valor “FALSE” que é usado para recuperar os índices dos elementos no vetor que corresponde ao padrão.







A posição do padrão “+i” de cada sequência de caracteres do vetor é exibida na seguinte saída:





Exemplo 2: Combine o padrão usando a função Gregexpr() em R

A seguir, recuperamos a posição do índice junto com o comprimento da string específica em R usando a função gregexpr().





char_vec <- c('IDIOMA DE PROGRAMAÇÃO','RSCRIPT')
gregexpr('GRAMM', char_vec, useBytes = TRUE)

Aqui, definimos a variável “char_vect” onde as strings são fornecidas com caracteres diferentes. Depois disso, definimos a função gregexpr() que faz com que o padrão de string “GRAMM” seja correspondido com as strings que estão armazenadas em “char_vec”. Em seguida, definimos o parâmetro useBytes com o valor “TRUE”. Este parâmetro indica que a correspondência deve ser obtida byte por byte, em vez de caractere por caractere.

A seguinte saída recuperada da função gregexpr() representa os índices e o comprimento de ambas as strings do vetor:



Exemplo 3: conte o total de caracteres em string usando a função Nchar() em R

O método nchar() que implementamos a seguir também nos permite determinar quantos caracteres existem na string:

Res <- nchar('Contar cada caractere')
imprimir (Res)

Aqui, chamamos o método nchar() que é definido na variável “Res”. O método nchar() é fornecido com uma longa sequência de caracteres que é contada pelo método nchar() e fornece o número de caracteres contadores na string especificada. Em seguida, passamos a variável “Res” para o método print() para ver os resultados do método nchar().

O resultado é recebido na seguinte saída que mostra que a string especificada contém 20 caracteres:

Exemplo 4: Extraia a substring da string usando a função Substring() em R

Usamos o método substring() com os argumentos “start” e “stop” para extrair a substring específica da string.

str <- substring('MANHÃ', 2, 4)
imprimir(str)

Aqui, temos uma variável “str” onde o método substring() é chamado. O método substring() toma a string “MORNING” como o primeiro argumento e o valor “2” como o segundo argumento, o que indica que o segundo caractere da string deve ser extraído, e o valor do argumento “4” indica que o quarto caractere deve ser extraído. O método substring() extrai os caracteres da string entre a posição especificada.

A saída a seguir exibe a substring extraída que fica entre a segunda e a quarta posição na string:

Exemplo 5: concatenar a string usando a função Paste() em R

A função paste() em R também é usada para manipulação de strings que concatena as strings especificadas separando os delimitadores.

msg1 <- 'Conteúdo'
msg2 <- 'Escrevendo'

colar(msg1, msg2)

Aqui, especificamos as strings para as variáveis ​​“msg1” e “msg2”, respectivamente. Em seguida, usamos o método paste() de R para concatenar a string fornecida em uma única string. O método paste() pega a variável strings como argumento e retorna a string única com o espaço padrão entre as strings.

Após a execução do método paste(), a saída representa a única string com o espaço nela.

Exemplo 6: Modifique a string usando a função Substring() em R

Além disso, também podemos atualizar a string adicionando a substring ou qualquer caractere à string usando a função substring() usando o seguinte script:

str1 <- 'Heróis'
substring(str1, 5, 6) <- 'ic'

cat('    Sequência modificada:', str1)

Definimos a string “Heroes” dentro da variável “str1”. Em seguida, implantamos o método substring() onde “str1” é especificado junto com os valores de índice “start” e “stop” da substring. O método substring() é atribuído à substring “iz” que é colocada na posição especificada na função para a string fornecida. Depois disso, usamos a função cat() de R que representa o valor atualizado da string.

A saída que exibe a string é atualizada com a nova usando o método substring():

Exemplo 7: Formate a string usando a função Format() em R

No entanto, a operação de manipulação de string em R também inclui a formatação da string de acordo. Para isso, usamos a função format() onde a string pode ser alinhada e definir a largura da string específica.

posicionamento1 <- formato('Programas', largura = 10, justificar = 'l')
posicionamento2 <- formato('Programas', largura = 10, justificar = 'r')
posicionamento3 <- formato('Programas', largura = 10, justificar = 'c')

imprimir(posição1)
imprimir (posição2)
imprimir (posição3)

Aqui, definimos a variável “placement1” que é fornecida com o método format(). Passamos a string “programas” a ser formatada para o método format(). A largura é definida e o alinhamento da string é definido à esquerda usando o argumento “justificar”. Da mesma forma, criamos mais duas variáveis, “placement2” e “placement2”, e aplicamos o método format() para formatar a string fornecida de acordo.

A saída exibe três estilos de formatação para a mesma string na imagem a seguir, incluindo os alinhamentos esquerdo, direito e central:

Exemplo 8: Transforme a string em maiúsculas e minúsculas em R

Além disso, também podemos transformar a string em minúsculas e maiúsculas usando as funções tolower() e topper() da seguinte forma:

s1 <- 'Boa comida, boa vida'
resultado1 <-tolower(s1)

imprimir (resultado1)

s2 <- 'A linguagem de programação r em '
resultado2 <- superior(s2)

imprimir (resultado2)

Aqui, fornecemos a string que contém os caracteres maiúsculos e minúsculos. Depois disso, a string é mantida na variável “s1”. Em seguida, chamamos o método tolower() e passamos a string “s1” dentro dele para transformar todos os caracteres dentro da string em letras minúsculas. Em seguida, imprimimos os resultados do método tolower() que está armazenado na variável “result1”. A seguir, definimos outra string na variável “s2” que contém todos os caracteres em letras minúsculas. Aplicamos o método topper() a esta string “s2” para transformar a string existente em maiúsculas.

A saída exibe ambas as strings no caso especificado na imagem a seguir:

Conclusão

Aprendemos as várias maneiras de gerenciar e analisar strings, o que é conhecido como manipulação de strings. Extraímos a posição do caractere da string, concatenamos as diferentes strings e transformamos a string no caso especificado. Além disso, formatamos a string, modificamos a string e várias outras operações são realizadas aqui para manipular a string.