Pandas Qcut

Pandas Qcut



“O “Python” contém muitas bibliotecas e, quando queremos analisar ou manipular dados, utilizamos essas bibliotecas do “Python”, e o “pandas” também é a biblioteca dele. A biblioteca “pandas” é usada na área de ciência de dados, e também é usada em atividades de aprendizado de máquina. O DataFrame “pandas” nos ajuda a salvar os dados. Em “pandas”, quando queremos binning de dados, utilizamos o método “qcut()”. O método “qcut()” é utilizado para converter recursos contínuos em categóricos. Podemos adicionar diferentes tipos de parâmetros neste método “qcut()” para obter diferentes tipos de resultados. Este tutorial é sobre o método “qcut()”, e explicaremos em detalhes o método “qcut()” aqui. Explicaremos a você como fazemos o binning de dados com a ajuda da função “qcut()” em “pandas” neste tutorial.”

Exemplo # 01

Aplicaremos o método “qcut()” nesses códigos e faremos esses códigos no aplicativo “Spyder”. Quando temos que trabalhar com os “pandas”, só podemos acessar suas funções quando importamos a biblioteca “pandas” em nossos códigos. Primeiro, colocamos “import” e depois escrevemos “pandas as pd”. Agora, temos que aplicar o método “qcut()”, então para isso estamos criando o DataFrame aqui. Construímos “Random_df” contendo “R_ID, R_name e R_age” como suas colunas, e também em “R_ID”, colocamos “R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 e R_81”. Em seguida, adicionamos “Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob e Harper” na coluna “R_name”. Depois disso, inserimos “21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 e 40” na coluna “R_age”. Agora, usamos o “print()”, que contém “Random_df”, e isso ajudará na renderização do DataFrame “Random_df”. Acabamos de criar o DataFrame e ainda não aplicamos o método “qcut()”.








O ícone “Executar” nos ajuda na execução dos códigos. Quando pressionamos este ícone “executar”, o resultado desse código é exibido no terminal do aplicativo “Spyder”. O DataFarme “Random_df” é mostrado como resultado do código que escrevemos neste exemplo. Agora, aplicaremos o método “qcut()” e também mostraremos seu resultado.




Estamos arquivando os dados aqui. Estamos categorizando a coluna “R_age” e colocando o método “pd.qcut()”, que é o método dos “pandas” que ajuda no categorização de dados. Neste método, inserimos o nome do DataFrame e também o nome da coluna na qual queremos aplicar este método “qcut()”. Também definimos o valor de “q” para “5”, e é usado para cortar os dados da coluna “R_age” em cinco quantis iguais. Adicionamos o método “qcut()” no “print()”, para que ele também exiba os dados de binning no terminal.




Aqui, os dados após o binning são exibidos e cortam o “R_age” em cinco quantis. Ele também exibe as categorias nas quais os dados da coluna “R_age” são agrupados. A série categórica representa os compartimentos “R_age”.






Também podemos ajustar o rótulo para essas caixas. Adicionamos esses rótulos de bin para torná-los fáceis de interpretar. Adicionamos uma coluna “R_age_qcut” ao “Random_df” na qual adicionamos os rótulos desses bins. Novamente utilizamos o método “pd.qcut()” para rotulá-los. Nós adicionamos os rótulos que são “pequeno, não tão pequeno, medíocre, alto e alto” nele. Então colocamos novamente “Random_df” em “print()”.


Todos os compartimentos são rotulados e apresentados neste resultado. A coluna “R_age_qcut” é exibida neste DataFrame na qual são mostrados os compartimentos rotulados.



Exemplo # 02

Para criar o DataFrame, primeiro adicionamos “notas”, que são “3, 6, 8, 7, 2, 5, 1, 9, 4, 7 e 8”. Em seguida, adicionamos os nomes dos alunos em 'alunos', que são 'Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard e Alexander'. Em seguida, geramos o “Grades_df” onde adicionamos o método “pd.DataFrame()”, e neste método colocamos “Std_name”, que aparecerá como o nome da coluna, e atribuímos valores de “students” a esta. Em seguida, definimos o “Students_grades” como o nome da coluna do DataFrame e também atribuímos “notas” aqui, que criamos acima. Após isso, temos o “print()” no qual adicionamos “Grades_df” para impressão.


O DataFrame contendo duas colunas é exibido no resultado deste código. Agora, vamos aplicar o método “qcut()” na coluna “Students_grades” para categorizar os dados dos valores desta coluna.


Adicionamos uma nova coluna “nota” aqui na qual aplicamos “pd.qcut()” à coluna “Students_grades”, e também usamos “4” para o valor do “q”, então ele cortará os dados em quatro quantis iguais. Depois disso, especificamos esses quantis aqui colocando valores em “q”, que são “0, .4, .8 e 1”. Então, também exibimos isso. Agora, estamos rotulando esses dados agrupados e os rótulos que adicionamos aqui são “D, C, A e B” e também são armazenados na coluna “nota”.


Aqui, os dados após o binning são exibidos aqui na coluna “grade” e cortam os dados da coluna “Students_grades” em quatro quantis iguais.


O DataFrame que obtemos após aplicar o método “qcut()” e especificar os quantis é exibido neste resultado.


Agora, após adicionar os rótulos a esses bins também são renderizados neste resultado na coluna “nota”, e você pode ver que ele atribui os rótulos de acordo com os valores dos bins.

Exemplo # 03

Também podemos aplicar o método “qcut()” aos dados do arquivo CSV. Para isso, primeiro lemos os dados do arquivo CSV com a ajuda do método “read_csv()”. Estamos lendo os dados do arquivo “office2.csv”, e então os dados deste arquivo são colocados no “Office_df”. Este método irá converter os dados do arquivo “office2” para o DataFrame e salvá-lo em “Office_df”. Em seguida, também mostramos esses dados colocando o “Office_df” no “print()”. Depois disso, adicionamos uma nova coluna chamada “Units_qcut”, à qual aplicamos a função “pd.qcut()” à coluna “Units”.

Além disso, definimos o valor da variável “q” para “5”, que dividirá os dados em cinco quantis iguais. Os dados, depois de cortados em 5 quantis iguais, são armazenados na coluna “Units_qcut”, e essa coluna também é adicionada ao “Office_df” e ao “Office_df” renderizado aqui novamente usando “print()”. Agora estamos rotulando esses dados agrupados, adicionando os rótulos no método 'qcut()', que são  'Unidade 1, Unidade 2, Unidade 3, Unidade 4 e Unidade 5' e armazenando-os também na coluna 'Rótulos'. . Também renderizamos este DataFrame no qual a coluna “Labels” é adicionada.


Os dados que obtemos depois de ler o arquivo “office2.csv” são renderizados aqui na forma de DataFrame. Em seguida, é adicionada a coluna “Units_qcut”, na qual são exibidos os valores categorizados da coluna “Unidades”. Depois disso, a coluna “Rótulos” também é adicionada, que atribui os rótulos a esses valores categorizados. Isso tudo é feito usando o método “qcut()” em “pandas”.

Conclusão

Explicamos o método “qcut()” em detalhes neste tutorial que ajuda a armazenar os dados em “pandas”. Discutimos que os dados são agrupados de acordo com o valor do quantil “q” que adicionamos no método “qcut()”, e também ajustamos os rótulos para esses dados agrupados. Exploramos o método “qcut()” e aplicamos esse método às colunas do DataFrame, e também aplicamos esse método “qcut()” aos dados do arquivo CSV após a leitura dos arquivos CSV. Apresentamos o resultado de todos os códigos neste tutorial para explicar e mostrar claramente o resultado do método “qcut()”.