Pandas Unir vs Mesclar

Pandas Unir Vs Mesclar



“Pandas” é uma ferramenta de alto desempenho para o ambiente python. É um código fonte “aberto” para a análise de dados. O método pandas join e pandas merge são usados ​​para unir os dois dataframes em um único dataframe. Em ambos os métodos de pandas, a diferença é que a função “join” do pandas une o dataframe usando um índice. Enquanto a função “merge” dos pandas une o dataframe usando o índice e o método de coluna no qual podemos selecionar a coluna desejada. O método de mesclagem dos pandas é usado principalmente em comparação com o método de junção dos pandas. O software que usaremos para a implementação é o software “spyder”, que está no ambiente python que nos fornecerá benefícios para a implementação do código do método pandas join() e da função do método pandas merge().

Sintaxe do método Pandas Join()

“df1. Junte ( df2 )

O “df” na sintaxe acima é a abreviação do “dataframe”. Existem dois dataframes na sintaxe com a função “dot join”, que é para chamar o método. É o método pandas de unir dois dataframes. Ele funciona usando o índice para combinar os dataframes em um único.







Sintaxe do método Pandas Merge()

“df1. mesclar ( df2 , sobre = 'nome da coluna' )

A sintaxe do método de mesclagem do pandas tem dois dataframes como “df1” e “df2”. A função “dot merge” está chamando o método de unir os dois dataframes com a aparência de colunas invertidas.



Abordaremos as seguintes maneiras de combinar dois dataframes para usar os métodos de mesclagem de panda e junção de pandas:



  • Sobreposição do método Pandas Join.
  • Pandas se juntam ao método usando uma redefinição de índice.
  • Método de mesclagem de pandas (coluna “esquerda e direita”).
  • Método de mesclagem de pandas explícito.

Criando os Dataframes para a Implementação do Método Pandas Merge e Pandas Join

Primeiro, temos que criar um quadro de dados. Para isso, usaremos a ferramenta “spyder”. Depois de abri-lo, comece a escrever o código. Importe pandas como “pd” para a associação da biblioteca de pandas. Temos as variáveis ​​do dataframe como “x”, “y”, “p” e “q correspondentemente e “a” com os valores “1” e “b” com o valor atribuído como “2”.





A saída é um “df” criado com os valores atribuídos. Podemos torná-lo tão grande quanto os dados são.



Criando outro dataframe

Temos que fazer outro dataframe, para entender claramente os métodos de junção de pandas e fusão de pandas. Aqui, criamos “df” igual ao “df” acima, apenas os valores das variáveis ​​atribuídas são diferentes. Temos “h”, “j”, “s” e “d”, enquanto atribuímos os valores “b” com o valor “8” e “Y” com o valor “3”.

A saída mostra um simples “df” criado.

Exemplo # 01: Método de junção de pandas (sobreposição)

Agora, veremos como unir dois dataframes com o método pandas join. Para este método, podemos escolher a coluna de sua escolha que queremos trabalhar no dataframe. Tomamos o exemplo com a coluna sobreposta “esquerda” do “df”, para que possamos corrigir isso com o “sufixo” para superar a sobreposição de dados. Aqui, as variáveis ​​utilizadas são “x”, “z”, “v”, “d”. “p”, “o”, “l” e “y” com os valores atribuídos como “3”, “6”, “7” e “9”. O “.join” chama o método, com o align definido como left join com o sufixo direito “df”. ”. O “sufixo” utilizado no código é porque no dataframe, existem duas colunas que possuem o mesmo nome que é “chave” e que não irão sobrepor os dados.

A saída não exibe dados sobrepostos com o método de junção de dois “df” usando o método de junção pandas.

Exemplo # 02: Método de junção de pandas usando uma redefinição de índice

Neste exemplo, especificaremos separadamente a coluna com o parâmetro “on” para usar como “chave” no método join que ajuda na junção dos dois dataframes. a coisa combinada é feita com este parâmetro. Além disso, o índice de um dos dois “df” deve ser semelhante para uni-los. Tipos semelhantes de dados ou dados usados ​​para a mesma finalidade podem ser agrupados para processamento. Isso usará o índice ainda, usando da direita. As variáveis ​​são as “s”, “t”, “u”, “v”, “n”, ‘w”, “k” e “q”. Os valores atribuídos são “3”, “6”, “7” e “9”. O “reset dot index” é um método dos pandas para redefinir o índice do “df”. O índice de redefinição define todos os números inteiros de sua listagem de dataframe de 0 até que os dados do dataframe sejam alongados.

Aqui está a saída exibida com o método de junção “chave” do índice de pandas.

Exemplo # 03: Método de Mesclagem Pandas (coluna “esquerda e direita”)

O método de mesclagem executa uma operação semelhante ao método de junção de pandas. Ambos os métodos são para combinar dados em um dataframe semelhante. O método de mesclagem é mais versátil, exigindo a especificação da chave. Também podemos especificá-lo nas colunas esquerda e direita, dependendo do trabalho do seu dataframe. As variáveis ​​no código são “s”, “d”, “g”, “f”, “k”, “j”, “b” e “q”. os valores atribuídos são “9”, “5”, “6” e “7”. A implementação de “join” externa é feita em ambos “df” usando o parâmetro “how” da função do método de mesclagem do pandas.

A saída que vemos mostra os dados mesclados dos dois dataframes. O “NaN” representa “não é um número”, o que significa que onde não há nenhum número atribuído nos dados, o “NaN” mostra lá.

Exemplo # 04: O Método Merge Explicitamente

Aqui, neste exemplo, o método de mesclagem é a destruição do índice e o valor do índice não é assumido no dataframe. Estaremos fazendo este método de acordo com o trabalho necessário a ser feito, onde o explícito de especificação é o acompanhamento. Ele mesclará os dados com base em um índice esquerdo ou índice direito com o parâmetro. As variáveis ​​neste dataframe são “t”, “r”, “I”, “u”, “h”, “o”, “e” e “e”. Os valores atribuídos são “2”, “4”, “6” e “4”. O exemplo acima do método de mesclagem de pandas com a seleção de colunas de acordo com a necessidade é o método mais apresentável e valioso de unir os dois dataframes. Verificando no final da linha de código se a chave de mesclagem é exclusiva no conjunto de dados.

Na saída abaixo, o índice não é mostrado sem o índice, mas a função é executada com base no índice direito e esquerdo.

Conclusão

Os métodos merge() e join() são métodos muito convenientes e eficazes. Ambas as funções são usadas para unir os dois dataframes separados no mesmo dataframe, mas têm uso diferente dependendo do caso. Neste artigo, aprendemos as principais diferenças entre os métodos de junção e mesclagem de pandas. Depois de fazer os exemplos e entender o método pandas join, vamos concluí-lo com o conhecimento de que, se quisermos uma junção mais flexível e no estilo de banco de dados, é preferível usar o método pandas merge. Por outro lado, se quisermos combinar o dataframe com o índice extensivamente, podemos usar a função do método pandas join().