+-
python – 组合两个pandas数据框(在公共列上连接)
我有2个数据帧:

restaurant_ids_dataframe

Data columns (total 13 columns):
business_id      4503  non-null values
categories       4503  non-null values
city             4503  non-null values
full_address     4503  non-null values
latitude         4503  non-null values
longitude        4503  non-null values
name             4503  non-null values
neighborhoods    4503  non-null values
open             4503  non-null values
review_count     4503  non-null values
stars            4503  non-null values
state            4503  non-null values
type             4503  non-null values
dtypes: bool(1), float64(3), int64(1), object(8)`

restaurant_review_frame

Int64Index: 158430 entries, 0 to 229905
Data columns (total 8 columns):
business_id    158430  non-null values
date           158430  non-null values
review_id      158430  non-null values
stars          158430  non-null values
text           158430  non-null values
type           158430  non-null values
user_id        158430  non-null values
votes          158430  non-null values
dtypes: int64(1), object(7)

我想加入这两个DataFrame,使用pandas中的DataFrame.join()命令将它们组合成一个数据帧.

我尝试了以下代码行:

#the following line of code creates a left join of restaurant_ids_frame and   restaurant_review_frame on the column 'business_id'
restaurant_review_frame.join(other=restaurant_ids_dataframe,on='business_id',how='left')

但是当我尝试这个时,我收到以下错误:

Exception: columns overlap: Index([business_id, stars, type], dtype=object)

我对pandas很新,并且不知道我在执行join语句时遇到了什么问题.

任何帮助将非常感激.

最佳答案
您可以使用merge将两个数据帧合并为一个:

import pandas as pd
pd.merge(restaurant_ids_dataframe, restaurant_review_frame, on='business_id', how='outer')

where on指定要加入的两个数据帧中存在的字段名称,以及如何
定义它的内/外/左/右连接,外部使用’来自两个帧的键的并集(SQL:全外连接).由于两个数据框中都有“星形”列,因此默认情况下会在合并的数据框中创建两列star_x和star_y.正如@DanAllan为join方法所提到的,您可以通过将其作为kwarg传递来修改merge的后缀.默认值为suffixes =(‘_ x’,’_ y’).如果你想做类似star_restaurant_id和star_restaurant_review的事情,你可以这样做:

 pd.merge(restaurant_ids_dataframe, restaurant_review_frame, on='business_id', how='outer', suffixes=('_restaurant_id', '_restaurant_review'))

这个参数在link中有详细说明.

点击查看更多相关文章

转载注明原文:python – 组合两个pandas数据框(在公共列上连接) - 乐贴网