팬더 컬럼의 값을 dict로 다시 매핑하고 NaNs를 보존합니다.

programing

팬더 컬럼의 값을 dict로 다시 매핑하고 NaNs를 보존합니다.

goodsources 2022. 10. 20. 21:22

팬더 컬럼의 값을 dict로 다시 매핑하고 NaNs를 보존합니다.

요.di = {1: "A", 2: "B"}

저는 그것을 에 적용하려고 합니다.col1다음과 같이 합니다.

     col1   col2
0       w      a
1       1      2
2       2    NaN

입수 방법:

     col1   col2
0       w      a
1       A      2
2       B    NaN

어떻게 하면 가장 잘 할 수 있을까요?어떤 이유에서인지 이와 관련된 검색 용어는 dits에서 열을 만드는 방법과 그 반대인 :-/에 대한 링크만 보여줍니다.

를 사용할 수 있습니다.예를 들어 다음과 같습니다.

>>> df = pd.DataFrame({'col2': {0: 'a', 1: 2, 2: np.nan}, 'col1': {0: 'w', 1: 1, 2: 2}})
>>> di = {1: "A", 2: "B"}
>>> df
  col1 col2
0    w    a
1    1    2
2    2  NaN
>>> df.replace({"col1": di})
  col1 col2
0    w    a
1    A    2
2    B  NaN

에 직접 접속할 수도 있습니다.df["col1"].replace(di, inplace=True).

`map` 수 `replace`

개일 를 합니다.map 수 replace이 접근법에는 사전이 가능한 모든 값을 완전히 매핑하는지 여부(및 일치하지 않는 값을 유지하는지 NaN으로 변환하는지 여부)에 따라 다음 두 가지 버전이 있습니다.

완전한 매핑

이 경우 형식은 매우 단순합니다.

df['col1'].map(di)       # note: if the dictionary does not exhaustively map all
                         # entries then non-matched entries are changed to NaNs

일일 ~일도 although although although although 。map가장 일반적으로 함수를 인수로 사용하고 사전 또는 시리즈를 대신 사용할 수 있습니다.판다들을 위한 문서.series.map

비파괴적 매핑

하지 않은 하지 않는 기존 , 이 를 추가할 수 .fillna:

df['col1'].map(di).fillna(df['col1'])

여기 @jpp의 답변과 같이: 팬더 시리즈의 값을 사전을 통해 효율적으로 치환합니다.

벤치마크

팬더 버전 0.23에서 다음 데이터를 사용합니다.1:

di = {1: "A", 2: "B", 3: "C", 4: "D", 5: "E", 6: "F", 7: "G", 8: "H" }
df = pd.DataFrame({ 'col1': np.random.choice( range(1,9), 100000 ) })

with 합니다.%timeit 되어 있는 것 같아요.map 빠릅니다.replace

「」로 업 하는 .map는 데이터에 따라 달라집니다.가장 큰 속도 향상은 대형 사전과 포괄적인 대체에 의한 것으로 보입니다.@jpp answer ( @jpp answer ( @jpp answer ( ) 。

당신의 질문에는 약간 애매한 점이 있다.적어도 있다 ~~세 개~~ 두 가지 해석:

의 의 키di 값
의 의 키didf['col1'](values
의 의 키di인덱스 위치(OP 질문이 아니라 재미로 입력)를 참조합니다.

각 케이스의 해결 방법을 이하에 나타냅니다.

케이스 1: 키가di값을 '인덱스'를 사용할 수.★★★★★★★★★★★★★★★★★★,update★★★★

df['col1'].update(pd.Series(di))

예를들면,

import pandas as pd
import numpy as np

df = pd.DataFrame({'col1':['w', 10, 20],
                   'col2': ['a', 30, np.nan]},
                  index=[1,2,0])
#   col1 col2
# 1    w    a
# 2   10   30
# 0   20  NaN

di = {0: "A", 2: "B"}

# The value at the 0-index is mapped to 'A', the value at the 2-index is mapped to 'B'
df['col1'].update(pd.Series(di))
print(df)

수율

  col1 col2
1    w    a
2    B   30
0    A  NaN

원래 이 더 해졌습니다. 래서 무무 ?확 확?? ????update고고있있있있다다「」의 .di는 인덱스 값과 관련되어 있습니다.색인 값의 순서(즉, 색인 위치)는 중요하지 않습니다.

케이스 2: 키 입력 시didf['col1'] 및 은 @DanAllan @DSM으로 하는 방법을 .replace:

import pandas as pd
import numpy as np

df = pd.DataFrame({'col1':['w', 10, 20],
                   'col2': ['a', 30, np.nan]},
                  index=[1,2,0])
print(df)
#   col1 col2
# 1    w    a
# 2   10   30
# 0   20  NaN

di = {10: "A", 20: "B"}

# The values 10 and 20 are replaced by 'A' and 'B'
df['col1'].replace(di, inplace=True)
print(df)

수율

  col1 col2
1    w    a
2    A   30
0    B  NaN

, 「」의 키에 해 주세요.di값이 일치하도록 변경되었습니다.df['col1'].

케이스 3: 키 입력 시di로케이션을 하면, 「」를 할 수 .

df['col1'].put(di.keys(), di.values())

부터

df = pd.DataFrame({'col1':['w', 10, 20],
                   'col2': ['a', 30, np.nan]},
                  index=[1,2,0])
di = {0: "A", 2: "B"}

# The values at the 0 and 2 index locations are replaced by 'A' and 'B'
df['col1'].put(di.keys(), di.values())
print(df)

수율

  col1 col2
1    A    a
2   10   30
0    B  NaN

첫 번째 세 그 는 '키'가 '키'로 바뀌었기 때문입니다.그이 、 의가키di0 ★★★★★★★★★★★★★★★★★」2Python의 0 기반 인덱싱에서는 첫 번째와 세 번째 위치를 나타냅니다.

DSM은 인정된 답변을 가지고 있지만, 코딩이 모두에게 효과가 있는 것은 아닌 것 같습니다.다음은 현재 버전의 판다(2018년 8월 기준 0.23.4)와 연동되는 버전입니다.

import pandas as pd

df = pd.DataFrame({'col1': [1, 2, 2, 3, 1],
            'col2': ['negative', 'positive', 'neutral', 'neutral', 'positive']})

conversion_dict = {'negative': -1, 'neutral': 0, 'positive': 1}
df['converted_column'] = df['col2'].replace(conversion_dict)

print(df.head())

다음과 같이 표시됩니다.

   col1      col2  converted_column
0     1  negative                -1
1     2  positive                 1
2     2   neutral                 0
3     3   neutral                 0
4     1  positive                 1

판다들을 위한 의사들.DataFrame.replace는 이쪽입니다.

의 「」map는 치환(@JohnE 솔루션)보다 빠릅니다.특정 값을 에 매핑하는 비유출 매핑에 주의해야 합니다.이 경우 적절한 방법을 사용하려면mask'를 선택했을 때, '시리즈', '시리즈', '시리즈', '시리즈',.fillnaNaN.

import pandas as pd
import numpy as np

d = {'m': 'Male', 'f': 'Female', 'missing': np.NaN}
df = pd.DataFrame({'gender': ['m', 'f', 'missing', 'Male', 'U']})

keep_nan = [k for k,v in d.items() if pd.isnull(v)]
s = df['gender']

df['mapped'] = s.map(d).fillna(s.mask(s.isin(keep_nan)))

    gender  mapped
0        m    Male
1        f  Female
2  missing     NaN
3     Male    Male
4        U       U

데이터 프레임에 재매핑할 열이 여러 개 있는 경우 이 질문에 추가합니다.

def remap(data,dict_labels):
    """
    This function take in a dictionnary of labels : dict_labels 
    and replace the values (previously labelencode) into the string.

    ex: dict_labels = {{'col1':{1:'A',2:'B'}}

    """
    for field,values in dict_labels.items():
        print("I am remapping %s"%field)
        data.replace({field:values},inplace=True)
    print("DONE")

    return data

누군가에게 도움이 될 수 있기를 바랍니다.

건배.

데이터 프레임에서 누락된 쌍으로 매핑 사전을 업데이트할 수 있습니다.예를 들어 다음과 같습니다.

df = pd.DataFrame({'col1': ['a', 'b', 'c', 'd', np.nan]})
map_ = {'a': 'A', 'b': 'B', 'd': np.nan}

# Get mapping from df
uniques = df['col1'].unique()
map_new = dict(zip(uniques, uniques))
# {'a': 'a', 'b': 'b', 'c': 'c', 'd': 'd', nan: nan}

# Update mapping
map_new.update(map_)
# {'a': 'A', 'b': 'B', 'c': 'c', 'd': nan, nan: nan}

df['col2'] = df['col1'].map(dct_map_new)

결과:

  col1 col2
0    a    A
1    b    B
2    c    c
3    d  NaN
4  NaN  NaN

하다apply:

df['col1'].apply(lambda x: {1: "A", 2: "B"}.get(x,x))

데모:

>>> df['col1']=df['col1'].apply(lambda x: {1: "A", 2: "B"}.get(x,x))
>>> df
  col1 col2
0    w    a
1    1    2
2    2  NaN
>>>

클래스 라벨의 맵을 보관하는 훌륭한 완전한 솔루션:

labels = features['col1'].unique()
labels_dict = dict(zip(labels, range(len(labels))))
features = features.replace({"col1": labels_dict})

이렇게 하면 언제든지 labels_dict의 원래 클래스 라벨을 참조할 수 있습니다.

Nico Coallier(여러 열에 적용) 및 U10-Forward(메서드 적용 스타일 사용)가 제안한 내용을 확장하여 다음과 같이 요약할 것을 제안합니다.

df.loc[:,['col1','col2']].transform(lambda x: x.map(lambda x: {1: "A", 2: "B"}.get(x,x))

.transform()는 각 열을 시리즈로 처리합니다.반반와는 .apply()Data Frame data data data data 。

, 방식 「를할 수 있습니다.map()

마지막으로 U10 덕분에 이 동작을 발견했는데 .get() 식에서 전체 시리즈를 사용할 수 있습니다.내가 그것의 동작을 잘못 이해하고 그것이 비트가 아닌 순차적으로 시리즈를 처리하지 않는 한.
.get(x,x)하지 않은 값을 .그렇지 됩니다..map()

보다 네이티브한 팬더 접근법은 다음과 같이 대체 기능을 적용하는 것입니다.

def multiple_replace(dict, text):
  # Create a regular expression  from the dictionary keys
  regex = re.compile("(%s)" % "|".join(map(re.escape, dict.keys())))

  # For each match, look-up corresponding value in dictionary
  return regex.sub(lambda mo: dict[mo.string[mo.start():mo.end()]], text)

함수를 정의하면 데이터 프레임에 적용할 수 있습니다.

di = {1: "A", 2: "B"}
df['col1'] = df.apply(lambda row: multiple_replace(di, row['col1']), axis=1)

언급URL : https://stackoverflow.com/questions/20250771/remap-values-in-pandas-column-with-a-dict-preserve-nans

'programing' 카테고리의 다른 글

함수에 전역 변수 사용 (0)	2022.10.21
Google Invisible reCAPTCHA 배지를 숨기는 방법 (0)	2022.10.20
Data Transfer Object(DTO; 데이터 전송 객체)가 안티 패턴인 이유는 무엇입니까? (0)	2022.10.20
MySQL은 다른 세션에 삽입된 행을 선택할 수 없습니다. (0)	2022.10.20
Student Data txt 파일 내의 데이터를 읽고 학생의 평균을 계산하려면 어떻게 해야 합니까?또한 구조물을 통해 스위치로 전송합니다. (0)	2022.10.20

현재글팬더 컬럼의 값을 dict로 다시 매핑하고 NaNs를 보존합니다.

각종 프로그래밍 정보를 다루는 블로그입니다.

angularjs, php, SQL-Server, Vuex, Excel, Oracle, vuejs2, ASP.NET, mariadb, java, Wordpress, Git, json, MySQL, jquery, Python, C, spring-boot, javascript, ReactJS,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

goodsource

팬더 컬럼의 값을 dict로 다시 매핑하고 NaNs를 보존합니다.

팬더 컬럼의 값을 dict로 다시 매핑하고 NaNs를 보존합니다.

`map` 수 `replace`

완전한 매핑

비파괴적 매핑

벤치마크

'programing' 카테고리의 다른 글

'programing'의 다른글

티스토리툴바

팬더 컬럼의 값을 dict로 다시 매핑하고 NaNs를 보존합니다.

팬더 컬럼의 값을 dict로 다시 매핑하고 NaNs를 보존합니다.

map 수 replace

완전한 매핑

비파괴적 매핑

벤치마크

'programing' 카테고리의 다른 글

'programing'의 다른글

관련글

티스토리툴바

`map` 수 `replace`