Langchain CharacterTextSplitter와 RecursiveTextSplitter

728x90

CharacterTextSplitter

텍스트 분할 방법: 단일 문자 단위
청크 크기 측정 방법: 문자의 수

from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    separator="\n\n",
    chunk_size=100,
    chunk_overlap=10,
    length_function=len,
    is_separator_regex=False,
)

Parameters

separator: 청크를 구분하는 데 사용되는 문자열을 지정하며, 기본값은 '\n\n'
chunk_size: 각 청크의 최대 길이
chunk_overlap: 인접한 청크 간 겹치는 문자의 수
length_function: 청크의 길이를 계산하는 데 사용되는 함수, 기본값은 len
is_separator_regex: separator가 정규 표현식으로 해석될 지 여부를 결정하는 불리언 값

RecursiveTextSplitter

텍스트 분할 방법: 단일 문자 단위의 리스트
청크 크기 측정 방법: 문자의 수

from langchain.text_splitter import RecursiveCharacterTextSplitter

recursive_text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,
    chunk_overlap=10,
    length_function=len,
    is_separator_regex=False,
)

Parameters

separators: separator의 집합, 기본 목록은 ['\n\n', '\n', ' ', '']
chunk_size: 각 청크의 최대 길이
chunk_overlap: 인접한 청크 간 겹치는 문자의 수
length_function: 청크의 길이를 계산하는 데 사용되는 함수, 기본값은 len
is_separator_regex: separator가 정규 표현식으로 해석될 지 여부를 결정하는 불리언 값

728x90

저작자표시 (새창열림)

'📂 머신러닝 | 딥러닝 > ◾ NLP' 카테고리의 다른 글

문맥을 고려한 한국어 텍스트 데이터 증강 \| Korean Text Augmentation Considering Context, K-TACC 소개 및 활용 코드 (3)	2024.04.05
[NLP] 한국어 형태소 분석기 Kiwipiepy (5)	2023.07.24

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Langchain CharacterTextSplitter와 RecursiveTextSplitter

CharacterTextSplitter

Parameters

RecursiveTextSplitter

Parameters

'📂 머신러닝 | 딥러닝 > ◾ NLP' 카테고리의 다른 글

댓글

티스토리툴바

Langchain CharacterTextSplitter와 RecursiveTextSplitter

CharacterTextSplitter

Parameters

RecursiveTextSplitter

Parameters

'📂 머신러닝 | 딥러닝 > ◾ NLP' 카테고리의 다른 글

관련글

댓글

티스토리툴바