본문 바로가기

728x90

📂 머신러닝 | 딥러닝/◾ NLP3

Langchain CharacterTextSplitter와 RecursiveTextSplitter CharacterTextSplitter텍스트 분할 방법: 단일 문자 단위청크 크기 측정 방법: 문자의 수from langchain.text_splitter import CharacterTextSplittertext_splitter = CharacterTextSplitter( separator="\n\n", chunk_size=100, chunk_overlap=10, length_function=len, is_separator_regex=False,)Parametersseparator: 청크를 구분하는 데 사용되는 문자열을 지정하며, 기본값은 '\n\n'chunk_size: 각 청크의 최대 길이chunk_overlap: 인접한 청크 간 겹치는 문자의 수length_function.. 2024. 10. 15.

문맥을 고려한 한국어 텍스트 데이터 증강 | Korean Text Augmentation Considering Context, K-TACC 소개 및 활용 코드 들어가며 안녕하세요! 벌써 봄이 왔네요... 밤낮으로 일교차가 있으나 2주 전에 비교하면 정말 많이 따듯해졌음을 느끼고 있습니다. 이번에 회사에서 3차년도 R&D 과제 중 콘텐츠 분류 모델을 만드는 업무를 맡게됐습니다. 물론 생각보다 목표치를 빨리 달성하게 돼서 이렇게 블로그를 쓸 시간도 생기게 됐네요. 사실 이번 업무에서는 모델을 만든다기보다는 성능 향상이 많이 필요한 상황이었습니다. 문제 제가 직면한 상황에는 총 3가지 문제가 있었습니다. 1. 데이터 총 개수가 654개로 상당히 작았습니다. 2. 기존에 만들어진 모델이 거의 깡통 모델이었습니다. 3. 과적합 해결 방안이 필요했습니다. 2번과 3번의 경우는 쉽게 해결이 가능했습니다. 그런데 1번 문제는 데이터를 더 받을 수 있는게 아니라면 해결이 불가.. 2024. 4. 5.

[NLP] 한국어 형태소 분석기 Kiwipiepy Kiwipiepy Github https://github.com/bab2min/kiwipiepy GitHub - bab2min/kiwipiepy: Python API for Kiwi Python API for Kiwi. Contribute to bab2min/kiwipiepy development by creating an account on GitHub. github.com Kiwipiepy Docs https://bab2min.github.io/kiwipiepy/v0.15.2/kr/ kiwipiepy API documentation (v0.15.2) Package kiwipiepy Kiwipiepy란? Kiwipiepy는 한국어 형태소 분석기인 Kiwi(Korean Intelligent Word Id.. 2023. 7. 24.

이전 1 다음

728x90

달력

티스토리툴바