Trăn tfidf

Mong bạn giúp hoàn thiện bài viết này bằng cách bổ sung chú thích tới các nguồn đáng tin cậy. Các nội dung không có nguồn có thể bị nghi ngờ và xóa bỏ

Trong truy hồi thông tin, tf–idf, TF*IDF, hay TFIDF, viết tắt từ cụm từ tiếng Anh. thuật ngữ tần số–tần suất tài liệu nghịch đảo, là một hệ thống thống kê số học Chống lại tầm nhìn quan trọng của một từ đối với một văn bản trong một tập hợp hoặc một tài liệu văn bản. [1] tf–idf thường được sử dụng dưới định dạng là một yếu tố quan trọng trong quá trình tìm kiếm truy xuất thông tin, khai thác văn bản và mô hình hóa người dùng

Giá trị tf–idf tăng tỷ lệ thuận với số lần xuất hiện của một từ trong tài liệu và được bù đắp bởi số lượng tài liệu trong kho ngữ liệu có chứa từ, giúp điều chỉnh thực tế là một số từ xuất hiện nói chung . tf-idf là một trong những lược đồ (lược đồ) tính toán quan trọng số biến phổ biến nhất hiện nay. Một cuộc khảo sát được thực hiện vào năm 2015 cho thấy 83% các hệ thống khuyến nghị dựa trên văn bản (hệ thống đề xuất dựa trên văn bản) trong các thư viện số sử dụng tf-idf. [2]

lục mục

  • 1 TF
  • 2 IDF
  • 3 Ứng dụng
  • 4 Xem thêm
  • 5 Chú thích
  • 6 Liên kết ngoài

TF[ sửa . sửa mã nguồn ]

Tần số thuật ngữ TF – tần số xuất hiện của 1 từ trong 1 văn bản.
Cách tính.





t
f

(
t
,
d
)
=




f

(
t
,
d
)


max
{

f

(
w
,
d
)
:
w

d
}





{ . thắng d}}}}

  • Thương hiệu của số lần xuất hiện 1 từ trong văn bản và số lần xuất hiện nhiều nhất của một từ bất kỳ trong văn bản đó. (giá trị sẽ thuộc khoảng [0, 1])
  • f(t,d) – số lần xuất hiện từ t trong văn bản d
  • tối đa{f(w,d). w∈d} – số lần xuất hiện nhiều nhất của một từ bất kỳ trong văn bản

IDF[ sửa . sửa mã nguồn ]

IDF – tần số tài liệu nghịch đảo. nghịch đảo số lượng của 1 từ trong tập tin văn bản (corpus)

Tính năng IDF để giảm giá trị của các từ phổ biến. Mỗi từ chỉ có 1 giá trị IDF duy nhất trong tập tin văn bản





i
d
f

(
t
,
D
)
=
log





|

D

.




.

{
d

D
.
t

d
}

.






{displaystyle mathrm {idf} (t,D)=log {frac {. D. }{. {din D. tin d}. }}}





  • |

    D

    .



    {displaystyle. D. }

    . – tổng số văn bản trong tập tin D




  • |

    {
    d

    D
    .
    t

    d
    }

    .



    {displaystyle. {din D. tin d}. }

    . – số văn bản chứa từ nhất định, với điều kiện


    t


    {displaystyle t}

    xuất hiện trong văn bản d . e. ,



    t
    f

    (
    t
    . Nếu từ đó không xuất hiện ở bất kỳ 1 văn bản nào trong tập tin thì mẫu số sẽ bằng 0 => phép chia cho không hợp lệ, vì thế người ta thường thay bằng mẫu thức
    d
    )




    {displaystyle mathrm {tf} (t,d)neq 0}

    ). Nếu từ đó không xuất hiện ở bất cứ 1 văn bản nào trong tập thì mẫu số sẽ bằng 0 => phép chia cho không không hợp lệ, vì thế người ta thường thay bằng mẫu thức


    1 .
    +

    |

    {
    d

    D
    .
    t

    d
    }

    .



    {displaystyle 1+. {din D. tin d}. }

    .

Cơ số logarit trong công thức này không thay đổi giá trị của 1 từ đó chỉ thu lấy khoảng giá trị của từ đó. Do thay đổi cơ số sẽ dẫn đến giá trị của các từ được thay đổi bởi một số nhất định và Tỷ lệ giữa các trọng lượng với nhau sẽ không thay đổi. (nói cách khác, thay đổi cơ số sẽ không ảnh hưởng đến Tỷ lệ giữa các giá trị IDF). Tuy nhiên, việc thay đổi khoảng giá trị sẽ giúp xác định tỷ lệ giữa IDF và TF tương đồng để sử dụng công thức TF-IDF như bên dưới

TF-IDF value





t
f
i
d
f

(
t
,
d
,
D
)
=

t
f

(
t
,
d
)
×

i
d
f

(
t
,
D
)


{displaystyle mathrm {tfidf} (t,d,D)=mathrm {tf} (t,d)times mathrm {idf} (t,D)}

Những từ có giá trị TF-IDF cao là những từ xuất hiện nhiều trong văn bản này, và xuất hiện ít trong các văn bản khác. Việc này giúp lọc ra những từ biến phổ biến và giữ lại những từ có giá trị cao (từ khóa của văn bản đó)

Ứng dụng[ sửa chữa . sửa mã nguồn ]

IDF has application in search machine. Ví dụ, khi người dùng gửi truy vấn đến máy tìm kiếm, hệ thống cần biết từ nào là từ người dùng quan tâm nhất. deadline. truy vấn của người dùng là “làm thế nào để chỉnh sửa máy”. Sau khi tách từ, chúng ta sẽ có các tập tin từ. làm, thế nào, để, sửa, máy liên. Trong các từ này, “máy chỗ” sẽ có IDF cao nhất. Hệ thống sẽ lấy ra tất cả các văn bản có chứa từ máy liên tục và sau đó mới thực hiện việc đánh giá và so sánh dựa trên toàn bộ câu truy vấn

Xem thêm[ sửa . sửa mã nguồn ]

  • Nhúng từ
  • Phân vùng Kullback–Leibler
  • Dirichlet dirichlet deli de parting
  • Phân biệt ngữ nghĩa ẩn
  • Tương thích thông tin
  • Cụm danh từ
  • Okapi BM25
  • Xếp hạng trang
  • Mô hình không góc nhìn
  • Dem word

Chú thích[ sửa . sửa mã nguồn ]

  1. ^

    Rajaraman, A. ; . D. (2011). “Khai thác dữ liệu” (PDF) . Khai thác các tập dữ liệu lớn. tr. 1–17. doi. 10. 1017/CBO9781139058452. 002. ISBN 978-1-139-05845-2.

  2. ^ Breitinger, Corinna; . “Hệ thống gợi ý tài liệu nghiên cứu. khảo sát văn học”. International Journal on Digital Libraries (bằng tiếng Anh). 17 (4). 305–338. doi. 10. 1007/s00799-015-0156-0. ISSN 1432-5012.