Απάντηση 1:

Η τσάντα των λέξεων και του διανυσματικού χώρου αναφέρονται στις διαφορετικές προσεγγίσεις της ταξινόμησης του σώματος του εγγράφου.

Στην Τσάντα λέξεων, μπορείτε να εξαγάγετε μόνο τις λέξεις unigram για να δημιουργήσετε μια λίστα με ασαφείς λέξεις χωρίς συντακτική, σημασιολογική και πινακίδα POS. Αυτή η δέσμη των λέξεων αντιπροσωπεύει το έγγραφο.

Στο μοντέλο Space Vector, είναι αλγεβρικό μοντέλο που χρησιμοποιείται για την αντιπροσώπευση των εγγράφων ως φορέων. από τη δεδομένη σακούλα των λέξεων μπορείτε να δημιουργήσετε ένα διάνυσμα εγγράφων χαρακτηριστικών, όπου κάθε χαρακτηριστικό είναι μια λέξη και η αξία της είναι όρος όρο.

Στην TF-IDF, είναι ο όρος βάρος που αντιπροσωπεύεται στο μοντέλο διανυσματικού χώρου.

Έτσι ολόκληρο το έγγραφο είναι ένας φορέας χαρακτηριστικών. που δείχνει σε ένα σημείο στον διανυσματικό χώρο έτσι ώστε να υπάρχει ένας άξονας για κάθε όρο στην τσάντα μας.

Αυτό μπορεί να σας βοηθήσει >> Τσάντα λέξεων εναντίον μοντέλου διανυσματικού χώρου;