Viblo's machine learning banner

About us

Blog kỹ thuật dành cho các lập trình viên Việt Nam

home.introduction.machine_learning

Machine learning

home.introduction.natural_language_processing

Natural language processing

home.introduction.deep_learning

Deep learning

Chúng tôi ứng dụng các kỹ thuật trong Machine Learning, Deep Learning và đặc biệt là Natural Language Processing để xây dựng các dịch vụ hiện đang được sử dụng bởi Viblo (Một blog kĩ thuật dành cho các lập trình viên Việt Nam). Tất nhiên, chúng tôi không muốn giới hạn các dịch vụ này trong khuôn khổ của Viblo. Trong tương lai, chúng tôi sẽ tách các dịch vụ này thành các ứng dụng độc lập và bạn hoàn toàn có thể sử dụng chúng để xây dựng những ý tưởng của riêng mình.

Our services

Các dịch vụ chúng tôi đã và đang phát triển
Programming language detection

Programming language detection

Xác định ngôn ngữ lập trình
Spam detection

Spam detection

Nhận diện bài viết thuộc dạng spam
Tag compare

Tag compare

Tìm tag tương tự về cả từ lẫn ngữ nghĩa
Auto tagging

Auto tagging

Tự động đánh tag cho văn bản
Language detection

Language detection

Xác định ngôn ngữ chính của bài viết
Recommendation system

Recommendation system

Tự động gợi ý bài viết có liên quan cho người dùng
Plagiarism detection

Plagiarism detection

Phát hiện đạo văn trong các bài post
More services later...

More services later...

Ghé thăm thường xuyên để trải nghiệm những dịch vụ mới
How do our services work?

Bạn tò mò về cách thức hoạt động của dịch vụ trên?
Dưới đây là ý tưởng chung của các dịch vụ đó!

Programming language detection

Xác định ngôn ngữ lập trình

Hệ thống giúp xác định những phần chứa mã nguồn (code) trong bài viết được viết theo ngôn ngữ lập trình nào. Từ đó dễ dàng hơn cho hệ thống để xử lý, highlight code trong bài viết...

Programming language detection

Spam detection

Nhận diện bài viết thuộc dạng spam

Hệ thống trí tuệ nhân tạo được training trên gần 15,000 bài viết về công nghệ hiện có trên Viblo cũng như các bài báo, quảng cáo khác giúp xác định được đâu là bài đăng có nội dung không liên quan tới lĩnh vực công nghệ với độ chính xác rất cao (99,7%) trong khoảng thời gian không đáng kể (ms).

Spam detection

Tag compare

Tìm tag tương tự về cả từ lẫn ngữ nghĩa

Training mô hình trên các tag có sẵn hiện có trên Viblo, đồng thời huấn luyện với các bài viết chứa các tag này. Mô hình giúp lấy ra những tag gần nhất (kể cả về mặt từ ngữ - words, lẫn về mặt ngữ nghĩa - meaning).

Tag compare

Auto tagging

Tự động đánh tag cho văn bản

Mô hình được huấn luyện trên các bài viết có nội dung về công nghê, chứa nhiều từ vựng và từ khóa về các chủ đề công nghệ hiện nay. Từ đó có thể đưa ra được những tag hợp lý dựa trên nội dung bài viết trong thời gian không đáng kể.

Auto tagging

Language detection

Xác định ngôn ngữ chính của bài viết

Sử dụng giải thuật Đồ thị N-Gram (Graph-based N-Gram) và các kĩ thuật xử lý dữ liệu dạng kí tự Unicode để đưa ra giải thuật giúp định nghĩa ngôn ngữ xuất hiện trong văn bản và có khả năng huấn luyện thêm các ngôn ngữ khác nếu có một tập dữ liệu đủ tốt.

Ứng dụng trong việc hỗ trợ cho người dùng lựa chọn ngôn ngữ cho bài viết của mình, trợ giúp đắc lực cho việc tìm kiếm bằng Elasticsearch được chính xác hơn.

Language detection

Recommendation system

Tự động gợi ý bài viết có liên quan cho người dùng

Với khối lượng thông tin/ kiến thức khổng lồ (20000 bài viết thuộc hơn 100 chủ đề hiện nay và vẫn còn đang liên tục được gia tăng) chúng tôi rất để ý tới việc làm sao có thể đưa cho bạn đọc được những bài viết mà họ thực sự quan tâm. Dựa trên số liệu về các bài post mà người dùng đã đọc và nhiều thông tin khác, chúng tôi đã thiết kế một hệ thống khuyến nghị để phục vụ cho nhu cầu vô cùng cần thiết này.

Recommendation system

Plagiarism detection

Phát hiện đạo văn trong các bài post

Vấn đề đạo văn hiện nay đang trở thành một vấn đề nóng của xã hội, đặc biệt khi các công trình nghiên cứu, các bài viết/bài chia sẻ có thể dễ dàng được tiếp cận. Mong muốn tạo ra một trang web mà mỗi bài viết đều thể hiện được giá trị riêng của tác giả, đem lại được những kiến thức có ích, không trùng lặp cho người xem, chúng tôi giới thiệu hệ thống đạo văn. Với việc xem xét trên hàng trăm trang web, diễn đàn về công nghê, hệ thống sẽ phát hiện và chỉ ra việc đạo văn một cách cụ thể và dễ dàng.

Plagiarism detection