Tự động hóa xử lý dữ liệu

Thay đổi lớn nhất trong cuộc Tổng điều tra dân số và nhà ở năm 2009 là việc xử lý dữ liệu được tự động hóa bằng công nghệ nhận dạng hình ảnh. Bắt đầu từ 0 giờ ngày 1/4/2009, cuộc Tổng điều tra dân số và nhà ở năm 2009 sẽ chính thức tiến hành với tổng chi phí tới 33 triệu USD và sử dụng trên 30.000 nhân lực.

Thay đổi lớn nhất trong cuộc Tổng điều tra dân số và nhà ở năm 2009 là việc xử lý dữ liệu được tự động hóa bằng công nghệ nhận dạng hình ảnh. Bắt đầu từ 0 giờ ngày 1/4/2009, cuộc Tổng điều tra dân số và nhà ở năm 2009 sẽ chính thức tiến hành với tổng chi phí tới 33 triệu USD và sử dụng trên 30.000 nhân lực.

Trao đổi với báo Bưu điện Việt Nam, bà Phạm Thị Thanh, Phó Giám đốc Trung tâm Tin học Thống kê thuộc Tổng cục Thống kê cho biết, công nghệ thông tin có vai trò rất lớn trong cuộc tổng điều tra dân số và nhà ở lần này. Đây là lần đầu tiên Tổng cục Thống kê áp dụng công nghệ quét và nhận dạng hình ảnh thay cho cách nhập dữ liệu điều tra thủ công vào máy tính. Theo đó, các phiếu điều tra được quét bằng hình ảnh tại ba trung tâm ở Hà Nội, thành phố Hồ Chí Minh và Đà Nẵng.
Công nghệ này là một phần trong gói thầu Giải pháp thu thập và xử lý dữ liệu cho Tổng cục Thống kêêêê trị giá 4 triệu USD vừa được Tổng cục Thống kê ký kết với tập đoàn FPT và Công ty Top Image System của Israel.
Việc ứng dụng công nghệ này sẽ rút ngắn thời gian và nhân lực thực hiện việc nhập dữ liệu - công việc chiếm nhiều thời gian và nhân lực nhất của việc xử lý dữ liệu điều tra. Bà Thanh dự kiến công nghệ này sẽ tiết kiệm được một nửa nhân công xử lý dữ liệu. Trong cuộc tổng điều tra dân số và nhà ở lần trước tiến hành năm 1999, Tổng cục Thống kê đã dùng tới 250 máy tính, khoảng 500 người làm việc hai ca mỗi ngày cho việc nhập dữ liệu điều tra.
Nhưng cái được lớn hơn của việc ứng dụng công nghệ này, theo bà Thanh, là tính chính xác của thông tin cao hơn. Cách nhập thủ công vào máy tính có thể phát sinh lỗi không chính xác do người nhập dữ liệu gây ra. Trong khi đó, việc số hóa phiếu điều tra dưới dạng hình ảnh có thể đảm bảo chính xác gần như bản gốc. Ngoài ra, quá trình xử lý và tìm kiếm thông tin sau đó cũng nhanh chóng và dễ dàng hơn.
Tuy nhiên, áp dụng công nghệ này cũng có một số thách thức, đòi hỏi giấy in phiếu phải có chất lượng tốt và được bảo quản chặt chẽ. Nếu phiếu điều tra bị ẩm, giấy cong vênh có thể ảnh hưởng đến chất lượng nhận dạng, dẫn đến dữ liệu số hóa bị sai lệch.
Mặc dù Tổng cục Thống kê đã thử nghiệm công nghệ này trong một vài cuộc điều tra mẫu về lao động việc làm và điều tra dân số thực hiện trong hai năm vừa qua. Nhưng, theo bà Thanh, trong các cuộc điều tra đó, người làm điều tra chủ yếu là người trong ngành có kinh nghiệm, nên thuận lợi hơn. Trong khi đó, lần điều tra này sử dụng số lượng lớn điều tra viên tuyển tại địa phương và thời gian đào tạo nghiệp vụ ngắn, nên việc đảm bảo chất lượng phiếu điều tra sẽ khó khăn hơn, đặc biệt trong bối cảnh miền Nam đang là mùa mưa. Vì vậy, Tổng cục Thống kê sẽ áp dụng song song hình thức nhập dữ liệu thủ công vào máy tính như trước với những phiếu điều tra lỗi, không sử dụng được bằng công nghệ nhận dạng.
Ngoài ra, theo bà Thanh, cuộc tổng điều tra lần này áp dụng nhiều ứng dụng tin học khác nữa. Các đơn vị thống kê tại các địa phương áp dụng phần mềm quản lý nhiều khâu ở các cuộc điều tra trước làm thủ công, như quản lý địa bàn điều tra, bản kê danh sách hộ, quá trình giao nhận phiếu điều tra đến kiểm tra số liệu và ký mã số liệu. Đồng thời, việc cung cấp thông tin, các tài liệu hướng dẫn điều tra, tài liệu hỗ trợ kỹ thuật và hướng dẫn đào tạo điều tra cũng được cung cấp qua trang web của Tổng cục Thống kê.
Theo kế hoạch, Tổng cục Thống kê sẽ công bố kết quả điều tra mẫu vào quý IV /2009 và công bố chính thức vào quý III năm 2010. DNH